Open Dataset
Data Structure ?
8.62G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
これは単語埋め込みモデルで、ウィキペディアと様々なソースのコメントを元に作成されました。フレーズベースの手法(隣接する単語のフレーズ/バイグラムの文脈を考慮しない)でバイグラムを作成するのとは異なり、このモデルは中心語の周囲のすべての単語とバイグラムの文脈を考慮して学習されます。
コンテンツ
データセットのソースコードはこちらで入手できます。「python setup.py install」でインストールできます。
学習スクリプトはこちらにあります
https://github.com/s4sarath/gensim_ngram/blob/master/train_ngram.py
学習モデルはこちらにあります
https://github.com/s4sarath/gensim_ngram/blob/master/README.md
モデルからの類似単語のサンプル
model.wv.most_similar
a.) 素晴らしい商品
[('素晴らしい商品', 1.0), ('すばらしい商品', 0.9272927), ('素晴らしい商品,', 0.888031), ('信じられないほどの商品', 0.8867724), ('素晴らしい商品!', 0.88521475), ('素晴らしい商品.', 0.8845437), ('すばらしい商品!', 0.8644207), ('素晴らしい商品!!', 0.8612526), ('素晴らしい商品!!!', 0.85835207), ('すばらしい商品.', 0.8530247), ('すばらしい商品!!', 0.8516336), ('すばらしい商品,', 0.8495761), ('すばらしいアイテム', 0.8434567), ('商品. 素晴らしい', 0.84247625), ('信じられないほどの商品.', 0.8421844), ('すばらしい商品!!!', 0.84074044), ('素敵な商品', 0.8406575), ('すばらしいデバイス', 0.836467), ('信じられないほどの商品!', 0.8337494), ('素敵な商品', 0.8330554)]
b.) ブラッド・ピット
[('ブラッド・ピット', 1.0), ('ジュリア・ロバーツ', 0.84390914), ('アンジェリーナ・ジョリー', 0.84303164), ('ベン・アフレック', 0.8231394), ('マット・デイモン', 0.81166387), ('アフレック', 0.8074477), ('ジョージ・クルーニー', 0.80540144), ('コストナー', 0.80255926), ('トム・ハンクス', 0.8017744), ('ダスティン・ホフマン', 0.79872185), ('ナタリー・ポートマン', 0.798303), ('ライアン・ゴスリング', 0.79511935), ('ディカプリオ', 0.79246503), ('ケビン・スペイシー', 0.7921234), ('アレック・ボールドウィン', 0.7907918), ('俳優ブラッド', 0.7901952), ('ラッセル・クロウ', 0.78980654), ('ケビン・コストナー', 0.7894964), ('クリストファー・ウォーケン', 0.7882538), ('ジェニファー・アニストン', 0.7878684)]
c.) モハンラール
[('モハンラール', 1.0), ('マムートィ', 0.9794469), ('カマル・ハサン', 0.9596181), ('ハサン', 0.9563364), ('ラジクマール', 0.95312166), ('ゴピ', 0.9529321), ('シヴァジー', 0.95167804), ('マドハヴァン', 0.9510826), ('ディリープ', 0.95085794), ('チランジーヴィ', 0.95059955), ('ジャイアラム', 0.9503455), ('ナゲシュ', 0.9484335), ('サティヤラージ', 0.9479996), ('ラジニカント', 0.94777143), ('スレシュ・ゴピ', 0.9466225), ('シヴァジー・ガネサン', 0.94393903), ('プラカシュ・ラージ', 0.9437847), ('サティヤン', 0.9431832), ('プラブ', 0.942392), ('バラト', 0.9391954)]
d.) 機械学習
[('機械学習', 1.0000001), ('学習アルゴリズム', 0.8841063), ('データマイニング', 0.8291545), ('機械翻訳', 0.814913), ('サポートベクター', 0.80520463), ('アルゴリズム', 0.8029659), ('学習理論', 0.8026564), ('アルゴリズムと', 0.80255526), ('情報検索', 0.7991563), ('ニューラルネットワーク', 0.7982512), ('ベクターマシン', 0.79787594), ('機械知能', 0.79575825), ('学習アルゴリズム', 0.7918976), ('強化学習', 0.7897328), ('言語処理', 0.78945714), ('と計算', 0.7862742), ('ベクターマシン', 0.78508246), ('知識表現', 0.7850384), ('アルゴリズム的', 0.7817018), ('分散システム', 0.7809721)]
e.) モータル・コンバット
[('モータル・コンバット', 0.99999994), ('コンバット', 0.92918265), ('鉄拳', 0.855644), ('コンバットII', 0.8423183), ('バーチャファイター', 0.82694477), ('ソウルキャリバー', 0.8240025), ('忍者龍剣伝', 0.8233547), ('ダークストーカーズ', 0.8189633), ('コンバットvs', 0.8051237), ('コンバット・アーマゲドン', 0.80245066), ('コンバットシリーズ', 0.80217266), ('侍魂', 0.8003039), ('バイオハザード', 0.8001634), ('ゲームモータル', 0.7937777), ('キャプコンにおいて', 0.7936872), ('コンバットモータル', 0.7936853), ('モータル', 0.79330146), ('コンバット・ディセプション', 0.7923815), ('鬼武者', 0.7913557), ('バーチャ', 0.79038495)]
f.) 日産
[('日産', 1.0000002), ('マツダ', 0.9355751), ('トヨタ', 0.89277387), ('レクサス', 0.89011514), ('スバル', 0.8749101), ('トヨタ・カローラ', 0.86015534), ('日産・スカイライン', 0.85717183), ('マツダRX', 0.8544719), ('ボルクスワーゲン', 0.8482176), ('BMW', 0.84316957), ('三菱', 0.8426397), ('ホンダ', 0.8378298), ('インフィニティ', 0.8358605), ('セリカ', 0.83509576), ('シボレー・コルベット', 0.8315984), ('イスズ', 0.8309591), ('日産GT', 0.8307908), ('ダットサン', 0.8291819), ('シボレー', 0.8271923), ('オペル', 0.8265841)]
インスピレーション
従来のフレーズベースのword2vec(gensimのPhraseアプローチを含む)は、フレーズベースの文脈/ウィンドウや隣接する単語を考慮していません。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.