Select Language

Open Dataset

Word2vecはウィキペディア上のデータ(単一文字+二文字)を使って訓練し、ユニグラムとバイグラムを捉えます

Word2vecはウィキペディア上のデータ(単一文字+二文字)を使って訓練し、ユニグラムとバイグラムを捉えます

8.62G
388 hits
0 likes
0 downloads
0 discuss
NLP,Computer Science,Software,Programming,Neural Networks Classification

これは単語埋め込みモデルであり、ウィキペディア+様々なソースのコメントから作成されました。フレーズベースの手法(隣接する単語のフレーズ/バイグラムの文脈を考慮しない)からバイグラムを作成するのとは異なり、これ......

Data Structure ? 8.62G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    これは単語埋め込みモデルで、ウィキペディアと様々なソースのコメントを元に作成されました。フレーズベースの手法(隣接する単語のフレーズ/バイグラムの文脈を考慮しない)でバイグラムを作成するのとは異なり、このモデルは中心語の周囲のすべての単語とバイグラムの文脈を考慮して学習されます。

    コンテンツ

    データセットのソースコードはこちらで入手できます。「python setup.py install」でインストールできます。

    学習スクリプトはこちらにあります

    https://github.com/s4sarath/gensim_ngram/blob/master/train_ngram.py

    学習モデルはこちらにあります

    https://github.com/s4sarath/gensim_ngram/blob/master/README.md

    モデルからの類似単語のサンプル

    model.wv.most_similar

    a.) 素晴らしい商品

    [('素晴らしい商品', 1.0), ('すばらしい商品', 0.9272927), ('素晴らしい商品,', 0.888031), ('信じられないほどの商品', 0.8867724), ('素晴らしい商品!', 0.88521475), ('素晴らしい商品.', 0.8845437), ('すばらしい商品!', 0.8644207), ('素晴らしい商品!!', 0.8612526), ('素晴らしい商品!!!', 0.85835207), ('すばらしい商品.', 0.8530247), ('すばらしい商品!!', 0.8516336), ('すばらしい商品,', 0.8495761), ('すばらしいアイテム', 0.8434567), ('商品. 素晴らしい', 0.84247625), ('信じられないほどの商品.', 0.8421844), ('すばらしい商品!!!', 0.84074044), ('素敵な商品', 0.8406575), ('すばらしいデバイス', 0.836467), ('信じられないほどの商品!', 0.8337494), ('素敵な商品', 0.8330554)]

    b.) ブラッド・ピット

    [('ブラッド・ピット', 1.0), ('ジュリア・ロバーツ', 0.84390914), ('アンジェリーナ・ジョリー', 0.84303164), ('ベン・アフレック', 0.8231394), ('マット・デイモン', 0.81166387), ('アフレック', 0.8074477), ('ジョージ・クルーニー', 0.80540144), ('コストナー', 0.80255926), ('トム・ハンクス', 0.8017744), ('ダスティン・ホフマン', 0.79872185), ('ナタリー・ポートマン', 0.798303), ('ライアン・ゴスリング', 0.79511935), ('ディカプリオ', 0.79246503), ('ケビン・スペイシー', 0.7921234), ('アレック・ボールドウィン', 0.7907918), ('俳優ブラッド', 0.7901952), ('ラッセル・クロウ', 0.78980654), ('ケビン・コストナー', 0.7894964), ('クリストファー・ウォーケン', 0.7882538), ('ジェニファー・アニストン', 0.7878684)]

    c.) モハンラール

    [('モハンラール', 1.0), ('マムートィ', 0.9794469), ('カマル・ハサン', 0.9596181), ('ハサン', 0.9563364), ('ラジクマール', 0.95312166), ('ゴピ', 0.9529321), ('シヴァジー', 0.95167804), ('マドハヴァン', 0.9510826), ('ディリープ', 0.95085794), ('チランジーヴィ', 0.95059955), ('ジャイアラム', 0.9503455), ('ナゲシュ', 0.9484335), ('サティヤラージ', 0.9479996), ('ラジニカント', 0.94777143), ('スレシュ・ゴピ', 0.9466225), ('シヴァジー・ガネサン', 0.94393903), ('プラカシュ・ラージ', 0.9437847), ('サティヤン', 0.9431832), ('プラブ', 0.942392), ('バラト', 0.9391954)]

    d.) 機械学習

    [('機械学習', 1.0000001), ('学習アルゴリズム', 0.8841063), ('データマイニング', 0.8291545), ('機械翻訳', 0.814913), ('サポートベクター', 0.80520463), ('アルゴリズム', 0.8029659), ('学習理論', 0.8026564), ('アルゴリズムと', 0.80255526), ('情報検索', 0.7991563), ('ニューラルネットワーク', 0.7982512), ('ベクターマシン', 0.79787594), ('機械知能', 0.79575825), ('学習アルゴリズム', 0.7918976), ('強化学習', 0.7897328), ('言語処理', 0.78945714), ('と計算', 0.7862742), ('ベクターマシン', 0.78508246), ('知識表現', 0.7850384), ('アルゴリズム的', 0.7817018), ('分散システム', 0.7809721)]

    e.) モータル・コンバット

    [('モータル・コンバット', 0.99999994), ('コンバット', 0.92918265), ('鉄拳', 0.855644), ('コンバットII', 0.8423183), ('バーチャファイター', 0.82694477), ('ソウルキャリバー', 0.8240025), ('忍者龍剣伝', 0.8233547), ('ダークストーカーズ', 0.8189633), ('コンバットvs', 0.8051237), ('コンバット・アーマゲドン', 0.80245066), ('コンバットシリーズ', 0.80217266), ('侍魂', 0.8003039), ('バイオハザード', 0.8001634), ('ゲームモータル', 0.7937777), ('キャプコンにおいて', 0.7936872), ('コンバットモータル', 0.7936853), ('モータル', 0.79330146), ('コンバット・ディセプション', 0.7923815), ('鬼武者', 0.7913557), ('バーチャ', 0.79038495)]

    f.) 日産

    [('日産', 1.0000002), ('マツダ', 0.9355751), ('トヨタ', 0.89277387), ('レクサス', 0.89011514), ('スバル', 0.8749101), ('トヨタ・カローラ', 0.86015534), ('日産・スカイライン', 0.85717183), ('マツダRX', 0.8544719), ('ボルクスワーゲン', 0.8482176), ('BMW', 0.84316957), ('三菱', 0.8426397), ('ホンダ', 0.8378298), ('インフィニティ', 0.8358605), ('セリカ', 0.83509576), ('シボレー・コルベット', 0.8315984), ('イスズ', 0.8309591), ('日産GT', 0.8307908), ('ダットサン', 0.8291819), ('シボレー', 0.8271923), ('オペル', 0.8265841)]

    インスピレーション

    従来のフレーズベースのword2vec(gensimのPhraseアプローチを含む)は、フレーズベースの文脈/ウィンドウや隣接する単語を考慮していません。

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:35 Go earn points?
    • 388
    • 0
    • 0
    • collect
    • Share