Select Language

Open Dataset

高速テキスト英単語ベクトル(サブワードを含む)

高速テキスト英単語ベクトル(サブワードを含む)

2756.53M
269 hits
0 likes
0 downloads
0 discuss
Universities and Colleges Classification

Data Structure ? 2756.53M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    サブワード情報を持つ英語の単語ベクトル --- fastTextについて
    fastTextは、単語表現の効率的な学習と文分類のためのライブラリです。fastTextの単語表現の重要な特徴の1つは、造語であっても、あらゆる単語に対してベクトルを生成できることです。実際、fastTextの単語ベクトルは、その中に含まれる文字の部分文字列のベクトルから構築されています。これにより、誤ってスペルされた単語や単語の連結に対してもベクトルを構築することができます。 ベクトルについて
    これらの事前学習済みベクトルには、2017年のウィキペディア、UMBCのウェブベースコーパス、およびstatmt.orgのニュースデータセットのサブワード情報を用いて学習された100万個の単語ベクトルが含まれています。合計で160億個のトークンが含まれています。 ファイルの最初の行には、語彙の単語数とベクトルのサイズが記載されています。各行には、デフォルトのfastTextのテキスト形式のように、単語の後にそのベクトルが記載されています。各値は空白で区切られています。単語は頻度の降順で並んでいます。 謝辞
    これらの単語ベクトルは、クリエイティブ・コモンズ 表示 - 継承 3.0ライセンスの下で配布されています。 P. Bojanowski*、E. Grave*、A. Joulin、T. Mikolov、サブワード情報による単語ベクトルの強化
    A. Joulin、E. Grave、P. Bojanowski、T. Mikolov、効率的なテキスト分類のためのトリック集
    A. Joulin、E. Grave、P. Bojanowski、M. Douze、H. Jégou、T. Mikolov、FastText.zip:テキスト分類モデルの圧縮

    (* これらの著者は同等の貢献をしています。)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 269
    • 0
    • 0
    • collect
    • Share