Select Language

Open Dataset

無子詞の高速テキスト埋め込み

無子詞の高速テキスト埋め込み

6459.98M
254 hits
0 likes
0 downloads
0 discuss
Computer Science,Education,Software,NLP Classification

Data Structure ? 6459.98M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # FastText https://fasttext.cc/docs/en/english-vectors.html Common Crawl(6000億トークン)で学習された200万個の単語ベクトル。Facebookによって公開された300次元の事前学習済みFastText英語単語ベクトル。 FastTextは、ユーザーがテキスト表現とテキスト分類器を学習できるオープンソースで無料の軽量ライブラリです。標準的な汎用ハードウェアで動作します。後でモデルのサイズを縮小して、モバイルデバイスにも収まるようにすることができます。 このテキストには、サブワードを含まない2つの埋め込みファイルが含まれています。 - wiki-news-300d-1M.vec.zip:Wikipedia 2017、UMBCウェブベースコーパス、およびstatmt.orgニュースデータセット(160億トークン)で学習された100万個の単語ベクトル。 - crawl-300d-2M.vec.zip:Common Crawl(6000億トークン)で学習された200万個の単語ベクトル。 謝辞 これらの埋め込みは、以下の論文に基づいて作成されました。 T. Mikolov、E. Grave、P. Bojanowski、C. Puhrsch、A. Joulin。事前学習分散型単語表現の進歩 @inproceedings{mikolov2018advances, title={Advances in Pre-Training Distributed Word Representations}, author={Mikolov, Tomas and Grave, Edouard and Bojanowski, Piotr and Puhrsch, Christian and Joulin, Armand}, booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} } [fastextチーム](https://fasttext.cc/docs/en/english-vectors.html)に感謝します。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 254
    • 0
    • 0
    • collect
    • Share