Select Language

Open Dataset

中国語の事前学習済み単語ベクトルデータセット

中国語の事前学習済み単語ベクトルデータセット

354K
680 hits
0 likes
2 downloads
0 discuss
MNIST Classification

このプロジェクトでは、異なる表現(疎表現と密表現)、文脈特徴(単語、n-gram、文字など)、およびコーパスで学習した中国語の単語ベクトル(埋め込み)を使用することができます。ここでは、あなたは......

Data Structure ? 354K

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    このプロジェクトでは、異なる表現(疎表現と密表現)、文脈特徴(単語、n-gram、文字など)、およびコーパスを用いて訓練された中国語の単語ベクトル(埋め込み)を提供しています。

    ここでは、異なる属性を持つ事前学習済みベクトルを簡単に取得でき、これらを様々な下流タスクに利用することができます。

    さらに、開発者はこのツールに中国語の類推推理データセットCA8とその評価ツールキットを提供しており、ユーザーはこれを使って自分の単語ベクトルの品質を評価することができます。

    引用:

    @InProceedings{P18 - 2023,
      author =  "Li, Shen
        and Zhao, Zhe
        and Hu, Renfen
        and Li, Wensi
        and Liu, Tao
        and Du, Xiaoyong",
      title = "Analogical Reasoning on Chinese Morphological and Semantic Relations",
      booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
      year = "2018",
      publisher = "Association for Computational Linguistics",
      pages = "138--143",
      location = "Melbourne, Australia",
      url = "http://aclweb.org/anthology/P18 - 2023"
    }

    形式:

    このリソースの事前学習済み単語ベクトルファイルはテキスト形式で保存されており、各行には単語とその単語ベクトルが含まれ、各値は空白で区切られています。

    最初の行にはメタ情報が記録されています。最初の数字はその単語のファイル内での順序を表し、2番目の数字は次元数を表します。

    密な単語ベクトル(SGNSで訓練)に加えて、このプロジェクトでは疎ベクトル(PPMIで訓練)も提供しています。

    これらはliblinear形式と同じで、「:」の前の数字は次元インデックスを表し、「:」の後の数字は値を表します。

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:3 Go earn points?
    • 680
    • 2
    • 0
    • collect
    • Share