Open Dataset

Chinese Word Analogy Lists 漢語語彙類比データセット

121.1M

633 hits

0 likes

0 downloads

0 discuss

MNIST Classification

ほとんどの単語埋め込み手法は単語を基本単位として、単語の外部コンテキストに基づいて埋め込みを学習します。......

Introduction
Data file
Related papers
Code
Discuss(0)
Instructions

Data Structure ? 121.1M

*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

README.md

ほとんどの単語埋め込み手法は、単語を基本単位として、単語の外部コンテキストに基づいて埋め込みを学習し、単語の内部構造を無視しています。しかし、中国語などの一部の言語では、単語は通常、いくつかの文字から構成され、豊富な内部情報を含んでいます。単語の意味も、その構成文字の意味に関連しています。そこで、我々は中国語を例に挙げて、文字強化単語埋め込みモデル（CWE）を提案します。文字の曖昧性と非合成語の問題を解決するために、複数のプロトタイプ文字埋め込みと効果的な単語選択方法を提案します。我々は、単語関連性計算と類推推理におけるCWEの有効性を評価します。結果は、CWEが内部文字情報を無視する他のベースライン手法を上回っていることを示しています。

この研究成果は、IJCAI 2015に「文字と単語埋め込みの共同学習」という題で発表されました。このプロジェクトは、文字強化単語埋め込みモデル（CWE）のソースコードと評価データを維持しています。中国語の類推推理データセットは、dataフォルダにあります。このコードとデータが、自然言語処理の研究に役立つことを願っています。コードまたはデータを使用する場合は、この論文を引用してください：

Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, Huanbo Luan. 文字と単語埋め込みの共同学習。第25回国際人工知能連合会議（IJCAI 2015）。

論文のダウンロード：http://nlp.csai.tsinghua.edu.cn/~lzy/publications/ijcai2015_character.pdf