Open Dataset

騰訊AI Labが大規模で高品質な中国語単語ベクトルデータをオープンソース化

39.4G

700 hits

0 likes

8 downloads

0 discuss

NLP,MNIST Classification

騰訊AI Labが今回公開した中国語単語ベクトルデータには800万以上の中国語語彙が含まれており、その中の各単語は200次元のベクトルに対応しています。既存の中国語単語ベクトルデータと比べて、騰訊AI L......

Introduction
Data file
Related papers
Code
Discuss(0)
Instructions

Data Structure ? 39.4G

README.md

騰訊AI Labが今回公開した中国語の単語ベクトルデータには、800万以上の中国語の語彙が含まれており、それぞれの単語は200次元のベクトルに対応しています。既存の中国語単語ベクトルデータと比べて、騰訊AI Labの中国語単語ベクトルは以下の3つの側面を重点的に向上させており、既存の様々な中国語単語ベクトルと比べて、その品質と可用性が大幅に改善されています：

⒈ カバレッジ（Coverage）：この単語ベクトルデータには、既存の公開されている単語ベクトルデータに欠けている多くのフレーズが含まれています。例えば、「不念僧面念佛面」「冰火两重天」「煮酒论英雄」「皇帝菜」「喀拉喀什河」などです。「喀拉喀什河」を例にとると、騰訊AI Labの単語ベクトルを使って計算された意味的に類似した単語は以下の通りです：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、葉爾羌河、克里雅河、マナス川

⒉ 新鮮度（Freshness）：このデータには、この1、2年で登場したいくつかの新語が含まれています。例えば、「恋与製作人」「三生三世十里桃花」「打call」「十動然拒」「供給側改革」「因吹斯汀」などです。「因吹斯汀」を例にとると、騰訊AI Labの単語ベクトルを使って計算された意味的に類似した単語は以下の通りです：

イチコサイン、因吹斯聽、城会玩、すごいワードグラ、emmmmm、心が痛いオイ、神吐槽、非常に爆笑できると言える

⒊ 正確性（Accuracy）：より大規模な訓練データとより良い訓練アルゴリズムを採用したため、生成された単語ベクトルは単語間の意味関係をより良く表現することができます。以下の類似単語検索結果に示されているように： Image：https://ai.tencent.com/ailab_op/ueditor/php/upload/image/20181203/1543803878473374.png

騰訊AI Labの単語ベクトルの構築

高いカバレッジ、高い新鮮度、高い正確性を持つ単語ベクトルデータを生成するために、騰訊AI Labは主に以下の3つの側面から単語ベクトルの構築プロセスを最適化しました：

⒈ コーパス収集：単語ベクトルを訓練するコーパスは、騰訊ニュースと天天快報のニュースコーパス、および自動的に収集したインターネットのウェブページと小説のコーパスから来ています。大規模で多様なソースのコーパスを組み合わせることで、生成された単語ベクトルデータは様々なタイプの語彙をカバーすることができます。また、ニュースデータと最新のウェブページデータを使って新語をモデル化することで、単語ベクトルデータの新鮮度も大幅に向上しました。

⒉ 単語辞書の構築：ウィキペディアと百度百科の一部の項目を導入するだけでなく、Shiらが2010年に提案した意味拡張アルゴリズム [5] も実装しています。これにより、大量のウェブページデータから自動的に新語を発見することができます。語彙パターンとハイパーテキストマークアップパターンに基づいて、新語を発見すると同時に、新語間の意味的な類似度を計算します。

⒊ 訓練アルゴリズム：騰訊AI Labは、独自開発のDirectional Skip - Gram (DSG)アルゴリズム [6] を単語ベクトルの訓練アルゴリズムとして採用しています。DSGアルゴリズムは、広く使われている単語ベクトル訓練アルゴリズムSkip - Gram (SG)をベースにしており、テキストウィンドウ内の単語ペアの共起関係に加えて、単語ペアの相対的な位置も考慮することで、単語ベクトルの意味表現の正確性を向上させています。

この中国語単語ベクトルデータのオープンソース化は、騰訊AI Labが会社のデータソースの優位性を生かして、自社の基礎的なAI能力を展示するものであり、中国語環境における深層学習ベースのNLPモデルの訓練に高品質の基盤サポートを提供し、学術研究や産業応用環境における中国語NLPタスクの効果向上を促進します。

この中国語単語ベクトルデータを公開するだけでなく、騰訊AI Labは長期にわたってテキスト表現学習に継続的に投資しており、関連する研究成果は最近、ACL、EMNLP、IJCAIなどの自然言語処理および人工知能のトップ会議で発表されています [7,8,9,10] 、そして複数の実践シーンに応用されています。将来的には、騰訊AI Labは通常のテキストとソーシャルメディアテキストという2つの異なるテキストタイプに焦点を当て、語彙、語句/エンティティ、文/メッセージ、篇章/対話などの様々な粒度のテキストオブジェクトの意味モデリングと理解を引き続き探求し、自然言語処理分野の重要な応用に基礎的なサポートを提供します。

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013. [2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014. [3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5). [4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018. [5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji - Rong Wen. Corpus - based Semantic Class Mining: Distributional vs. Pattern - based Approaches. COLING 2010. [6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip - Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018. [7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext documents. ACL 2018. [8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018. [9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018. [10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.

No content available at the moment

Share your thoughts

Go share your ideas~~

ALL

Welcome to exchange and share

Your sharing can help others better utilize data.

Data usage instructions:

I. Data Source and Display Explanation:

1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.

2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.

3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.

II. Ownership Explanation:

1. All datasets on this site are copyrighted by their original publishers or data providers.

III. Data Reposting Explanation:

1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.

IV. Infringement and Handling Explanation:

1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.

Points：

25 Go earn points？

700
8
0
collect
Share

Select Language

AI Technology Community

Today search ranking

month_search_ranking

Dataset Category

Open Dataset

騰訊AI Labが大規模で高品質な中国語単語ベクトルデータをオープンソース化

Data Structure ? 39.4G

README.md

Similar Data

ALL

I. Data Source and Display Explanation:

II. Ownership Explanation:

III. Data Reposting Explanation:

IV. Infringement and Handling Explanation: