Open Dataset
Data Structure ?
2.6M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
THUOCL(THU Open Chinese Lexicon)は清華大学の自然言語処理と社会人文計算研究室が整理して公開した、質の高い中国語語彙集です。語彙表は主流ウェブサイトの社会的タグ、検索トレンドワード、入力法の語彙集などから収集されています。THUOCLは以下の特徴を持っています。 語頻統計情報のDF値(Document Frequency)を含んでおり、ユーザーが個別に選択して使用するのに便利です。 語彙集は複数回の人手による選別を経ており、収録される語彙の正確性が保証されています。 オープンで更新され続け、既存の語彙表を絶えず更新し、さらに多くのカテゴリの語彙表を公開します。専門家の皆様の参加を歓迎し、協力してオープン語彙集を構築しましょう。興味のある方はthunlp@gmail.comまでご連絡ください。
この語彙集は中国語の自動分詞に使用でき、中国語分詞の効果を向上させます。当グループが開発したTHULACツールキットと組み合わせて使用することをおすすめします。これにより、特定分野の中国語分詞の効果を向上させることができます。
分類:
名称 エンティティ数 日付 IT 16000条 2016年12月24日 財経 3830条 2016年12月24日 成語 8519条 2016年12月24日 地名 44805条 2017年6月1日 歴史名人 13658条 2016年12月24日 詩詞 13703条 2017年1月20日 医学 18749条 2017年1月20日 飲食 8974条 2017年4月20日 法律 9896条 2017年4月28日 自動車 1752条 2017年5月15日 動物 17287条 2017年6月1日
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.