Select Language

Open Dataset

清華大学オープン中国語単語データベース(THUOCL)

清華大学オープン中国語単語データベース(THUOCL)

2.6M
757 hits
0 likes
1 downloads
0 discuss
MNIST Classification

Data Structure ? 2.6M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    THUOCL(THU Open Chinese Lexicon)は清華大学の自然言語処理と社会人文計算研究室が整理して公開した、質の高い中国語語彙集です。語彙表は主流ウェブサイトの社会的タグ、検索トレンドワード、入力法の語彙集などから収集されています。THUOCLは以下の特徴を持っています。 語頻統計情報のDF値(Document Frequency)を含んでおり、ユーザーが個別に選択して使用するのに便利です。 語彙集は複数回の人手による選別を経ており、収録される語彙の正確性が保証されています。 オープンで更新され続け、既存の語彙表を絶えず更新し、さらに多くのカテゴリの語彙表を公開します。専門家の皆様の参加を歓迎し、協力してオープン語彙集を構築しましょう。興味のある方はthunlp@gmail.comまでご連絡ください。

    この語彙集は中国語の自動分詞に使用でき、中国語分詞の効果を向上させます。当グループが開発したTHULACツールキットと組み合わせて使用することをおすすめします。これにより、特定分野の中国語分詞の効果を向上させることができます。

    分類:

    名称 エンティティ数 日付 IT 16000条 2016年12月24日 財経 3830条 2016年12月24日 成語 8519条 2016年12月24日 地名 44805条 2017年6月1日 歴史名人 13658条 2016年12月24日 詩詞 13703条 2017年1月20日 医学 18749条 2017年1月20日 飲食 8974条 2017年4月20日 法律 9896条 2017年4月28日 自動車 1752条 2017年5月15日 動物 17287条 2017年6月1日

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 757
    • 1
    • 0
    • collect
    • Share