Select Language

Open Dataset

“达观榜”文 文本智 本能能挑战赛

“达观榜”文 文本智 本能能挑战赛

2624.77M
228 hits
0 likes
0 downloads
0 discuss
Linguistics Classification

Data Structure ? 2624.77M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    競技背景 2018年、人工知能の発展は演算知能と知覚知能において大きな突破を達成し、人間を上回る性能を発揮しました。一方、人間の言語を理解することを入口とする認知知能に関しては、現在、達観データの自然言語処理技術は文書の自動解析、重要情報の抽出、テキストの分類審査、テキストの知能的誤り訂正などの一定の基礎的な文字処理作業を実現でき、あらゆる業界で十分に応用されています。 自然言語処理は常に人工知能分野の重要なトピックであり、人間の言語の複雑さもNLPに多くの困難をもたらし、解決が待たれています。長文の知能的解析は非常に挑戦的なタスクであり、多様で複雑な情報量を持つ長いテキストから重要情報を取得することは、テキスト分野の難題です。ディープラーニングのブームが到来するにつれて、多くの新しい方法がNLP分野に登場し、関連するタスクにより多くの優れた成果をもたらし、人々により多くの応用と想像の余地を与えました。 今回のコンテストでは、達観データが長文データと分類情報を提供し、選手たちに自分たちの知恵を駆使して、最新のNLPと人工知能技術を組み合わせ、テキストの内部構造と意味情報を深く分析し、テキスト分類モデルを構築し、正確な分類を実現することを期待しています。将来のテキスト自動化処理の技術突破と応用の実現には、人工知能の従事者と愛好家の共同努力が必要です。あなたのアルゴリズムによって、テキスト知能処理技術がさらに知能的になることを信じています! 組織構造 ![組織構造][1] 競技顧問 ![競技顧問][2] データ データは2つのcsvファイルを含みます。 - train_set.csv:このデータセットはモデルの訓練に使用され、1行が1つの記事に対応します。記事は「文字」と「単語」のレベルでそれぞれ匿名化処理が施されています。合計4列あります。 1列目は記事のインデックス(id)、2列目は記事本文の「文字」レベルでの表現、つまり文字が区切られた本文(article)、3列目は「単語」レベルでの表現、つまり単語が区切られた本文(word_seg)、4列目はこの記事のラベル(class)です。 注:各数字は1つの「文字」、または「単語」、または「句読点」に対応します。「文字」の番号と「単語」の番号は独立しています! - test_set.csv:このデータはテストに使用されます。データ形式はtrain_set.csvと同じですが、classを含みません。 注:test_setとtrain_testの記事idの番号は独立しています。 友情ヒント:これらのファイルをエクセルで開かないでください!記事が長いため、エクセルはある行を完全に読み込めない可能性があります! 評価基準 評価アルゴリズム binary-classification 各カテゴリのF1指標の算術平均を採用します。これはPrecisionとRecallの調和平均です。 ![f1-score][3] ここで、Piは第iの種類に対応するPrecisionを表し、Riは第iの種類に対応するRecallを表します。 [1]: http://pqdosd4w6.bkt.clouddn.com/%E8%BE%BE%E8%A7%82-%E7%BB%84%E7%BB%87%E6%9E%B6%E6%9E%84 [2]: http://pqdosd4w6.bkt.clouddn.com/%E8%BE%BE%E8%A7%82-%E7%AB%9E%E8%B5%9B%E9%A1%BE%E9%97%AE [3]: http://pqdosd4w6.bkt.clouddn.com/%E8%BE%BE%E8%A7%82-f1score
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 228
    • 0
    • 0
    • collect
    • Share