Open Dataset
Data Structure ?
2624.77M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
競技背景
2018年、人工知能の発展は演算知能と知覚知能において大きな突破を達成し、人間を上回る性能を発揮しました。一方、人間の言語を理解することを入口とする認知知能に関しては、現在、達観データの自然言語処理技術は文書の自動解析、重要情報の抽出、テキストの分類審査、テキストの知能的誤り訂正などの一定の基礎的な文字処理作業を実現でき、あらゆる業界で十分に応用されています。
自然言語処理は常に人工知能分野の重要なトピックであり、人間の言語の複雑さもNLPに多くの困難をもたらし、解決が待たれています。長文の知能的解析は非常に挑戦的なタスクであり、多様で複雑な情報量を持つ長いテキストから重要情報を取得することは、テキスト分野の難題です。ディープラーニングのブームが到来するにつれて、多くの新しい方法がNLP分野に登場し、関連するタスクにより多くの優れた成果をもたらし、人々により多くの応用と想像の余地を与えました。
今回のコンテストでは、達観データが長文データと分類情報を提供し、選手たちに自分たちの知恵を駆使して、最新のNLPと人工知能技術を組み合わせ、テキストの内部構造と意味情報を深く分析し、テキスト分類モデルを構築し、正確な分類を実現することを期待しています。将来のテキスト自動化処理の技術突破と応用の実現には、人工知能の従事者と愛好家の共同努力が必要です。あなたのアルゴリズムによって、テキスト知能処理技術がさらに知能的になることを信じています!
組織構造
![組織構造][1]
競技顧問
![競技顧問][2]
データ
データは2つのcsvファイルを含みます。
- train_set.csv:このデータセットはモデルの訓練に使用され、1行が1つの記事に対応します。記事は「文字」と「単語」のレベルでそれぞれ匿名化処理が施されています。合計4列あります。
1列目は記事のインデックス(id)、2列目は記事本文の「文字」レベルでの表現、つまり文字が区切られた本文(article)、3列目は「単語」レベルでの表現、つまり単語が区切られた本文(word_seg)、4列目はこの記事のラベル(class)です。
注:各数字は1つの「文字」、または「単語」、または「句読点」に対応します。「文字」の番号と「単語」の番号は独立しています!
- test_set.csv:このデータはテストに使用されます。データ形式はtrain_set.csvと同じですが、classを含みません。
注:test_setとtrain_testの記事idの番号は独立しています。
友情ヒント:これらのファイルをエクセルで開かないでください!記事が長いため、エクセルはある行を完全に読み込めない可能性があります!
評価基準
評価アルゴリズム
binary-classification
各カテゴリのF1指標の算術平均を採用します。これはPrecisionとRecallの調和平均です。
![f1-score][3]
ここで、Piは第iの種類に対応するPrecisionを表し、Riは第iの種類に対応するRecallを表します。
[1]: http://pqdosd4w6.bkt.clouddn.com/%E8%BE%BE%E8%A7%82-%E7%BB%84%E7%BB%87%E6%9E%B6%E6%9E%84
[2]: http://pqdosd4w6.bkt.clouddn.com/%E8%BE%BE%E8%A7%82-%E7%AB%9E%E8%B5%9B%E9%A1%BE%E9%97%AE
[3]: http://pqdosd4w6.bkt.clouddn.com/%E8%BE%BE%E8%A7%82-f1score
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.