Open Dataset
Data Structure ?
142.92M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# 背景
WSDM(発音は「ウィズダム」)は、検索とデータマイニングに関するウェブをヒントにした研究における主要な会議の一つです。[第12回ACM国際WSDM会議][1]は、2019年2月11日から15日までオーストラリアのメルボルンで開催されます。
このタスクは、会議のプラチナスポンサーであるバイトダンスによって企画されています。バイトダンスは中国を起点とするグローバルなインターネット技術企業です。私たちの目標は、人々が様々な形式のコンテンツを楽しめるグローバルなコンテンツプラットフォームを構築することです。私たちは、言語、文化、地理を超えて人々に情報を提供し、娯楽を与え、刺激を与えます。
私たちが直面している課題の一つは、様々な種類の偽ニュースと戦うことです。ここでの偽ニュースとは、すべての形態の虚偽の、不正確な、または誤解を招く情報を指し、現在、人類文明に大きな脅威をもたらしています。
バイトダンスでは、既存の偽ニュース記事を保存する大規模なデータベースを作成しています。新しい記事は、公開される前にコンテンツの真実性のテストを受けなければなりません。私たちは、新しい記事とデータベース内の記事とのマッチングを行います。偽ニュースを含むと識別された記事は、人間による検証の後に撤回されます。したがって、このプロセスの精度と効率は、プラットフォームを安全で信頼できる健康なものにするために重要になります。
# このデータセットについて
このデータセットは、[タスク:偽ニュース分類][1]のコンペティション用データセットとして公開されており、以下のタスクがあります。
偽ニュース記事Aのタイトルと、これから配信されるニュース記事Bのタイトルが与えられた場合、参加者はBを3つのカテゴリのいずれかに分類するよう求められます。
- 同意:BはAと同じ偽ニュースについて話している
- 不同意:BはAの偽ニュースを反駁している
- 無関係:BはAと無関係である
## ファイル
- **train.csv** - 訓練データは、中国語と英語の両方で320,767組のニュースペアを含んでいます。このファイルは、タスクを完了するために使用できる唯一のデータを提供します。外部データの使用は許可されていません。
- **test.csv** - テストデータは、中国語と英語の両方で80,126組のニュースペアを含んでいます。テストデータの約25%は公開され、リーディングボードに表示される精度を計算するために使用されます。残りの75%の非公開データは、コンペティションの最終結果を計算するために使用されます。
- **sample_submission.csv** - テストデータへのサンプル回答。
## データフィールド
- **id** - 各ニュースペアのID。
- **tid1** - 偽ニュースタイトル1のID。
- **tid2** - ニュースタイトル2のID。
- **title1_zh** - 中国語の偽ニュースタイトル1。
- **title2_zh** - 中国語のニュースタイトル2。
- **title1_en** - 英語の偽ニュースタイトル1。
- **title2_en** - 英語のニュースタイトル2。
- **label** - ニュースペア間の関係を示す:同意/不同意/無関係。
英語のタイトルは、関連する中国語のタイトルから機械翻訳されたものです。これは、あらゆるバックグラウンドの参加者がデータセットをよりよく理解するのに役立つかもしれません。参加者は、タスクを完了するために中国語版のタイトルを使用することを強くお勧めします。
# 評価指標
私たちは、あなたのパフォーマンスを評価するために**重み付き分類精度**を使用します。重み付き分類精度は、一般的に以下のように定義できます。
$$ 重み付き精度(y, \hat{y}, \omega) =
\frac{1}{n} \displaystyle{\sum_{i=1}^{n}}
\frac{\omega_i(y_i=\hat{y}_i)}{\sum \omega_i} $$
ここで、\\(y\\)は正解ラベル、\\(\hat{y}\\)は予測結果、\\(\omega_i\\)はデータセット内の\\(i\\)番目のアイテムに関連付けられた重みです。
私たちのテストセットでは、各テストアイテムにそのカテゴリに応じた重みを割り当てています。同意、不同意、無関係の3つのカテゴリの重みは、それぞれ\\(\frac{1}{15}\\)、\\(\frac{1}{5}\\)、\\(\frac{1}{16}\\)です。私たちは、データ分布の不均衡を考慮して重みを設定し、大多数のクラス(無関係なペアはデータセットの約70%を占める)によってあなたのパフォーマンスに生じるバイアスを最小限に抑えています。
[1]: https://www.kaggle.com/c/fake-news-pair-classification-challenge
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.