Select Language

Open Dataset

偽ニュース分類

偽ニュース分類

142.92M
613 hits
0 likes
0 downloads
0 discuss
News,NLP Classification

Data Structure ? 142.92M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # 背景 WSDM(発音は「ウィズダム」)は、検索とデータマイニングに関するウェブをヒントにした研究における主要な会議の一つです。[第12回ACM国際WSDM会議][1]は、2019年2月11日から15日までオーストラリアのメルボルンで開催されます。 このタスクは、会議のプラチナスポンサーであるバイトダンスによって企画されています。バイトダンスは中国を起点とするグローバルなインターネット技術企業です。私たちの目標は、人々が様々な形式のコンテンツを楽しめるグローバルなコンテンツプラットフォームを構築することです。私たちは、言語、文化、地理を超えて人々に情報を提供し、娯楽を与え、刺激を与えます。 私たちが直面している課題の一つは、様々な種類の偽ニュースと戦うことです。ここでの偽ニュースとは、すべての形態の虚偽の、不正確な、または誤解を招く情報を指し、現在、人類文明に大きな脅威をもたらしています。 バイトダンスでは、既存の偽ニュース記事を保存する大規模なデータベースを作成しています。新しい記事は、公開される前にコンテンツの真実性のテストを受けなければなりません。私たちは、新しい記事とデータベース内の記事とのマッチングを行います。偽ニュースを含むと識別された記事は、人間による検証の後に撤回されます。したがって、このプロセスの精度と効率は、プラットフォームを安全で信頼できる健康なものにするために重要になります。 # このデータセットについて このデータセットは、[タスク:偽ニュース分類][1]のコンペティション用データセットとして公開されており、以下のタスクがあります。 偽ニュース記事Aのタイトルと、これから配信されるニュース記事Bのタイトルが与えられた場合、参加者はBを3つのカテゴリのいずれかに分類するよう求められます。 - 同意:BはAと同じ偽ニュースについて話している - 不同意:BはAの偽ニュースを反駁している - 無関係:BはAと無関係である ## ファイル - **train.csv** - 訓練データは、中国語と英語の両方で320,767組のニュースペアを含んでいます。このファイルは、タスクを完了するために使用できる唯一のデータを提供します。外部データの使用は許可されていません。 - **test.csv** - テストデータは、中国語と英語の両方で80,126組のニュースペアを含んでいます。テストデータの約25%は公開され、リーディングボードに表示される精度を計算するために使用されます。残りの75%の非公開データは、コンペティションの最終結果を計算するために使用されます。 - **sample_submission.csv** - テストデータへのサンプル回答。 ## データフィールド - **id** - 各ニュースペアのID。 - **tid1** - 偽ニュースタイトル1のID。 - **tid2** - ニュースタイトル2のID。 - **title1_zh** - 中国語の偽ニュースタイトル1。 - **title2_zh** - 中国語のニュースタイトル2。 - **title1_en** - 英語の偽ニュースタイトル1。 - **title2_en** - 英語のニュースタイトル2。 - **label** - ニュースペア間の関係を示す:同意/不同意/無関係。 英語のタイトルは、関連する中国語のタイトルから機械翻訳されたものです。これは、あらゆるバックグラウンドの参加者がデータセットをよりよく理解するのに役立つかもしれません。参加者は、タスクを完了するために中国語版のタイトルを使用することを強くお勧めします。 # 評価指標 私たちは、あなたのパフォーマンスを評価するために**重み付き分類精度**を使用します。重み付き分類精度は、一般的に以下のように定義できます。 $$ 重み付き精度(y, \hat{y}, \omega) = \frac{1}{n} \displaystyle{\sum_{i=1}^{n}} \frac{\omega_i(y_i=\hat{y}_i)}{\sum \omega_i} $$ ここで、\\(y\\)は正解ラベル、\\(\hat{y}\\)は予測結果、\\(\omega_i\\)はデータセット内の\\(i\\)番目のアイテムに関連付けられた重みです。 私たちのテストセットでは、各テストアイテムにそのカテゴリに応じた重みを割り当てています。同意、不同意、無関係の3つのカテゴリの重みは、それぞれ\\(\frac{1}{15}\\)、\\(\frac{1}{5}\\)、\\(\frac{1}{16}\\)です。私たちは、データ分布の不均衡を考慮して重みを設定し、大多数のクラス(無関係なペアはデータセットの約70%を占める)によってあなたのパフォーマンスに生じるバイアスを最小限に抑えています。 [1]: https://www.kaggle.com/c/fake-news-pair-classification-challenge
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 613
    • 0
    • 0
    • collect
    • Share