Select Language

Open Dataset

ニューヨークタイムズのコメント、《ニューヨークタイムズ》が発表した記事に対するコメントは200万件を超える

ニューヨークタイムズのコメント、《ニューヨークタイムズ》が発表した記事に対するコメントは200万件を超える

1.55G
371 hits
0 likes
0 downloads
0 discuss
NLP,Computer Science,Programming,News Classification

ニューヨーク・タイムズは幅広い読者層を持ち、人々の意見や時事問題に対する見方を形成する上で重要な役割を果たしています。......

Data Structure ? 1.55G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    ニューヨーク・タイムズは幅広い読者層を持ち、人々の意見や時事に対する見方を形成する上で、また特に米国における公共の議論の調子を定める上で重要な役割を果たしています。記事のコメント欄は非常に活発で、読者の記事に関する考え方を垣間見ることができます。

    内容

    このデータには、2017年1月から5月、および2018年1月から4月にニューヨーク・タイムズに掲載された記事に対するコメントに関する情報が含まれています。月別のデータは2つのcsvファイルに分かれています。1つはコメントが付けられた記事に関するもので、もう1つはコメント自体に関するものです。コメントのcsvファイルには合計で200万件以上のコメントが含まれ、34の特徴量があり、記事のcsvファイルには9,000以上の記事に関する16の特徴量が含まれています。

    着想

    このデータセットは、多くの場合非常に良く書かれたコメントのテキストと、記事のセクションやトピックなどの文脈情報、またeditorsSelectionrecommendationsなど読者からの評価を示す特徴量を含む、豊富な情報を持っています。このデータは、公共の雰囲気を理解し分析する目的に役立ちます。
    こちらの探索的分析カーネルは、データセットの特徴量をレビューするために使用でき、ニューヨーク・タイムズの選択を予測するためのNB-ロジスティックモデルカーネルは、様々なアイデアに基づくモデル構築のスターターとして使用できます。そのいくつかは以下の通りです。

    1. recommendations特徴量を目的変数として、コメントが受け取るアップボート数を予測することができます。モデルに十分な学習データセットを用意することで、特定のトピックに対する仮想的なコメントがニューヨーク・タイムズの読者コミュニティからどのように受け取られるかを推測することができ、これは公共の意見を測るツールと考えることができます。このモデルの設計は、レビューが受け取るアップボート数を推測してレビューをランキングする際に使用されるものと非常に似ています。

    2. editorsSelection特徴量を目的変数として、コメントが編集者の選択に選ばれるかどうかを予測することができます。これは、ニューヨーク・タイムズが何を促進する価値があると考えているかの手がかりを与えます。

    3. コメントに基づいて、記事のトピック(sectionNameおよび/またはnewDeskを目的変数として使用)を推測することができます。

    4. replyCount特徴量を目的変数として、コメントが返信を受ける可能性を予測することができます。

    5. 記事が議論を引き起こし、コメントやアップボートを得る可能性を予測することができ、またコメントのテキストの感情分析も行うことができます。

    6. トピック(sectionNameおよび/またはnewDesk特徴量で示される)についても上記と同じ予測を行うことができます。

    7. トップコメンターの行動を分析することができ、例えば彼らが最もコメントする傾向があるトピックや、コメントの感情分析を行うことができます。

    データ収集

    こちらのPythonパッケージは、このデータセットを補完するために作成されており、特定のトピック(例えばイラク戦争やオバマケア)に関するニューヨーク・タイムズの記事を指定した期間内でカスタマイズして検索し、コメントを取得するために使用できます。こちらのチュートリアルでは、パッケージの使用方法について具体的な例を使って詳細な情報を提供しています。


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:20 Go earn points?
    • 371
    • 0
    • 0
    • collect
    • Share