Open Dataset
Data Structure ?
1.55G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
ニューヨーク・タイムズは幅広い読者層を持ち、人々の意見や時事に対する見方を形成する上で、また特に米国における公共の議論の調子を定める上で重要な役割を果たしています。記事のコメント欄は非常に活発で、読者の記事に関する考え方を垣間見ることができます。
内容
このデータには、2017年1月から5月、および2018年1月から4月にニューヨーク・タイムズに掲載された記事に対するコメントに関する情報が含まれています。月別のデータは2つのcsv
ファイルに分かれています。1つはコメントが付けられた記事に関するもので、もう1つはコメント自体に関するものです。コメントのcsv
ファイルには合計で200万件以上のコメントが含まれ、34の特徴量があり、記事のcsv
ファイルには9,000以上の記事に関する16の特徴量が含まれています。
着想
このデータセットは、多くの場合非常に良く書かれたコメントのテキストと、記事のセクションやトピックなどの文脈情報、またeditorsSelection
やrecommendations
など読者からの評価を示す特徴量を含む、豊富な情報を持っています。このデータは、公共の雰囲気を理解し分析する目的に役立ちます。
こちらの探索的分析カーネルは、データセットの特徴量をレビューするために使用でき、ニューヨーク・タイムズの選択を予測するためのNB-ロジスティックモデルカーネルは、様々なアイデアに基づくモデル構築のスターターとして使用できます。そのいくつかは以下の通りです。
recommendations
特徴量を目的変数として、コメントが受け取るアップボート数を予測することができます。モデルに十分な学習データセットを用意することで、特定のトピックに対する仮想的なコメントがニューヨーク・タイムズの読者コミュニティからどのように受け取られるかを推測することができ、これは公共の意見を測るツールと考えることができます。このモデルの設計は、レビューが受け取るアップボート数を推測してレビューをランキングする際に使用されるものと非常に似ています。editorsSelection
特徴量を目的変数として、コメントが編集者の選択に選ばれるかどうかを予測することができます。これは、ニューヨーク・タイムズが何を促進する価値があると考えているかの手がかりを与えます。コメントに基づいて、記事のトピック(
sectionName
および/またはnewDesk
を目的変数として使用)を推測することができます。replyCount
特徴量を目的変数として、コメントが返信を受ける可能性を予測することができます。記事が議論を引き起こし、コメントやアップボートを得る可能性を予測することができ、またコメントのテキストの感情分析も行うことができます。
トピック(
sectionName
および/またはnewDesk
特徴量で示される)についても上記と同じ予測を行うことができます。トップコメンターの行動を分析することができ、例えば彼らが最もコメントする傾向があるトピックや、コメントの感情分析を行うことができます。
データ収集
こちらのPythonパッケージは、このデータセットを補完するために作成されており、特定のトピック(例えばイラク戦争やオバマケア)に関するニューヨーク・タイムズの記事を指定した期間内でカスタマイズして検索し、コメントを取得するために使用できます。こちらのチュートリアルでは、パッケージの使用方法について具体的な例を使って詳細な情報を提供しています。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.