Open Dataset
Data Structure ?
9.17M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# 背景
[Emergent.info](http://www.emergent.info/) は、ベテランジャーナリストの [クレイグ・シルバーマン](https://twitter.com/CraigSilverman) によって作成された主要な噂追跡サイトでした。しばらく前に閉鎖されましたが、その構造が整った形式と充実した内容は、ウェブ上の噂を分析する機会を提供します。
[Snopes.com](http://www.snopes.com/) は、ウェブ上で最も古い噂追跡サイトの 1 つです。もともとはバーバラとデビッド・ミケルソンによって立ち上げられ、現在は都市伝説、神話、広まる噂、および偽ニュースを調査する編集者チームによって運営されています。調査員たちは、噂を確認または反駁する理由を詳細に説明しようとし、多くの場合、いくつかのウェブページやその他の外部ソースを引用します。
[Politifact.com](http://www.politifact.com/) は、政治家の発言や政治キャンペーン、ブログ、および同様のウェブサイトで広まる主張に焦点を当てた事実検証サイトです。Politifact のラベルは「真実」から「大嘘!」まで様々です。
---
# 内容
このデータセットは 3 つのファイルで構成されています。1 つのファイルは Emergent.info で引用されたすべてのウェブページのコレクションで、2 つ目は Snopes.com で引用されたウェブページのコレクションで、3 つ目は Politifact.com からの同様のコレクションです。これらのウェブページは、噂を始めた、噂を共有した、または噂を反駁したために頻繁に引用されました。
Emergent.info
Emergent.info は、しばしばウェブ上での噂の拡散の明確なタイムラインを提供し、どのページが噂を支持し、どのページが反対し、どのページが単に観察しているのかを特定します。このデータセットのフィールドについて詳しく知るには、以下の画像を参照してください。
![この画像は Emergent.info のサンプル投稿を表示し、emergent.csv の対応するフィールドを強調表示しています。][1]
Snopes.com
**Snopes.com** の投稿の構造はそれほど明確ではありません。Snopes データセットのフィールドについて詳しく知るには、以下の画像を参照してください。
![この画像は Snopes.com のサンプル投稿を表示し、snopes.csv の対応するフィールドを強調表示しています。][2]
Politifact.com
Emergent.info と同様に、Politifact.com は噂の報道と記録において構造が整った形式を採用しています。各ページの右側にはサイドバーがあり、そのページ内で引用されたすべてのソースがリストされています。一番上のリンクが噂の元のソースである可能性が最も高いです。このリンクについては、page_is_first_citation が true に設定されています。
![この画像は Politifact.com のサンプル投稿を表示し、politifact.csv の対応するフィールドを強調表示しています。][3]
---
# 着想
私は、頻繁に噂を始め、拡散し、または反駁するドメインを研究するためにこのデータセットを作成しました。これらのドメインとそれをフォローする人々を研究することで、ウェブ上およびソーシャルメディアでの噂の拡散のダイナミクスについていくつかの洞察を得ることを期待しています。
---
# 注意事項/免責事項
Snopes データセットを使用する際には、以下の点に注意してください。
* Snopes.com は、噂を反駁するだけでなく、時折ニュースやその他の種類のコンテンツも報道しています。このコレクションには、Snopes の "[事実検証](http://www.snopes.com/category/facts)" 投稿からのデータのみが含まれています。
* Snopes.com は数年前に立ち上げられました。ウェブサイト上の古い投稿の一部は、現在のサイトの形式に沿っていないため、一部のフィールドが欠けている場合があります。
* Snopes.com はかつて引用目的で "[DoNotLink.com](https://twitter.com/donotlink?lang=en)" というサービスを使用していました。そのサービスはもう稼働していないため、Snopes の古い投稿の一部にリンクが欠けています。
* さらに、一部の短縮リンクは解決する前にタイムアウトする場合があり、その場合はデータセットに追加されません。
* 時折、引用されたウェブサイトが意図的に噂を始めたわけではありません。たとえば、アンディ・ボロビッツは *The New Yorker* に寄稿するユーモラストです。彼の風刺コラムは時々本物のニュースと間違われることがあり、その結果、*The New Yorker* は [Snopes.com](http://www.snopes.com/trump-blasts-media-for-reporting-things-he-says/) で偽ニュースのソースとして引用されることがあります。これは *The New Yorker* が偽ニュースウェブサイトであることを意味するものではありません。
Politifact データセットを使用する際には、以下の点に注意してください。
* このデータセットに含まれるデータは、Politifact.com の "[真実メーター](http://www.politifact.com/punditfact/statements/)" ページから収集されています。
* Politifact はしばしば政治家の発言を事実検証します。このデータセットはウェブサイトに焦点を当てているため、噂が個人、政党、キャンペーン、または組織に起因するとされたすべての投稿は無視しています。代わりに、ウェブサイトまたはブログに明示的に起因する噂のみを含めています。
---
# Snopes コレクションを使用するための有用なヒント
Emergent コレクションでは各ページが噂を支持しているか反対しているかがフラグ付けされていますが、Snopes データセットにはそのような情報はありません。データを手動でラベリングすることを避けるために、以下のヒューリスティックを使用してどのページが噂を始めたかを特定することができます。
* 投稿の「例」セクションで引用されたウェブページは、しばしば噂を「観察」している、つまり噂を始めたわけではなく、繰り返しているだけです。snopes.csv ファイルでは、これらのウェブページは「page_is_example」としてフラグ付けされています。
* 投稿の「特集画像」セクションで引用されたウェブページは、しばしば噂とは関係がありません。Snopes の編集者は、単にそれらのページから画像を抽出して投稿に埋め込んでいます。snopes.csv ファイルでは、これらのウェブページは「page_is_image_credit」としてフラグ付けされています。
* 二次的なサービス(たとえば [archive.is](http://archive.is/))を通じて引用されたウェブページは、噂を拡散する可能性が高いです。編集者は、そのページが後で削除されても記録が残るように、直接リンクしません。
* これらのヒントが役に立たない場合、非常に頻繁に(必ずではありませんが)ページで最初に引用されたリンク(「page_is_example」と「page_is_image_credit」が false のもの)は、噂を始めたページへのリンクです。このリンクは「page_is_first_citation」フィールドで識別されます。「page_is_first_citation」と「page_is_archived」の両方が true のページは、非常に高い確率で噂を拡散するものです。
* 本物のニュースと間違われる風刺ウェブサイトを特定するには、Snopes でそれらがどのように引用されているかを調べると役立ちます。ウェブサイトが風刺またはユーモアを含んでいることを示すために、Snopes の執筆者はしばしばサイトの「私たちについて」ページを引用します。したがって、「about」ページへの URI を頻繁に含むドメインを確認すると役立ちます(たとえば、「http://politicops.com/about-us/」)。
[1]: http://imgur.com/JZPExar.png
[2]: http://i.imgur.com/jFT6Vdb.png
[3]: http://i.imgur.com/Z83JP7c.png
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.