Open Dataset
Data Structure ?
156.71M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
電子メールアーカイブは、人々が一般的に最も関わっている現実世界の社会ネットワークに関する素晴らしい情報源です。完全なメール交換を共有することはほとんど良い考えではありませんが、フローメタデータ(つまり、誰がいつ誰にメッセージを送信したか)はかなり効果的に**匿名化**することができ、依然として多くの情報を持っています。
私は、自分の仕事用と個人用の電子メールアカウントから10年以上にわたるフローメタデータを共有して、データサイエンティストが好きな統計手法や社会ネットワーク分析ツールを使って実験できるようにしています。始めるためのノートブックは[こちら](https://www.kaggle.com/emarock/getting-started-with-email-flows)で入手できます。
自分の電子メールアカウントから同様のデータセットを抽出したい人には、私が自分のデータを作成するためにまとめたツールが[https://github.com/emarock/mailfix](https://github.com/emarock/mailfix)で利用可能です(現在は、Gmailアカウント、IMAPアカウント、macOSのApple Mailからの抽出をサポートしています)。
内容
このデータセットには2つのファイルが含まれています。
- `work.csv`:私の仕事用アカウントからの電子メールフローメタデータ(約146,000通のメール、2005年から2018年)
- `personal.csv`:私の個人用アカウントからの電子メールフローメタデータ(約41,000通のメール、2006年から2018年)
10年にわたるアーカイブから予想されるように、データには一部の破損や異常が見られますが、これらは時間的に限定されており、基本的な統計分析を通じて簡単に特定して除外することができます。コメントで議論し、詳細な情報を提供することは喜んで行います。
インスピレーション
基本的な探索:
- 私は誰ですか?
- 誰が人間で誰がそうでないのか?注目を集める人とメーリングリストエンジンはどれほど異なるのか?
- 私のコミュニケーションパターンは時間とともにどのように変化したのか?仕事内外で同じように変化したのか?
- 私の社会ネットワークは拡大したか?縮小したか?
- 私の上司は誰ですか?以前の上司は誰でしたか?次の上司は誰になるでしょうか?
また、高度な分類器のトレーニングのために追加データでデータセットを拡張することも可能です(例:実際の人間のリスト、メーリングリスト、VIPなど)。コメントで自由にお問い合わせください。
匿名化とプライバシーに関する注意事項
匿名化関数(コードは[こちら](https://github.com/emarock/mailfix/blob/master/lib/anonymizer.js)、テストは[こちら](https://github.com/emarock/mailfix/blob/master/test/anonymizer.js))は、[djb2文字列ハッシュ](http://www.cse.yorku.ca/~oz/hash.html)と[メルセンヌ・ツイスタ疑似乱数生成器](https://en.wikipedia.org/wiki/Mersenne_Twister)に基づいており、[string - hash](https://www.npmjs.com/package/string - hash)と[casual](https://www.npmjs.com/package/casual)のnode.jsモジュールで実装されています。実装の欠陥を除けば、実質的に不可逆であるはずです。
ただし、あなたが私と電子メールのやり取りに関わったことがある場合、メッセージのタイムスタンプを比較することで、あなたの実際のアドレスに関連付けられた匿名化されたアドレスを特定することができます。同様に、もう少し推測を加えることで、それらのやり取りに関わった他の人の匿名化されたアドレスを見つけることもできます。彼らにとってもあなたに関して同じことが言えるので、これが問題になる場合は、連絡していただければ、データセット内の問題のあるエントリを削除します。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.