Select Language

Open Dataset

電子メール

電子メール

156.71M
732 hits
0 likes
1 downloads
0 discuss
Business,Internet Classification

Data Structure ? 156.71M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    コンテキスト 電子メールアーカイブは、人々が一般的に最も関わっている現実世界の社会ネットワークに関する素晴らしい情報源です。完全なメール交換を共有することはほとんど良い考えではありませんが、フローメタデータ(つまり、誰がいつ誰にメッセージを送信したか)はかなり効果的に**匿名化**することができ、依然として多くの情報を持っています。 私は、自分の仕事用と個人用の電子メールアカウントから10年以上にわたるフローメタデータを共有して、データサイエンティストが好きな統計手法や社会ネットワーク分析ツールを使って実験できるようにしています。始めるためのノートブックは[こちら](https://www.kaggle.com/emarock/getting-started-with-email-flows)で入手できます。 自分の電子メールアカウントから同様のデータセットを抽出したい人には、私が自分のデータを作成するためにまとめたツールが[https://github.com/emarock/mailfix](https://github.com/emarock/mailfix)で利用可能です(現在は、Gmailアカウント、IMAPアカウント、macOSのApple Mailからの抽出をサポートしています)。 内容 このデータセットには2つのファイルが含まれています。 - `work.csv`:私の仕事用アカウントからの電子メールフローメタデータ(約146,000通のメール、2005年から2018年) - `personal.csv`:私の個人用アカウントからの電子メールフローメタデータ(約41,000通のメール、2006年から2018年) 10年にわたるアーカイブから予想されるように、データには一部の破損や異常が見られますが、これらは時間的に限定されており、基本的な統計分析を通じて簡単に特定して除外することができます。コメントで議論し、詳細な情報を提供することは喜んで行います。 インスピレーション 基本的な探索: - 私は誰ですか? - 誰が人間で誰がそうでないのか?注目を集める人とメーリングリストエンジンはどれほど異なるのか? - 私のコミュニケーションパターンは時間とともにどのように変化したのか?仕事内外で同じように変化したのか? - 私の社会ネットワークは拡大したか?縮小したか? - 私の上司は誰ですか?以前の上司は誰でしたか?次の上司は誰になるでしょうか? また、高度な分類器のトレーニングのために追加データでデータセットを拡張することも可能です(例:実際の人間のリスト、メーリングリスト、VIPなど)。コメントで自由にお問い合わせください。 匿名化とプライバシーに関する注意事項 匿名化関数(コードは[こちら](https://github.com/emarock/mailfix/blob/master/lib/anonymizer.js)、テストは[こちら](https://github.com/emarock/mailfix/blob/master/test/anonymizer.js))は、[djb2文字列ハッシュ](http://www.cse.yorku.ca/~oz/hash.html)と[メルセンヌ・ツイスタ疑似乱数生成器](https://en.wikipedia.org/wiki/Mersenne_Twister)に基づいており、[string - hash](https://www.npmjs.com/package/string - hash)と[casual](https://www.npmjs.com/package/casual)のnode.jsモジュールで実装されています。実装の欠陥を除けば、実質的に不可逆であるはずです。 ただし、あなたが私と電子メールのやり取りに関わったことがある場合、メッセージのタイムスタンプを比較することで、あなたの実際のアドレスに関連付けられた匿名化されたアドレスを特定することができます。同様に、もう少し推測を加えることで、それらのやり取りに関わった他の人の匿名化されたアドレスを見つけることもできます。彼らにとってもあなたに関して同じことが言えるので、これが問題になる場合は、連絡していただければ、データセット内の問題のあるエントリを削除します。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 732
    • 1
    • 0
    • collect
    • Share