Select Language

Open Dataset

律政司2009~2018年の記者発表資料

律政司2009~2018年の記者発表資料

52.47M
292 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Politics,NLP,Crime,Text Data Classification

Data Structure ? 52.47M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # コンテキスト これは、米国司法省(DOJ)のウェブサイトhttps://www.justice.gov/news から取得した13,087件のプレスリリースを含む歴史的なデータセットです。DOJは通常、1日に数件のリリースを公開しており、このデータセットは2009年から2018年7月までの期間をカバーしています。リリースには、刑事事件の結果、重罪犯に対する注目すべき措置、または現政権に関するその他の最新情報などの情報が含まれています。このデータセットには、「プレスリリース」と分類されたもののみが含まれており、「スピーチ」とラベル付けされたものは含まれていません。一部のリリースには、トピックや関連機関がタグ付けされています。 データを収集するための元のPythonコードは、GitHubのhttps://github.com/jbencina/dojreleases で見つけることができます。 # 内容 内容は、以下のフィールドを持つ改行区切りのJSONレコードとして保存されています。 - **id**:プレスリリース番号(内容に含まれている場合は欠落することがあります) - **title**:リリースのタイトル - **contents**:リリースの本文 - **date**:投稿日 - **topics**:トピックタグの配列(提供されている場合) - **components**:機関や部門の配列(提供されている場合) # 謝辞 すべてのデータは、https://www.justice.gov/news から取得されました。 # インスピレーション このデータは、以下を含む分析の機会を提供します。 - 報告されるトピックは、年や政権を通じてどのように変化してきたか? - どのような単語が頻繁に同時に出現する傾向があるか? - リリースの内容を使用して、文書をどのようにクラスタリングできるか? - 提供されたトピックを元に、予測テキストモデルを学習させることができるか? - [Spacy][1]のようなツールを使用して、リリース内の固有表現(人名、地名など)を処理することができるか? [1]: https://spacy.io/usage/linguistic-features#section-named-entities
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 292
    • 0
    • 0
    • collect
    • Share