Open Dataset
Data Structure ?
52.47M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# コンテキスト
これは、米国司法省(DOJ)のウェブサイトhttps://www.justice.gov/news から取得した13,087件のプレスリリースを含む歴史的なデータセットです。DOJは通常、1日に数件のリリースを公開しており、このデータセットは2009年から2018年7月までの期間をカバーしています。リリースには、刑事事件の結果、重罪犯に対する注目すべき措置、または現政権に関するその他の最新情報などの情報が含まれています。このデータセットには、「プレスリリース」と分類されたもののみが含まれており、「スピーチ」とラベル付けされたものは含まれていません。一部のリリースには、トピックや関連機関がタグ付けされています。
データを収集するための元のPythonコードは、GitHubのhttps://github.com/jbencina/dojreleases で見つけることができます。
# 内容
内容は、以下のフィールドを持つ改行区切りのJSONレコードとして保存されています。
- **id**:プレスリリース番号(内容に含まれている場合は欠落することがあります)
- **title**:リリースのタイトル
- **contents**:リリースの本文
- **date**:投稿日
- **topics**:トピックタグの配列(提供されている場合)
- **components**:機関や部門の配列(提供されている場合)
# 謝辞
すべてのデータは、https://www.justice.gov/news から取得されました。
# インスピレーション
このデータは、以下を含む分析の機会を提供します。
- 報告されるトピックは、年や政権を通じてどのように変化してきたか?
- どのような単語が頻繁に同時に出現する傾向があるか?
- リリースの内容を使用して、文書をどのようにクラスタリングできるか?
- 提供されたトピックを元に、予測テキストモデルを学習させることができるか?
- [Spacy][1]のようなツールを使用して、リリース内の固有表現(人名、地名など)を処理することができるか?
[1]: https://spacy.io/usage/linguistic-features#section-named-entities
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.