Open Dataset
Data Structure ?
716.62M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
概要
このデータセットには、1789年の設立から2020年までの米国最高裁判所(SCOTUS)が作成したほぼすべての判決意見が含まれています。約36,000件あり、98人の異なる裁判官によって作成されています。
SCOTUSの判決意見は、いくつかの異なる観点から非常に興味深いデータセットであり、これを利用して多くのことができます(概念抽出、イデオロギー分析、経時的な変化、著者予測など)。そして、これらが米国の公共生活と私的生活を形作る上で果たす役割を考えると、これらについてできるだけ多くの光を当てることが望ましいです。
このデータセットが必要な理由
私はもともと、これらを自然言語処理(NLP)プロジェクト用にまとめました。このプロジェクトは、ここに最初にアップロードされたカーネル「[予備的分析とトピックモデリング][1]」で見ることができます。実用的なデータセットを得るために必要な収集とクリーニング作業には、ほぼ1週間かかりました。そのため、ここで結果を共有するきっかけになりました。
すべてのSCOTUS判決意見は、多くのプラットフォーム(Findlaw、Justia、Courtlistenerなど)で公開されています。しかし、包括的な研究に必要なような適切な形式の大量ダウンロードを提供する無料のリソースはないようです。これらのリソースから数万件の判決意見を手動でコピーアンドペーストするのは、非常に時間がかかります。
このデータセットは、各判決意見のテキストとすべての関連メタデータ(著者、日付、事件など)を含む、簡単で網羅的なCSVファイルをユーザーに提供します。
このデータセットの作成方法
Courtlistener.comは、[API][2]と[判決意見のJSONの大量ダウンロード][3]がある唯一のサイトでした。残念ながら、これらの判決意見のJSONには多くの問題があります。特に、著者名も判決意見のテキストも実際には含まれていません。
Courtlistener.comの判決意見のJSONに含まれているのは、SCOTUSが審理したすべての事件の完全な記録のHTMLです。各記録は、タイトル、その事件に提出されたすべての判決意見(多数意見、反対意見、同意意見)、それらの判決意見のテキスト、および脚注を含む1つのHTMLのdiv要素で構成されています。これらの要素は、別々のdiv要素になっていたり、識別可能なクラスラベルが付けられていたりすることはありません。
このデータセットを作成するために、私は判決意見のJSONをダウンロードし、判決意見クラスターのJSON(事件に関する構造化データ、例えば提出日や原告名などが含まれています)と結合しました。その後、判決意見のHTMLを(著者 / 多数意見 - 反対意見 - 同意意見 / 判決意見のテキスト)のクラスターに98%以上の精度で解析するための、かなり複雑な一連のルールを作成しました。この情報と判決意見クラスターのJSONからのメタ情報を組み合わせることで、ここにあるデータセットができました。
完全な読み込みとクリーニングのスクリプトもここに含まれているので、自分で見て、必要に応じて改善することができます。(コードが不格好で申し訳ありません。このプロセスがもっと簡単になると思っていたので、コードの構造が最適ではないかもしれません。)
注意事項
1. 私は信頼できるテキスト解析ルールを作成し、結果をチェックするために最善を尽くしましたが、このデータセットは100%クリーンで完全なものではありません。元のデータソースにはいくつかの問題があり、私が意図せずに1つまたは2つの問題を追加した可能性もあります。データを扱う際には、いつも通り十分な注意を払ってください。もっと確実性が必要な場合は、absolute_urlフィールドにリンクされた全文ページを見て、および/またはクリーニング関数を改善する方法を検討してください。
2. その話ですが、読み込みとクリーニングの関数を詳しく調べる場合は、いくつかの複雑な部分に備えてください。これらの関数は非常に微妙で、デバッグするのが大変です。同じことをより良い方法で行うことができると思われる場合は、私はあなたのアイデアを聞きたいです。
3. ほとんどの分析では、5件未満の判決意見が割り当てられたすべての著者名を削除することを強くお勧めします。(そのための2行のコードは、クリーニング関数の最下部にあり、コメントアウトされています。)これらの中には、任期が非常に短い裁判官もいますが、他には元のデータのタイプミスや誤ラベル付けもあります。私はすべてを残しているので、ユーザーが選択できるようにしています。
4. federal_cite_one識別子が重複しているが、事件名が異なるすべてのレコードを削除することを検討してください。多くの場合、片方または両方のレコードは単純な手続き上の出来事(上訴の状況が決定されるなど)を表しています。
5. 1970年以前の一部の著者名には、異なる書式のアポストロフィ、スペルミスなどのバリエーションが含まれています。(1970年以降の著者名は手動でクリーニングしています。)必要に応じて、一意の著者名の値を見てクリーニングすることができます。
6. 判決意見に疑問や質問がある場合は、absolute_urlをたどって案件の全文ページを読んでください。
7. 非常に長い判決意見が少数あります。しかし、これらは本物です。(たまにSCOTUSの裁判官も気に乗ってしまうことがあるのだと思います。)
推奨事項
1. 最大限の情報を保存するために、このデータセットでは最初の反対意見を「反対意見」とラベル付けし、案件ファイル内のそれ以降の反対意見を「2番目の反対意見」とラベル付けしています。多くの分析では、この区別は重要ではないかもしれません。特に、非常に短い判決意見を削除する場合(下記3を参照)、これらを単に「反対意見」と再ラベル付けすることができます。
2. 「全会一致意見」(裁判所が非常に明快で論争の余地がないと判断し、詳細な意見や特定の著者を必要としない意見)は、他の意見とは非常に異なります。ほとんどの一般的な分析では、これらを分離したほうがよいでしょう。
3. ある種の定性的分析では、非常に短い判決意見を除外することも役立つ場合があります(私は3,000文字が適切なしきい値であることを発見しました)。これらは主に、多数意見に対する簡単なコメントにすぎない同意意見または反対意見です。
4. 私がここにアップロードしたカーネルで見られるように、K-meansまたは凝集型クラスタリングの後にLDAを行うと、最良の意味的クラスターが得られることがわかりました。これらの手法は、このデータセットを使って遊ぶための良い出発点になるかもしれません。
5. 再び、非常に稀な著者名を削除することについては、上記の注意事項3を参照してください。
[1]: https://www.kaggle.com/gqfiddler/preliminary-analysis-and-topic-modeling
[2]: https://www.courtlistener.com/api/rest-info/
[3]: https://www.courtlistener.com/api/bulk-data/
** 2020年2月現在、すべてのSCOTUS判決意見は、大量ダウンロードページのscotus.tar.gzファイルに含まれています
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.