Select Language

Open Dataset

ビルサム

ビルサム

264.65M
315 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Computer Science,Software,Government,NLP Classification

Data Structure ? 264.65M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    文脈 BillSumデータセットは、米国の法律の自動要約用の最初のコーパスです。このコーパスには、米国議会とカリフォルニア州議会の法案のテキストと人が書いた要約が含まれています。これは、2019年のEMNLP要約の新しいフロンティアワークショップで論文として発表されました。我々は、この問題に関する協力と反復改善を促進するために、このデータセットをKaggle上で公開しています。 BillSumデータセットは、2つの理由から調査するのに興味深いです。まず、米国議会や州政府が毎年何万もの法案を公開しているにもかかわらず、このタスクに対して法律文書はこれまで考慮されていませんでした。第二に、約半数の州では法律の人が書いた要約が提供されていないため、自動要約によってそのギャップを埋め、市民が関連する法案をより迅速に見つけることができます。 我々の現在のコードはこちらで見ることができます:https://github.com/FiscalNote/BillSum 内容 BillSumデータセットは3つの部分から構成されています:米国の訓練用法案、米国のテスト用法案、およびカリフォルニア州のテスト用法案です。米国の法案は、[米国政府印刷局(GPO)](https://github.com/unitedstates/congress)が提供する**Govinfo**サービスから収集されました。我々のコーパスは、第103回 - 第115回(1993年 - 2016年)の議会期の法案で構成されています。データはランダムに分割され、28,408件の訓練用法案と5014件のテスト用法案になりました。カリフォルニア州については、2015 - 2016年の議会期の法案は[州議会のウェブサイト](http://leginfo.legislature.ca.gov)から直接スクレイピングされました。要約は州議会の法律顧問によって書かれました。 簡単なビジュアル例については:https://www.kaggle.com/akornilo/data-introduction データは以下のように整理されています: - **official_dataset**フォルダには、元のデータセットのファイルが含まれています。(フィールドの説明についてはREADME.mdを参照) - **cleaned_dataset**フォルダには、元のテキストと、すべてのフィールドのクリーンなバージョンが含まれています。(クリーニングは[このスクリプト](https://github.com/FiscalNote/BillSum/blob/master/billsum/data_prep/clean_text.py)で行われました) **データ構造** - text:法案のテキスト - summary:(人が書いた)法案の要約 - title:法案のタイトル(要約の生成に使用できます) - bill_id:法案の識別子 - 米国のデータではSESSION_BILL-ID、カリフォルニア州の場合はBILL-ID ファイルの「クリーン」バージョンでは、クリーニングされたテキストは「clean_{text/summary/title}」フィールドにあります。 評価 もしあなたが独自の要約アルゴリズムを開発した場合、[このスクリプト](https://github.com/FiscalNote/BillSum/blob/master/billsum/utils/compute_rouge_from_texts.py)を使ってRougeスコアを集計することができます。 あなたが何を発見するかを楽しみにしています:)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 315
    • 0
    • 0
    • collect
    • Share