Select Language

Open Dataset

キュレーションコーパス:キュレーション語彙データベース

キュレーションコーパス:キュレーション語彙データベース

123.13M
479 hits
0 likes
10 downloads
0 discuss
NLP Text

キュレーションコーパスには、専門家が執筆した4万編のニュース記事の要約が集められており、記事自体のリンクも付けられています。このリポジトリは、それらにアクセスするためのクローリングツールを提供しています。もしあなたが......

Data Structure ? 123.13M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    キュレーションコーパスには、専門家が執筆した40,000編のニュース記事の要約が集められており、記事自体のリンクも付いています。このリポジトリには、それらにアクセスするためのスクレイピングツールが用意されています。商用利用や、150,000以上の専門家が執筆した要約や、人間またはAIによって駆動される拡張可能なオンデマンドコンテンツ抽象化APIを含む、より広範なキュレーションデータカタログへのアクセスに興味がある場合は、[触れる](原文の「触碰」の正しい表現が不明です)にアクセスしてください。このバージョンがNLPコミュニティにどのように役立つかについての考えは、データセットを紹介する私たちの投稿を参照してください。

    使い方

    • このリポジトリをクローンします(または、scraper.pyのコードをコピーするだけでも構いません)

    • ここからURL、見出し、要約をダウンロードします

    • web_scraper.pyを実行します。コマンドライン引数として、記事本文のないCSVファイルへのパス、記事本文が含まれる新しいCSVファイルへのパス、および一度にスクレイピングするURLの数を決定するバッチサイズを指定します。バッチサイズを大きくすると実行速度が速くなりますが、タイムアウトにより多くの記事が取得できなくなる可能性があります。2015年のMacBook Proでは、約50をお勧めします。

    git clone https://github.com/CurationCorp/curation-corpus.git
    cd curation-corpus
    wget https://curation-datasets.s3-eu-west-1.amazonaws.com/curation-corpus-base.csv
    python web_scraper.py curation-corpus-base.csv curation-corpus-base-with-articles.csv 50

    一部のURLは、コンテンツの経時変化や有料コンテンツの壁などの理由で、混乱した結果を返すことがあります。私たちはこのリリースから最も問題のあるものを削除しようとしました。ただし、スクレイピングツールを改善する余地はまだあると思われます。

    引用

    @misc{curationcorpusbase:2020,
      title={Curation Corpus base},
      author={Curation},
      year={2020}
    }


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:10 Go earn points?
    • 479
    • 10
    • 0
    • collect
    • Share