Select Language

Open Dataset

約4分の1のオープンネットワークテキスト

約4分の1のオープンネットワークテキスト

9580.06M
280 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Online Communities,Video Games Classification

Data Structure ? 9580.06M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    文脈 これは、[このGitHubリポジトリ](https://github.com/eukaryote31/openwebtext)のコードを若干修正して作成されたデータセットです。これは、GPT - 2(公開するには危険過ぎると言われているテキスト生成モデル)が学習に使用されたデータを再現しようとする人々によるオープンウェブテキスト運動の一部です。これは全データのおよそ4分の1に過ぎませんが、ヴェニャ・コーエンが議論セクションで述べたように、完全なデータセットはhttps://skylion007.github.io/OpenWebTextCorpus/で入手できます。 内容 このデータセットには、大きなdata.dbについては最大2019434、小さな.dbについては743までのテキストを識別するIDが含まれています。 各IDは、少しのテキストが含まれるテキスト列に対応しています。 謝辞 GitHubリポジトリhttps://github.com/eukaryote31/openwebtextを提供してくれたeukaryote31に感謝します。 着想 OpenAIのGPT - 2モデルは、40GBのウェブテキストモデルをまだ過小適合していると言われているので、どれくらいのデータが最適なのか疑問に思っています。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 280
    • 0
    • 0
    • collect
    • Share