Select Language

Open Dataset

PTTゴシップコーパス

PTTゴシップコーパス

799.34M
350 hits
0 likes
2 downloads
0 discuss
NLP Classification

Data Structure ? 799.34M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # PTT 中国語コーパス こんにちは、ここは PTT 中国語コーパス集です。私は[いくつかの仮定と方法](https://github.com/zake7749/PTT-Chat-Generator)を通じて、各記事を質問と回答のペアに簡素化しました。ここで、質問は記事のタイトルから来て、回答はその記事のつぶやきです。 残念ながら、現在このデータセットのノイズはまだ少し大きいです。もしあなたに記事の質問と回答のペアを抽出するより良い方法がある場合、またはこのデータセットに改善すべき部分があることに気づいた場合、私に連絡してください。そして、皆さんの開発が順調に進むことを祈っています :> ## データ説明 データセットは合計2つあります。あなたは [PTT-Gossiping-Corpus](https://www.kaggle.com/zake7749/pttgossipingcorpus) から、またはこのプロジェクトの `data` フォルダから取得することができます。 Gossiping-QA-Dataset.txt このファイルには、PTT ゴシップ板の 2015 年から 2017 年 6 月までの記事が収集されています。各行は1つの質問と回答のペアで、質問と回答はタブ (`\t`) で区切られています。現在、合計 418,202 件の質問と回答のペアがありますが、すべてのペアが有効なわけではありません。なぜなら、一部の記事にはつぶやきがないため、このような質問の回答は`データなし`とマークされます(合計 650 件)。使用する際には注意してください。 Gossiping-QA-Dataset-2_0.csv これは Gossiping-QA-Dataset.txt を拡張した新しいバージョンのデータセットで、2018 年と 2019 年の一部の記事が追加されています。合計 774,114 件の質問と回答のペアが含まれています。 データ形式は csv に調整され、`question` と `answer` の 2 つの列が含まれています。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 350
    • 2
    • 0
    • collect
    • Share