Select Language

Open Dataset

フランスのレディット討論

フランスのレディット討論

629.79M
226 hits
0 likes
0 downloads
0 discuss
Linguistics,Demographics,Languages Classification

Data Structure ? 629.79M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    LELúはフランス語の対話コーパスで、RedditのGoogle BigQueryを通じて入手可能な公開データセットから抽出された、豊富な人間同士の自然な書き言葉の会話が含まれています。当社のコーパスは、合計1,583,083の発話を含む556,621の会話で構成されています。このデータセットを生成するコードは、当社の[GitHubリポジトリ][1]にあります。 アーカイブ `spf.tar.gz` には、次の形式のXMLファイルでRedditの議論が含まれています。 タグ属性は以下のように説明できます。 - `link_id`:親のReddit投稿のID。 - `subreddit_id`:サブレディットのID。 - `uid`:コメント投稿者のID。 - `comment_id`:RedditコメントのID。 - `parent_id`:親のRedditコメントのID。 当社は、論文「[LELú: A French Dialog Corpus from Reddit][2]」で説明したヒューリスティックを使用して、会話ツリーを短い連続した会話に分割していますが、`comment_id` と `parent_id` 属性を使用して、完全な会話ツリーを再構築することができます。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 226
    • 0
    • 0
    • collect
    • Share