Select Language

Open Dataset

日本語 - 英語字幕コーパス(JESC)[クリーニング済み]、280万文からなる大規模なコーパス

日本語 - 英語字幕コーパス(JESC)[クリーニング済み]、280万文からなる大規模なコーパス

220.08M
337 hits
0 likes
0 downloads
0 discuss
NLP,Business,Computer Science,Languages Classification

このデータセットは、誤字の英単語を修正し、次の方法で単語分割を行うことによって作成された、JESCのクリーン版です。英語 = ......

Data Structure ? 220.08M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    このデータセットは、誤字の英単語を修正し、以下のものを用いて単語分割を行うことで、JESCをクリーニングしたバージョンです。

    • 英語    => Spacy英語トークナイザー

    • 日本語 => Jannomeトークナイザー

    データセットフレーズペア
    訓練用2371921
    テスト用1992
    検証用1992

    このデータセットは.tsv形式なので、'\t'で区切って読み取ることができます。
    例:

    # Python コード
    import pandas as pd
    df = pd.read_csv('./train', sep = '\t')

    概要

    JESCは、機械翻訳システム、情報抽出、その他の言語処理技術の研究開発を支援することを目的としています。

    JESCは、スタンフォード大学、Google Brain、楽天技術研究所の共同プロダクトです。インターネット上の映画やテレビの字幕をクロールし、そのキャプションを整列させることで作成されました。これは、無料で利用できる最大の英語 - 日本語コーパスの1つであり、口語表現が十分に表現されていない領域をカバーしています。

    このデータセットを作成するために使用されたスクリプト、ツール、クローラーは、Githubでダウンロードできます。

    論文はこちらで読むことができます。

    内容

    • 280万文からなる大規模なコーパス。

    • 日常会話、口語表現、説明的な文章、物語的なディスコースの翻訳。これらは、日英機械翻訳では見つけにくい領域です。

    • トークン化された訓練/検証/テストデータ分割を含む前処理済みデータ。

    • 独自のクロールデータセットを作成するためのコードと、機械翻訳データを操作するためのツール。

    謝辞

    スタンフォード大学、Google Brain、楽天技術研究所、特に著者のPryzant R.、Chung Y.、Jurafsky D.、Britz D.に深く感謝いたします。

    公式サイト

    日英字幕コーパス

    引用

    @ARTICLE{pryzant_jesc_2018,
      author = {{Pryzant}, R. and {Chung}, Y. and {Jurafsky}, D. and {Britz}, D.},
       title = "{JESC: Japanese-English Subtitle Corpus}",
     journal = {Language Resources and evaluation Conference (LREC)},
     keywords = {Computer Science - Computation and Language},
        year = 2018
    }


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:28 Go earn points?
    • 337
    • 0
    • 0
    • collect
    • Share