Select Language

Open Dataset

人工知能コーパス - 欧州議会の議事録平行コーパス、21種類の欧州言語を含む

人工知能コーパス - 欧州議会の議事録平行コーパス、21種類の欧州言語を含む

3.75G
1248 hits
1 likes
0 downloads
0 discuss
NLP Classification,Text

Europarl平行コーパスは欧州議会の議事手続きから抜粋されたものです。これには21種類の欧州言語のバージョンが含まれています:ロマンス語(フランス語、イタリア語、スペイン語、ポルトガル語、ルーマニア語)......

Data Structure ? 3.75G

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    Europarl平行コーパスは欧州議会の議事手続きから抽出されたものです。これには21種類の欧州言語のバージョンが含まれています:ロマンス語(フランス語、イタリア語、スペイン語、ポルトガル語、ルーマニア語)、ゲルマン語(英語、オランダ語、ドイツ語、デンマーク語、スウェーデン語)、スラブ語(ブルガリア語、チェコ語、ポーランド語、スロバキア語、スロベニア語)、フィン・ウゴル語(フィンランド語、ハンガリー語、エストニア語)、バルト語(ラトビア語、リトアニア語)およびギリシャ語。

    コーパスのサイズ

    XMLを削除した後の単一言語データのサイズ。

    言語単語
    ブルガリア語411,636--
    チェコ語668,59513,195,311
    デンマーク語2,323,09947,761,381
    ドイツ語2,176,53747,236,849
    ギリシャ語1,517,141--
    英語2,218,20153,974,751
    スペイン語2,123,83554,806,927
    エストニア語692,21011,358,009
    フィンランド語2,119,51533,708,706
    フランス語2,190,57954,202,850
    ハンガリー語658,82412,606,986
    イタリア語2,081,66950,259,169
    リトアニア語678,66511,512,131
    ラトビア語666,02612,085,228
    オランダ語2,333,81653,487,257
    ポーランド語387,4907,087,016
    ポルトガル語2,121,88952,300,149
    ルーマニア語402,9049,663,544
    スロバキア語674,35913,116,301
    スロベニア語634,48812,665,974
    スウェーデン語2,241,38645,665,947

    文をアラインメントし、XMLを削除した後の平行コーパスのサイズ。


    平行コーパス(L1 - L2)L1の単語英語の単語
    ブルガリア語 - 英語406,934--9,886,291
    チェコ語 - 英語646,60512,999,45515,625,264
    デンマーク語 - 英語1,968,80044,654,41748,574,988
    ドイツ語 - 英語1,920,20944,548,49147,818,827
    ギリシャ語 - 英語1,235,976--31,929,703
    スペイン語 - 英語1,965,73451,575,74849,093,806
    エストニア語 - 英語651,74611,214,22115,685,733
    フィンランド語 - 英語1,924,94232,266,34347,460,063
    フランス語 - 英語2,007,72351,388,64350,196,035
    ハンガリー語 - 英語624,93412,420,27615,096,358
    イタリア語 - 英語1,909,11547,402,92749,666,692
    リトアニア語 - 英語635,14611,294,69015,341,983
    ラトビア語 - 英語637,59911,928,71615,411,980
    オランダ語 - 英語1,997,77550,602,99449,469,373
    ポーランド語 - 英語632,56512,815,54415,268,824
    ポルトガル語 - 英語1,960,40749,147,82649,216,896
    ルーマニア語 - 英語399,3759,628,0109,710,331
    スロバキア語 - 英語640,71512,942,43415,442,233
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:20 Go earn points?
    • 1248
    • 0
    • 1
    • collect
    • Share