Open Dataset
Data Structure ?
3.75G
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
Europarl平行コーパスは欧州議会の議事手続きから抽出されたものです。これには21種類の欧州言語のバージョンが含まれています:ロマンス語(フランス語、イタリア語、スペイン語、ポルトガル語、ルーマニア語)、ゲルマン語(英語、オランダ語、ドイツ語、デンマーク語、スウェーデン語)、スラブ語(ブルガリア語、チェコ語、ポーランド語、スロバキア語、スロベニア語)、フィン・ウゴル語(フィンランド語、ハンガリー語、エストニア語)、バルト語(ラトビア語、リトアニア語)およびギリシャ語。
コーパスのサイズ
XMLを削除した後の単一言語データのサイズ。
言語 | 文 | 単語 |
---|---|---|
ブルガリア語 | 411,636 | -- |
チェコ語 | 668,595 | 13,195,311 |
デンマーク語 | 2,323,099 | 47,761,381 |
ドイツ語 | 2,176,537 | 47,236,849 |
ギリシャ語 | 1,517,141 | -- |
英語 | 2,218,201 | 53,974,751 |
スペイン語 | 2,123,835 | 54,806,927 |
エストニア語 | 692,210 | 11,358,009 |
フィンランド語 | 2,119,515 | 33,708,706 |
フランス語 | 2,190,579 | 54,202,850 |
ハンガリー語 | 658,824 | 12,606,986 |
イタリア語 | 2,081,669 | 50,259,169 |
リトアニア語 | 678,665 | 11,512,131 |
ラトビア語 | 666,026 | 12,085,228 |
オランダ語 | 2,333,816 | 53,487,257 |
ポーランド語 | 387,490 | 7,087,016 |
ポルトガル語 | 2,121,889 | 52,300,149 |
ルーマニア語 | 402,904 | 9,663,544 |
スロバキア語 | 674,359 | 13,116,301 |
スロベニア語 | 634,488 | 12,665,974 |
スウェーデン語 | 2,241,386 | 45,665,947 |
文をアラインメントし、XMLを削除した後の平行コーパスのサイズ。
平行コーパス(L1 - L2) | 文 | L1の単語 | 英語の単語 |
---|---|---|---|
ブルガリア語 - 英語 | 406,934 | -- | 9,886,291 |
チェコ語 - 英語 | 646,605 | 12,999,455 | 15,625,264 |
デンマーク語 - 英語 | 1,968,800 | 44,654,417 | 48,574,988 |
ドイツ語 - 英語 | 1,920,209 | 44,548,491 | 47,818,827 |
ギリシャ語 - 英語 | 1,235,976 | -- | 31,929,703 |
スペイン語 - 英語 | 1,965,734 | 51,575,748 | 49,093,806 |
エストニア語 - 英語 | 651,746 | 11,214,221 | 15,685,733 |
フィンランド語 - 英語 | 1,924,942 | 32,266,343 | 47,460,063 |
フランス語 - 英語 | 2,007,723 | 51,388,643 | 50,196,035 |
ハンガリー語 - 英語 | 624,934 | 12,420,276 | 15,096,358 |
イタリア語 - 英語 | 1,909,115 | 47,402,927 | 49,666,692 |
リトアニア語 - 英語 | 635,146 | 11,294,690 | 15,341,983 |
ラトビア語 - 英語 | 637,599 | 11,928,716 | 15,411,980 |
オランダ語 - 英語 | 1,997,775 | 50,602,994 | 49,469,373 |
ポーランド語 - 英語 | 632,565 | 12,815,544 | 15,268,824 |
ポルトガル語 - 英語 | 1,960,407 | 49,147,826 | 49,216,896 |
ルーマニア語 - 英語 | 399,375 | 9,628,010 | 9,710,331 |
スロバキア語 - 英語 | 640,715 | 12,942,434 | 15,442,233
×
The dataset is currently being organized and other channels have been prepared for you. Please use themThe dataset is currently being organized and other channels have been prepared for you. Please use themNote: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
Go share your ideas~~
ALLWelcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:II. Ownership Explanation:III. Data Reposting Explanation:IV. Infringement and Handling Explanation: |