Open Dataset
Data Structure ?
128.86M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈:
1947年以来毎年、国連加盟国の代表らは国連総会の年次会議に集まります。各会議の中心となるのは総討論です。これは、指導者やその他の高官が、世界政治の主要な問題に対する自国政府の見解を表明する声明を行うフォーラムです。これらの声明は、国内政治における年次立法上の一般教書演説に似ています。このデータセットである国連総討論コーパス(UNGDC)には、1970年(第25回会議)から2016年(第71回会議)までの総討論声明のテキストコーパスが含まれています。
内容:
このデータセットには、総討論における各国の声明のテキストが含まれており、国、会議、年ごとに分けられ、それぞれにタグが付けられています。テキストは国連総会の会議録のPDFからスキャンされました。その結果、元のスキャンではOCR(光学文字認識)スキャンによりテキストにページ番号が含まれていましたが、これらは削除されています。このデータセットには英語のみが含まれています。
謝辞:
このデータセットは、アレクサンダー・バトゥーロ、ニヒール・ダサンディ、スラヴァ・ミハイロフによって作成され、2017年の論文「テキストをデータとして国家の嗜好を理解する:国連総討論コーパスの紹介」(Research & Politics)で紹介されています。
着想:
このデータセットには、異なる国からの40年以上にわたるデータが含まれており、国間や時間を通じた違いを探索することができます。これにより、特定の国に関する質問と経時的な質問の両方をすることができます。興味深い質問のいくつかは以下の通りです。
* 各国の総討論の感情が時間とともにどのように変化してきたか?
* 時間と地域によって、どのようなトピックが人気が高かったり低かったりしたか?
* 与えられたテキストがどの国のものかを識別する分類器を構築できるか?
* 時間を通じて、または地域間で、語彙や構文に変化や違いがあるか?
* 国の緯度は語彙の複雑さにどのような影響を与えるか?
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.