Open Dataset
Data Structure ?
756M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
JRC Namesの固有の実体名は、欧州メディアモニタリング(EMM)が毎日約22万本のニュース記事を分析することで生成されたものです。2004年以来、何百万ものニュース記事を分析し、最大21の言語で、実体(主に人物、組織、イベント名など)の名前を識別し、新たに発見された名前の中でどれが互いの異表記であるかを検出します。そのため、JRC Namesの中の大多数の命名変異体は現実生活から収集されたもの(頻繁なスペルミスを含む)です。さらに、実体集合のサブセットについて、ソフトウェアは自動的にウィキペディアの多言語リンクから、多くの他の言語(例えば中国語、タイ語、日本語など)の表記変異体を抽出します。非常に頻繁に使われるまたは重要な名前については、別途命名実体リソースが手動で検証されます。JRC Namesは主に自動生成されるため、いくつかの誤りを含んでいます。
用途
JRCの固有の実体名は、命名実体を探すために使用できます。たとえそれらが異なる表記であっても、コンピュータがテキスト情報を処理する過程で識別することができ、例えばテキストマイニングに使用できます。このツールは多くの用途があり、様々な問題を解決します。それには以下のようなものが含まれます。 1.データベース、インターネット、その他のリポジトリを検索する際、正しい名前が問題となります。通常、検索名の変異体は見つからないため、文書、画像、視聴覚コンテンツのリポジトリの非最適な使用と利用につながります。JRC-Namesは名前を標準化することができ、それによって検索を改善します。 2.機械翻訳は固有の実体名を翻訳する際にも問題があります。なぜなら、それらは他の単語のように翻訳されるべきではないからです。JRC-Namesを利用することで、翻訳過程の前に名前を抽出し、目的言語で外国語の変異体を再挿入することでこの問題を解決することができます。 3.2つの異なる言語の実体リストは、通常、音写規則を学習するために使用されます。 4.実体はテキスト中で識別およびタグ付けすることができ、機械学習による命名実体識別システムのトレーニングで直接利用することができます。 5.データは複数の国から収集されているため、異なる国の見解の偏りを減らすことができます。 6.命名実体識別は、意見マイニングの計算言語学的タスク、共参照解析、要約、トピック検出と追跡、多言語の関連文書の多言語リンクなどに役立ちます。
統計情報
JRC Namesは、EMMの実体データベースに含まれるいくつかの重要な実体、例えば頻繁に検索される、手動で検証される、またはウィキペディア上で見つかった実体を含んでいます。JRC Namesの第1版(2011年9月)は、約205,000個の異なる既知の実体の名前と、これらの実体のほぼ同じ数の表記変異体を含んでいました。さらに、これらの名前の多くの形態変化した変異体も含まれています。2016年3月現在、このリソースは307,000個の異なる実体と、さらに333,000個の変異体に増えています。EMMは毎日新しい名前を識別し、JRCのウェブページからは、最近発見された名前と名前の表記を含むファイルを毎日ダウンロードすることができます。2011年7月現在、データベースには27の異なる文字体系で表記された名前が含まれています。最もよく使われるのは、ラテン文字(英語や他のほとんどの欧州言語を含む)、キリル文字(例えばロシア語やブルガリア語)、アラビア文字(ペルシア語を含む)、日本語(漢字、平仮名、片仮名)、中国語(簡体字)です。JRC Namesの中の64%の名前には追加の表記変異体がありません。28%の名前については、JRC Namesに2〜3つの表記があります。3760個の実体には10個以上の表記があり、37個の実体には100個以上の表記変異体があります。最も多くの表記変異体を持つ名前は、Muammar Gaddafi(413個の表記)、Mikhail Saakashvili(256個)、Mahmoud Ahmadinejad(246個)です。
関連論文
1.Steinberger Ralf, Bruno Pouliquen, Mijail Kabadjov, Jenya Belyaeva & Erik van der Goot (2011). JRC-Names: A freely available, highly multilingual named entity resource. Proceedings of the 8th International Conference Recent Advances in Natural Language Processing (RANLP). Hissar, Bulgaria, 12 - 14 September 2011. 2.Ehrmann Maud, Guillaume Jacquet & Ralf Steinberger (2016). JRC-Names: Multilingual Entity Name Variants and Titles as Linked Data. Semantic Web Journal (March 2016). 3.STEINBERGER Ralf,ATKINSON Martin,GARCIA DOMINGO Teofilo,VAN DER GOOT Erik LINGE Jens,MACMILLAN Charles,TANEV Hristo,VERILE Marco,WAGNER Gerhard(2017) EMM: Supporting the Analyst by Turning Multilingual Text into Structured Data 4.JACQUET Guillaume,EHRMANN Maud,STEINBERGER Ralf,VAEYRYNEN Jaakko(2016).Cross-lingual linking of Multi-word Entities and their corresponding Acronyms. 5.王志娟, 李福现. 跨语言命名实体翻译对抽取的研究综述[J]. 计算机科学, 2017, 44(s1):14 - 18. 6.胡亚楠, 舒佳根, 钱龙华,等. 基于机器翻译的跨语言关系抽取[J]. 中文信息学报, 2013, 27(5):191 - 198. 7.吴丹, 何大庆, 陆伟. 跨语言信息检索中的命名实体识别与翻译[J]. 图书情报知识, 2012(3):13 - 19.
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.