Open Dataset
Data Structure ?
0M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
# DBpedia NIFデータセット
DBpedia NIF - 大規模かつ多言語の知識抽出コーパスです。このデータセットの目的は二つあります。一つは、DBpedia内の構造化情報の量を劇的に拡大し深化させること、もう一つは、様々な自然言語処理(NLP)および情報検索(IR)タスクの開発に向けた大規模かつ多言語の言語リソースを提供することです。このデータセットは、128のウィキペディア言語におけるすべての記事の内容を提供します。
## 概要
DBpediaコミュニティは、ウィキペディアから構造化情報を効率的に抽出するための技術インフラストラクチャと方法の開発に多大な努力を注いできました。これらの取り組みは主に、ウィキペディア記事に含まれる半構造化情報、例えばインフォボックスの情報、分類情報、画像、ウィキリンクおよび引用情報などの収集、精錬、公開に焦点を当てていました。しかしながら、未構造化のウィキペディア記事テキストには依然として大量の貴重な情報が含まれています。DBpedia NIFはこれらのギャップを埋め、ウィキペディア記事テキストから貴重な情報を抽出することを目指しています。その核心において、DBpedia NIFは大規模かつ多言語の知識抽出コーパスです。このプロジェクトの目的は二つあります。一つは、DBpedia内の構造化情報の量を劇的に拡大し深化させること、もう一つは、様々なNLPおよびIRタスクの開発に向けた大規模かつ多言語の言語リソースを提供することです。このデータセットは、128のウィキペディア言語におけるすべての記事の内容を提供します。ウィキペディアに記載されている内容をそのまま捕捉し、構造(セクションと段落)とウィキペディアの編集者によって提供された注釈を取得します。
## 主要な特徴と事実
* 128のウィキペディア言語の内容
* 90億を超えるRDFトリプルが含まれ、これはDBpediaの約40%に相当します
* 選択されたパーティションがリンクトデータとして公開されています
* TextExt - DBpediaオープン抽出チャレンジ内で活用されています
* 大規模なNLPおよびIR手法のトレーニングに利用可能です
## TextExt - DBpediaオープン抽出チャレンジ
DBpediaオープンテキスト抽出チャレンジは、言語技術や他の分野の他のチャレンジとは大きく異なります。これは一度限りの呼びかけではなく、持続的に技術水準を向上させ、体系的に境界を超越することを目的とした、継続的に成長拡大するチャレンジです。DBpedia協会とこのチャレンジの背後にいる人々は、必要なインフラストラクチャを提供し、無期限にこのチャレンジを推進するとともに、潜在的にウィキペディアを超えてチャレンジを拡張することにコミットしています。私たちは9種類の異なる言語でDBpedia NIFデータセットからのデータを提供し、あなたのタスクは、このデータに対してあなたのNLPツールを実行し、事実、関係、イベント、用語、オントロジーなどの貴重な情報をRDFトリプルとして、または品詞タグ、依存関係、共参照などの有用なNLP注釈として抽出することです。
## プロジェクトチーム
* ミラン・ドイチノフスキー博士(主要連絡先/メンテナ)
* セバスチャン・ヘルマン博士(技術博士)
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.