Select Language

Open Dataset

DBpedia NIFデータセット

DBpedia NIFデータセット

263 hits
0 likes
0 downloads
0 discuss
Education,NLP,Deep Learning,Text Data,Text Mining,Research Classification

Data Structure ? 0M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    # DBpedia NIFデータセット DBpedia NIF - 大規模かつ多言語の知識抽出コーパスです。このデータセットの目的は二つあります。一つは、DBpedia内の構造化情報の量を劇的に拡大し深化させること、もう一つは、様々な自然言語処理(NLP)および情報検索(IR)タスクの開発に向けた大規模かつ多言語の言語リソースを提供することです。このデータセットは、128のウィキペディア言語におけるすべての記事の内容を提供します。 ## 概要 DBpediaコミュニティは、ウィキペディアから構造化情報を効率的に抽出するための技術インフラストラクチャと方法の開発に多大な努力を注いできました。これらの取り組みは主に、ウィキペディア記事に含まれる半構造化情報、例えばインフォボックスの情報、分類情報、画像、ウィキリンクおよび引用情報などの収集、精錬、公開に焦点を当てていました。しかしながら、未構造化のウィキペディア記事テキストには依然として大量の貴重な情報が含まれています。DBpedia NIFはこれらのギャップを埋め、ウィキペディア記事テキストから貴重な情報を抽出することを目指しています。その核心において、DBpedia NIFは大規模かつ多言語の知識抽出コーパスです。このプロジェクトの目的は二つあります。一つは、DBpedia内の構造化情報の量を劇的に拡大し深化させること、もう一つは、様々なNLPおよびIRタスクの開発に向けた大規模かつ多言語の言語リソースを提供することです。このデータセットは、128のウィキペディア言語におけるすべての記事の内容を提供します。ウィキペディアに記載されている内容をそのまま捕捉し、構造(セクションと段落)とウィキペディアの編集者によって提供された注釈を取得します。 ## 主要な特徴と事実 * 128のウィキペディア言語の内容 * 90億を超えるRDFトリプルが含まれ、これはDBpediaの約40%に相当します * 選択されたパーティションがリンクトデータとして公開されています * TextExt - DBpediaオープン抽出チャレンジ内で活用されています * 大規模なNLPおよびIR手法のトレーニングに利用可能です ## TextExt - DBpediaオープン抽出チャレンジ DBpediaオープンテキスト抽出チャレンジは、言語技術や他の分野の他のチャレンジとは大きく異なります。これは一度限りの呼びかけではなく、持続的に技術水準を向上させ、体系的に境界を超越することを目的とした、継続的に成長拡大するチャレンジです。DBpedia協会とこのチャレンジの背後にいる人々は、必要なインフラストラクチャを提供し、無期限にこのチャレンジを推進するとともに、潜在的にウィキペディアを超えてチャレンジを拡張することにコミットしています。私たちは9種類の異なる言語でDBpedia NIFデータセットからのデータを提供し、あなたのタスクは、このデータに対してあなたのNLPツールを実行し、事実、関係、イベント、用語、オントロジーなどの貴重な情報をRDFトリプルとして、または品詞タグ、依存関係、共参照などの有用なNLP注釈として抽出することです。 ## プロジェクトチーム * ミラン・ドイチノフスキー博士(主要連絡先/メンテナ) * セバスチャン・ヘルマン博士(技術博士)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 263
    • 0
    • 0
    • collect
    • Share