Select Language

Open Dataset

コロニア・ポルトガル語歴史コーパス

コロニア・ポルトガル語歴史コーパス

76.29M
696 hits
0 likes
0 downloads
0 discuss
Literature,Linguistics,History,Languages,Brazil Classification

Data Structure ? 76.29M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    文脈: ポルトガル語はロマンス語族の言語で、世界中で2億1500万人以上の母語として話されています。スペイン語、英語、フランス語と同様に、その起源国とその国の植民地の両方の公用語でした。このコーパスには、1500年から1936年の間にポルトガルとブラジルの両方で書かれた歴史的なポルトガル語の例が含まれています。 内容: このコーパスには、1500年から1936年までに出版された完全なポルトガル語の原稿が含まれており、1世紀ごとに5つのサブコーパスに分けられています(下の表にまとめられています)。このコーパス内の単語の品詞(POS)は、[TreeTagger](http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html)を使用してタグ付けされています。このコーパスに関する詳細な情報は、[Coloniaホームページ](http://corporavm.uni-koeln.de/colonia/index.html)で見ることができます。 世紀 テキスト トークン 16世紀 13 399,245 17世紀 18 709,646 18世紀 14 425,624 19世紀 38 2,490,771 20世紀 17 1,132,696 合計 100 5,157,982 テキストは多様性の観点からバランスが取られており、48のヨーロッパポルトガル語のテキストと52のブラジルポルトガル語のテキストで構成されています。コーパスを説明する論文で詳細な情報を見ることができます。テキストの完全な目録はここにあり、アノテーションに関する詳細はここで見ることができます。 品詞(POS)タグ このコーパス内の作品は、品詞(POS)について自動的にタグ付けされています。コーパスをアノテーションするために使用されるタグセットは、下の表に示されています。これには、古典的な品詞タグ(例:V、DET、N)だけでなく、前置詞と限定詞の組み合わせ(PREP+DET)や動詞と代名詞の組み合わせ(V+P)などのいくつかの複合タグも含まれています。コーパスをアノテーションするために使用されたツールはTreeTaggerです。 カテゴリ POS 例 形容詞 ADJ bonita 副詞 ADV muita 限定詞 DET os 基数詞 CARD primeiro 名詞 NOM mesa 代名詞 P eles 前置詞 PRP de 動詞 V fazer 感嘆詞 I Oh! コンマ VIRG , 句読点 SENT . 研究によると、TreeTaggerはトークンの正しい品詞タグと語幹を割り当てる際に95%以上の精度を達成しています。 謝辞: あなたがあなたの研究でこのコーパスを使用する場合は、この論文を引用してください。 Zampieri, M. and Becker, M. (2013) Colonia: Corpus of Historical Portuguese. In: ZSM Studien, Special Volume on Non-Standard Data Sources in Corpus-Based Research. Volume 5. Shaker. 啓発: * ポルトガル語は時間とともにどのような変化が起こったのですか?単語は変化しましたか?構文構造は?文法的な一致はどのように表現されますか? * 未知の作品がどの時代のものかを分類できる分類器を作成できますか? * このタガーの品詞タグを使用して、新しいタガーを学習させ、下記のリンク先のブラジルポルトガル語文学コーパスに適用できますか? あなたにおすすめのもの: [370万語のブラジルポルトガル語文学コーパス](https://www.kaggle.com/rtatman/brazilian-portuguese-literature-corpus)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 696
    • 0
    • 0
    • collect
    • Share