Open Dataset
Data Structure ?
76.29M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈:
ポルトガル語はロマンス語族の言語で、世界中で2億1500万人以上の母語として話されています。スペイン語、英語、フランス語と同様に、その起源国とその国の植民地の両方の公用語でした。このコーパスには、1500年から1936年の間にポルトガルとブラジルの両方で書かれた歴史的なポルトガル語の例が含まれています。
内容:
このコーパスには、1500年から1936年までに出版された完全なポルトガル語の原稿が含まれており、1世紀ごとに5つのサブコーパスに分けられています(下の表にまとめられています)。このコーパス内の単語の品詞(POS)は、[TreeTagger](http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html)を使用してタグ付けされています。このコーパスに関する詳細な情報は、[Coloniaホームページ](http://corporavm.uni-koeln.de/colonia/index.html)で見ることができます。
世紀 テキスト トークン
16世紀 13 399,245
17世紀 18 709,646
18世紀 14 425,624
19世紀 38 2,490,771
20世紀 17 1,132,696
合計 100 5,157,982
テキストは多様性の観点からバランスが取られており、48のヨーロッパポルトガル語のテキストと52のブラジルポルトガル語のテキストで構成されています。コーパスを説明する論文で詳細な情報を見ることができます。テキストの完全な目録はここにあり、アノテーションに関する詳細はここで見ることができます。
品詞(POS)タグ
このコーパス内の作品は、品詞(POS)について自動的にタグ付けされています。コーパスをアノテーションするために使用されるタグセットは、下の表に示されています。これには、古典的な品詞タグ(例:V、DET、N)だけでなく、前置詞と限定詞の組み合わせ(PREP+DET)や動詞と代名詞の組み合わせ(V+P)などのいくつかの複合タグも含まれています。コーパスをアノテーションするために使用されたツールはTreeTaggerです。
カテゴリ POS 例
形容詞 ADJ bonita
副詞 ADV muita
限定詞 DET os
基数詞 CARD primeiro
名詞 NOM mesa
代名詞 P eles
前置詞 PRP de
動詞 V fazer
感嘆詞 I Oh!
コンマ VIRG ,
句読点 SENT .
研究によると、TreeTaggerはトークンの正しい品詞タグと語幹を割り当てる際に95%以上の精度を達成しています。
謝辞:
あなたがあなたの研究でこのコーパスを使用する場合は、この論文を引用してください。
Zampieri, M. and Becker, M. (2013) Colonia: Corpus of Historical Portuguese. In: ZSM Studien, Special Volume on Non-Standard Data Sources in Corpus-Based Research. Volume 5. Shaker.
啓発:
* ポルトガル語は時間とともにどのような変化が起こったのですか?単語は変化しましたか?構文構造は?文法的な一致はどのように表現されますか?
* 未知の作品がどの時代のものかを分類できる分類器を作成できますか?
* このタガーの品詞タグを使用して、新しいタガーを学習させ、下記のリンク先のブラジルポルトガル語文学コーパスに適用できますか?
あなたにおすすめのもの:
[370万語のブラジルポルトガル語文学コーパス](https://www.kaggle.com/rtatman/brazilian-portuguese-literature-corpus)
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.