Open Dataset
Data Structure ?
1743.96M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
目標
これは、OpenDataScienceとアムステルダムデータサイエンスコミュニティ内でユーリ・カシニツキーが主導する小規模なプロジェクトです。我々は、主に分類タスクを対象とした自然言語処理(NLP)タスクにおける転移学習と半教師あり学習技術を探索する予定です。このアイデアは、BERTやULMFiT(おそらく他のモデルも含む)などのモデルを本番環境で使用するためのベストプラクティスを開発することです。この共同作業の可能な成果は以下の通りです。
- 主に、このグループ内での経験共有と、各自のプロジェクトの進展
- 我々の経験を共有する記事(例:Medium)
- 共有モデル、例えばオランダ語のULMFiT用に学習された言語モデル
- 小規模なライブラリ、例えばULMFiTモデルを本番環境に導入するためのもの(もしそれが最も効果的であると判明した場合)
誰でも参加し、Kernelsやディスカッションを通じて**調査結果を共有**することが歓迎されます。
データセット
我々は、英語、ロシア語、オランダ語のいくつかのデータセットを収集しています。それぞれのデータセットは**一般的なタスク**を対象としており、大量のラベルなしテキストを利用して(少ない)ラベル付きテキストの分類を改善することです。したがって、各タスクには以下のファイルがあります。
- train.csv(小規模)
- validation.csv(小規模)
- unlabeled.csv(大規模)
- test.csv(コンペティション内ではオプション)
現在のデータセットは以下の通りです。
- アマゾンペット用品レビュー分類(英語、6クラス、訓練データ52,000件、検証データ17,000件、テストデータ17,000件、ラベルなしデータ100,000件)、[コンペティション](https://www.kaggle.com/c/amazon-pet-product-reviews-classification/) 、ベースラインとして[Kernels](https://www.kaggle.com/c/amazon-pet-product-reviews-classification/kernels) を参照:ロジスティック回帰-TF-IDF、ULMFiT、BERT
- アマゾンヘルスケアレビュー(英語)(6クラス、訓練データ7,000件、検証データ3,000件、ラベルなしデータ200,000件)
- クリックバイトニュース検出(英語、3クラス、訓練データ25,000件、検証データ5,500件、テストデータ3,500件、ラベルなしデータ80,000件)、 [コンペティション](https://www.kaggle.com/c/clickbait-news-detection) 、ベースラインとして[Kernels](https://www.kaggle.com/c/clickbait-news-detection/kernels) を参照:ロジスティック回帰-TF-IDF、ULMFiT、BERT。
- オランダ語の本のレビュー(オランダ語、2クラス、訓練データ14,000件、検証データ6,000件、検証データ90,000件)。
謝辞
クリックバイトニュースデータについては、ウラジスラフ・リャリンに感謝します(元の[コンペティション](https://www.kaggle.com/c/dlinnlp-spring-2019-clf) はipavlovによるもの)。オランダ語のレビューデータについては、[ベンジャミン・ヴァン・デル・ブルーフ](https://github.com/benjaminvdb) に感謝します(ソース[リポジトリ](https://github.com/benjaminvdb/110kDBRD) )。
背景画像の著作権:ジェレミー・ハワード、[fast.ai Lesson 4](https://course.fast.ai/videos/?lesson=4)
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.