Select Language

Open Dataset

自然言語処理のために転移学習を探索する

自然言語処理のために転移学習を探索する

1743.96M
890 hits
0 likes
0 downloads
0 discuss
Business,Education,Social Science,NLP,Classification,Research,Transfer Learning Classification

Data Structure ? 1743.96M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    目標 これは、OpenDataScienceとアムステルダムデータサイエンスコミュニティ内でユーリ・カシニツキーが主導する小規模なプロジェクトです。我々は、主に分類タスクを対象とした自然言語処理(NLP)タスクにおける転移学習と半教師あり学習技術を探索する予定です。このアイデアは、BERTやULMFiT(おそらく他のモデルも含む)などのモデルを本番環境で使用するためのベストプラクティスを開発することです。この共同作業の可能な成果は以下の通りです。 - 主に、このグループ内での経験共有と、各自のプロジェクトの進展 - 我々の経験を共有する記事(例:Medium) - 共有モデル、例えばオランダ語のULMFiT用に学習された言語モデル - 小規模なライブラリ、例えばULMFiTモデルを本番環境に導入するためのもの(もしそれが最も効果的であると判明した場合) 誰でも参加し、Kernelsやディスカッションを通じて**調査結果を共有**することが歓迎されます。 データセット 我々は、英語、ロシア語、オランダ語のいくつかのデータセットを収集しています。それぞれのデータセットは**一般的なタスク**を対象としており、大量のラベルなしテキストを利用して(少ない)ラベル付きテキストの分類を改善することです。したがって、各タスクには以下のファイルがあります。 - train.csv(小規模) - validation.csv(小規模) - unlabeled.csv(大規模) - test.csv(コンペティション内ではオプション) 現在のデータセットは以下の通りです。 - アマゾンペット用品レビュー分類(英語、6クラス、訓練データ52,000件、検証データ17,000件、テストデータ17,000件、ラベルなしデータ100,000件)、[コンペティション](https://www.kaggle.com/c/amazon-pet-product-reviews-classification/) 、ベースラインとして[Kernels](https://www.kaggle.com/c/amazon-pet-product-reviews-classification/kernels) を参照:ロジスティック回帰-TF-IDF、ULMFiT、BERT - アマゾンヘルスケアレビュー(英語)(6クラス、訓練データ7,000件、検証データ3,000件、ラベルなしデータ200,000件) - クリックバイトニュース検出(英語、3クラス、訓練データ25,000件、検証データ5,500件、テストデータ3,500件、ラベルなしデータ80,000件)、 [コンペティション](https://www.kaggle.com/c/clickbait-news-detection) 、ベースラインとして[Kernels](https://www.kaggle.com/c/clickbait-news-detection/kernels) を参照:ロジスティック回帰-TF-IDF、ULMFiT、BERT。 - オランダ語の本のレビュー(オランダ語、2クラス、訓練データ14,000件、検証データ6,000件、検証データ90,000件)。 謝辞 クリックバイトニュースデータについては、ウラジスラフ・リャリンに感謝します(元の[コンペティション](https://www.kaggle.com/c/dlinnlp-spring-2019-clf) はipavlovによるもの)。オランダ語のレビューデータについては、[ベンジャミン・ヴァン・デル・ブルーフ](https://github.com/benjaminvdb) に感謝します(ソース[リポジトリ](https://github.com/benjaminvdb/110kDBRD) )。 背景画像の著作権:ジェレミー・ハワード、[fast.ai Lesson 4](https://course.fast.ai/videos/?lesson=4)
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 890
    • 0
    • 0
    • collect
    • Share