Select Language

Open Dataset

IMDB 50K映画レビュー(あなたのBERTをテストする)

IMDB 50K映画レビュー(あなたのBERTをテストする)

62.91M
280 hits
0 likes
0 downloads
0 discuss
Arts and Entertainment,Internet,Movies and TV Shows,NLP,Text Data,Art Classification

Data Structure ? 62.91M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    コンテキスト **`大規模映画レビューデータセット v1.0`** 。 ![IMDBの壁](https://static.amazon.jobs/teams/53/images/IMDb_Header_Page.jpg?1501027252) これは、以前のベンチマークデータセットよりも大幅に多くのデータを含む二値感情分類用のデータセットです。トレーニング用に25,000件の非常に極端な映画レビューと、テスト用に25,000件のレビューが提供されています。また、ラベル付けされていない追加のデータもあります。生テキストとすでに処理された単語バッグ形式が提供されています。 全コレクションでは、同じ映画のレビューは評価が相関する傾向があるため、任意の映画について30件以上のレビューは許可されていません。さらに、トレーニングセットとテストセットは互いに排他的な映画のセットを含んでいるため、映画固有の用語とそれに関連付けられた観測ラベルを暗記することでは、有意なパフォーマンスは得られません。ラベル付けされたトレーニング/テストセットでは、`ネガティブ`なレビューは**10点満点で4点以下**、`ポジティブ`なレビューは**10点満点で7点以上**のスコアを持ちます。したがって、中立的な評価のレビューはトレーニング/テストセットに含まれていません。教師なしセットでは、あらゆる評価のレビューが含まれており、**5点を超える**レビューと**5点以下**のレビューの数は同じです。 **`参考文献:`** http://ai.stanford.edu/~amaas/data/sentiment/ ***注意*** **`スターターカーネルはこちら :`** https://www.kaggle.com/atulanandjha/bert-testing-on-imdb-dataset-starter-kernel **`データセットコレクションを公開するカーネル :`** 内容 では、現在のタスクを理解しましょう。映画レビューが与えられた場合、それが`ポジティブ`か`ネガティブ`かを予測することです。 私たちが使用するデータセットは、**PyTorch-NLP**ライブラリからの**50,000件のIMDBレビュー**(**トレーニング用25,000件、テスト用25,000件**)です。 各レビューには**pos**または**neg**のタグが付けられています。 トレーニングセットとテストセットの両方に、**50%のポジティブなレビュー**と**50%のネガティブなレビュー**があります。 列: `text :` 人々からのレビュー。 `Sentiment :` レビュー/フィードバックに付けられたネガティブまたはポジティブのタグ(ブール値)。 謝辞 **このデータセットを使用する場合は、次のACL論文を`引用`してください :** > @InProceedings{ > maas-EtAl:2011:ACL-HLT2011, > author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher}, > title = {Learning Word Vectors for Sentiment Analysis}, > booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies}, > month = {June}, > year = {2011}, > address = {Portland, Oregon, USA}, > publisher = {Association for Computational Linguistics}, > pages = {142--150}, > url = {http://www.aclweb.org/anthology/P11-1015} > } **参照データセットのリンク:** https://pytorchnlp.readthedocs.io/en/latest/_modules/torchnlp/datasets/imdb.html https://www.samyzaf.com/ML/imdb/imdb.html インスピレーション BERTや他のTransformerアーキテクチャモデルは、最近、NLPにおける転移学習の導入による大きな突破口のため、常に話題になっています。では、このシンプルで効率的なデータセットを使ってこれらのモデルをテストし、また彼らの結果と私たちの結果を比較しましょう。また、仲間の研究者にもこのデータセットで最新のアルゴリズムを試してみることをお勧めします。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 280
    • 0
    • 0
    • collect
    • Share