Open Dataset
Data Structure ?
62.91M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
**`大規模映画レビューデータセット v1.0`** 。

これは、以前のベンチマークデータセットよりも大幅に多くのデータを含む二値感情分類用のデータセットです。トレーニング用に25,000件の非常に極端な映画レビューと、テスト用に25,000件のレビューが提供されています。また、ラベル付けされていない追加のデータもあります。生テキストとすでに処理された単語バッグ形式が提供されています。
全コレクションでは、同じ映画のレビューは評価が相関する傾向があるため、任意の映画について30件以上のレビューは許可されていません。さらに、トレーニングセットとテストセットは互いに排他的な映画のセットを含んでいるため、映画固有の用語とそれに関連付けられた観測ラベルを暗記することでは、有意なパフォーマンスは得られません。ラベル付けされたトレーニング/テストセットでは、`ネガティブ`なレビューは**10点満点で4点以下**、`ポジティブ`なレビューは**10点満点で7点以上**のスコアを持ちます。したがって、中立的な評価のレビューはトレーニング/テストセットに含まれていません。教師なしセットでは、あらゆる評価のレビューが含まれており、**5点を超える**レビューと**5点以下**のレビューの数は同じです。
**`参考文献:`** http://ai.stanford.edu/~amaas/data/sentiment/
***注意***
**`スターターカーネルはこちら :`** https://www.kaggle.com/atulanandjha/bert-testing-on-imdb-dataset-starter-kernel
**`データセットコレクションを公開するカーネル :`**
内容
では、現在のタスクを理解しましょう。映画レビューが与えられた場合、それが`ポジティブ`か`ネガティブ`かを予測することです。
私たちが使用するデータセットは、**PyTorch-NLP**ライブラリからの**50,000件のIMDBレビュー**(**トレーニング用25,000件、テスト用25,000件**)です。
各レビューには**pos**または**neg**のタグが付けられています。
トレーニングセットとテストセットの両方に、**50%のポジティブなレビュー**と**50%のネガティブなレビュー**があります。
列:
`text :` 人々からのレビュー。
`Sentiment :` レビュー/フィードバックに付けられたネガティブまたはポジティブのタグ(ブール値)。
謝辞
**このデータセットを使用する場合は、次のACL論文を`引用`してください :**
> @InProceedings{
> maas-EtAl:2011:ACL-HLT2011,
> author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
> title = {Learning Word Vectors for Sentiment Analysis},
> booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
> month = {June},
> year = {2011},
> address = {Portland, Oregon, USA},
> publisher = {Association for Computational Linguistics},
> pages = {142--150},
> url = {http://www.aclweb.org/anthology/P11-1015}
> }
**参照データセットのリンク:** https://pytorchnlp.readthedocs.io/en/latest/_modules/torchnlp/datasets/imdb.html
https://www.samyzaf.com/ML/imdb/imdb.html
インスピレーション
BERTや他のTransformerアーキテクチャモデルは、最近、NLPにおける転移学習の導入による大きな突破口のため、常に話題になっています。では、このシンプルで効率的なデータセットを使ってこれらのモデルをテストし、また彼らの結果と私たちの結果を比較しましょう。また、仲間の研究者にもこのデータセットで最新のアルゴリズムを試してみることをお勧めします。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.