Open Dataset
Data Structure ?
381.2M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
Quoraは知識を獲得し共有する質問と回答のプラットフォームであり、人々が相互に学び、世界をより良く理解することを促進することができます。毎月1億人以上がQuoraを訪問するため、多くの人が似たような質問をする可能性があります。しかし、これらの類似した意図を持つ質問は、求める人が最適な答えを見つけるまでにより多くの時間を費やす必要があり、回答者も多くの質問が重複していると感じるかもしれません。
類似した意図を持つ質問をより良く発掘し、ユーザーが質問の高品質な答えをより速く見つけるのを助け、ユーザー体験を向上させるために、QuoraはKaggleで今回のコンペティション「Quora Question Pairs」を開催しました。
今回のコンペティションの目標は、提供された質問ペアの中で、同じ意味を持つ2つの質問を含むペアを予測することです。グラウンドトゥルースは人間の専門家によって提供された一連のラベルです。理由真理ラベルは本質的に主観的であり、文の真の意味を正確に知ることは決してできません。人間によるラベル付けも「ノイズの多い」プロセスであり、合理的な人でも意見が一致しないことがあります。したがって、このデータセット上のグラウンドトゥルースラベルは「参考となる」ものと見なすべきですが、100%正確であるとは限らず、誤ったラベルが含まれている可能性もあります。私たちは、全体として、ラベルは合理的なコンセンサスを表していると考えていますが、データセット内の個々の項目の状況によっては、そうでないことも多いです。
**注意:**不正防止策として、Kaggleはテストセットにコンピューター生成の質問ペアを追加しています。これらの行はQuoraからのものではなく、評価には含まれません。訓練セット内のすべての質問はQuoraの実際の例です。
フィールドの説明:
ID - 訓練セットの質問ペアのID
qid1、qid2 - 各質問の一意のID(train.csvにのみ提供されます)
質問1、質問2 - 各質問の全文
is_duplicate - 目的変数。質問1と質問2の意味が基本的に同じであれば1、そうでなければ0に設定されます。
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.