Open Dataset
Data Structure ?
2.02M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
文脈
ほとんどの教師あり機械学習タスクでは、明確に定義されたターゲットラベルセットを持つデータセットを前提としています。しかし、学習済みモデルが現実世界に遭遇した場合、つまり学習済みモデルへの入力が明確に定義されたターゲットラベルセットに属さない場合、何が起こるでしょうか?このデータセットは、「範囲外」の入力に対する意図分類モデルを評価する方法を提供します。
「範囲外」の入力とは、「範囲内」のターゲットラベルセットに属さない入力のことです。「範囲外」を表す他の表現として、「ドメイン外」や「分布外」などがあるかもしれません。
内容
- `is_*.json`:これらのファイルには、範囲内データの学習/検証/テストセットが格納されています。範囲内の「意図」(別名クラス)は150種類あり、「残高はいくらですか」(`balance` クラスに属する)などのサンプルが含まれます。
- `oos_*.json`:これらのファイルには、範囲外データの学習/検証/テストセットが格納されています。範囲外の意図は1種類あり、`oos` です。`oos_train.json` のデータを使用する必要はありません。言い換えると、範囲外の問題に対する機械学習ソリューションは、範囲外のデータで学習する必要はありませんが、役に立つかもしれません!
評価指標
このタスクは意図分類であり、テキスト分類(またはカテゴリ化)に一般化されます。これは教師あり機械学習の問題です。評価には2つの指標を使用します。
- 範囲内精度は、(正しく分類された範囲内サンプル数)/(範囲内サンプル数)と定義されます。
- 範囲外再現率は、(正しく分類された範囲外サンプル数)/(範囲外サンプル数)と定義されます。
謝辞
このデータセットは、Larsonらによる *[An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction](https://www.aclweb.org/anthology/D19-1131.pdf)* からのもので、2019年にEMNLPで公開されました。このデータセットのGitHubページは [こちら](https://github.com/clinc/oos-eval) です。
着想
ほとんどの教師あり機械学習タスクでは、明確に定義されたターゲットラベルセットを持つデータセットを前提としています。しかし、学習済みモデルが現実世界に遭遇した場合、つまり学習済みモデルへの入力が明確に定義されたターゲットラベルセットに属さない場合、何が起こるでしょうか?この「分布外」の問題は最近多くの進展が見られています。学界と産業界の研究者や実務者が、多くの機械学習手法が様々なタスクで分布外のデータに苦労していることを観察しているからです。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.