Open Dataset
Data Structure ?
0.1M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
背景
この2つのデータセットは、ポルトガルの「ヴィーニョ・ヴェルデ」ワインの赤ワインと白ワインのバリエーションに関連しています。詳細については、参考文献[Cortez et al., 2009]を参照してください。プライバシーとロジスティックの問題から、物理化学的(入力)および感官的(出力)変数のみが利用可能です(例えば、ブドウの品種、ワインのブランド、ワインの販売価格などのデータはありません)。
これらのデータセットは、分類または回帰タスクと見なすことができます。クラスは順序付けられており、不均衡です(例えば、優秀または劣悪なワインよりもはるかに多くの普通のワインがあります)。
このデータセットは、UCI機械学習リポジトリからも入手できます。https://archive.ics.uci.edu/ml/datasets/wine+quality 、私は利便性のためにこれをKaggleに共有しただけです。(もし私が間違っており、公開ライセンスの種類がそうすることを許可していない場合、要求があればこれを削除します。)
内容
詳細については、[Cortez et al., 2009]を読んでください。
入力変数(物理化学的試験に基づく):
1 - 固定酸度
2 - 揮発酸
3 - クエン酸
4 - 残留糖
5 - 塩化物
6 - 遊離二酸化硫黄
7 - 総二酸化硫黄
8 - 密度
9 - pH
10 - 硫酸塩
11 - アルコール
出力変数(感官データに基づく):
12 - 品質(0から10までのスコア)
ヒント
興味深いことは、回帰モデリングを使用する以外に、従属変数(ワインの品質)に任意のカットオフを設定することです。例えば、7以上を「良い/1」と分類し、残りを「良くない/0」と分類します。
これにより、例えば決定木アルゴリズムのハイパーパラメータチューニングを行い、ROC曲線とAUC値を見ることができます。
何らかの特徴量エンジニアリングや過学習を行わずに、(ランダムフォレストアルゴリズムを使用しなくても)AUCが0.88になるはずです。
KNIMEは、これに使用できる素晴らしいツール(GUI)です。
1 - ファイルリーダー(CSV用)を線形相関ノードとインタラクティブヒストグラムに接続して、基本的なEDAを行います。
2 - ファイルリーダーを「ルールエンジンノード」に接続して、10段階のスケールを2値変数(良いワインとそれ以外)に変換します。ルールエンジンに入力するコードは次のようなものです:
$quality$ > 6.5 => "良い"
TRUE => "悪い"
3 - ルールエンジンノードの出力を列フィルターノードの入力に接続して、元の10段階の特徴量をフィルタリングします(これによりリークを防ぎます)。
4 - 列フィルターノードの出力を分割ノードの入力に接続します(標準的な学習/テスト分割、例えば75%/25%、「ランダム」または「層化」を選択)。
5 - 分割ノードの学習データ分割出力を決定木学習器ノードの入力に接続します。
6 - 分割ノードのテストデータ分割出力を決定木予測器ノードの入力に接続します。
7 - 決定木学習器ノードの出力を決定木ノードの入力に接続します。
8 - 決定木の出力をROCノードの入力に接続します。(ここで、AUC値に基づいてモデルを評価できます)
着想
機械学習を使って、どの物理化学的特性がワインを「良い」にするかを判断しましょう!
謝辞
このデータセットは、UCI機械学習リポジトリからも入手できます。https://archive.ics.uci.edu/ml/datasets/wine+quality 、私は利便性のためにこれをKaggleに共有しただけです。(もし私が間違っており、公開ライセンスの種類がそうすることを許可していない場合、最初の要求でこれを削除します。私はこのデータセットの所有者ではありません。)
このデータベースを使用する予定の場合は、次の引用を含めてください: P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. 物理化学的特性からのデータマイニングによるワインの嗜好モデリング。Decision Support Systems, Elsevier, 47(4):547-553, 2009.
関連文献
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. 物理化学的特性からのデータマイニングによるワインの嗜好モデリング。
Decision Support Systems, Elsevier, 47(4):547-553, 2009.
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.