Select Language

Open Dataset

ワインの品質、回帰または分類モデリングに使用するシンプルでクリーンな練習用データセット

ワインの品質、回帰または分類モデリングに使用するシンプルでクリーンな練習用データセット

0.1M
670 hits
1 likes
2 downloads
0 discuss
Beginner,Earth and Nature,Education,Alcohol Classification

文脈:この2つのデータセットは、ポルトガルのヴィーニョ・ヴェルデワインの赤ワインと白ワインのバリエーションに関連しています。詳細については、参照......

Data Structure ? 0.1M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    背景

    この2つのデータセットは、ポルトガルの「ヴィーニョ・ヴェルデ」ワインの赤ワインと白ワインのバリエーションに関連しています。詳細については、参考文献[Cortez et al., 2009]を参照してください。プライバシーとロジスティックの問題から、物理化学的(入力)および感官的(出力)変数のみが利用可能です(例えば、ブドウの品種、ワインのブランド、ワインの販売価格などのデータはありません)。

    これらのデータセットは、分類または回帰タスクと見なすことができます。クラスは順序付けられており、不均衡です(例えば、優秀または劣悪なワインよりもはるかに多くの普通のワインがあります)。


    このデータセットは、UCI機械学習リポジトリからも入手できます。https://archive.ics.uci.edu/ml/datasets/wine+quality 、私は利便性のためにこれをKaggleに共有しただけです。(もし私が間違っており、公開ライセンスの種類がそうすることを許可していない場合、要求があればこれを削除します。)

    内容

    詳細については、[Cortez et al., 2009]を読んでください。

    入力変数(物理化学的試験に基づく):

    1 - 固定酸度

    2 - 揮発酸

    3 - クエン酸

    4 - 残留糖

    5 - 塩化物

    6 - 遊離二酸化硫黄

    7 - 総二酸化硫黄

    8 - 密度

    9 - pH

    10 - 硫酸塩

    11 - アルコール

    出力変数(感官データに基づく):

    12 - 品質(0から10までのスコア)

    ヒント

    興味深いことは、回帰モデリングを使用する以外に、従属変数(ワインの品質)に任意のカットオフを設定することです。例えば、7以上を「良い/1」と分類し、残りを「良くない/0」と分類します。
    これにより、例えば決定木アルゴリズムのハイパーパラメータチューニングを行い、ROC曲線とAUC値を見ることができます。
    何らかの特徴量エンジニアリングや過学習を行わずに、(ランダムフォレストアルゴリズムを使用しなくても)AUCが0.88になるはずです。

    KNIMEは、これに使用できる素晴らしいツール(GUI)です。

    1 - ファイルリーダー(CSV用)を線形相関ノードとインタラクティブヒストグラムに接続して、基本的なEDAを行います。

    2 - ファイルリーダーを「ルールエンジンノード」に接続して、10段階のスケールを2値変数(良いワインとそれ以外)に変換します。ルールエンジンに入力するコードは次のようなものです:

    • $quality$ > 6.5 => "良い"

    • TRUE => "悪い"

      3 - ルールエンジンノードの出力を列フィルターノードの入力に接続して、元の10段階の特徴量をフィルタリングします(これによりリークを防ぎます)。

      4 - 列フィルターノードの出力を分割ノードの入力に接続します(標準的な学習/テスト分割、例えば75%/25%、「ランダム」または「層化」を選択)。

      5 - 分割ノードの学習データ分割出力を決定木学習器ノードの入力に接続します。

      6 - 分割ノードのテストデータ分割出力を決定木予測器ノードの入力に接続します。

      7 - 決定木学習器ノードの出力を決定木ノードの入力に接続します。

      8 - 決定木の出力をROCノードの入力に接続します。(ここで、AUC値に基づいてモデルを評価できます)

    着想

    機械学習を使って、どの物理化学的特性がワインを「良い」にするかを判断しましょう!

    謝辞

    このデータセットは、UCI機械学習リポジトリからも入手できます。https://archive.ics.uci.edu/ml/datasets/wine+quality 、私は利便性のためにこれをKaggleに共有しただけです。(もし私が間違っており、公開ライセンスの種類がそうすることを許可していない場合、最初の要求でこれを削除します。私はこのデータセットの所有者ではありません。)

    このデータベースを使用する予定の場合は、次の引用を含めてください: P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. 物理化学的特性からのデータマイニングによるワインの嗜好モデリング。Decision Support Systems, Elsevier, 47(4):547-553, 2009.

    関連文献

    P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. 物理化学的特性からのデータマイニングによるワインの嗜好モデリング。
    Decision Support Systems, Elsevier, 47(4):547-553, 2009.


    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:6 Go earn points?
    • 670
    • 2
    • 1
    • collect
    • Share