Select Language

Open Dataset

UCI SECOMデータセット

UCI SECOMデータセット

5.78M
395 hits
0 likes
0 downloads
0 discuss
Earth and Nature,Feature Engineering,Categorical Data,Manufacturing Classification

Data Structure ? 5.78M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    コンテキスト 製造プロセスの特徴選択と分類 内容 概要:半導体製造プロセスのデータ - データセットの特性:多変量 - インスタンス数:1567 - 領域:コンピュータ - 属性の特性:実数 - 属性数:591 - 提供日:2008年11月19日 - 関連タスク:分類、因果関係発見 - 欠損値:あり 複雑な現代の半導体製造プロセスは通常、センサーやプロセス測定点から収集された信号/変数を監視することで、継続的に監視されています。しかし、これらの信号すべてが特定の監視システムにおいて同等の価値を持つわけではありません。測定された信号には、有用な情報、関係のない情報、およびノイズが組み合わされています。多くの場合、有用な情報は後者の2つの中に埋もれています。エンジニアは通常、実際に必要なよりもはるかに多くの信号を持っています。各タイプの信号を特徴と考えると、特徴選択を適用して最も関連性の高い信号を特定することができます。その後、プロセスエンジニアはこれらの信号を使用して、プロセスの下流で歩留まりの逸脱に寄与する主要な要因を特定することができます。これにより、プロセスのスループットが向上し、学習時間が短縮され、単位生産コストが削減されます。 現在のビジネス改善手法を強化するために、知能システム技術としての特徴選択の適用が調査されています。 このケースで提示されるデータセットは、そのような特徴の選択を表しており、各例は関連する測定特徴を持つ単一の生産エンティティを表し、ラベルは社内ラインテストの単純な合格/不合格歩留まりと関連する日時スタンプを表します(図2)。ここで、0.1は合格を、1は不合格を表し、データの日時スタンプはその特定のテストポイントのものです。 特徴選択技術を使用して、製品の全体的な歩留まりに対する影響に基づいて特徴をランク付けすることが望まれています。因果関係も考慮して、主要な特徴を特定することもできます。 結果は、誤差率を評価指標として使用して、予測可能性に関する特徴の関連性の観点で提出することができます。これらの結果を生成するために交差検証を適用することが提案されています。以下に、単純なカーネルリッジ分類器と10分割交差検証を使用した基本的な特徴選択技術のいくつかのベースライン結果を示します。 ベースライン結果:前処理オブジェクトをデータセットに適用して、データを標準化し、定数特徴を削除した後、上位40の特徴を選択するいくつかの異なる特徴選択オブジェクトを単純な分類器とともに適用して、いくつかの初期結果を得ました。10分割交差検証を使用し、バランスされた誤差率(*BER)を初期のパフォーマンス指標として生成して、このデータセットを調査しました。 SECOMデータセット:1567例、591特徴、104件の不合格 FS手法(40特徴) BER% 真陽性% 真陰性% S2N(信号対雑音比) 34.5 ±2.6 57.8 ±5.3 73.1 ±2.1 T検定 33.7 ±2.1 59.6 ±4.7 73.0 ±1.8 リリーフ法 40.1 ±2.8 48.3 ±5.9 71.6 ±3.2 ピアソン法 34.1 ±2.0 57.4 ±4.3 74.4 ±4.9 F検定 33.5 ±2.2 59.1 ±4.8 73.8 ±1.8 グラム・シュミット法 35.6 ±2.4 51.2 ±11.8 77.5 ±2.3 ----------------------------------------------------- 属性情報: 重要事項:データ構造:データは2つのファイルで構成されています。データセットファイルSECOMは1567例を含み、各例には591の特徴があり、1567×591の行列です。ラベルファイルには、各例の分類と日時スタンプが含まれています。 実際のデータの状況と同様に、このデータには、個々の特徴に応じて強度が異なるヌル値が含まれています。これは、データを調査する際に、前処理または適用される手法の中で考慮する必要があります。 データは生テキストファイルで表され、各行は個々の例を表し、特徴は空白で区切られています。ヌル値はMatLabに準じて 'NaN' 値で表されています。 謝辞 著者:マイケル・マッケン、エイドリアン・ジョンストン 着想 - 半導体製造には、各プロセスの多次元的な記述があります。ビッグデータ技術を使用して、重要なパフォーマンス指標を見つけることはできますか?
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 395
    • 0
    • 0
    • collect
    • Share