Open Dataset
Data Structure ?
143.84M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
クレジットカード会社が不正なクレジットカード取引を認識できることは重要です。そうすることで、顧客が購入していない商品の料金を請求されることがなくなります。
内容
このデータセットには、2013年9月にヨーロッパのカード保有者によるクレジットカード取引が含まれています。
このデータセットは、2日間に発生した取引を示しており、284,807件の取引のうち492件が不正取引です。データセットは非常に不均衡で、陽性クラス(不正取引)はすべての取引の0.172%を占めています。
このデータセットには、PCA変換の結果である数値入力変数のみが含まれています。残念ながら、機密性の問題から、元の特徴量やデータに関する詳細な背景情報を提供することはできません。特徴量V1、V2、…、V28はPCAで得られた主成分で、PCAで変換されていない唯一の特徴量は「Time」と「Amount」です。特徴量「Time」には、各取引とデータセット内の最初の取引との間に経過した秒数が含まれています。特徴量「Amount」は取引金額で、この特徴量は例に依存するコスト感受性学習に使用できます。特徴量「Class」は応答変数で、不正取引の場合は1、それ以外の場合は0を取ります。
クラス不均衡の比率を考慮すると、適合率 - 再現率曲線の下の面積(AUPRC)を使用して精度を測定することをおすすめします。混合行列の精度は、不均衡な分類には意味がありません。
更新 (2021年3月5日)
取引データのシミュレータが、クレジットカード不正検出のための機械学習実践ハンドブックの一部として公開されました - https://fraud-detection-handbook.github.io/fraud-detection-handbook/Chapter_3_GettingStarted/SimulatedDataset.html。 不正検出データセットに興味のあるすべての実務者に、このデータシミュレータと、書籍に掲載されているクレジットカード不正検出の方法論もご確認いただきたいと思います。
謝辞
このデータセットは、WorldlineとULB(ブリュッセル自由大学)の機械学習グループ(http://mlg.ulb.ac.be)が共同で行った、ビッグデータマイニングと不正検出に関する研究の際に収集・分析されました。
関連トピックに関する現在および過去のプロジェクトの詳細は、https://www.researchgate.net/project/Fraud-detection-5 および DefeatFraud プロジェクトのページで確認できます。
以下の論文を引用してください。
Andrea Dal Pozzolo、Olivier Caelen、Reid A. Johnson、Gianluca Bontempi。アンダーサンプリングを用いた不均衡分類の確率較正。コンピューテーショナルインテリジェンスとデータマイニングシンポジウム(CIDM)、IEEE、2015年
Dal Pozzolo、Andrea;Caelen、Olivier;Le Borgne、Yann - Ael;Waterschoot、Serge;Bontempi、Gianluca。実務者の視点からのクレジットカード不正検出の教訓、エキスパートシステムとその応用、41、10、4915 - 4928、2014年、パーガモン
Dal Pozzolo、Andrea;Boracchi、Giacomo;Caelen、Olivier;Alippi、Cesare;Bontempi、Gianluca。クレジットカード不正検出:現実的なモデリングと新しい学習戦略、IEEEニューラルネットワークと学習システムトランザクション、29、8、3784 - 3797、2018年、IEEE
Dal Pozzolo、Andrea クレジットカード不正検出のための適応的機械学習 ULB MLG博士論文(G. Bontempiによる指導)
Carcillo、Fabrizio;Dal Pozzolo、Andrea;Le Borgne、Yann - Aël;Caelen、Olivier;Mazzer、Yannis;Bontempi、Gianluca。Scarff:Sparkを用いたストリーミングクレジットカード不正検出のためのスケーラブルなフレームワーク、情報融合、41、182 - 194、2018年、エルゼビア
Carcillo、Fabrizio;Le Borgne、Yann - Aël;Caelen、Olivier;Bontempi、Gianluca。実生活のクレジットカード不正検出のためのストリーミング能動学習戦略:評価と可視化、国際データサイエンスと分析ジャーナル、5、4、285 - 300、2018年、スプリンガー国際出版
Bertrand Lebichot、Yann - Aël Le Borgne、Liyun He、Frederic Oblé、Gianluca Bontempi クレジットカード不正検出のための深層学習ドメイン適応技術、INNSBDDL 2019:ビッグデータと深層学習の最新進展、pp 78 - 88、2019年
Fabrizio Carcillo、Yann - Aël Le Borgne、Olivier Caelen、Frederic Oblé、Gianluca Bontempi クレジットカード不正検出における教師なし学習と教師あり学習の組み合わせ 情報科学、2019年
Yann - Aël Le Borgne、Gianluca Bontempi クレジットカード不正検出のための機械学習 - 実践ハンドブック
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
- Share your thoughts
ALL
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.