Open Dataset
Data Structure ?
5553.84M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
[最初から始める][1]。惑星、人間、恒星などができている通常の物質は、宇宙の質量のわずか5%を占めています。残りは、重力効果を通じてその存在が示唆される、目に見えない暗黒物質と暗黒エネルギーです。これらの謎を研究する方法の1つは、素粒子加速器でビッグバン直後の状況を再現することです。大雑把な例えをすると、自動車を超音速で衝突させ、衝突の写真を見て自動車の仕組みを理解しようとするようなものです。そのような「写真カメラ」の1つがLHCb検出器です。
これは、大型ハドロン衝突型加速器(LHC)の4つの大規模実験の1つであるLHCb検出器によって記録された典型的な衝突イベントです。左の点は陽子が衝突した場所で、線は二次粒子の軌跡です。
![LHCb検出器によって記録された典型的な衝突イベント][2]
ミューオン副検出器(下の図を参照)は、5つのステーション(ビーム管に垂直な有感面)から構成されています。競技ではそのうちの4つ(M2 - M5)のみが使用されます。上の3D図の緑色の平行六面体は、荷電粒子が通過したことを記録した検出器パッドです。物理的な考え方は、ミューオンだけが、ミューオン副検出器と他の検出器を隔てる鉛製の遮蔽物を通過するのに十分な透過能力を持っているというものです。もちろん、現実世界ではすべての信号がミューオンによって生成されるわけではないため、機械学習が必要になります。
![ミューオン副検出器][3]
あなたには、ミューオン、パイオン、陽子の3種類の軌跡が与えられます。パイオンは飛行中に真のミューオンに崩壊する可能性があるため、それらの軌跡の一部はミューオンに似ています。これらも除外する必要があります。
このデータは実際のもの(すなわち、シミュレーションではない)であり、粒子の種類を確実に知ることはできません。そのため、sPlotと呼ばれる統計的方法を使用しています([原著論文][4]、[ブログ記事][5])。各サンプルには重みが割り当てられており、それらの重みを使用すると、特徴量の分布が純粋な種類のサンプルの分布と一致します。重みの一部は負の値になりますが、これは想定されています。
異なる粒子種のデータは異なる崩壊から得られているため、軌跡の運動学的観測量の分布は異なります。しかし、最終的には、特定の崩壊だけでなく、一般的に粒子種を区別するアルゴリズムが必要です。機械学習の用語では、これはドメイン適応と見なすことができます。それを達成するために、信号とバックグラウンドの運動量の分布が一致するようにサンプルの重み付けをやり直しました。
内容
このデータは、[IDAO 2019][6]で使用されています。便宜上、訓練データセットは2つのファイルに分割されています。競技の最初のフェーズ(公開フェーズと呼びます)では、モデルの評価にテストデータの20%(test_public)が使用されます。データはcsvとhdfの2つの形式で提供されています。どちらもpandasを使用して作成されています(バージョンについては[environment.yml][7]を参照)。hdfにはピクル化されたNumPy配列が含まれているため、Python以外では読み取れない場合があります。
特徴量
注意:Kaggle上の説明は最新ではない可能性があります。IDAOの参加者は、最新バージョンについては競技の問題文を参照してください。
1. label(ラベル):{0,1}の整数 - これを予測する必要があります。0はバックグラウンド(パイオンと陽子)、1は信号(ミューオン)です。
2. particle_type(粒子種):{0,1,2}の整数 - 粒子の種類です。0 - パイオン、1 - ミューオン、2 - 陽子。訓練データセットでのみ利用可能です。
3. weight(重み):浮動小数点数 - 訓練と評価の両方で使用されるサンプルの重みです。sWeightとkinWeightの積です。
4. sWeight:浮動小数点数 - ラベル付けの不確実性を考慮したサンプル重みの成分です。
5. kinWeight:0以上の浮動小数点数 - 信号とバックグラウンドの運動学的観測量を均等化するサンプル重みの成分です。
6. id(識別子):整数 - サンプルのIDです。
7. Lextra_{X,Y}[N]:浮動小数点数 - 軌跡の線形外挿がN番目のステーションと交差する座標です。外挿には、以下のステーションのZ座標が使用されます:[15270, 16470, 17670, 18870]
8. Mextra_D{X,Y}2[N]:浮動小数点数 - 軌跡外挿の{X, Y}座標の2乗の不確実性です。
9. MatchedHit_{X,Y,Z}[N]:浮動小数点数 - 物理ベースの追跡アルゴリズムが軌跡と関連付けたN番目のステーションでの信号の座標です。[アルゴリズムに関するポスター][8] (χ2COR)
10. MatchedHit_TYPE[N]:{0, 1, 2}のカテゴリ変数 - 信号が交差しているかどうかを示します。1は非交差、2は交差を意味します。0はステーションに一致する信号がないことを意味します(欠損値)。[こちら][9]の6 - 8ページを参照してください。
11. MatchedHit_T[N]:{255}∪ [1,20]の整数 - 一致する信号のタイミングです。255は欠損値(ステーションに一致する信号がない)を意味します。
12. MatchedHit_D{X,YZ}[N]:{-9999}∪ (0, +∞)の浮動小数点数 - 一致する信号の座標の不確実性です。
13. MatchedHit_DT[N]:整数 - N番目のステーションでの一致する信号の時間差です。
14. FOI_hits_N:0以上の整数 - 軌跡の周りの物理的に定義された円錐内の信号の数(いわゆる関心領域、FOI)です。
15. FOI_hits_{,D}{X,Y,Z,T}:FOI_hits_Nのサイズの浮動小数点数の配列 - MatchedHit{,D}{X,Y,Z,T}と同じで、信号ごとの値です。
16. FOI_hits_S:{0, 1, 2, 3}の整数の配列 - FOIの信号が検出されたステーションです。
17. ncl[N]:整数 - N番目のステーションのクラスターの数です。実験的で文書化されていないアルゴリズムによって計算される高レベルの変数で、コードは[こちら][10]にあります。
18. avg_cs[N]:0以上の浮動小数点数 - N番目のステーションの平均クラスターサイズで、ncl[N]と同じアルゴリズムによって計算されます。
19. ndof:{4, 6, 8}の整数 - χ2計算で使用される自由度の数で、運動量の関数です。
20. NShared:0以上の整数 - 隣接する軌跡と共有される最も近い信号の数です。[こちら][11]の4 - 5ページと[こちら][12]の10 - 11ページを参照してください。
21. P:3000以上の浮動小数点数 - 運動量の大きさ、MeV/c
22. PT:800以上の浮動小数点数 - ビーム線に対して横方向(すなわち垂直)の運動量の成分、MeV/c
謝辞
このデータは、CERNのLHCbコラボレーションによって生成されました。
動機
このデータセットの背後にある目標は、ミューオン副検出器からの情報を使用して、ミューオンの軌跡(緑色)を他の粒子種の軌跡から区別するアルゴリズムを構築することです。これは非常に重要な問題であり、LHCbでの大多数の物理解析では、何らかの形でミューオンの識別が使用されています。
[1]: https://home.cern/science/physics/dark-matter
[2]: https://contest.yandex.ru/testsys/statement-image?imageId=3c92616c62794048a69c0cd38e6577c311f37c2d81c049bbbcaf3fb3e1bac8b1
[3]: https://contest.yandex.ru/testsys/statement-image?imageId=32c2a694f9e6d3510ee5b9d5f074a6b2cce82455515026fef7069cd8e037468e
[4]: https://arxiv.org/abs/physics/0402083
[5]: https://arogozhnikov.github.io/2015/10/07/splot.html
[6]: https://idao.world/
[7]: https://github.com/yandexdataschool/IDAO-2019-muon-id/blob/master/environment.yml
[8]: https://indico.cern.ch/event/491582/contributions/1168914/attachments/1236304/1815447/LHCC_Cogoni_v4.pdf
[9]: https://cds.cern.ch/record/2063310/files/CERN-THESIS-2015-181.pdf
[10]: https://gitlab.cern.ch/lhcb/Rec/blob/26b3eb5e69c673f771e5a0882eb2443ec62678f4/Muon/MuonID/src/component/MuonClusterRec2.cpp
[11]: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=2ahUKEwjk_qvJrJDgAhUqmYsKHUDBB3AQFjABegQICRAC&url=https%3A%2F%2Fcds.cern.ch%2Frecord%2F2253050%2Ffiles%2FLHCb-PUB-2017-007.pdf&usg=AOvVaw1Brv53oaelpFaVVlnuJu4l
[12]: https://cds.cern.ch/record/2063310/files/CERN-THESIS-2015-181.pdf
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.