Open Dataset
Data Structure ?
2.68M
Data Structure ?
*The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.
README.md
コンテキスト
これは、世界中のすべてのサッカー試合に関するシンプルで豊富な情報源を、**24時間365日リアルタイムで**提供する、Kaggle上の**最初のライブデータストリーム**です。
他のデータセットと比べて、このデータセットが独特な点は何でしょうか?
- これはKaggle上の最初のライブデータフィードであり、完全に無料です。
- 「顧客離れ率」のデータセットとは異なり、予測を評価するために何ヶ月も待つ必要はありません。数時間で試合の結果を確認することができます。
- 自社の利益のために予測や分析を行うことができ、会社の利益最大化に時間とリソースを費やす必要はありません。
- 5年前のラップトップでも計算ができ、ハイエンドのGPUは必要ありません。
- 上位3位に入れなかったとしても、心配する必要はありません。独自の賞を獲得する機会がまだあります。
- すべてのサンプルで正確な結果が得られない場合でも、心配する必要はありません。難しいサンプルを除外し(例えば、国際親善試合を無視する)、確信のあるサンプルを選べばいいです。
- 各サンプルについて専門家の助けが必要な場合、各サンプルには少なくとも2つの専門家の意見が付いています。
- 補完データを追加したい場合、ただ私たちに連絡してください。できる限り対応します。
- 「ウォーレン・バフェットの2018年マーチマッドネスブラケットコンテスト」で勝てなかった場合、ここが累積利益を得るチャンスです。
約**11,500**試合の最初のバージョンのトレーニングデータセットでアルゴリズムをトレーニングし、次のデータフィードで提供されるデータを予測してください。
データストリームの取得
CSVファイルは、毎時20分と50分に30分ごとに更新されます。**1時間に2回以上ダウンロードしないようお願いします**。これは追加のコストがかかるためです。
以下のリンクから、Amazon S3サーバーのCSVデータファイルをダウンロードできます。ただし、**FOLDER_NAME**を以下のように変更してください。
https://s3.amazonaws.com/FOLDER_NAME/amasters.csv
* **FOLDER_NAME**を「**analyst - masters**」に置き換えてください。
内容
私たちの目標は、試合の結果をホーム勝ち、引き分け、アウェイ勝ちとして特定することです。このデータストリームで提供される情報源の多様性と性質により、これは独特なデータベースになっています。現在、5つのサーバーが世界中のサッカー試合からデータを収集し、互いに通信し、最終的に7年間の40万試合から学んだ主要な特徴に基づいてデータを集約しています。以下では、各列とデータ収集について、**カテゴリI – 現在の状況**と**カテゴリII – 対戦履歴**の2つのカテゴリに分けて説明します。したがって、各チームから得られるデータの種類を4つのモードに分けます。
- モード1:カテゴリIとカテゴリIIの両方のデータが利用可能です。
- モード2:カテゴリIのデータのみ利用可能です。
- モード3:カテゴリIIのデータのみ利用可能です。
- モード4:カテゴリIとカテゴリIIのデータのどちらも利用不可能です。
以下に、各カテゴリの詳細な説明を示します。
***I. 現在の状況***
----------
*列1から3*:
ホーム勝ちの投票数 引き分けの投票数 アウェイ勝ちの投票数
このデータベースの最も特徴的な部分は、この3列です。私たちは、100人以上のプロのサッカーアナリストが試合の結果を予測した意見を公開しています。彼らの投票は、選手、チームのラインナップ、怪我の状況、およびチームがリーグに残るために勝ちたいという欲求に関するすべての情報の結果です。彼らは世界中のさまざまなタイムゾーンに分散しており、さまざまな地域のサッカーチームの専門家です。私たちのサーバーは、試合開始まで彼らの意見を集約してCSVファイルを更新します。したがって、2019年1月6日にサンティアゴ・ベルナベウでレアルマドリードがレアルソシエダに勝つと40人のユーザーが予測しても、5人のユーザーがアウェイチームのレアルソシエダが勝つと予測した場合、ホーム勝ちに疑問を持つべきです。ここでは、「多数の投票」が他の特徴と連携して機能します。
*列4から9*:
曜日 日 月 年 時 分
1年間に6万回以上の試合が行われ、週末には通常1日に約400回の試合が行われます。より重要でエキサイティングな試合は、通常予測が難しく、ヨーロッパでは夕方に行われることが多いです。現在、中央ヨーロッパ時間(CET)、すなわちGMT +01:00の時間を提供しています。
*注:CSVファイルの2行目は、すべてのサーバーからファイルにデータ値が保存される時間を表しています。
*列10から13*:
総賭け人数 ホーム勝ちの賭け率 引き分けの賭け率 アウェイ勝ちの賭け率
このデータは、試合の数時間前に記録されます。試合開始が近づくと、人々は感情的に賭けを行うためです。「総賭け人数」として示される総人数の割合が、「ホーム勝ち」、「引き分け」、「アウェイ勝ち」の各結果について各列に示されています。
*列14から15*:
チーム1 チーム2
「ホーム」で試合を行うチームが「チーム1」で、「アウェイ」で試合を行う相手チームが「チーム2」です。
*列16から36*:
リーグ順位1 リーグ順位2 総チーム数 ポイント1 ポイント2 最大ポイント 最小ポイント 勝利数1 引き分け数1 敗北数1 勝利数2 引き分け数2 敗北数2 得点数1 得点数2 失点数1 失点数2 得失点差1 得失点差2
試合が同じリーグまたはグループ(例えば、カップのグループ)の2つのチーム間で行われる場合、チームの詳細はそれぞれ「ホーム」をインデックス=1、「アウェイ」をインデックス=2とした形式で報告されます。提供される情報には以下が含まれます。
1. リーグ順位1と2:リーグにおけるチームの順位
2. 総チーム数:チームの総数
3. 試合数1と2:そのリーグでこれまでに行われた試合数。これは、総チーム数に基づいて、現時点で意味のある順位やポイントを得るために十分な試合が行われたかどうかを示します。例えば、総チーム数が15で、試合数が10しかない場合、シーズンの初めに過ぎません。
4. ポイント1と2;最大ポイントと最小ポイント:その日までの両チームのポイント、およびリーグで最も強いチームと最も弱いチームのポイントをそれぞれ示します。
5. 勝利数、引き分け数、敗北数1と2:そのグループでのチームの勝利、引き分け、敗北の回数
6. 得点数、失点数、得失点差1と2:そのチームがこれまでに得た得点数、失点数、および得失点差
***II. 対戦履歴***
----------
*列37から38*:
チーム1の履歴有無 チーム2の履歴有無
私たちは、この2つのチームの対戦履歴を検索します。「チーム1の履歴有無」と「チーム2の履歴有無」は、それぞれの履歴で見つかったチーム名です。例えば、{'Man utd', 'Manchester United', 'Man united', 'Manchester U'}はすべて、'Manchester United FC'を指す類似した名前です。したがって、文字列マッチングアルゴリズムを使用して確認していますが、この2列が同じチームを指しているかどうかを再度確認する必要があります。
*列39から40*:
順位1 順位2
ここでは、チームの現在または過去のリーグにおける順位を提供しています。
*列41から42*:
勝率1 勝率2
これらのチームが過去15試合で、同様のチームと対戦した場合(例えば、チームA対チームC、チームB対チームC)の勝率はどの程度でしたか?これを交差比較と呼びます。
*列44から45*:
引き分け率1 引き分け率2
これらのチームが過去15試合で、同様のチームと対戦した場合の引き分け率はどの程度でしたか?これも交差比較です。
*列43*:
リーグ種別・国
この情報はどのような種類のリーグまたは試合に関するものですか?国内リーグ、国際試合、FIFAワールドカップなどです。
*列46から47*:
大きな差での勝利数 6試合中の勝利数
チーム1がチーム2と過去6試合で対戦した場合、一方が他方に勝った回数は何回でしたか?この値は4以上の場合のみ非ゼロになります。負の値(例えば、-4)の場合、最近の6試合中4回引き分けたことを意味します。
*列48から49*:
平均試合終了時得点数 平均前半終了時得点数
過去6試合で、両チームが前半終了時(HT)または試合終了時(FT)までに平均して何ゴールを得たか?
*列50*
対戦試合数
2008年以降、カップ試合や親善試合を含めて、これらのチームが互いに対戦した回数は何回ですか?対戦試合数が6回未満のチームペアは予測が難しいことに注意してください。
*列51*
年間の最大ギャップ
過去6試合での年間の最大ギャップは何年でしたか?例えば、2014年と2018年に試合が行われた場合、一方のチームが降格した可能性があります。ギャップの値が3以上の場合は予測が難しくなります。
*列52から54*
ホーム勝ちのオッズ 引き分けのオッズ アウェイ勝ちのオッズ
各結果の確率は、ヨーロッパ式のオッズの形式で表されています。これは、正しい予測に対して賭け金に対する支払い総額も示しています。あなたは簡単に確率を得ることができます。
×
The dataset is currently being organized and other channels have been prepared for you. Please use them
The dataset is currently being organized and other channels have been prepared for you. Please use them
Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
No content available at the moment
No content available at the moment
- Share your thoughts
Go share your ideas~~
ALL
Welcome to exchange and share
Your sharing can help others better utilize data.
Data usage instructions: h1>
I. Data Source and Display Explanation:
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
II. Ownership Explanation:
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
III. Data Reposting Explanation:
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
IV. Infringement and Handling Explanation:
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.
- 1. The data originates from internet data collection or provided by service providers, and this platform offers users the ability to view and browse datasets.
- 2. This platform serves only as a basic information display for datasets, including but not limited to image, text, video, and audio file types.
- 3. Basic dataset information comes from the original data source or the information provided by the data provider. If there are discrepancies in the dataset description, please refer to the original data source or service provider's address.
- 1. All datasets on this site are copyrighted by their original publishers or data providers.
- 1. If you need to repost data from this site, please retain the original data source URL and related copyright notices.
- 1. If any data on this site involves infringement, please contact us promptly, and we will arrange for the data to be taken offline.