Einstein DiscoveryでJリーグの結果を分析してみた

タンバリンながやです。 横浜に引っ越したのをきっかけに横浜Fマリノスの試合に連れて行ってもらってからドハマリしています。

最近、Einstein Analyticsを案件で触る機会があり、SalesforceのAIにタイタニックのデータを分析させてみた - Qiitaに触発されて、Jリーグの2019年の結果を分析させてみました。

データの準備

J. League Data Siteから取得しました。 csvなどはないので手動でコピペしました

  • 順位表 最終節(2017年〜2019年)
  • チーム別集計結果(2017年〜2019年)

※前年度順位:昇格組は20位としています

Einstein Analyticsに取り込み

「作成」→「データセット」→「csvファイル」からアップロード

  • 順位表データ f:id:nagaya_yui:20200423232327p:plain

  • チーム別集計結果データ f:id:nagaya_yui:20200423232414p:plain

  • 上記2つのデータをレシピで結合 キー:チーム、年度

f:id:nagaya_yui:20200423232448p:plain

このデータセットでストーリーを作成

レンズを作成してみる

2019年シュート数と得点

f:id:nagaya_yui:20200423232538p:plain

  • 順位順に並べています。
  • Fマリノスはシュート数も得点も多いですが、シュート数が多いからといって得点が多い=上位とは言い切れない感じがする。
  • 大分トリニータのシュート数がかなり少ないのが気になるが、そこまで下位でもない。 →失点が少ない?

2019年の得点と失点の散布図

f:id:nagaya_yui:20200423232635p:plain

  • 優勝したFマリノスが得点は一番多い。
  • セレッソ大阪が失点は一番少ない。 →得点をもっととれれば順位をあげられた?

ストーリー作成

f:id:nagaya_yui:20200423232752p:plain

順位を最小化

f:id:nagaya_yui:20200423232836p:plain

データが足りないので今回はインサイトのみ

f:id:nagaya_yui:20200423233421p:plain

Einsteinにおまかせ

f:id:nagaya_yui:20200423233503p:plain

改善点がでてきたので、調整して、再度ストーリーを作成

f:id:nagaya_yui:20200423233545p:plain

f:id:nagaya_yui:20200423233618p:plain

シュートを打つこと!

f:id:nagaya_yui:20200423233735p:plain

シュート数417〜453のチームは平均(9位)より7.9上位

シュートを打たせないこと!

f:id:nagaya_yui:20200423233825p:plain

被シュート数235〜297のチームは平均(9位)より5.66上位

前年度の順位が今年度の順位に影響があるかどうか

f:id:nagaya_yui:20200423233859p:plain

前年度1or2位だったチームは今年度も順位が高い確率が高いが、それ以外の順位だった場合、あまり関係がなさそう

おわりに

  • データを準備しきれず、インサイトの分析までしかできなかったのでデータをもっと集めて次回はインサイト分析から2020年の優勝予想、横浜Fマリノスが2020年優勝する確率など出してみたい
  • 選手のデータとかも掛け合わせて分析したらおもしろそう