第4回スポーツデータ解析コンペティション レポート
コンペティションの概要
来たる3月12日、立教大学にてスポーツデータ解析コンペティション受賞者報告会が開催されました。大学生や大学院生を中心に参加するコンペ形式の大会で、今年で4回目を数えます。年々参加チーム数が増えていて、今年は全国17の国私立大学から28チームが参加しました。専門は統計関連(理学系、工学系)の学生が多いですが、経済、経営学、スポーツなど様々な分野からの参加も増えてきています。
主催は日本統計学会スポーツ統計分科会と統計数理研究所。詳細は分科会HPをご覧ください。
当社では各チームにデータを貸与しています。学生はそのデータを用いて一定の期間分析を行い、研究成果を報告会で発表します。今年度の報告会は昨年12月に開催され、その発表を元に審査が行われました。
データの種類は大きく分けて2つ、野球とサッカーです。野球に関するデータは1球あたりのデータになっています。その投球を投げた投手・打った打者の情報、塁状況やボールカウントなど状況を表す情報、また球速・球種・コースなど投球自体の情報、そして打球がどこに飛びどんな結果になったのかといった情報。これらが1球1球保持された、2012年と2013年の2年間のNPB全試合で投球された約26万球のデータを解析に用いることになります。
本レポートでは、審査で受賞した8チームのうち、野球に関する発表を中心に紹介していきたいと思います。
“飛翔する投手”の分析
野球に関する研究の講演は大阪大学大学院のグループから始まりました。
彼等は、野球中継やネット上でよく用いられる、投手に対する「球が軽い」「飛翔癖がある」という表現に着目。投手によって、打者に遠くまで飛ばされやすい傾向が実際に見られるのか、イメージだけでなくデータから明らかにしようという研究です。
より正規性のある外野飛球の飛距離に対象をしぼって、コース、球種別 平均飛距離の線形回帰モデルを作成していました。全体的には、直球系や真ん中高めは飛ばされやすく、内角は飛ばされにくいという、定説どおりの結果になりました。イメージを統計学的に示したということですね。
投手個別には、2012, 2013年の田中将大、成瀬善久、能見篤史、前田健太らの「飛ばされやすさ」を図にまとめていました。選手ごとに平均飛距離のモデル式を推定し、投手平均と比較することで、「飛ばされやすいか」を判断するのです。単純集計でも同様に傾向を見ることもできますが、データ数が少ない場合でも投手の特徴をより平均的に表せる強みも持っています。
実際の飛距離平均との差異を見るとよいのではないか、といった意見も出ました。こういった視点や可視化は、実戦・現場にも向いていて興味深いと感じました。
マルコフゲームを用いた野球の試合シミュレーション
もう一つの野球部門優秀賞は、東京工業大学の学生による、野球の試合をシミュレーションする研究でした。
勝利までの道順を考えることによって「何回何アウト何塁、何点差か」によって期待勝率を算出することができて、その値によって盗塁をするか、犠打でいくか、それらを行わないか、最適戦略を選択するというしくみを説明していました。
単に試合を再現するだけでなく、勝率の算出や組み込むルールを変えることによって、「強いチームを作る上での戦術」の構築を試みていたのも印象に残りました。
たとえばチームごとに最も勝ちやすい「最適打順」を計算。実際の成績と比較すると、最適打順の1番打者にOPSの高い選手が選ばれていることが判明しました。
審査会以降に行った研究として、最適戦術として犠打が選択される場面はどのくらいあるか、また実際の試合では犠打を行ったのか、を調べていました。限定された場面における犠打の効果についても評価することができました。期待値的には、パ・リーグは犠打を行わない方がよいという結論も導いていました。
審査会以降に行った研究として、最適戦術として犠打が選択される場面はどのくらいあるか、また実際の試合では犠打を行ったのか、を調べていました。限定された場面における犠打の効果についても評価することができました。期待値的には、パ・リーグは犠打を行わない方がよいという結論も導いていました。
さらに、2012年の西武と2013年の西武を対戦させたり、盗塁を一切行わないルールの下試合を行ったり、様々な分析と考察を行っていました。
参加学生は、メディアやゲームでの活用例についても提案をしていました。Baseball LABにおいてもシミュレーションを用いたプロ野球結果予想を行っていますが、研究する立場の方からこういった意見が自然と出てくるのは非常に頼もしく感じました。
外野手の空間データを用いた戦略分析
続いて、中央大学等のチームにおける講演が行われました。犠牲フライの捕球位置データを用いた研究で、「データスタジアム特別賞」を受賞していました。
統計学的にも現場においても、位置に関するデータは、何打数何安打といった個数・割合に関するデータと比較して活用されにくいのが現状ですが、傾向を視覚的に明らかにする試みは大変参考になりました。
詳細につきましては、講演者によるコラムを明日掲載いたしますので、こちらをお読みください。
内野のチーム守備力評価に関する研究
株式会社日本科学技術研修所のツールを用いたチーム対象のSEM因果分析賞を受賞したのは立教大学のチーム。体育会野球部の部員による発表が行われました。
グラウンドによってプレーのしやすさが変わるのではないかという自身の経験に基づく疑問から、共分散分析やロジスティック分析と呼ばれる手法によって、ゴロをアウトにできた割合の推定を行っていました。打者の左右や打球方向に加え、人工芝・天然芝といったグラウンドの種類も加味したモデルを作成しており、チームの守備力をランクづけしていました。
モデルの課題点も自らあげていて、変数選択の際の試行錯誤が見られる研究でした。身体感覚により即したモデルであり、課題設定がうまく感じられました。
サッカー部門の受賞者講演
本コンペの前半にはサッカー部門の受賞者の発表もありました。
今年新設された課題部門は、2014年J1リーグ最終4節全36試合の各チームのスコアを予想するというもの。東海大学のチームが72個中32個的中で優勝しました。
状態空間モデルにおけるベイズ推定と野球データへの応用
最後の講演は最優秀賞。東京大学大学院の学生による研究です。彼には研究成果の報告だけでなく、講座という形で、研究にまつわる手法や事前知識の説明がありました。
状態空間モデル、MCMC(マルコフ連鎖モンテカルロ)法といった専門的な内容をかなり噛み砕いて説明していました。
これらを用いて行ったのは、2012年の各打者の出塁率より妥当な「潜在的な出塁確率」を算出しようという研究です。より妥当の意味を具体的に言うと、たとえばシーズン序盤にたまたま調子が悪くて10打席0出塁だった選手に対し、安易に「出塁する能力はゼロ」としないということ。1打席終了後、本来の出塁率は0か1しかありえませんが、この手法だと統計学的に出塁確率を求められます。
また、このモデルのパラメータ推定値を見ることで、前の打席結果の効果を調べることもできることを説明していました。値が最大となった打者は中田翔。「調子に乗りやすく固め打ちをする」もしくは「悪い結果をひきずりやすい」傾向が大きいということがわかりました。
講演後は多くの意見・質問が飛び交い、丁寧に回答をしていました。講義形式での発表は本コンペ受賞者初の試みでしたが、参加者が解析に留まらず活躍できる舞台がある、作る、その一端を担えたらと考えています。
スポーツデータ解析コンペティション
今回受賞されなかった中にも、興味深い発表内容がありました。
野球の競技性に迫る、野球そのものを明らかにしようという研究は、野球界の発展のために。チームや選手に対する戦略的な研究は、チームの現場やフロントに活かせるかもしれません。アウトプットの工夫が見られる研究は、メディアに向けコンテンツにつながっていく可能性もあります。現場への架け橋ともなりえます。
スポーツ業界への活用もさることながら、この大会は学生にとっても重要な立ち位置となっています。こういった大きなサイズのデータに触れるのは初めてという学生も少なくありません。実データは思いもよらない困難があります。ああでもないこうでもないと、野球という身近な題材のデータの分析を行うことが、彼らにとってよい経験になればと願っています。
※コンペの詳細はこちらから
※データスタジアム特別賞のコラム「統計学で犠牲フライを分析」