「近い」選手とは?
成績から近い選手を見つける
Baseball LABでは、選手のタイプを言葉で表現するだけでなく、過去のデータを用いて類似選手の推測を試みています。
打者は打席結果(単打、二塁打、三塁打、本塁打、三振、四球、死球、犠打、犠飛、併殺打、三振以外の凡打)と盗塁数を元に導いています。年度別のデータを使用し、年間150打席以上立った打者を対象としています。
投手は左右と、投球回、打席結果(被単打、被二塁打、被本塁打、奪三振、与四球、奪併殺打、三振以外の凡打)、そして過去10年の各球種(ストレート、カーブ、シュート、スライダー、フォーク、シンカー、チェンジアップ、特殊球、カットボール)の投球割合を用いています。年度別のデータを使用し、先発もしくは救援で30イニング以上投げた投手を対象としています。
選手個人ページでは、1人の選手につき2013年シーズンにプレースタイルの近かった選手を3人ずつ掲載しています。
選手Aの「近い選手」に選手Bが載っていたとしても、選手Bの「近い選手」に必ずしも選手Aが載っているとは限りません。
方法
各選手の類似選手を選出するために、まず2選手間の「非類似度」を算出します。
打者の非類似度は、年間300打席以上立った「上位選手」、150~299打席の「中位選手」に分けて算出しました。年度ごとに打撃成績割合を計算し、「上位選手」を対象に割合を偏差値化しました。そして各選手の「偏差値の組」について、他の対象選手の「偏差値の組」との非類似度を計算し、似ている順に3選手を選出しました。
中位選手については「上位選手」「中位選手」両方を対象にして選手を選出しました。
投手についてはあらかじめ右投手、左投手に分けてから、非類似度の算出と類似投手の選出を行いました。
年度ごとに打席あたりの投手成績割合を計算し、年間30イニング以上投げた投手を対象に割合を偏差値化しました。そして各投手の「偏差値の組」について、他の対象投手の「偏差値の組」との非類似度を計算し、似ている順に3選手を選出しました。
非類似度とは?
非類似度は選手間の距離を表し、より近い成績であるほど値は小さくなります。自分自身との非類似度は0です。
この指標は選手のタイプ分類(打者、投手)を行う際にも用いられます。そのため、非類似度が小さい2選手は同じタイプに分類されやすい傾向があります。ただし、各タイプの境界付近にいる選手は異なるタイプの選手とも近くなることがあることに注意してください(例:図2の選手C、選手D)。図2は縦横2次元でのイメージ図ですが、今回はたくさんの項目を用いているため、より複雑になります。
先ほど述べたように、選手同士はお互いを近いとみなすとは限りません(例:図2で、選手Aの「近い選手」に選手Bが選ばれていますが、選手Bの「近い選手」に選手Aは含まれていません)。打席数によって対象とする選手が異なることも、その理由の1つです。
最も近い2人は……
改善点
現在私たちは非類似度にユークリッド距離を採用しており、問題点もあります。各成績項目や球種の影響力がすべて等しくなっている点です。
たとえば、感覚的ではありますが、「本塁打割合の違い」は類似性に大きく違いをもたらす一方で「死球割合の違い」はそれほどではなさそうです。データを偏差値に直したことでばらつき度合いを全項目で揃えてしまっているがゆえに、重要度の高くない項目が非類似度に大きな影響を与えてしまうこともあるのです。
また成績項目間に相関がある場合(たとえば「三塁打割合」が大きい選手は「二塁打割合」も大きい傾向にある)、似たような影響力を二重に計算に含めてしまっていることになります。
これらの問題点は距離の計算方法を変えることによってそれぞれ解決されますが、選手タイプ分類を行う際に困難が生じてしまいます。分類手法に適応する距離の設定が必要です。
掲載の「近い選手」を実際に見ると、感覚といまいち合致しないことも多くあるでしょう。私たちは上述の用いるデータ項目の重みづけに加え、新たな項目の追加も考えています。
特に投手について違和感があり、打席結果だけでなく打球の質(ゴロかフライか)の考慮、投球フォームの数値化といった対策を考えています。