メジャーリーグのデータ解析をしたい (安打製造機かどうかなんて分からん)
前々回に試した手法が全然ダメそうだ, という内容です.
序論
こんな記事を書きました
メジャーリーグのデータ解析をしたい (イチローは本当に安打製造機なのか) - 300億円欲しい
内容をまとめると,
サロゲートデータ法を使って, イチローの打席結果に系列相関があるのかどうかを調べました.
系列相関がなければ, 各打席でランダムにヒットが発生すると思えるので, それって機械ですよね.
系列相関があるなら, 各打席の結果が過去に影響されるので, 調子の波のようなものがあるわけです.
人間らしいですよね.
具体的にどうやって調べたか.
時系列データに系列相関がないと仮定して,
元データを時間についてシャッフルして人工データを作ります.
何か適当な統計量を定義して, シャッフルする前後で統計量を比較します.
統計量が全く異なれば, それは仮定がおかしいと言えます.
つまり, 系列相関があるわけです.
イチローの打席結果データをシャッフルする前後で統計量を比べました.
シャッフルによって人工データは999個作りました.
イチローの元データの統計量は, シャッフルしたものとあまり変わりません.
1000個中425位でした. 真ん中くらいですね.
仮定はおかしくはない, という結論しか得られませんでした.
他の選手だと, 例えばヤンキースのロビンソン・カノーでは,
元データの順位は, 1000個中4位でした.
なかなか極端なので, 系列相関があるのだろう, と言えます.
全選手で計算してみる.
今までは, イチローとカノーしか見ていません.
他の選手だとどうでしょう. 計算してみます.
打席に500回以上立った選手について,
打席結果の統計量$S$を計算します.
また, データをランダムシャッフルして人口データを作り, 統計量を計算します.
999回データを生成して, 999個の統計量を計算します.
そして, 人口データの統計量を大きい順に並べて, 元のデータの統計量の値が何位の位置にあるかを調べました.
1位から25位, または975位から1000位ならば, 分布の端っこにあると考えられるので,
仮説が棄却できるのではないでしょうか. 5%有意のノリです.
全選手について, 元のデータの順位を調べてみました.
度数をヒストグラムにします. 25位で刻んでいます.
5%有意とするなら, 両端が棄却域です.
結構バラけています.
イチローとカノーのデータは,
こんな感じです. カノーは極端な例でした.
順位の分布が, イチロー以外が両端に固まっていたら,
過去に影響されるのでイチロー以外みんな人間だね...と言えたのですが,
今回の手法ではうまく行きませんでした.
今後に向けて
今後できることとして,
1. 統計量を別のものにする
2. 2011年以外のデータでも試す
2. 諦める
などが考えられます. たぶん諦めます.
参考文献
Analyzing Baseball Data with R (Chapman & Hall/CRC The R Series)
- 作者: Max Marchi
- 出版社/メーカー: Chapman and Hall/CRC
- 発売日: 2013/10/30
- メディア: Kindle版
- この商品を含むブログを見る