メジャーリーグのデータ解析をしたい (安打製造機かどうかなんて分からん)

前々回に試した手法が全然ダメそうだ, という内容です.

序論

こんな記事を書きました
メジャーリーグのデータ解析をしたい (イチローは本当に安打製造機なのか) - 300億円欲しい

内容をまとめると,
サロゲートデータ法を使って, イチローの打席結果に系列相関があるのかどうかを調べました.
系列相関がなければ, 各打席でランダムにヒットが発生すると思えるので, それって機械ですよね.
系列相関があるなら, 各打席の結果が過去に影響されるので, 調子の波のようなものがあるわけです.
人間らしいですよね.

具体的にどうやって調べたか.

時系列データに系列相関がないと仮定して,
元データを時間についてシャッフルして人工データを作ります.
何か適当な統計量を定義して, シャッフルする前後で統計量を比較します.
統計量が全く異なれば, それは仮定がおかしいと言えます.
つまり, 系列相関があるわけです.

イチローの打席結果データをシャッフルする前後で統計量を比べました.
f:id:gg_hatano:20140103131934p:plain
シャッフルによって人工データは999個作りました.
イチローの元データの統計量は, シャッフルしたものとあまり変わりません.
1000個中425位でした. 真ん中くらいですね.

仮定はおかしくはない, という結論しか得られませんでした.

他の選手だと, 例えばヤンキースのロビンソン・カノーでは,
f:id:gg_hatano:20140103132840p:plain
元データの順位は, 1000個中4位でした.
なかなか極端なので, 系列相関があるのだろう, と言えます.

全選手で計算してみる.

今までは, イチローとカノーしか見ていません.
他の選手だとどうでしょう. 計算してみます.

打席に500回以上立った選手について,
打席結果の統計量$S$を計算します.
また, データをランダムシャッフルして人口データを作り, 統計量を計算します.
999回データを生成して, 999個の統計量を計算します.
そして, 人口データの統計量を大きい順に並べて, 元のデータの統計量の値が何位の位置にあるかを調べました.
1位から25位, または975位から1000位ならば, 分布の端っこにあると考えられるので,
仮説が棄却できるのではないでしょうか. 5％有意のノリです.

全選手について, 元のデータの順位を調べてみました.
度数をヒストグラムにします. 25位で刻んでいます.
f:id:gg_hatano:20140106161138p:plain
5％有意とするなら, 両端が棄却域です.
結構バラけています.