Rでスポーツデータ解析がしたい: 千秋楽での勝率
はじめに
前回, 大相撲のデータを正しく作るのが辛い, ということを書きました.
Rでスポーツデータ解析がしたい: データを作るのって大変ですね - 300億円欲しい
まだ整形できていないのですが, 現段階で可能な解析をしたいと思います.
八百長問題が気になりますので, 千秋楽の勝率を集計してみます.
先行研究
大相撲のアノーマリー. 2010年に書かれた記事です.
八百長がありそうかどうか, という解析です.
実践! Rで学ぶ統計解析の基礎(8):大相撲のアノーマリー (2) (2/2) - @IT
もしも、この計算の追試や、何らかの追加計算をされた方がいらっしゃったら、是非ともその結果を教えてくださることを熱望します。 また、1999年以前10年間程度の十両・幕内の勝敗データを持っていらっしゃる方がおりましたら、そのデータを提供いただければ、より一層踏み込んだことが分析できると思います。
私の手元には, 1932年初場所から2014年9月までの幕内取組データがあります.
私の手元には, 1932年初場所から2014年9月までの十両, 幕内取組データがあります. (2014年12月8日訂正)
https://raw.githubusercontent.com/gghatano/sumo_data/master/winLoseDataTable.dat
このデータを使って, 追試をしてみようと思います.
まずは簡単なところで, 千秋楽(最終日)での勝率を計算してみました.
千秋楽での勝率
大相撲では, 勝ち越すかどうかが重要らしいです.
つまり, 各場所を8勝7敗以上で乗りきることが目標になるかと思われます.
なので, 最終日(15日目)を7勝7敗で迎えた力士は頑張らないといけません.
これを踏まえて, 最終日の勝率に注目します.
14日目までの勝敗状況別に, 最終日の勝率を集計してみました.
扱うデータは, 1932年から2014年9月場所までの, 幕内の取組208,612試合の結果です.
結果はこんな感じです.
左端が, 14日目で0勝14敗の力士の, 千秋楽での勝率.
右端が, 14日目で14勝0敗の力士の, 千秋楽での勝率です.
7勝7敗の人だけ急に強くなっているように見えます.
詳細はこちら.
まとめ
相撲. 面白そうですね.
以上です
訂正
2014年12月8日に一部修正しました.
Rでスポーツデータ解析がしたい: 千秋楽での勝率 - 300億円欲しい http://t.co/ixcoWSFsKb 64%そんなもんか。幕内取組データって書いてあるけど実際は十両のデータも含まれてる。十両から幕下に落ちると給料なくなるからある程度互助会出来るのは自然の摂理
— ゴクリン (@gokurin316) 2014, 12月 8
ご指摘, 本当にありがとうございます.
幕内ではない人たちが幕内かと誤解しておりました. アホでした.