300億円欲しい

メジャーリーグのデータ解析します

Rでスポーツデータ解析がしたい: 千秋楽での勝率

はじめに

前回, 大相撲のデータを正しく作るのが辛い, ということを書きました.

Rでスポーツデータ解析がしたい: データを作るのって大変ですね - 300億円欲しい

まだ整形できていないのですが, 現段階で可能な解析をしたいと思います.

八百長問題が気になりますので, 千秋楽の勝率を集計してみます.

先行研究

大相撲のアノーマリー. 2010年に書かれた記事です.

八百長がありそうかどうか, という解析です.

実践! Rで学ぶ統計解析の基礎(8):大相撲のアノーマリー (2) (2/2) - @IT

もしも、この計算の追試や、何らかの追加計算をされた方がいらっしゃったら、是非ともその結果を教えてくださることを熱望します。 また、1999年以前10年間程度の十両・幕内の勝敗データを持っていらっしゃる方がおりましたら、そのデータを提供いただければ、より一層踏み込んだことが分析できると思います。

私の手元には, 1932年初場所から2014年9月までの幕内取組データがあります.

私の手元には, 1932年初場所から2014年9月までの十両, 幕内取組データがあります. (2014年12月8日訂正)

https://raw.githubusercontent.com/gghatano/sumo_data/master/winLoseDataTable.dat

このデータを使って, 追試をしてみようと思います.

まずは簡単なところで, 千秋楽(最終日)での勝率を計算してみました.

千秋楽での勝率

大相撲では, 勝ち越すかどうかが重要らしいです.

つまり, 各場所を8勝7敗以上で乗りきることが目標になるかと思われます.

なので, 最終日(15日目)を7勝7敗で迎えた力士は頑張らないといけません.

これを踏まえて, 最終日の勝率に注目します.

14日目までの勝敗状況別に, 最終日の勝率を集計してみました.

扱うデータは, 1932年から2014年9月場所までの, 幕内の取組208,612試合の結果です.

結果はこんな感じです.

左端が, 14日目で0勝14敗の力士の, 千秋楽での勝率.

右端が, 14日目で14勝0敗の力士の, 千秋楽での勝率です.

f:id:gg_hatano:20141207101357p:plain

7勝7敗の人だけ急に強くなっているように見えます.

詳細はこちら.

RPubs - 勝ち負け同数で迎えた最後の対戦成績

まとめ

相撲. 面白そうですね.

以上です

訂正

2014年12月8日に一部修正しました.

ご指摘, 本当にありがとうございます.

幕内ではない人たちが幕内かと誤解しておりました. アホでした.