300億円欲しい

メジャーリーグのデータ解析します

Oracle Master 12c BronzeのSQL試験が思ったよりも難しかった

はじめに

Oracle Masterの試験でバージョンが12cになって、試験対策の情報がまだまだ少ないです。

情報共有しておきます。

Oracle Master 12c Bronze SQL試験対策 (その1)

SQL試験の問題集は、この本が見つかります。

徹底攻略 ORACLE MASTER Bronze 12c SQL基礎問題集[1Z0-061]対応

徹底攻略 ORACLE MASTER Bronze 12c SQL基礎問題集[1Z0-061]対応

ただこの本は、実際の試験と比べて、扱われている問題が簡単すぎます。

実際の12cの試験の問題は、過去バージョンである11gの試験と比べて格段に難しくなっています。

しかし、この本に掲載されている問題は、殆ど11g試験対策本のコピペです。

別の対策が有効かと思います。

Oracle Master 12c Bronze SQL試験対策 (その2)

私はping-tというサイトを利用しました。

ping-t.com

ping-tで扱われている約400の問題を一通り解くと、試験の雰囲気が掴めます。

SQL試験の問題は無料コンテンツなので、気兼ねなく勉強できます。

マイページで進捗の管理もできます。

全ての問題に触れてから受験した結果、私はなんとか合格できました。

感想

対策本を買わずに、最初からping-tにお世話になっておけばよかったと思いました。

なーにが「コレ一冊で全てOK!」だ。

以上です。

プロ野球選手全員の顔写真から、年齢を推定してみた

はじめに

顔写真から年齢、性別を推定するサイトが流行っています。

www.itmedia.co.jp

楽しそうです。さっそく自分の顔写真を使ったら、33歳と判定されました。

プロ野球選手の顔写真で遊びたい

プロ野球選手の顔写真を使ってみたくなりました。

誰の顔が若々しいのか、誰が老けているのか。気になります。

井端は老け顔です。日ハムの谷口は女の子と判定されるかもしれません。

チェックしてみましょう。

プロ野球選手の顔写真 年齢推定と性別、笑顔スコア

日本プロ野球連盟の公式サイトに、選手名鑑がありました。

個人年度別成績 【谷口雄也 (北海道日本ハムファイターズ)】

顔写真があるので、これを利用します。

あとはMSのAPIを取得してなんやかんやすれば..

…と思ったのですが、登録できなくて困りました。

悩んでいたところ、素敵なおじさんがこのような記事を投稿してくれました。

d.hatena.ne.jp

Face++というサービスを使えば同じことができるみたいです。

しかもライブラリまで作ってくれるなんて。渡りに船です。早速、利用させて頂きました。

日本プロ野球連盟のホームページにある、プロ野球選手880人分のプロフィールページから、顔写真のリンクを取得します。

そして、顔写真をFace++に投入します。

推定された年齢や笑顔スコア、性別の確信度などを眺めてみます。

プロ野球選手の顔写真 笑顔スコアランキング

まずは、笑顔スコアのランキングです。上位5人。

name team face_smile
1 岩嵜 翔 福岡ソフトバンクホークス 99.59
2 吉田 雄人 オリックス・バファローズ 99.55
3 若月 健矢 オリックス・バファローズ 99.42
4 斎藤 佑樹 北海道日本ハムファイターズ 99.33
5 武隈 祥太 埼玉西武ライオンズ 99.25

1位は、ソフトバンクの岩嵜選手でした。見てみましょう。

個人年度別成績 【岩嵜翔 (福岡ソフトバンクホークス)】

いい笑顔です!

ついでに、ワースト5人も見ます。

name team face_smile
862 高崎 健太郎 横浜DeNAベイスターズ 0.46
863 飯山 裕志 北海道日本ハムファイターズ 0.44
864 宮川 将 東北楽天ゴールデンイーグルス 0.37
865 百瀬 大騎 横浜DeNAベイスターズ 0.36
866 メッセンジャー 阪神タイガース 0.07

笑顔スコア最下位は、阪神メッセンジャー選手でした。見てみましょう。

個人年度別成績 【メッセンジャー (阪神タイガース)】

こわ

プロ野球選手の顔写真 女の子っぽさランキング

Face++では、顔写真から性別判定とその信頼度合いも得られます。

男性と判定される信頼度が最も低い選手は、誰でしょうか。

name team gender_confidence
1 岡本 洋介 埼玉西武ライオンズ 51.44
2 阿部 俊人 東北楽天ゴールデンイーグルス 54.33
3 阿南 徹 読売ジャイアンツ 57.74
4 三嶋 一輝 横浜DeNAベイスターズ 57.86
5 佐藤 峻一 オリックス・バファローズ 57.98

あれ?意外ですね...性別判定の信頼度が最も低いのは、西武の岡本選手ですか。

見てみましょう。

個人年度別成績 【岡本洋介 (埼玉西武ライオンズ)】

かわいい写真です。

ちなみに日ハムの谷口は、信頼度99.7%でした。よく分かりませんね。

個人年度別成績 【谷口雄也 (北海道日本ハムファイターズ)】

完全に剛力彩芽です。

プロ野球選手の顔写真 老け顔、若作りランキング

本題です。実年齢と顔写真から推定された年齢との差を見て、ランキングを作りました。

老け顔ランキングです。

name team age face_age hukegao
1 宮崎 駿 福岡ソフトバンクホークス 24.00 56 32.00
2 岩本 貴裕 広島東洋カープ 29.00 54 25.00
3 池ノ内 亮介 広島東洋カープ 26.00 49 23.00
4 松田 宣浩 福岡ソフトバンクホークス 31.00 54 23.00
5 細谷 圭 千葉ロッテマリーンズ 27.00 50 23.00

老け顔1位はソフトバンクの宮﨑駿選手でした。

個人年度別成績 【宮崎駿 (福岡ソフトバンクホークス)】

皺が目立っていますね。はにかみ顔で損をしている印象です。

老け顔2位は、広島の岩本でした。

個人年度別成績 【岩本貴裕 (広島東洋カープ)】

老け顔です。

最後に、若作りランキング。

name team age face_age hukegao
1 新井 貴浩 広島東洋カープ 38.00 16 -22.00
2 岡島 秀樹 横浜DeNAベイスターズ 39.00 21 -18.00
3 上本 達之 埼玉西武ライオンズ 34.00 17 -17.00
4 岩瀬 仁紀 中日ドラゴンズ 40.00 24 -16.00
5 山本昌(山本 昌広) 中日ドラゴンズ 49.00 33 -16.00

若作り1位は、広島の新井選手でした。

オチがつきました!ありがとうございます!

見てみましょう。

個人年度別成績 【新井貴浩 (広島東洋カープ)】

フレッシュです。誰ですかコレは。

そして、5位の山本昌選手。これはズルいです。

まとめ

プロ野球選手の顔写真とFace++、そしてRのfaceplusplusパッケージを利用して、年齢などを推定してみました。

最も若作りなのは、広島の新井選手でした。

以上です。

こちらの記事のおかげで、なんとかなりました。

d.hatena.ne.jp

本当にありがとうございました。

バイク川崎バイクから返信来た

こういう記事を書いたら

gg-hogehoge.hatenablog.com

バイク川崎バイクさんから返信が来ていました!

感想

バイク川崎バイクbotのスライド作りました

スライド作りました

3ヶ月前の内容で申し訳ないのですが, この内容

日常に潜むBKBを見つけたい - 300億円欲しい

をスライドにしました.

CaboChaでバイク川崎バイクbot作りました

以上です.

プロ野球試合速報botのスライド作りました

スライド作りました

半年近く前の記事ですが,

巨人の勝率を上げてくれるbot作りました - 300億円欲しい

この内容をスライドにしました.

巨人の勝率を上げたい (スクレイピングとデータ集計)

以上です.

選挙のデータで遊ぶ: 小選挙区の結果を予測してみました

はじめに

立候補者の得票数とは, つまり人気です[要出典].

そして立候補者の人気は, ググった時のヒット件数から分かるのでは, と思いました.

つまり, 立候補者の名前で検索した時のヒット件数から, 選挙の結果を予測できるはず.

選挙周りのデータを用意して, 予測してみます.

利用するデータ

朝日新聞に, 立候補者の情報が綺麗にまとまっていたので, スクレイプしました.

そして, "立候補者の名前"で検索し*1, ヒット件数を調べました.

ヒット件数の調査には, bingを使いました*2.

結果として出来たデータは, こんな感じです.

データ全体はGithubにアップしてあります.

##        BLOCK        NAME AGE PARTY STATUS     HIT
## 1: 北海道1区   横路 孝弘  73  民主     前  153000
## 2: 北海道1区 野呂田 博之  56  共産     新  346000
## 3: 北海道1区   船橋 利実  54  自民     前 2680000
## 4: 北海道1区   飯田 佳宏  41  無所     新  543000
## 5: 北海道2区   吉川 貴盛  64  自民     前  541000
## 6: 北海道2区   池田 真紀  42  無所     新 1520000
... 

選挙区, 名前, 年齢, 党とヒット数です.

内容確認

予測の前に, データの内容確認をしてみます.

党別に, 候補者数と平均年齢を見てみます.

##     PARTY CANDIDATE MEAN_AGE
##  1:  共産       292 53.18836
##  2:  自民       283 53.34629
##  3:  民主       178 50.59551
##  4:  維新        77 45.31169
##  5:  無所        45 53.17778
##  6:  次世        39 50.46154
##  7:  社民        18 56.83333
##  8:  生活        13 54.23077
##  9:  公明         9 52.11111
## 10:  諸派         5 52.40000
## 11:   ALL       959 52.07821

共産党の立候補者数が案外多いな, と思いました(小並感).

全体で959人. 295議席なので, 倍率は3倍強, ということですね.

前回は1200人近くいましたが, だいぶ減りました.

候補者全体の平均年齢は52.1歳. 結構な年です

当選者の予測

各ブロックで, bingで検索したときのヒット数最大の人が当選するとします.

予測結果はこんな感じです. 全体.csvはこちら. みなさんの選挙区ではどうでしょうか.

BLOCK,NAME,AGE,PARTY,STATUS,HIT
三重1区,川崎 二郎,67,自民,前,3240000
三重2区,中野 武史,40,共産,新,2050000
三重3区,嶋田 幸司,40,自民,新,259000
三重4区,田村 憲久,50,自民,前,347000
三重5区,内藤 弘一,50,共産,新,321000
京都1区,平 智之,55,無所,元,2400000
京都2区,原 俊史,47,共産,新,2420000
京都3区,宮崎 謙介,33,自民,前,8260000
京都4区,田中 英之,44,自民,前,2330000
京都5区,小原 舞,40,民主,元,3050000
京都6区,安藤 裕,49,自民,前,719000
...

全体的に, 共産党員のヒット件数が比較的多い気がします.

党別の獲得議席数予測

予測結果を党別に集計してみます.

##   PARTY NUM
## 1  自民  99
## 2  共産  90
## 3  民主  41
## 4  維新  20
## 5  無所  17
## 6  次世   9
## 7  生活   7
## 8  公明   6
## 9  社民   6

共産党が多く, 公明党が少ない気がします. 自民党も, もっと勝つような気がします. 知りませんけど.

せっかくなので, 円グラフにしてみました.

f:id:gg_hatano:20141214061542p:plain

考察

色々ダメそうです. とりあえず結果を見てから検討します.

性能評価

明日の開票結果を見て, 正答率を調べて追記します.

ベースラインは各新聞社など.

結果が楽しみです. 投票したくなりました.

以上です.

訂正(12月14日)

内容を修正しました. 利用したデータの内容が間違っていました.

前回衆院選のデータを使っていました/ 全く意味のないことを行っていました.

データを作り直し, 内容の修正を行いました.

ご指摘していただいた方々, 本当にありがとうございました.

*1:wgetしてからgrep+sed+awkで頑張りました

*2:yahooやgoogleだとちょっと大変そうだったので

Rでスポーツデータ解析がしたい: 千秋楽での勝率

はじめに

前回, 大相撲のデータを正しく作るのが辛い, ということを書きました.

Rでスポーツデータ解析がしたい: データを作るのって大変ですね - 300億円欲しい

まだ整形できていないのですが, 現段階で可能な解析をしたいと思います.

八百長問題が気になりますので, 千秋楽の勝率を集計してみます.

先行研究

大相撲のアノーマリー. 2010年に書かれた記事です.

八百長がありそうかどうか, という解析です.

実践! Rで学ぶ統計解析の基礎(8):大相撲のアノーマリー (2) (2/2) - @IT

もしも、この計算の追試や、何らかの追加計算をされた方がいらっしゃったら、是非ともその結果を教えてくださることを熱望します。 また、1999年以前10年間程度の十両・幕内の勝敗データを持っていらっしゃる方がおりましたら、そのデータを提供いただければ、より一層踏み込んだことが分析できると思います。

私の手元には, 1932年初場所から2014年9月までの幕内取組データがあります.

私の手元には, 1932年初場所から2014年9月までの十両, 幕内取組データがあります. (2014年12月8日訂正)

https://raw.githubusercontent.com/gghatano/sumo_data/master/winLoseDataTable.dat

このデータを使って, 追試をしてみようと思います.

まずは簡単なところで, 千秋楽(最終日)での勝率を計算してみました.

千秋楽での勝率

大相撲では, 勝ち越すかどうかが重要らしいです.

つまり, 各場所を8勝7敗以上で乗りきることが目標になるかと思われます.

なので, 最終日(15日目)を7勝7敗で迎えた力士は頑張らないといけません.

これを踏まえて, 最終日の勝率に注目します.

14日目までの勝敗状況別に, 最終日の勝率を集計してみました.

扱うデータは, 1932年から2014年9月場所までの, 幕内の取組208,612試合の結果です.

結果はこんな感じです.

左端が, 14日目で0勝14敗の力士の, 千秋楽での勝率.

右端が, 14日目で14勝0敗の力士の, 千秋楽での勝率です.

f:id:gg_hatano:20141207101357p:plain

7勝7敗の人だけ急に強くなっているように見えます.

詳細はこちら.

RPubs - 勝ち負け同数で迎えた最後の対戦成績

まとめ

相撲. 面白そうですね.

以上です

訂正

2014年12月8日に一部修正しました.

ご指摘, 本当にありがとうございます.

幕内ではない人たちが幕内かと誤解しておりました. アホでした.