読者です 読者をやめる 読者になる 読者になる

300億円欲しい

メジャーリーグのデータ解析します

選挙のデータで遊ぶ: 小選挙区の結果を予測してみました

はじめに

立候補者の得票数とは, つまり人気です[要出典].

そして立候補者の人気は, ググった時のヒット件数から分かるのでは, と思いました.

つまり, 立候補者の名前で検索した時のヒット件数から, 選挙の結果を予測できるはず.

選挙周りのデータを用意して, 予測してみます.

利用するデータ

朝日新聞に, 立候補者の情報が綺麗にまとまっていたので, スクレイプしました.

そして, "立候補者の名前"で検索し*1, ヒット件数を調べました.

ヒット件数の調査には, bingを使いました*2.

結果として出来たデータは, こんな感じです.

データ全体はGithubにアップしてあります.

##        BLOCK        NAME AGE PARTY STATUS     HIT
## 1: 北海道1区   横路 孝弘  73  民主     前  153000
## 2: 北海道1区 野呂田 博之  56  共産     新  346000
## 3: 北海道1区   船橋 利実  54  自民     前 2680000
## 4: 北海道1区   飯田 佳宏  41  無所     新  543000
## 5: 北海道2区   吉川 貴盛  64  自民     前  541000
## 6: 北海道2区   池田 真紀  42  無所     新 1520000
... 

選挙区, 名前, 年齢, 党とヒット数です.

内容確認

予測の前に, データの内容確認をしてみます.

党別に, 候補者数と平均年齢を見てみます.

##     PARTY CANDIDATE MEAN_AGE
##  1:  共産       292 53.18836
##  2:  自民       283 53.34629
##  3:  民主       178 50.59551
##  4:  維新        77 45.31169
##  5:  無所        45 53.17778
##  6:  次世        39 50.46154
##  7:  社民        18 56.83333
##  8:  生活        13 54.23077
##  9:  公明         9 52.11111
## 10:  諸派         5 52.40000
## 11:   ALL       959 52.07821

共産党の立候補者数が案外多いな, と思いました(小並感).

全体で959人. 295議席なので, 倍率は3倍強, ということですね.

前回は1200人近くいましたが, だいぶ減りました.

候補者全体の平均年齢は52.1歳. 結構な年です

当選者の予測

各ブロックで, bingで検索したときのヒット数最大の人が当選するとします.

予測結果はこんな感じです. 全体.csvはこちら. みなさんの選挙区ではどうでしょうか.

BLOCK,NAME,AGE,PARTY,STATUS,HIT
三重1区,川崎 二郎,67,自民,前,3240000
三重2区,中野 武史,40,共産,新,2050000
三重3区,嶋田 幸司,40,自民,新,259000
三重4区,田村 憲久,50,自民,前,347000
三重5区,内藤 弘一,50,共産,新,321000
京都1区,平 智之,55,無所,元,2400000
京都2区,原 俊史,47,共産,新,2420000
京都3区,宮崎 謙介,33,自民,前,8260000
京都4区,田中 英之,44,自民,前,2330000
京都5区,小原 舞,40,民主,元,3050000
京都6区,安藤 裕,49,自民,前,719000
...

全体的に, 共産党員のヒット件数が比較的多い気がします.

党別の獲得議席数予測

予測結果を党別に集計してみます.

##   PARTY NUM
## 1  自民  99
## 2  共産  90
## 3  民主  41
## 4  維新  20
## 5  無所  17
## 6  次世   9
## 7  生活   7
## 8  公明   6
## 9  社民   6

共産党が多く, 公明党が少ない気がします. 自民党も, もっと勝つような気がします. 知りませんけど.

せっかくなので, 円グラフにしてみました.

f:id:gg_hatano:20141214061542p:plain

考察

色々ダメそうです. とりあえず結果を見てから検討します.

性能評価

明日の開票結果を見て, 正答率を調べて追記します.

ベースラインは各新聞社など.

結果が楽しみです. 投票したくなりました.

以上です.

訂正(12月14日)

内容を修正しました. 利用したデータの内容が間違っていました.

前回衆院選のデータを使っていました/ 全く意味のないことを行っていました.

データを作り直し, 内容の修正を行いました.

ご指摘していただいた方々, 本当にありがとうございました.

*1:wgetしてからgrep+sed+awkで頑張りました

*2:yahooやgoogleだとちょっと大変そうだったので