読者です 読者をやめる 読者になる 読者になる

300億円欲しい

メジャーリーグのデータ解析します

R

最も勝利に貢献した選手は誰だったのか 2015年メジャーリーグのデータ分析

はじめに 野球の勝負強さ 「9回表の2アウト、同点の場面で打ったホームラン」「9回表の2アウト、10点リードの場面で打ったホームラン」この2つは、選手の個人成績としては同じです。記録上は同じ、ホームラン1本で1点取った、となります。しかし、勝利への貢…

中日の大島は本当にセカンドゴロ製造機なのか (2015年の打席結果データを作りました)

はじめに 元ネタ。セカンドゴロ製造機として名高い、中日の大島選手に関する記事です。blog.livedoor.jp手でデータを集計しているようです。大変そうです。そこで私は、プログラムを書いて全自動化してみました。ついでに、大島選手だけではなく全選手の打席…

イチローと松井のどちらが凄いのか (Rでセイバーメトリクス)

はじめに 第51回、東京R勉強会で発表してきました。atnd.org 内容 発表に使ったスライドです。手元でセイバーメトリクスができるよ、という話です。野球データの取得から分析まで、自分のパソコンで簡単にできて楽しいです。 Rでセイバーメトリクス (イチロ…

プロ野球選手全員の顔写真から、年齢を推定してみた

はじめに 顔写真から年齢、性別を推定するサイトが流行っています。 Microsoftの顔写真での年齢/性別当てサイトが人気に(Azureのデモで)www.itmedia.co.jp 楽しそうです。さっそく自分の顔写真を使ったら、33歳と判定されました。 プロ野球選手の顔写真…

巨人の勝率を上げてくれるbot作りました

巨人の勝率を上げる 僕は, 巨人が勝つところが見たいのです. 勝つところだけ見たいです. 巨人の勝率を上げるためには, どうすればいいでしょうか. 考えました. 負け試合を見なければいいのです. 負け試合を認識しないことによって, 僕の世界で巨人の勝率が上…

甲子園の実況しながら勝率も計算するbotを作りました

甲子園速報bot 高校野球の速報をするTwitterのbotを作りました. ついでに, メジャーリーグの過去試合結果(約80年分)を利用して, 勝率も計算してみました. こんな感じです. 2回裏 0アウト ランナー無し 星稜 1-1 鹿屋中 星稜の勝率: 42.7% 鹿屋中の勝率: 57.3…

RmdからRコードを抜き出す

R

メモ用です. RmdファイルからRコードを抜き出す. Rのいいところは, Rstudioを使いながら, knitrで文芸的プログラミングができるところです.Rで文芸的プログラミングがしたい - 300億円欲しい 計算だけなら, 別にRでなくてもいいと思います. knitrを使うため…

やられたらやり返す?

導入 昨日の記事 三者凡退でリズムを作りました - 300億円欲しい のコメントで, とありました. ありがとうございます. 気になります. 集計してみました. 点を取られた後の攻撃 味方が点を取られたあとに, 奮起して点を取ってくれたりするかどうかを調べまし…

三者凡退でリズムを作りました

三者凡退と援護 なんJ PRIDE : 実況「三者凡退でリズムを作りました!」分かります. 三者凡退に抑えると, 味方が点を取ってくれるという風潮. ありますね.適当な事を言う解説者は絶対に許しません. しっかり確認しましょう.2013年メジャーリーグ全試合結果デ…

スポーツデータとR

スライド作りました Rで野球データ解析がしたい ( pitchRxを使う ) from Takuma Hatano 以上です

ノーヒットでも勝てます

序論 5月2日, 西武の岸選手がノーヒットノーランを達成しました. 西武・岸がノーヒットノーランを達成しました!9回2死で荻野貴を一邪飛。1四球だけの快投でした。— スポニチ野球記者 (@SponichiYakyu) May 2, 2014【超速報】西武、岸、ノーヒットノーラ…

メジャーリーグで開幕5試合のチーム安打数を集計したい

開幕5試合のチーム安打数 ネタが古いのですが, こんな記事を見つけました. あしたへホームラン : 巨人、ホームラン3連発、日本新記録の開幕5戦77安打!2014年, 巨人の開幕5試合のヒット数は77本. これは, 日本プロ野球史上で最多の記録だったみたいです. …

野球のスコアで一番多いのは何対何だと思う?

野球のスコア こんなツイートを見つけました. 本日は神宮で東都大学野球を観戦後、Hさん、Gさんと外苑前の居酒屋で一杯。Gさんから「野球のスコアで一番多いのは何対何だと思う?」とお題。Gさんによれば、過去のMLBの試合を全て調べた人がいて、その…

Rで野球データを取得したい

野球データが欲しい スライド作りました. Rで野球のデータ解析がしたい (データが欲しい) from Takuma Hatano 以上です.

Shinyで作ったWebアプリを公開したい

R

RでWebアプリを作って公開する RでWebアプリを作るパッケージとして, shinyがあります. RStudio - Shinyこれを利用して, 自分でもWebアプリを作ってみた, という記事が前々回でした. RでWebアプリを作りたい - 300億円欲しいshinyアプリの公開方法は, 色々あ…

RでWebアプリを作りたい

R

Shinyを使う こういうのを自分でも作りたいです. http://spark.rstudio.com/jkatz/SurveyMaps/左側でパラメータを指定したら, 右側でそれが反映された図表が作成される感じです. しかも, ブラウザ上で動く. Webアプリ. かっこいいです. RでWebアプリを作れま…

Rの知識を更新したい

R

Rの知識を改めたいです. 日々パッケージが更新されているのでついていけませんが, 多少は抗いたいです.※ 以下、個人の感想です ※ 間違いがあったら直します イコールで代入しよう 矢印で代入するのは面倒ですよね. 実はイコールが使えます. > x <- 100 > y =…

Rstanを動かしたいけど動かないと思ったら動いた

StanでMCMCサンプリングをしたいです. Rstanを動かしたい データ解析のための統計モデリング入門を読んでいます.データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者: 久保拓弥出版社/メーカー: 岩波書…

Rで文芸的プログラミングがしたい

R

Rの話です. 文芸的プログラミングとは 文芸的プログラミングってなんですかね. その説明から入ります.ソースコードを読んでも, コードが何をしているのか分からないこと. ありますよね. 自分が書いたコードなんだから覚えているだろ...と甘えて, コメントを…

Rからデータベースに接続したい

Rの話です PostgreSQLを使う 野球データの数が大きくなり, ファイルもフォルダも管理できなくなりました. こういうときのデータベースです. データベースにデータを投げて, 整理します. 7年分の打席結果データをPostgreSQLに読ませました. baseball_data=# \…

data.tableでmelt的な処理をしたい

R

Rの話です. ggplotしたいのでreshape2のmeltをする場面って結構ありますよね. meltはdataframeの処理です. しかし, 時は2014年. dataframeからdata.tableに移行していきたいですよね. http://cran.r-project.org/web/packages/data.table/vignettes/datatabl…

メジャーリーグのデータ解析をしたい ( パワプロ打撃テスト式ランキング)

野球の話です. パワプロ打撃テスト式ランキング こんな記事がありました. セパ、パワプロの打撃テスト式ランキグンwwwww : なんJをまとめた結果www(速報)パワプロに打撃練習がありますね. こんな感じです. パワプロ2013 男・村田修一で打撃練習し…

メジャーリーグのデータ解析をしたい ( 被BABIPの集計 )

被BABIP 前回は打者目線で考えました. メジャーリーグのデータ解析をしたい ( とりあえずBABIPの集計 ) - 300億円欲しい今回は投手目線で考えます. 被打球方向に関して, ある程度は運要素がある気がしますね. めちゃくちゃ打たれているのに, 飛んだところが…

メジャーリーグのデータ解析をしたい ( とりあえずBABIPの集計 )

野球の話です. BABIPとは 「当たりは良かったのですが, セカンド正面でした」 ってよくありますよね. 飛んだところが悪かった, という打球です. 逆に, 「当たりは悪かったのですが, 内外野の間に落ちました」 もよくあります. ポテンヒットです. 飛んだとこ…

メジャーリーグのデータ解析をしたい ( 初球ストライクは大事なの )

野球の話です. 初球ストライク率 初球の入り方は大事なんですかね. 分かりません. 初球の入り方について調べると, 初球ストライク率という指標が見つかりました. First-pitch strike - Wikipedia, the free encyclopediaどうなんですかね. Damejima's HARDBA…

メジャーリーグのデータ解析をしたい (ヤマの張り方)

野球の話です Fastball Countとは 速球系の球を投げやすいカウントがあるらしいです. Damejima's HARDBALL:メジャーと日本の配球論の差異から考える「城島問題」damejimaノート(11) なぜライアン・ハワードは9回裏フルカウントでスイングできなかったのか…

メジャーリーグのデータ解析をしたい (投球テンポと援護率の関係とは)

野球の話です. 序論 「投球テンポが悪いから点が入らないんじゃ」 みたいな言説. ありますよね. http://ohad.2chblog.jp/archives/30860233.html 投球テンポがいいと打線が援護してくれる風潮:非常識@なんJ 投球のテンポが悪いと何故援護がもらえないので…

RからC++を使いたい (Rcppの練習)

R C++

Rは便利ですが, 重たい計算をさせると遅いです. 計算が重たい部分だけ他の言語を利用すれば, 早く計算できますね. 今回はRからC++を利用します. Rcppというパッケージを使えばいいです. 便利で速い計算環境が構築できるんじゃないですかね. RからC++を使う R…

俳句で形態素解析をしてみたい

R

序論 友人から17,000の俳句を渡されました. せっかくなので形態素解析してみました. 参考文献 データマイニング入門解析の結果を利用して, 雰囲気だけそれっぽい俳句が作れそうな気がします 面白かった俳句 パンツ脱ぐ 遠くの少年 泳ぐのか 分析が明確です泳…

メジャーリーグのデータ解析をしたい (安打製造機かどうかなんて分からん)

前々回に試した手法が全然ダメそうだ, という内容です. 序論 こんな記事を書きました メジャーリーグのデータ解析をしたい (イチローは本当に安打製造機なのか) - 300億円欲しい内容をまとめると, サロゲートデータ法を使って, イチローの打席結果に系列相関…

効率的にデータフレームの処理がしたい ( doBy vs plyr vs dplyr)

R

メジャーリーグのデータを弄って遊んでいます. 100Mbオーダーのデータフレームの処理をしています. 序論 今まではplyrのddplyで計算させていましたが, 遅いです. doByパッケージで大体同じことができて, しかも速く計算出来ました. どう使い分ければいいんで…

イチローは本当に安打製造機なのか!?

この記事はR Advent Calendar 2013 : ATND , 1月3日の配当記事です. よろしくお願いします. 序論 イチロー. 凄いですよね. MLBでの成績をのせます. YEAR GAME ATBAT HIT AVG 1 2001 157 692 242 0.3497110 2 2002 157 647 208 0.3214838 3 2003 159 679 212 …

メジャーリーグのデータ解析をしたい (pitch f/xって何)

pitch f/x とは また野球の話です. こんな記事がありました. 【MLB】 PITCHf/xとかいう球速測定装置wwwwww - キャッチャーライナー http://blog.livedoor.jp/catcherliner/archives/7557031.html複数の場所からボールを撮影することで投球の軌道を追い…

メジャーリーグのデータ解析をしたい( 犠牲フライくらい打てよ )

序論 Rを使ってデータ解析します. またメジャーリーグの話です.0アウトか1アウトでランナーが3塁にいると, 「おっしゃ1点はとったな」 と思いますよね.外野フライでもいいし, 深めの内野ゴロでもいいです. 高く弾んでもいいです. 何か少し手間のかかるところ…

メジャーリーグのデータ解析をしたい (ダルビッシュがすごい)

序論 Rを使ってメジャーリーグのデータ解析がしたいです.全ての試合結果データが公開されています. retrosheetという名前で, 無料で使えます. http://www.retrosheet.org/game.htm せっかくなので使います. 試合結果データを整形してcsvファイルにしたあとで…

メジャーリーグのデータ解析をしたい (K/BBの計算したら上原が凄い)

序論 Rを使ってメジャーリーグのデータ処理をします. 今回は前処理に役立つplyrパッケージを使いながら, レッドソックスの上原浩治選手の成績を確認します. 今回使うのは, plyrパッケージです. データのまとめにはとても便利です. ddplyの使い方がわかると思…

メジャーリーグのデータ解析をしたい ( 21世紀限定HRランキング)

序論 ある程度まとまったデータの解析をしたいです. でも, 興味のないデータを漫然と弄っても楽しくないです. 今回は, みんなが大好きなメジャーリーグのデータで遊びます. 野球に詳しくなって, さらにRの関数の使い方も練習できます. さっそく, 21世紀のデ…

Rで研究者の業績を調べたい

R

Rは日々パッケージが更新されています. レポジトリには数千のパッケージがあるのでフォローしきれません. 面白そうなものは使っていきたいです.今回は "scholar"パッケージを使います.参考文献 http://www.r-bloggers.com/new-r-package-scholar/ Package "s…

Rで作った地図に統計情報を載せたい

R

アメリカの犯罪者状況を可視化したい Rのデフォルトで使えるデータフレームで, アメリカの州別の暴力犯罪発生率が入っているものがあります. >data(USArrests) >head(USArrests) Murder Assault UrbanPop Rape Alabama 13.2 236 58 21.2 Alaska 10.0 263 48 …

Rで地図を描きたい

R

地図上にデータをプロットしたいときってありますよね.そのための第一段階として, 地図を描きます.ggplot2パッケージを利用します. library(ggplot2) world <- map_data("world") g <- ggplot() + geom_polygon(data = world, aes(x = long, y=lat, group = …

Rで計算時間の比較をしたい(その1)

R

Rは工夫してコードを書かないと遅いことがあります. どの手法が遅いのか. 計算時間を比較して, 最速技法を身につけたいです. 計算時間を知りたければ, time <- system.time( 何かの関数 ) とすればOKです. 計算時間をグラフに表して比較したいです.同じこと…

Rで計算の進行状況を確認したい

R

Rでfor文を回すと遅いです. これを, 高速化とは別の方法で解決したいです. Rでプログレスバーの表示 待ち時間が暇だからよくないのです.コンソールにプログレスバーを表示しましょう. 進捗状況が分かると, 精神が安定しますし.計算の進行に応じて, こんな感…

Rのforeach関数を使って並列計算をしたい (その1)

R

foreach関数とは Rでfor文を回すことはご法度らしいです. 計算が遅いので. Rの高速化のために様々な手段が考えられます. その1つが並列計算です.Rのforeach関数は, Rで並列計算をする際にしばしば登場します. この関数で何ができるのかよく分かりません.なの…

Gershgorinの定理で遊びたい

行列の固有値に関する定理, Gerschgorinの定理があります. スペル分かりません.Gerschgorin? Gershgorin? 2通り観測されます. 正しいほうが分かり次第, 修正します.内容を整理して, 図示して動画も作りたいと思います. Gershgorinの定理 弱い形から. Gershgo…

Rのggplot2でグラフを作りたい

R

Rおじさんだよ 描画が綺麗にできるRパッケージ, ggplot2を使いたいです. 紹介のために, ローレンツ方程式の数値解を描画します. ローレンツ方程式とは. http://en.wikipedia.org/wiki/Lorenz_system ローレンツ方程式はカオス的な振る舞いをする有名な問題で…

quickrun.vimとR

R vim

Macの端末でvimを使っています. .rファイルをquickrunで実行したかったのですが動きません.辛かったので, quickrun.vimを覗いて ’r'のところを \ 'r': { \ 'exec': 'sh -c "R -q --no-save --slave < %s"', \ }, としてしまえば動くようにはなりましたが, こ…

Rで遺伝的アルゴリズム (その1)

R

序論 寒いですね。遺伝的アルゴリズムを使いたくなりますね。しかしMatlabの遺伝的アルゴリズムパッケージは有償です。 やっぱMatlabって糞だわ。300億円あったら買うのに。 C言語でゼロから実装しますか。 そんなの面倒でやりたくないです。お金も頭も使わ…

初めてのUbuntuからRを使うまで

概要 Rを使うところまで頑張ります。 全体としては ・Rのインストール ・Rスクリプトを書く ・Rスクリプトを実行する という流れです。 R環境の整備 まずは統計ソフトRのインストールです。 Ctrl + Shift + T で端末を起動して、 sudo apt-get install r-bas…