300億円欲しい

メジャーリーグのデータ解析します

初めてのUbuntuからRを使うまで

概要

Rを使うところまで頑張ります。
全体としては
・Rのインストール
・Rスクリプトを書く
・Rスクリプトを実行する
という流れです。

R環境の整備

まずは統計ソフトRのインストールです。
Ctrl + Shift + T で端末を起動して、

sudo apt-get install r-base-core

と入力するとRのインストールが始まります。少し時間がかかります。
インストールが終わったら、Rを起動してみます。
端末に

R 

とすればRが起動します。簡単です。
Rを終了して端末に戻る場合は q() とします。

デモを見てみます。

demo(graphics)

とすると、グラフのデモを見ることができます。
2つのランダムウォーク
f:id:gg_hatano:20130223214359p:plain
パイの売上
f:id:gg_hatano:20130223214452p:plain

Rスクリプトの実行 (その1)

Rを使って遊んでみます。
とりあえずガウス分布を作ります。
端末で

gedit Rnorm.R

とするとエディタが起動します。

N <- 1000000
x <- numeric(N)
x <- rnorm(N) # N個の正規乱数を作ります 
hist(x)       # ヒストグラムを作ります

上の内容を書き込んで保存。
100万個の正規乱数の分布を見るためのコードです。
端末に戻って実行してみます。

R -f Rnorm.R

とすれば読み込まれます。
しかし、作ったはずのヒストグラムは表示されません。
Rで作った図は、何も指定しない場合、同一フォルダの Rplots.pdf というファイル名で保存されています。
端末に戻って

evince Rplots.pdf

とすれば、
f:id:gg_hatano:20130223214443p:plain
正規乱数の分布が得られます。
ちゃんとそれらしい形をしていますね。

何も指定しないと、すべての図が Rplots.pdf に保存されて困ります。
作成した図は、指定したファイル名で保存することもできます。
Rnorm.Rに

pdf("Rnorm.pdf")
 hist(x)
dev.off()

と書き加えると、Rnorm.pdfとしてヒストグラムが保存されます。

Rスクリプトの実行 (その2)

折角なのでインタラクティブにRを実行してみます。
Rを起動してから、

source("Rnorm.R")

としてみると、Rnorm.R が読み込まれます。

続いて、100000個の正規乱数組の要約統計量を見てみます。
summary関数を用いると、

> summary(x)
     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
-5.063000 -0.675600 -0.000146 -0.000128  0.675000  4.787000 

最小値、4分位点、中央値、平均値、最大値が得られます。
また、標本分散も var 関数が計算してくれます。

> var(x)
[1] 1.000237

rnorm() は デフォルトでは N(0,1) からの正規乱数を返してくれます。