300億円欲しい

メジャーリーグのデータ解析します

俳句で形態素解析をしてみたい

序論

友人から17,000の俳句を渡されました.
せっかくなので形態素解析してみました.
参考文献
データマイニング入門

解析の結果を利用して, 雰囲気だけそれっぽい俳句が作れそうな気がします

面白かった俳句

パンツ脱ぐ 遠くの少年 泳ぐのか

分析が明確です

泳ぐ 山口誓子 - 林誠司 俳句オデッセイ - Yahoo!ブログ

蛍狩 われを小川に 落としけり

そうか

書評 俳人漱石

俳句を形態素解析

RからMeCabを使って形態素解析してみました.
出現頻度の高い文字と, 出現頻度の高い単語の組などを調べてみました.

出現頻度の高い単語ランキング

名詞編
   Term Info1    Info2 Freq
1    花  名詞     一般  787
2    春  名詞     一般  759
3    冬  名詞     一般  587
4    雪  名詞     一般  502
5    秋  名詞     一般  480
6    一  名詞       数  474
7    水  名詞     一般  401
8    風  名詞     一般  384
9    さ  名詞     接尾  365
10   夜  名詞 副詞可能  362

それっぽいです. 趣深そうな漢字が並んでいます.

"春", "夏", "秋", "冬"の頻度が気になりますね. 抽出してみます.

      Term Info1    Info2 Freq
1      春  名詞     一般  759
2      冬  名詞     一般  587
3      秋  名詞     一般  480
4      夏  名詞     一般  260

"春" が一番多いんですね. 少し意外です. 秋のほうが趣深そう.

形容詞編
   Term  Info1 Info2 Freq
1  ない 形容詞  自立  340
2  遠い 形容詞  自立  181
3  白い 形容詞  自立  121
4  深い 形容詞  自立  104
5  寒い 形容詞  自立   96
6  高い 形容詞  自立   96
7  青い 形容詞  自立   79
8  濃い 形容詞  自立   65
9  赤い 形容詞  自立   64
10 暗い 形容詞  自立   54

Twitterの結果と比べてみたいです.

出現頻度の高い2単語列ランキング

   Ngram1 Ngram2 Freq
1      一     人   60
2      秋     暮   54
3      春     雪   51
4      一     本   48
5    うし     ろ   40
6      一     日   36
7    ざく     ら   33
8      二     人   33
9      夕     焼   31
10     春     昼   29
11     桃     花   29
12   寒い     さ   28
13   鮟鱇     鍋   28
14     冬   銀河   27
15     桐     花   26
16     一     枚   23
17     雲     峰   23
18   高い     さ   23
19     春     月   23
20     夏   帽子   22

ぼっち最強説. ありますね.

それっぽい俳句を生成

ランキングから適当に俳句を作ってみます.

秋暮に 一人で食べる 鮟鱇鍋

ありがとうございました.