俳句で形態素解析をしてみたい
俳句を形態素解析
RからMeCabを使って形態素解析してみました.
出現頻度の高い文字と, 出現頻度の高い単語の組などを調べてみました.
出現頻度の高い単語ランキング
名詞編
Term Info1 Info2 Freq 1 花 名詞 一般 787 2 春 名詞 一般 759 3 冬 名詞 一般 587 4 雪 名詞 一般 502 5 秋 名詞 一般 480 6 一 名詞 数 474 7 水 名詞 一般 401 8 風 名詞 一般 384 9 さ 名詞 接尾 365 10 夜 名詞 副詞可能 362
それっぽいです. 趣深そうな漢字が並んでいます.
"春", "夏", "秋", "冬"の頻度が気になりますね. 抽出してみます.
Term Info1 Info2 Freq 1 春 名詞 一般 759 2 冬 名詞 一般 587 3 秋 名詞 一般 480 4 夏 名詞 一般 260
"春" が一番多いんですね. 少し意外です. 秋のほうが趣深そう.
形容詞編
Term Info1 Info2 Freq 1 ない 形容詞 自立 340 2 遠い 形容詞 自立 181 3 白い 形容詞 自立 121 4 深い 形容詞 自立 104 5 寒い 形容詞 自立 96 6 高い 形容詞 自立 96 7 青い 形容詞 自立 79 8 濃い 形容詞 自立 65 9 赤い 形容詞 自立 64 10 暗い 形容詞 自立 54
Twitterの結果と比べてみたいです.
出現頻度の高い2単語列ランキング
Ngram1 Ngram2 Freq 1 一 人 60 2 秋 暮 54 3 春 雪 51 4 一 本 48 5 うし ろ 40 6 一 日 36 7 ざく ら 33 8 二 人 33 9 夕 焼 31 10 春 昼 29 11 桃 花 29 12 寒い さ 28 13 鮟鱇 鍋 28 14 冬 銀河 27 15 桐 花 26 16 一 枚 23 17 雲 峰 23 18 高い さ 23 19 春 月 23 20 夏 帽子 22
ぼっち最強説. ありますね.
それっぽい俳句を生成
ランキングから適当に俳句を作ってみます.
秋暮に 一人で食べる 鮟鱇鍋
ありがとうございました.