タイトル元: 2001年宇宙の旅
はじめに
11/28放送時のコメント内で、2020年のコメントの統計で何が流行ったかのか
みたいなのを見かけて気になったので統計を取ってみた。
形態素解析したことなかったし、最近作りたいものもなかったからいいネタになったね。やったね。
解析方法
自前で単語を集計するとかマジ意味わかんないので、そこはもう機械の力を借りる
形態素解析のMeCabを使用。言語はPython
とにもかくにも配信履歴からコメントをコピーしてファイルにし、
後はひたすら解析をさせるだけ。
コードは以下
import glob
import MeCab
files = glob.glob("./comment/*.txt")
word_dic = {}
def word_count(word):
if word in word_dic:
word_dic[word] += 1
else:
word_dic.setdefault(word, 1)
def dic_sorted():
keys = sorted(word_dic.items(), key=lambda x: x[1], reverse=True)
for word, cnt in keys[:100]:
print("{0}回 - {1}\n".format(cnt, word), end="")
def node_analysis(node):
while node:
word = node.surface
if len(word) < 2:
node = node.next
continue
if node.feature.split(",")[0] == "名詞":
word_count(word)
node = node.next
def main():
# Mecabを使用
mecab = MeCab.Tagger()
mecab.parse('')
for file in files:
with open(file, 'r', encoding='utf-8') as f:
data = f.readlines()[1::3]
[node_analysis(mecab.parseToNode(comment)) for comment in data]
dic_sorted()
if __name__ == "__main__":
main()
結果発表
名詞のみ抜粋
後は1文字の物は排除。意味わかんないからね。
100位まで
回数 / ワード
581回 – アニメ
573回 – ちゃん
485回 – さん
463回 – これ
414回 – みたい
381回 – 下山
372回 – そう
348回 – 好き
306回 – こと
218回 – やつ
216回 – ゲーム
215回 – キャラ
211回 – 声優
186回 – よう
173回 – それ
160回 – ://
159回 – 動画
154回 – 自分
151回 – シーン
147回 – 主人公
144回 – 放送
141回 – プリキュア
139回 – 世界
133回 – 映画
131回 – あと
127回 – https
124回 – エロゲ
122回 – ここ
121回 – エロ
119回 – とこ
119回 – ネタ
112回 – 作品
111回 – もの
107回 – なん
107回 – ヒロイン
104回 – 最近
98回 – あれ
97回 – 漫画
97回 – 配信
94回 – www
90回 – 時間
90回 – もん
89回 – 実写
89回 – OP
84回 – みんな
84回 – せい
83回 – 一番
82回 – ため
80回 – ライブ
79回 – 人気
79回 – 感じ
78回 – 原作
77回 – ロリ
75回 – アイドル
74回 – 最後
71回 – 女の子
71回 – 名前
71回 – com
71回 – 時代
69回 – 全部
69回 – 大事
68回 – 最初
68回 – 最終
67回 – 子供
67回 – 本編
65回 – くん
64回 – 話題
64回 – 女性
63回 – 意味
63回 – コメント
62回 – 普通
62回 – jp
62回 – たち
62回 – タイトル
61回 – 評価
61回 – なに
60回 – 麻雀
60回 – どこ
60回 – 展開
60回 – watch
56回 – 設定
55回 – 演技
55回 – とき
55回 – レベル
55回 – あたり
55回 – コロナ
54回 – 関係
53回 – 女子
53回 – 完全
52回 – りつ
52回 – 10
52回 – 問題
51回 – 一緒
51回 – 先輩
51回 – そこ
50回 – 絶対
50回 – イメージ
49回 – ファン
47回 – 個人
46回 – 内容
ちなみに咲は1文字だから入っていないが196回でそこそこコメントされていた。
形容詞だとこんな感じ
464回 – いい
386回 – ない
132回 – かわいい
116回 – 可愛い
103回 – ほしい
102回 – 多い
99回 – 良い
94回 – 面白い
79回 – なかっ
78回 – すごい
76回 – なく
64回 – よかっ
57回 – やばい
54回 – 良かっ
51回 – 悪い
44回 – 高い
36回 – 強い
34回 – 薄い
31回 – おかしい
29回 – 多
28回 – っぽい
27回 – すごく
27回 – 新しい
26回 – 長い
24回 – 面白かっ
23回 – 深
23回 – 楽しい
23回 – 尊い
23回 – 可愛く
23回 – 怖い
思った以上に不穏なワードが少なくて民度が高いじゃん。やるね。
コメント