2020年コメントの旅

タイトル元: 2001年宇宙の旅

はじめに

11/28放送時のコメント内で、2020年のコメントの統計で何が流行ったかのか
みたいなのを見かけて気になったので統計を取ってみた。

形態素解析したことなかったし、最近作りたいものもなかったからいいネタになったね。やったね。

解析方法

自前で単語を集計するとかマジ意味わかんないので、そこはもう機械の力を借りる

形態素解析のMeCabを使用。言語はPython

とにもかくにも配信履歴からコメントをコピーしてファイルにし、
後はひたすら解析をさせるだけ。

コードは以下

import glob
import MeCab

files = glob.glob("./comment/*.txt")
word_dic = {}


def word_count(word):
    if word in word_dic:
        word_dic[word] += 1
    else:
        word_dic.setdefault(word, 1)


def dic_sorted():
    keys = sorted(word_dic.items(), key=lambda x: x[1], reverse=True)
    for word, cnt in keys[:100]:
        print("{0}回 - {1}\n".format(cnt, word), end="")


def node_analysis(node):
    while node:
        word = node.surface
        if len(word) < 2:
            node = node.next
            continue
        if node.feature.split(",")[0] == "名詞":
            word_count(word)
        node = node.next


def main():
    # Mecabを使用
    mecab = MeCab.Tagger()
    mecab.parse('')

    for file in files:
        with open(file, 'r', encoding='utf-8') as f:
            data = f.readlines()[1::3]
            [node_analysis(mecab.parseToNode(comment)) for comment in data]
    dic_sorted()


if __name__ == "__main__":
    main()

結果発表

名詞のみ抜粋
後は1文字の物は排除。意味わかんないからね。

100位まで
回数 / ワード
581回 – アニメ
573回 – ちゃん
485回 – さん
463回 – これ
414回 – みたい
381回 – 下山
372回 – そう
348回 – 好き
306回 – こと
218回 – やつ
216回 – ゲーム
215回 – キャラ
211回 – 声優
186回 – よう
173回 – それ
160回 – ://
159回 – 動画
154回 – 自分
151回 – シーン
147回 – 主人公
144回 – 放送
141回 – プリキュア
139回 – 世界
133回 – 映画
131回 – あと
127回 – https
124回 – エロゲ
122回 – ここ
121回 – エロ
119回 – とこ
119回 – ネタ
112回 – 作品
111回 – もの
107回 – なん
107回 – ヒロイン
104回 – 最近
98回 – あれ
97回 – 漫画
97回 – 配信
94回 – www
90回 – 時間
90回 – もん
89回 – 実写
89回 – OP
84回 – みんな
84回 – せい
83回 – 一番
82回 – ため
80回 – ライブ
79回 – 人気
79回 – 感じ
78回 – 原作
77回 – ロリ
75回 – アイドル
74回 – 最後
71回 – 女の子
71回 – 名前
71回 – com
71回 – 時代
69回 – 全部
69回 – 大事
68回 – 最初
68回 – 最終
67回 – 子供
67回 – 本編
65回 – くん
64回 – 話題
64回 – 女性
63回 – 意味
63回 – コメント
62回 – 普通
62回 – jp
62回 – たち
62回 – タイトル
61回 – 評価
61回 – なに
60回 – 麻雀
60回 – どこ
60回 – 展開
60回 – watch
56回 – 設定
55回 – 演技
55回 – とき
55回 – レベル
55回 – あたり
55回 – コロナ
54回 – 関係
53回 – 女子
53回 – 完全
52回 – りつ
52回 – 10
52回 – 問題
51回 – 一緒
51回 – 先輩
51回 – そこ
50回 – 絶対
50回 – イメージ
49回 – ファン
47回 – 個人
46回 – 内容

ちなみに咲は1文字だから入っていないが196回でそこそこコメントされていた。

形容詞だとこんな感じ

464回 – いい
386回 – ない
132回 – かわいい
116回 – 可愛い
103回 – ほしい
102回 – 多い
99回 – 良い
94回 – 面白い
79回 – なかっ
78回 – すごい
76回 – なく
64回 – よかっ
57回 – やばい
54回 – 良かっ
51回 – 悪い
44回 – 高い
36回 – 強い
34回 – 薄い
31回 – おかしい
29回 – 多
28回 – っぽい
27回 – すごく
27回 – 新しい
26回 – 長い
24回 – 面白かっ
23回 – 深
23回 – 楽しい
23回 – 尊い
23回 – 可愛く
23回 – 怖い

思った以上に不穏なワードが少なくて民度が高いじゃん。やるね。

コメント

タイトルとURLをコピーしました
Close Bitnami banner
Bitnami