書き物

技術とか作った物の話とか愚痴文句感想など

ブコメの感情分析(不完全)

極性辞書という、単語のポジティブ、ネガティブ度合いを定義した辞書を使う事で、文章がポジティブな内容か、ネガティブな内容か判定出来るようです。

↓参考 www.statsbeginner.net

はてなの世界では、交流目的ではてブを使っている人は、ブコメの内容が筆者への呼びかけであるため、敬語になる傾向にあります。そうでは無い使い方の人は、独り言を書くため、敬語にはなりにくい傾向があります。 つまり、交流目的ではてブを使っている人を見つける場合、敬語率が高めのユーザーを探せば良い事になります。

↓のような検索の仕方です。

新着 - はてな研究

但し例外があって、炎上すると敬語率は急降下します。

↓の方は、全体で敬語率が50%超えですが、炎上エントリの敬語率は18%です。

エントリー一覧 - はてな研究

炎上しがちですが、交流目的ではてブを使っている仲間が多いユーザーを探す場合、敬語率だけでは探せないことになります。何かに必死になっている私はそれでは困ります。ポジティブコメントのみの敬語率が高いユーザーを探せば、炎上しがちな場合でも見つけられそうですね。

さっそく感情分析をしてみました。

↓典型的な交流目的のユーザーとして、以下を見てみます。

ブックマーク一覧 - はてな研究

「感情」列の数字が、コメントがポジティブであれば1に近づき、ネガティブであれば-1に近づきます。

良記事ヽ(*´∀`)今後も更新ぜひともお願い致します。完了形で10個書く準備しておきまーす。

のコメントの感情が「-0.688440」です。は?めっちゃネガティブ。んなわけない。

↓分析の内訳

良:名詞 = 0.729935
記事:名詞 = -0.526464
今後:名詞 = -0.532239
更新:名詞 = 0.9879530000000001
致す:動詞 = -0.690591
完了:名詞 = -0.32126
個:名詞 = -0.431687
準備:名詞 = -0.732398
する:動詞 = -0.602913
おく:動詞 = -0.9798290000000001
する:動詞 = -0.602913

浮動小数点の誤差が出てるけど気にしない。この内訳の数値の平均が前述の数値なんだけども、そもそも極性辞書の解釈が合ってないように思うなぁ。

1件ではなく2件以上なのですね☆面白いです(^^♪

これは「0.300868」で納得です。

件:名詞 = -0.27588
ない:助動詞 = -0.9999969999999999
件:名詞 = -0.27588
以上:名詞 = -0.5695720000000001
の:名詞 = -0.26168600000000003
面白い:形容詞 = 0.9891989999999999

「面白い」が感情爆アゲです。

とりあえずこの分析は続けておきますが、何かアルゴリズムを改善しないといけなそうです。