ドワンゴインターン2008/2009
注意:ここで書かれているのは基本的にドワンゴインターン2008の内容です。
去年 ドワンゴインターン行ってきた - Limitの日記 で書いた通り、去年のドワンゴインターン2008に参加したわけだけど、何の因果かインターン2009の最終発表会を見学させていただくことができました。
インターン2008
どうやらインターン2008の内容はほとんどしゃべっちゃって大丈夫らしい(というか、既に公開されてるとか)ので、もう少し技術的に詳しいところを書こうと思います。
インターン2008は2チームに分かれていて、もう片方はd:id:con_mameが2009-09-16で書いてくれています。
やったこと
ニコニコ動画の各動画につけられるタグの情報を利用して、タグ荒らしを検出しよう
状況および目的
動画にユーザが自由につけられるタグだが、自由なのをいいことに好き放題タグを編集しまくる人がいる。
場合によってはそれが人間の手によるものではなく、タグ編集ツールだったりする。
このようなユーザを的確に発見したい。
基本アイデア
あまり細かいところは荒らしにさらなる対策をさせることになるので言わないほうがいいと思うので言わないけど、
荒らしの特徴として
- タグの編集回数が異常に多い
というのが挙げられる。これは実際かなり単純な方法なのだが、タグ編集ログに対して、編集回数が多いユーザの上位にはかなりの確率で荒らしユーザと思われる行動がみられた。
生じた議論
ここで、そもそも「タグ荒らし」とはどういうものを指すか、ということについての検討が行われた。
実はインターンの期間の中でかなりの時間、「タグ荒らし」とはどのようにして(定量的に)定義すべきか、という議論が行われた。
最終的に採用された方法
タグの言葉を形態素解析→意味解析して、荒らしっぽいとかを判定するというのも方法としてはあるのだが、それほど詳しい知識があるわけでもないので、別の手段を検討した。
タグの編集回数が非常に多いユーザを見ていると、「わけわかんないタグばっかり付けてる人(=多分荒らし)」と、「マイナーなタグをメジャーなタグに付け直している人(=タグの直し屋)」がいることが分かった。
この事実をヒントに、[自主規制]に各編集行為を分類し、それぞれパラメータをいじることによって「荒らしのように見える人」「直し屋のように見える人」というのを、タグ編集回数が多い人について振り分けることになった。
最終的には人間の目で見てみるしかないが、最終日の段階では約7割の精度で荒らしの判定を行える、という状態になった。あの段階で満足しているわけではなかったんだけど、あの時は精一杯だったと思う。
インターン2009
見学させていただけるということで、インターン2009の最終成果発表会だけ見学に行かせていただきました。
インターン2009の内容についてはd:id:marimofireがhttp://d.hatena.ne.jp/marimofire/20090914/1252949002で書いてくれているので、こっちを見てください。
今回は技術系のインターン生3人だけということで規模が大きかったわけではないですが、成果としてある程度まとまったものもできていたし、立派に発表できていたと思います。社員の方が約20人くらい聞いていたというのもあって、発表している側は結構緊張していたようです。
3人とも、おつかれさまでした。