[2ちゃん自動要約マシン] 進化するモンゴイカ(仮)

2ちゃんねるのニュース系スレッドを自動でまとめるプログラムをテストしています。2ch上で話題になっているスレだけを自動抽出しています。相互リンク募集中。ご希望の方はツイッターで@speq0001までご連絡ください。

このブログについて

このブログについて

ブログ名:進化するモンゴイカ(仮)
管理人:speq
概要:2ちゃんねるのニュース系スレッドを自動要約して記事を生成しています。

ブログURL:http://speq.hatenablog.com/

ブログの参照先:
http://speq.hatenablog.com/feed
http://speq.hatenablog.com/rss

リンク、RSSについて
当ブログはリンク、RSSフリーです。
相互リンク、相互RSS常時募集中です。
お気軽にtwitterで@speq0001までか、もしくはspeq0001あっとgmail.comまでご連絡下さい。

当ブログは、2ちゃんねるhttp://www.2ch.net/)に書き込まれたテキスト等を引用しております。当ブログで掲載している画像の著作権または肖像権等は各権利所有者に帰属するもので、当ブログがそれを主張するものではなく、権利を侵害する目的はありません。

ブログの内容に問題がございましたら、お手数ですが、メール(speq0001あっとgmail.com)にてご連絡下さい。確認後、速やかに対応いたします。

なお、リンク先の閲覧・コメントに関するトラブル等に当ブログは一切の責任の負いません。

FAQ

Q1.どうやってコメントを抽出しているの?
A.独自の評価関数を作成し、評価上位のレスを優先して抽出しています。

複数の文字列パターンを用意し、それぞれに点数を振り(例えば、「だろう」が含まれていたら+5点、「笑」が含まれていたら+10点、「思う」が含まれていたら+5点、といった感じで)、これを元にスレッド内の全てのレスのマッチングの有無を調査、点数の合計を1つのレスの評価値とし、評価値の上位からレスを抽出しています。

Q2.抽出している内容は中立的なのでしょうか。
A.次のような意味で中立的ではありません。

コメントの抽出は、Q1で解説した方法をとっていますが、各文字列パターンの点数付けは管理人の"目分量"です。この評価関数の設計が原因で、抽出されるコメントの内容に何かしらの偏りを持つ可能性があります。また、あからさまは差別的な発言については、抽出されないような設計にしています。なお、評価関数の詳細については、公開の予定はありません。


その他:

大量のテキストデータから有益な知見を抽出する技術に興味があり、個人的に研究しています。もし、こうした技術に興味があって技術情報を交換したい、と思う方がおりましたら、上記twitter宛にご連絡下さい。当方、関東圏在住です。オフ会や勉強会の誘いなどがあれば、積極的に参加したいと考えています。よろしくお願いします。