アンケート自動収集システムSECRET

近年、商品の購入やサービスの利用にあたって、商品情報の他に商品の購入者やサービスの利用者の実際の意見の有用性が高まっている。そこで、機械処理によってWeb上のレビューサイトからレビューを自動で収集することが必要であると考えた。レビューサイトから自動収集したデータを表形式化してCSVファイルとして出力し、STMへ入力可能とするWebレビューの表形式化システムSECRETを開発する。

SECRETのシステム概要

SECRETのシステム構成

図1. SECRETのシステム構成


SECRETではレビューサイトごとにレビュー内容の繰り返しパターンを抽出し、そのパターンに基づいてHTMLからレビュー内容を抽出する。この時SAGE解析を用いてレビューにおける属性名を決定する。レビューに含まれている情報は、レビュアー毎・属性毎に1つのセルに属性値として、STMに対応した形式のCSVファイルとして出力する。
複数のページを読み込むために次ページへのリンクを取得する必要がある。HTML中のハイパーリンクから「次、next」などを含むリンクを取得し、必要に応じて絶対パスに変換する。Webから取得したHTMLは、そのままではパトリシア木作成やマッチングに不向きなため原データを簡略化する。具体的には、簡略化後に残すタグはHTMLの構造を表すタグに限定し、タグのオプションやパラメータはすべて削除する。HTML中の文書はに、コメントはに置き換える。
文字列集合を格納する木構造の一種であるパトリシア木を応用してHTML中の繰り返しパターンを発見する。すなわち、簡略化したHTMLを先頭から順に1つずつ削りパトリシア木に挿入する。最終的に、節が持っている葉の数がその節がHTML中に繰り返された回数である。
一般に、繰り返しパターンは複数個抽出される。このうちどのパターンに基づいてレビュー内容を取り出すかを決めるために、パトリシア木より抽出した繰り返しパターンとサンプリング用のHTMLをマッチングし、各パターンにおけるページ中の出現回数などの値と、抽出されるレビューのサンプルを視覚的に表示し、この結果をもとに人手で最適な繰り返しパターンを決定する。
WebからレビューサイトのHTMLを取得し、選択した繰り返しパターンとのマッチングをし、一致した部分にあるの内容を取得する。
レビューの繰り返しパターンにおいて常に同じ言葉が繰り返されているものを属性名候補とし、そうでないものを属性値とする。属性名候補に対してSAGE解析をし、
・名詞節か断定節
・「断定、現実、現象描写」
・「場所、性状・性向」などの特定の概念を上位概念に持つ
のすべての条件を満たしたものを属性名として判断する。ただし、属性名と判断された場合でも、対応する属性値を持たない場合は破棄される。

STMに対応させたCSVファイルによる出力の例

図2. STMに対応させたCSVファイルによる出力の例


レビュー内容を表形式化し、CSVファイルとして出力した結果は図2のようになる。ファイルの構成は以下のようになっている。
1行目:属性名
2行目:データ種別 4行目以降のデータの形式を表す
  AN 数値属性:回答者の年齢などの数値データ
  AD 日時属性:投稿日時などの日時データ
  AS 選択属性:選択形式の回答データ
   QF 自由記述質問:自由記述形式の回答データ
AI 投稿者属性:意味解析を行う必要のない文字列
3行目:回答条件指定
4行目以降:回答データ
Web上の9つのレビューサイトより各10商品ずつレビューの抽出を行い、精度評価を行った。結果を以下の表に示す。


表 1 実験結果

実験結果

サイト名の右の括弧内は各商品から取得を試みたレビュー数である。属性取得率は、レビューから取得すべきと考えられる属性に対する実際に取得できた属性の件数の割合である。属性名の項目は、その取得した属性において適切な属性名があてられていると判断した割合である。同様にデータ種別の項目は、取得した属性において適切なデータ種別があてられていると判断した割合である。


SECRET2015SECRET+STMデモ