テキストマイニング

自由記述式のアンケートは選択式のアンケートに比べ、回答者の自由な意見を集約できるなどのメリットがあります。しかし、大量のテキストデータを人手で分類し、分析するには多くの時間と人材の確保が必要です。そのため、近年注目を浴びているのが、自由記述式のような構造化されていないテキストデータを自動的に分析し、有益な情報を得るテキストマイニングです。テキストマイニングを用いることによって、人手では検証できないほど大量なテキストと、それに付属するデータとの関連性などの情報を、表現的に、定量的かつ定性的に見つけ出すことができます。


意味解析を用いたテキストマイニングツールSTM

従来のテキストマイニングでは、形態素の表層的情報を中心とした解析を用いていますが、以下の問題点があります。

  ・語意や語間の関係が把握できない
  ・「何がどうだ」「何がどうした」などの複数の語からなる関係を把握できない
  ・表現の揺れによる差異を吸収できない

当研究室で開発しているテキストマイニングツールSTMは、文が表す意味的内容の類似性をベースにしています。STMでは、意味解析によって日本文を意味グラフに展開し、2つの意味グラフの対応するノード同士の概念的な類似度やノード間の深層格の類似度をベースに、類似部分グラフの大きさで2文の類似度を計測することによって、表現が異なっていても同様な趣旨をもつ文を同意見として集約し分類します。

分析の流れは以下のようになります。

分析の流れ

図1 分析の流れ


文分析

図2 文分析


文分析 グラフ化

図3 文分析 グラフ化

光熱費の節約に対するアンケート45件をSTMが20個のクラスタに分類しています。意味をベースに、「何がどうだ、何がどうする」の観点から分類するので、概念の類似性を元に表層的に違うものでも同じ意味を表す意見を1つのクラスタにまとめています。(「電気」と「蛍光灯」と「電灯」、「風呂の水」と「残り湯」、「見ないテレビを消す」と「テレビを見ない」)

一方細かな違いが正確に認識されるので同じ語でも使われ方やムードが違うと異なるクラスタに分類されます。(「冷蔵庫を開けたら、すぐ閉める」と「冷蔵庫の扉を開けっ放しにしないようにする」、「蛍光灯を使う」と「白熱灯を蛍光灯に替えた」)


文分析 ポジショニングマップ

図4 文分析 ポジショニングマップ


コレスポンデンス分析では、アンケートデータ(文や句)のクラスタリング結果から、クラスタの要約文と要素数を回答者の属性ごとに分類したものをクロス集計表としてまとめ、それを基にポジショニングマップを作成します。回答者の属性は属性リストの項目を選択することで指定され、この項目に合ったデータ数がカウントされます。その後、作成されたクロス集計表のマトリックスより、ポジショニングマップにおける回答者の属性および意見(クラスタの要約文)のプロット座標を表示します。

STMで可能な分析手法は以下があります。


  • 文節分析
    • 意見中に現れる文節の出現回数や回答の数をカウントするものです。語意が同じものでクラスタリングしています。さらに選択型の属性に対して、その値ごとに特徴的な文節を列挙して、属性値で現されるクラスの特徴を知ることができます。
      下記に文節分析の様子を示します。

    文節分析


    • 下記に文節分析の中の特徴分析の様子を示します。

    特徴分析


  • 句分析
    • 分析対象の句の意味グラフをデータベースから抽出しクラスタリングをし、各クラスタの要素が多い順にクラスタの要約文と共にランキングを表示するものです。

  • 文分析
    • 分析対象の文の意味グラフをデータベースから抽出しクラスタリングをし、各クラスタの要素が多い順にクラスタの要約文と共にランキングを表示するものです。

  • 文章分析
    • 文分析の際に作成された類似度テーブルを活用し、個々の意見を一文ずつ比較します。ここで読み出された文の類似度から文章用の類似度を算出し、その類似度を用いてクラスタリングを行います。
      これらのクラスタ分析の事例を以下に示す。

    クラスタ分析


  • コレスポンデンス分析
    • コレスポンデンス分析とは、クロス集計表を元データとして、類似した項目どうしを近くに配置するマッピングの手法です。日本では、対応分析とも呼ばれています。
      これらのコレスポンデンス分析の事例を以下に示す。

    コレスポンディング分析


  • 評判分析
    • 分析対象の意見文全体に対して、評判(Good, Bad, Neutral)を表す表現を探索して列挙する。
      評判分析の事例を以下に示す。

    評判分析


  • 時系列分析
    • 頻度分析、句分析、文分析のそれぞれの分析に時間という概念を追加し、回答、形態素、句や文の出現頻度を時系列表示するものです。
      1. 回答の時系列分析
      2. 形態素の時系列分析
      3. 句の時系列分析
      4. 文の時系列分析

  • 質問応答分析
    • 分析対象の意見文全体に対して、事実や理由や方法などについての質問をして、回答を得ることができます。裏で質問応答システムMetisが働いています。
      質問応答分析の事例を以下に示す。

    質問応答分析


  • 因果関係分析
    • 分析対象の意見文全体に対して、因果関係にある文や句のペアを列挙します。
      因果関係分析の事例を以下に示す。

    因果関係分析