談話構造解析

談話構造解析は、形態素解析、構文解析、意味解析など1文内の言語要素を対象にした解析とは異なり、文章中の文と文の間の役割的関係や話題の推移を明らかにするものです。これによって、文章での話の流れがつかめるようになり、自動要約、照応解析、質問応答、意見分析、対話応答などにおいて、文脈の把握に役立ちます。

本研究ではセンタリング理論を対象知識に基づき拡張し、談話中の話題の移り変わりを意味的に解析し談話構造木を生成する手法を提案し、これに基づく談話構造解析システムDIA(DIscourse Analysis system)を開発しています。センタリング理論は文の話題の中心である焦点の推移に着目して文間の結束性をモデル化した理論ですが、本研究ではこれを対象知識を用いるように拡張し、ここの文がそれまでに出現したどの文から派生しているか(派生元)の決定に用います。この結果、下図のように、文章中の各文を節とし、文(派生先)とその派生元の文との間の接続関係を辺とする談話構造木が生成されます。

この接続関係を、主題や話題がどのように変化しているか、あるいは内容が順接、逆接、理由かなどによって、下表のように分類しました。

以下に実際の解析例を表示します。

ウェブ上のニュース記事から抽出した、13文章を対象に評価実験を行った結果は次の表のようでした。




派生元の正解率は談話構造木の構築で正しく親節を決定できたかを表している。文間接族関係の正解率は談話構造木の構築で正しく派生元が選ばれたものの中での文間接族関係の正解率である。全体の正解率は、正しい派生元を選びかつ正しい文間接族関係を選んだ割合である。