類似特許検索システムGalileo

特許審査において、膨大な数の特許が存在し、審査官による 出願特許の審査作業は、表面上の比較だけでは意味的に類似している特許を見つけることが困難であり多大な労力が必要とされている。そこで、意味解析システムSAGEを用いて特許文を意味レベルで解析し、申請しようとする特許の記述から解決手法など特許内容が類似していて特許を検索する(公知例調査)類似特許検索システムGalileoを開発した。
Galileoによる特許検索では、あらかじめ用意された既存特許群に対して「請求項」以外の項目の削除などの整形作業を行い、SAGEにより生成された意味グラフからなる特許データベースを作成する。入力した出願特許から抽出したキーワードを含む参照特許をLuceneで特許データベースから検索し、これらと出願特許をグラフ照合してその類似度を算出する。このなかで、類似度の高い特許検索結果を出力する。
IPC(International Patent Classification)コードと呼ばれる特許分類コードを利用して特許データベースをあらかじめ分割し、検索するデータベースを出願特許のIPCコードに該当するデータベースのインデックスに動的に差し換え検索対象を絞り込むことで、検索時間の短縮を図る。また、検索に用いるキーワードの抽出を、出願特許の各文から個別に行うのではなく、出願特許記事全体から行うことでより多くの有効キーワードの抽出を図った。さらに、正解特許の順位を上げるために、出願特許と参照特許間のグラフ照合において、参照特許検索時に用いた重要なキーワードを含むノードの照合閾値を低減させることで重要なキーワードがグラフ照合に寄与するようにした。 評価実験では2005年に実施されたワークショップである NTCIR5にて提供されたテストコレクションを使用し、平均逆順位による精度比較を行った。その結果、精度は0.0655(15.2位)であった。

類似特許検索システムGalileo