PrintInsight 印刷イメージログ監視システム
  • 03-5464-5468
    9:00〜18:00(土日祝を除く)
  • メールでのお問い合わせ
  • 評価版申し込み
  • 資料請求

PrintInsightの検索方式について

PrintInsightは、膨大な量の文書を対象に検索することを前提として設計されており、高速な検索が可能です。高速検索を実現するため、検索対象となる文書に対してあらかじめ索引情報 (インデックス) を準備しています。インデックスを作成する方法は多々ありますが、PrintInsightでは、形態素解析方式、およびN-Gram方式の2つを採用しています。これら2つの方式のうち、どちらか一方にヒットすれば検索結果に反映される仕組みになっています。また、PrintInsight内部では適合率 (網羅性) および再現率 (一致性) の観点から、検索結果に対してスコアを付けており、スコアの高い順番に、つまり、検索にヒットしたと思われる確率の高い順番に表示される仕組みになっています。

形態素解析とは

あらかじめ準備した辞書を元に、品詞なども考慮しながら意味のある最小単位の単語に分割します。その際、単語が辞書に登録されていれば検索のバリエーションが広がり、多様な表現に対応できます。例えば、辞書に「がん」と「ガン」が登録されている場合、「抗がん剤を開発した」という文章は、次のように分割されます。

「抗」、「がん」、「ガン」、「剤」、「を」、「開発」、「した」

この場合、「がん」をキーワードに検索すると、「抗がん剤を開発した」という文章も、「抗ガン剤を開発した」という文章も、両方ヒットすることになります。このように、辞書の作り方を工夫することで、検索の対象となる表現の幅を広げることが可能です。逆に、形態素解析は辞書の内容に大きく影響され、専門用語など辞書に登録されていない単語は認識できないという特性があり、検索にヒットしないという弱点があります。

N-Gramとは

検索対象となる文章を機械的にN文字単位の文字列に分割します。PrintInsightではN=2文字を採用しています。例えば、「全文検索方式」という文章は、以下のように分割されます。この方式により、検索漏れが起こらず、辞書を準備する必要もありません。

「全文」、「文検」、「検索」、「索方」、「方式」

一方、N-Gramでは、意図したものとは異なる検索結果が含まれる場合があります (これを検索ノイズといいます)。たとえば「京都」で検索したにもかかわらず「東京都庁」がヒットしますが、これはN-Gramの検索としては正しい挙動になります。

形態素解析とN-Gramの比較

  形態素解析 N-Gram
インデックス速度 遅い 速い
インデックスサイズ 小さい 大きい
検索ノイズ 少ない 多い
検索漏れ 多い 少ない
検索速度 速い 遅い
言語依存 辞書が必要 辞書が不要

PrintInsightは、形態素解析方式、およびN-Gram方式を組み合わせることで、適合率 (網羅性) および再現率 (一致性) を高めています。検索結果に検索ノイズが含まれますが、内部スコアの高い順に表示されますので、検索結果の上位から順番にレビューを行っていただくことで、効率的に監視を行うことができます。また、アラートを登録する際、アラートメールの発生条件を絞り込むことによって、通知頻度を減らしたり、検索ノイズを減少させたりすることも可能です。

検討したいので詳細資料が欲しい
資料請求
まずは試して検討したい
評価版申し込み
購入に関して相談をしたい
販売パートナー
その他 お問い合わせ
お電話でのお問い合わせ
メールでのお問い合わせ お問い合わせフォーム
PAGE
TOP