|
【技術分類】
C−3−(3) 文字列照合検索
【技術の名称】
切り出し型検索
フルフレーズ型検索
切り出しフルフレーズ型検索
ストリングサーチ型検索
【技術内容】
全文ファイル検索は、全文を走査して文字列を照合していく検索方法であるが、検索対象の切り出し方法や、照合方法にはいくつかの方法がある。その中で切り出し型検索は、入力した文字を助詞、名詞、動詞部分などにわけて、AND検索する方法である。
フルフレーズ型検索は、入力した文字のすべてを区切らずに用いて検索する。フルテキスト検索ともいい、文字通り全文ファイル検索を前処理なしにマッチングをかける方法であり、得られたデータに間違った検索結果が出る可能性がない方法である。
切り出しフルフレーズ検索は、フルフレーズ型検索では検索時間がかかるため、対象ファイルを切り出し、並行に複数のファイルに対してフルフレーズ検索を行い、検索結果をマージする検索のことである。
また、特定の検索フィールドを一文字ずつ走査して検索を行う機能をストリングサーチと呼ぶ。自然語を切り出しによって検索を行う場合、検索したい言葉が切り出されていないと、通常の検索では目的の検索を十分に行うことはできない。しかし、ストリングサーチでは一文字ずつ走査するため、目的の文字列が切り出されていなくても検索することができる。
ただし、ストリングサーチは一文字ずつの検索のため、膨大なデータベース全体をストリングサーチすると処理時間も膨大なものになる。よって検索にはいくつか制限がかけられることが多い。
【図】
図

(図は(株)日鉄技術情報センターにて、出典をもとに作成いたしました。)
【応用分野】
全文検索
【出典/参考資料】
<引用情報>
(a)全文検索システム協議会
(b)平成10年度 活動報告 第1部
(c)第6章 用語解説
(d)online
(e)1999年11月25日、全文検索システム協議会、平成10年度 活動報告
(f)(2002年3月18日)
(g)http://www.ftsanet.com/dbtokyo99/Db99.htm
【技術分類】
C−3−(3) 文字列照合検索
【技術の名称】
パトリシアツリー方式
【技術内容】
Patriciaとは、Practical Algorithm To Retrieve Information Code In Alphanumericの略。文書のすべての文字から始まる半無限部分文字列(Semi-infinite strings)のインデックスを作成し、これを検索することで該当する文献を探し出す。
実際の演算では、文字列をビット・ストリングで扱い、0か1で分岐するツリー構造で表現するので、高速で検索できる。英語や日本語、中国語などのテキストの言語に関わりのない手法である。
英語のように単語の間にスペースがある言語では各単語の先頭から、日本語などスペースを挟まない言語の場合には各文字の先頭ビットから、半無限部分文字列のインデックスポインタを持つ。そのため日本語テキストの場合にはインデックスファイルが大きくなる傾向があり、インデックス生成時間もそれに応じて長くなる。
【図】
図 パトリシアツリーの図解

出典:「全文検索システムの方式分類」、「平成10年度全文検索システム協議会活動報告」、(1999年11月13日)、全文検索システム協議会著、全文検索システム協議会発行、15頁 図3 3−2 パトリシアツリーの図解
【応用分野】
中規模以上システムの全文検索
【出典/参考資料】
「全文検索システムの方式分類」、「平成10年度全文検索システム協議会活動報告」、(1999年11月13日)、全文検索システム協議会著、全文検索システム協議会発行、114頁〜16頁
【技術分類】
C−3−(3) 文字列照合検索
【技術の名称】
パターン認識方式
【技術内容】
パターン認識による方法では、文書中に含まれる文字列をバイトコードの列として取り扱い、文字列の検索をバイトコードパターンのマッチング問題として実現する。検索文字列も検索対象の文字列もバイトコードのパターンとして比較されるため、以下のような特徴を有している。
(1)言語に依存しない様々なテキストパターンの検索に応用することができる。
(2)日本語処理のための辞書を必要としない。
(3)パターン比較のため、曖昧検索(完全に一致しない文字列パターンの検索)を実現可能にする。
逆に、類似パターンを検索するため、ノイズを高めるという短所も併せ持つことになる。ただし、通常の文字列比較アルゴリズムを利用することにより、この問題は緩和することができる。
【図】
図 文字列をバイトコードパターンで表現し照合

出典:「全文検索システムの方式分類」、「平成10年度全文検索システム協議会活動報告」、(1999年11月13日)、全文検索システム協議会著、全文検索システム協議会発行、19頁 図3 4−1 文字列をバイトコードパターンで表現し照合
【応用分野】
あいまい検索
【出典/参考資料】
「全文検索システムの方式分類」、「平成10年度全文検索システム協議会活動報告」、(1999年11月13日)、全文検索システム協議会著、全文検索システム協議会発行、18頁〜20頁
【技術分類】
C−3−(3) 文字列照合検索
【技術の名称】
係り受け関係を使った全文検索システム
【技術内容】
文書に係り受け解析を行い、その結果を単語のエントリ情報による一次情報と単語出現情報と係り先情報による二次情報による2段階インデックスを作成することによって、全文検索を行うシステムのことである。
【図】
図1 システムの概要

出典:「係り受け情報を用いた全文検索とその評価」、「ディジタル図書館 No.11」、(1998年3月4日)、新美和彦、兵藤安昭、池田尚志著、「ディジタル図書館」編集委員会発行、図1 システムの概要
図2 係り受け関係の照合

出典:「係り受け情報を用いた全文検索とその評価」、「ディジタル図書館 No.11」、(1998年3月4日)、新美和彦、兵藤安昭、池田尚志著、「ディジタル図書館」編集委員会発行、図4 係り受け関係の照合
【応用分野】
全文検索
【出典/参考資料】
「係り受け情報を用いた全文検索とその評価」、「ディジタル図書館 No.11」、(1998年3月4日)、新美和彦、兵藤安昭、池田尚志著、「ディジタル図書館」編集委員会発行
|