明 糸田 キー ヮ 一 ド 抽 出装置 技術分野
こ の発 明 は、 テキス ト か ら キ ー ワ ー ド を抽 出す る キー ワ ー ド 抽 出装置 に 関す る も の で あ る 。 背景技術
図 1 1は、 た と え ば特 開平 1 0— 3 3 4 1 0 2に示 さ れた従来 の キ一 ヮ一 ド 抽 出装置 を示す構成 図で あ る 。 図 1 1にお レ ^ て 、 1 はデ一 夕 ベ ース 、 2 は一次キー ヮ - - ド 切 出処理部、 3 は字種情報部、 4 は一次キ一 ワ ー ド 格納部、 5 は不要 語除去処理部、 6 はキ ー ワ ー ド 情報格納部で あ る 。
つ ぎ に 、 動作 に つ い て説明す る 。 キ一 ヮ 一 ド と な る 文 字 の種別 を 定 め た字種情報部 3 の 情報 に基づき 、 一次キ 一ワ ー ド 切 出処理部 2 はデー タ ベー ス 1 か ら 一次キー ヮ ー ド と な る 文字列 を抽 出 し て一次キ一 ヮ — ド 格納部 4 に 格納す る 。 不要語除去処理部 5 は他 の一次キー ヮ ー ド を 結合 し た も の と 等 し い 一次キー ワ ー ド (合成語) を 不要 語 と し て 除去 し 、 残 っ た も の を キ一 ヮ 一 ド 情報格納部 に 格納す る 。
ま た 、 不要語除去処理部 5 で は 1 文字 の一次キー ヮ ー ド を 除去 し た り 、 あ ら か じ め格納 さ れた接頭語、 接尾語 を 除 い て不要語除去処理 を行な っ た り 、 あ ら か じ め 登録 さ れて い る か あ る い は頻出す る 合成語 は除去 し な い な ど と い っ た処理 も 記載 さ れて い る 。
従来の キ一ワ ー ド抽 出装置は字種情報 を べ一ス と し て
い る の で、 複数 の字種 に ま た が つ た キ ~ 7 ~~ ド を抽 出す る こ と が困難で あ っ た 。 ま た キ一フ ー ド と はな り 得な い と 同定で き る 部分 に 関 し て も キ ド 抽 出処理が行な わ れ る た め 、 不要な処理 の結果 、 誤 つ た キー ヮ一 ド を抽 出 す る 可能性 も あ っ た 。 さ ら に キー ヮ — ド と な る べ き 合 成語や不要な一次キー ワ ー ド 、 · ^ロロ 、 接尾語 に 関す る 情報が文字列 も し く は単な る 文字数 と し て格納 /規定 さ れ る た め 、 述 の柔軟性、 簡潔性 に欠 け、 ま た本来 は接 sSロロ ■ 接尾語で はな い 部分が誤 つ て削除 さ れた り 、 キー ワ ー ド と な る ベ き 1 文字 の文字列 を抽 出で き な い と い つ た 問題点 あ つ た 。 ま たそれ ら の情報 を 分野 ' 文書 タ イ プな ど に対応 し て モ ジ ユ ール化 し 、 必要 に応 じ て組み合 わ せて用 い る こ と も 不可能で あ り 、 それ ら の *報 の 再利 用 性が乏 し か つ た 。
こ の発明 は、 HU Θ己 の よ う な 問 題点 を解決す る た め に な さ れた も の で あ り 、 キー ヮ ー ド 抽 出 に 関す る 情報 の 記述 性、 再利用 性 を 向 上 さ せなが ら 、 精度よ く 効率的 に キー ワ ー ド を抽 出す る キー ワ ー ド 抽 出装置 を 得 る こ と を 目 的 と す る も の で あ る 。 発 明 の 開示
本発 明 に 係 る 第 1 の キー ワ ー ド 抽 出装置は、 テキ ス ト を 入力 す る テキ ス ト 入力 手段 と 、 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列 の マ ッ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン を 少 な く と も 有す る パ タ ー ン格納手段 と 、 テキス 卜 に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キ一 ワ ー ド 構成要素パ タ ー ン
に マ ッ チす る 互 い に ォーノ ー ラ ッ プの な いすべて の文字 列 を キ一 ヮ一 ド 構成要素 と し て抽 出す る キー ヮ ー ド 構成 要素抽 出手段 と 、 各キ 一 ヮ 一 ド 構成要素か ら キ一 ワ ー ド 候補集合 を 生成す る キー ワ ー ド 候補集合生成手段 と 、 キ
— ヮ ー ド 候補集合 の各キ一 ヮ一 ド 候補 を キ一 ヮ一 ド と し て 出力 す る キー ワ ー ド 出 力 手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に 係 る 第 2 の キー ワ ー ド 抽 出装置は、 各キー ヮ ー ド 構成要素 を そ の ま ま キー ワ ー ド 候補 と し て キー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 を有 す る こ と を 特徴 と す る も ので あ る 。
本発 明 に 係 る 第 3 の キ ー ワ ー ド 抽 出装置は、 テキ ス ト に対 し 前記パ タ ー ン処理手段 を 用 い て、 キー ワ ー ド 構成 要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と して抽 出 し なが ら 抽出位置 を 記録す る キー ヮ ー ド 構成要素抽 出手段 と 、 各キー ヮ ー ド 構成要素 の文字列長 と抽 出位置か ら テ キ ス ト 上連続 し て い る と 判定 さ れた キ一 ワ ー ド 構成要素 は連 結 し て 1 つ の キ ー ワ ー ド 候補 と し て、 単独の キー ワ ー ド 構成要素はそ の ま ま キ ー ワ ー ド 候補 と し て、 キー ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有 す る こ と を 特徴 と す る も の で あ る 。
本発 明 に 係 る 第 4 の キー ワ ー ド 抽 出装置は、 テキス ト 上連続 し た キ一 ヮ一 ド 構成要素 はそれぞれを 単独の キー ワ ー ド 候補 と す る と と も に 、 前後の キー ワ ー ド 構成要素 を連結 し た も の をそれぞれキー ヮ ー ド 候補 と す る 一方、 単独 の キ一 ヮ 一 ド 構成要素 はそ の ま ま キー ヮ ー ド 候補 と し て 、 キ一 ワ ー ド 候補集合を 生成す る キー ワ ー ド 候補集
合生成手段 を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 5 の キー ワ ー ド 抽 出装置 は、 キー ヮ 一 ド 候補集合 に お い て重複 し た キー ヮ 一 ド 候補 を 1 つ に ま と め る キ 一 ヮ一 ド 候補集合生成手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 6 の キー ワ ー ド 抽 出装置 は、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い部分 を表 わす非キー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テキ ス ト に対 し 前記パ タ ー ン処理手 段 を用 い て非キー ヮ ー ド 候補パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な いすべて の文字列 を検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補除去手段 と を 有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 7 の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素 パ タ ー ン と キー ヮ ー ド 構成要素パ タ ー ンで網羅す る こ と が困難な キー ヮ ー ド 構成要素 を表わす例外キー ヮ ー ド 構成要素パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納 手段 と 、 テキス ト に対 し て前記パ タ ー ン処理手段 を 用 い て、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に ォ一バー ラ ッ プの な いすべて の文字列 を例外キー ヮ 一 ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別な文字列 に変換す る 例外キー ワ ー ド 構成要素抽 出手段 と 、 キー ヮ 一 ド 構成要素お よ び例外キー ヮ ー ド 構成要素か ら キー ヮ
一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 8 の キー ワ ー ド 抽 出装置は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を 表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ一 ワ ー ド候補集合 の 各キ一 ヮ一 ド 候補 の文字列全体 に対 し て前記パ タ ー ン 処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ ー ヮ 一 ド 候補集合か ら 除去す る 不要語除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 9 の キー ワ ー ド 抽 出装置は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 必要語 を表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン 格納手段 と 、 キー ワ ー ド 候補集合 の 各キ ー ワ ー ド 候補 の 文字列全体 に 前記パ タ ー ン処理手段 を用 い 、 必要語パ 夕 — ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の を キ 一ワ ー ド 候補集合か ら 除去す る 不要語除去手段 と を有す る こ と を特徴 と す る も の で あ る
本発 明 に係 る 第 1 0の キー ワ ー ド 抽 出装置 は、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要な 先頭文字列 を表わす不要先頭パ 夕 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の各キー ヮ ー ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ツ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と のキ一 ヮ一 ド候補 をキー ヮー ド候補集合か ら 除去 し、
空文字列 でな けれ ばそれ を も と の キ ー ヮ 一 ド 候補 と 置換 す る 不要先頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 1の キー ワ ー ド 抽 出装置 は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素パ タ ー ン と 不要な 先頭文字列 を 表わ す不要先頭パ タ ー ン と 必要な 先頭文字列 を表わす必要先頭パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補 集合 の各キー ヮ 一 ド 候補 の先頭文字列 に対 し て前記バ タ — ン処理手段 を 用 い 、 必要先頭パ タ ー ン に マ ッ チせず不 要先頭パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 し ては、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果 が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、. 空文字列で な けれ ばそれ を も と の キ一 ヮ一 ド 候補 と 置換す る 不要先頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 2の キー ワ ー ド 抽 出装置は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成 要素パ タ ー ン と 不要な 末尾文字列 を表わ す不要末尾パ 夕 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ一 ヮ 一 ド 候補集合 の各キ一 ヮ一 ド 候補 の 末尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ツ チす る キ 一 ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と のキ一 ヮ一 ド候補 をキー ヮ一 ド候補集合か ら 除去 し、 空文字列 でな けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換 す る 不要末尾文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 1 3の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要な末尾文字列 を表わ す不要末尾バ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補 集合 の 各キー ヮ ー ド 候補 の末尾文字列 に対 し て前記パ 夕 ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不 要末尾パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 し ては、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果 が空文字列で あ れ ばも と の キー ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去手段 と を 有す る こ と を特徴 とす る も の で あ る 。
本発 明 に係 る 第 1 4の キー ワ ー ド 抽 出装置は、 不要語 除 去手段 、 不要先頭文字列除去手段、 不要末尾文字列除去 手段 の う ち 2 つ以上 を 組み合わせて 、 あ る い は不要先頭 文字列除去手段、 不要末尾文字列除去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て最終的 に キー ヮ 一 ド 候補 集合か ら 除去 さ れたキ一 ワ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に 付加す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 1 5の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 のパ タ ー ン格納手段 と 、 各種パ タ ー ン を適用す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を有 す る こ と を特徴 と す る も ので あ る 。
本発 明 に係 る 第 1 6の キー ヮ ー ド 抽 出装置は、 不要語パ
タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に格納 さ れた パ タ ー ン を並行 し て適用 し 、 い ずれか のパ タ ー ンでマ ッ チすればそれ を マ ッ チ ン グ結果 と し て、 他 のパ タ ー ン の適用 を 中止す る パ タ ー ン処理手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 7の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 の パ タ ー ン格納手段 と 、 必要 に応 じ てパ タ ー ン に お け る 選択、 連結、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を 整列 し な が ら 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を 種別 ご と に統合 し て 出 力す る パ タ ー ン統合手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 8の キー ワ ー ド 抽 出装置は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し なが ら 、 前記パ タ ー ン 格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を 有す る こ と を 特徴 とす る も の で あ る 。
本発 明 に係 る 第 1 9の キー ワ ー ド 抽 出装置は、 パ タ ー ン の 反復 に 関 し て反復展 開 回数 の 上限 を設 け、 それ を超え る パ タ ー ン の 反復 は除外 し て 、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を有する こ と を特徴 と する も のであ る 。
本発 明 に係 る 第 2 0の キー ワ ー ド 抽 出装置は、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と す る パ タ ー ン を 出 力す る パ タ ー ン統合手段 を有す る こ と を特徴 と
す る も の で あ る 。
本発明 に係 る 第 2 1の キー ワ ー ド 抽 出装置は、 テキス ト を入力 す る テキ ス ト 入 力 手段 と 、 入力 さ れた テキス ト に 対 し 単語 を抽 出 し て品詞 を解析す る 品詞解析手段 と 、 品 詞解析手段 の 出力 か ら 、 特定 の 品詞 の シー ケ ンス に対応 し た単語列 を キー ヮ ー ド 候補 と し て生成す る キ一 ヮ一 ド 候補集合 生成手段 と 、 キー ワ ー ド 候補集合 の各キー ヮ 一 ド 候補 を キー ヮ 一 ド と し て 出 力 す る キー ヮ 一 ド 出力手段 と を 有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 2の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド 候補集合 にお い て重複 し たキ一 ヮ一 ド 候補 を 1 つ ま と め る キ ー ヮ ー ド 候補集合生成手段 を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 3の キー ワ ー ド 抽 出装置 は、 正規表現 も し く は 同等のノ タ ー ン に よ る 文字列 の マ ッ チ ン グお よ び置換を 行な う パ タ ー ン処理手段 と 、 パ タ ー ン処理手段 で の マ ッ チ ン グお よ び置換に使用 さ れ る 文字列 を表わす パ タ ー ン を格納す る パ タ ー ン格納手段 と を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 4の キ一 ワ ー ド 抽 出装置は、 キー ヮ ー ド の候補 と な り 得な い 部分 を表わす非キー ワ ー ド 候補パ タ ー ン を 有す る パ タ ー ン格納手段 と 、 テキス ト に対 し パ タ ー ン処理手段 を用 い て 、 非キー ワ ー ド 候補パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な い すべて の文字列 を検索 し 、 特定 の 品詞 の シー ケ ン ス に対応 し な い特別 な 文字列 に 置換す る 非キー ヮ ー ド 候補除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 5の キー ワ ー ド 抽 出装置は、 特定の 品
詞 の シー ケ ン ス に対応 し た単語列 と し て 生成す る こ と が 困難なキー ヮ ー ド 構成要素 を表わす例外キー ヮ ー ド 構成 要素パ タ ー ン を 有す る パ タ ー ン格納手段 と 、 テキス ト に 対 し てパ タ ー ン処理手段 を用 い て 、 例外キー ワ ー ド 構成 要素ノ° タ ー ン に マ ッ チす る 互 い に ォ一ノ ー ラ ッ プの な い すべての文字列 を例外キー ヮ一 ド構成要素 と して抽 出 し、 そ の抽 出位置 を記録す る と と も に 、 テキ ス ト 中 マ ッ チ し た各文字列 を 、 前記特定 の 品詞 の シーケ ンス に対応 し な い 特別な文字列 に変換す る 例外キー ヮ ー ド 構成要素抽 出 手段 と 、 前記特定 の 品詞 の シー ケ ン ス に対応 し た単語列 'お よ び例外キー ヮ ー ド 構成要素か ら キ一 ヮ一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 6の キー ワ ー ド 抽 出装置は、 不要語 を 表わす不要語パ タ ー ン を有す る パ タ ー ン格納手段 と 、 キ ー ヮ ー ド 候補集合 の 各キー ヮ ー ド 候補 の文字列全体 に対 し てノ\° タ ー ン処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チ す る も の を キー ヮ ー ド 候補集合か ら 除去す る 不要語除去 手段 と を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 7の キー ワ ー ド 抽 出装置は、 必要語 を 表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キー ヮ ー ド 候補 の文字列全体 にパ タ ー ン処理手段 を 用 い 、 必要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ツ チす る も の を キー ヮ ー ド 候補集合か ら 除去す る 不要語除 去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 8の キー ワ ー ド 抽 出装置は、 不要な 先 頭文字列 を表わす不要先頭パ タ ー ン を有す る パ タ ー ン格
納手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 の 先 頭文字列 に対 し 記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先 頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文 字列で あ れば も と の キー ヮ ー ド 候補 を キー ヮ ー ド 候補集 合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ 一 ド 候補 と 置換す る 不要先頭文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に 係 る 第 2 9の キ ー ワ ー ド 抽 出装置 は、 不要な 先 頭文字列 を表わす不要先頭.パ タ ー ン と 必要な 先頭文字列 を 表わす必要先頭パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キ一 ワ ー ド 候補集合 の各キー ワ ー ド 候補 の先頭文字 列 に対 し て前記パ タ ー ン処理手段 を用 い 、 必要先頭パ 夕 ー ン に マ ッ チせず不要先頭パ タ ー ン にマ ッ チす る キ 一 ヮ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部 分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と の キ ー ヮ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列で な けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 不要先 頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 0の キー ワ ー ド 抽 出装置は、 不要な 末 尾文字列 を 表わす不要末尾パ タ ー ン を有す る パ タ ー ン格 納手段 と 、 キ一 ワ ー ド 候補集合 の各キー ワ ー ド 候補 の 末 尾文字列 に対 し てパ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要末 尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文 字列で あ れば も と の キー ワ ー ド 候補 を キー ワ ー ド 候補集 合か ら 除去 し 、 空文字列でな ければそれ を も と のキー ヮ
一 ド 候補 と 置換す る 不要末尾文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 1の キー ワ ー ド 抽 出装置は、 不要な 末 尾文字列 を表わす不要末尾パ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 の末尾文字 列 に対 し てパ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不要末尾パ タ ー ン に マ ッ チす る キ一 ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列で な け ればそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文 字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 2の キー ワ ー ド 抽 出装置は、 不要語 除 去手段、 不要先頭文字列除去手段、 不要末尾文字列 除去 手段の う ち 2 つ 以上 を 組み合わせて、 あ る い は不要先頭 文字列除去手段、 不要末尾文字列除去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て、 最終的 に キー ワ ー ド 候 補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に 付加す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 3の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野 、 格納パ タ ー ン の種別 な ど に対応 し た複 数のパ タ ー ン格納手段 と 、 各種パ タ ー ン を適用 す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種 のパ タ ー ン を並行 し て適用 し 、 最 も 先頭 でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 を有す る こ と を特徵 と す る も の で あ る 。
本発明 に係 る 第 3 4の キー ワ ー ド 抽出装置 は、 不要語パ
タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に 格納 さ れた パ タ ー ン を並行 し て適用 し 、 いずれか 'のパタ ー ンでマ ッ チすればそれを マ ッ チ ン グ結果 と し て 、 他 のパ タ ー ン の 適用 を 中止す る パ タ ー ン処理手段 を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 5の キー ワ ー ド 抽 出装置 は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 のパ タ ー ン格納手段 と 、 必要 に 応 じ て パ タ ー ン に お け る 選択 、 連結、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を整列 し なが ら 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 6の キー ワ ー ド 抽 出装置は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記パ タ ー ン 格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出力 す る パ タ ー ン統合手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 7の キー ワ ー ド 抽 出装置 は、 パ タ ー ン の反復 に 関 し て反復展 開 回数の 上限 を設 け、 それ を超 え る パ タ ー ン の反復 は除外 し て、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パタ ー ン統合手段 を有する こ と を特徵 と する も のであ る 。
本発 明 に係 る 第 3 8の キー ワ ー ド 抽 出装置 は、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に 格納 さ れたパ タ ー ン をそれぞれ選択肢 と す る パ タ — ン を 出 力 す る パ タ ー ン統合手段 を有す る こ と を特徴 と
す る も の で あ る 。 図面 の簡単な説明
図 1 は実施 の形態 1 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 2 は実施 の形態 2 の キ一 ヮ一 ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 3 は実施 の 形態 3 の キー ワ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 4 は実施 の形態 4 の キー ヮ ー ド 抽 出装置 を説明す る た め の 図で あ る 。
図 5 は実施 の 形態 5 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 6 は実施 の 形態 6 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 7 は実施の形態 7 のキー ヮ 一 ド 抽 出 装置 を説明す る た め の 図で あ る 。
図 8 は実施 の 形態 7 にお け る パ タ ー ン格納手段 の組合 せ を 説明す る た め の 図で あ る 。
図 9 は実施 の形態 8 の キ一 ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 1 0は実施 の形態 9 のキ一 ヮ一 ド抽 出装置 を説 明す る た め の 図で あ る 。
図 1 1は従来のキー ヮ ー ド抽 出装置 を説明す る た め の 図 で あ る 。 発 明 を 実施す る た め の 最良 の形態 実施 の 形態 1
図 1 は、 こ の発 明 を 実施す る た め の実施 の 形態 1 に よ
る キー ヮ ー ド 抽 出装置 を説明す る た め の 図で あ る 。
図 1 にお い て 、 1 0はテキス ト 入力 手段、 2 0はパ タ ー ン 処理手段、 3 0はパ タ ー ン格納手段 、 40はキ ー ワ ー ド 構成 要 素抽 出 手 段 、 5 0はキ ー ワ ー ド 候補集合生 成手段 、 6 0 はキ一 ヮ一 ド 出 力 手段で あ る 。
テキ ス ト 入力 手段 1 0はた と え ばハー ド ディ ス ク な ど に 格納 さ れた フ ァ イ ルな どか ら 、 必要 に応 じ て 日 本語 コ ー ド の変換な ど を行な い なが ら テキス ト デー タ を読み込む。
パ タ ー ン処理手段 2 0はテキ ス ト な ど の文字列 と 、 正規 表現 も し く は 同 等 のパ タ ー ン を 与 え ら れてマ ッ チ ン グ を 行な い 、マ ッ チ し た部分文字列 と そ の位置 を 出 力 し た り 、 与え ら れた別 の文字列 に よ っ て マ ッ チ し た部分文字列 の 置換 を 行な う 。 ま た、 あ る パ タ ー ン に マ ッ チ し た部分 の 後続の文字列 にそのパタ ー ン を再び適用 する こ と に よ り 、 あ る 文字列 か ら そ のパ タ ー ン に互 い に オーバー ラ ッ プな く マ ッ チす る すべて の部分文字列 を検索 し 、 置換す る こ と も 可能で あ る 。
正規表現 と は特定の文字列で はな く 、 文字列 の一部 を 一般化 し て表現す る こ と を可能 と す る も の で あ り 、 た と え ば以下の よ う に定義 さ れ る 。
• 通常 の文字 は 、それ 自 身 と マ ッ チす る 正規表現で あ る 。 例) 正規表現 " レ " はテキス ト 「 あ い う えお」 の 「 レ 」 に マ ッ チす る 。
• 正規表現 を連結 し た も の は、 各正規表現 に マ ッ チす る 文字列 を連結 し た文字列 にマ ッ チする正規表現で あ る 。 例) " う え " は 「 あ い う え お」 の 「 う え」 に マ ッ チす る 。 • " " は文字列 の先頭 に マ ッ チす る 正規表現で あ る 。 例) " ' あ " は 「 あ い う え お」 の 「 あ 」 に マ ッ チす る 。
• " $ " は文字列 の末尾 に マ ッ チす る 正規表現で あ る 。 例) "お $ " は 「 ぁ レ、 う え お」 の 「お」 に マ ッ チす る 。
• " C " と " ] " の 間 に通常 の文字 を並べた も の は、 そ れ ら の い ずれか 1 文字 に マ ッ チす る 正規表現で あ る 。 " [ A - Z ] " と い う よ う に あ る 範 囲 の 文字 を 指定す る こ と も 可能で あ る 。 ま た " [ " の 直後 に " " を 置 く と 、 並べた文字以外 の 1 文字 と マ ッ チす る 正規表現 と な る 。
例) " [ レ、 一 え ] " は 「 ぁ レ、 う え お」 の 「 い 」 「 う 」 「 え 」 の い ずれカゝ に マ ッ チす る 。
" [ い 一 え ] " は 「 あ い う え お 」 の 「 あ 」 「 お 」 の い ずれカゝ に マ ッ チす る 。
• " ( " と " ) " で 囲 ま れた正規表現 は括弧 内 の正規表 現 と 同 等 の 正規表現で あ る 。
例) " ( う え) " は 「 ぁ レ う え お」 の 「 う え」 に マ ッ チ す る 。
• " I " を は さ ん だ正規表現 は、 そ の 前後の正規表現 の い ずれ か に マ ッ チす る 文字列 に マ ッ チす る 正規表現 で あ る (選択) 。
例) " ( レ I う え ) " は 「 ぁ レ、 う えお」 の 「 い」 「 う え 」 の い ずれカゝ に マ ッ チす る 。
' 正規表現 に " { m, n} " ( m, nは 0 以上 の 整数、 m≤ n ) が後置 さ れた も の は、 そ の 正規表現 の m回以上 n 回以下 の 反復 を表わす正規表現で あ る 。
例) " い { 1, 3} " は 「 あ い い え お 」 の 「 い い」 も し く は い ずれか の 「 レ 」 に マ ッ チす る 。
' 正規表現 に " { m } " 、 " { m, } " 、 " * " 、 " + " " ? " が後置 さ れた も の はそれぞれ、 そ の正規表現 に
" { m, m } ', 、 " { m , ∞ } ', 、 " { 0, ∞ } ,' 、 { 1 ,
∞ } " 、 " { 0, 1 } " が後置 さ れた も の と 同等の正規表 現で あ る 。
例) " レ { 2 } " は 「 ぁ レ、 い え お 」 の 「 い い 」 に マ ッ チ す る 。 '-
" い + " は " い { 1 , } " と 同等で あ り 、 「 あ い い え お」 の 「 い レ 」 も し く は レ ずれか の 「 い」 に マ ツ チす る 。
" レ * え " は 「 あ い い え お 」 の 「 い い え 」 「 レ え 」 「 え」 の い ずれ力、 に マ ッ チす る 。
" い ? え " は 「 あ い い え お」 の 「 レ え」 「 え」 の レ ずれか に マ ッ チす る 。
正規表現 に よ る マ ッ チ ン グは非決定性有限状態ォ一 ト マ ト ン を用 い て効率的 に行な わ れ る が、 こ の 場合 : • 文字列 の複数 の部分がマ ッ チ可能な場合、 文字列 の 先 頭 に近 い 部分がマ ッ チす る 。 ( C 1 )
• 選択 にお い て複数の 選択肢がマ ッ チ可能な場合、 左の 選択肢が優先 さ れ る 。 ( C 2 )
• 反復 を含む正規表現で は、 よ り 多 く の 反復 に よ る マ ツ チが優先 さ れ る 。 ( C 3 ) と い う 点 に注意が必要で あ る 。
パ タ ー ン格納手段 3 0は、 パ タ ー ン処理手段 2 0 が処理 可能な正規表現 も し く は同等 の パ タ ー ン を格納 し て お く も の で あ る 。 以下、 パ タ ー ン は前述の 正規表現で記述す る も の と す る 。
た と え ば円相場情報な ど の テキス ト か ら 、 円相場 の 情 勢 を表わすキ一 ヮ一 ド 構成要素 を抽出 し た い 場合 に は : " ( [ 0— 9 ] + [円 銭 ] 1 (円 I ドル) [高安 ] ) " ( 1 )
な ど と い っ た キ一 ヮ一 ド 構成要素パ タ ー ン を 用意すれば よ い 。
ま た技術系 文書な ど で は、 連続 し た漢字や カ タ カ ナ の 文字列 を キー ワ ー ド 構成要素 と す る こ と が有用 な場合が 多 い 。 た だ し漢字 1 文字 の 場合 は、 「光」 「熱」 な ど分 野 に よ っ て意味が あ る も の も あ る が、 多 く の 場合ひ ら が な が あ と に続 い て動詞や形容詞 と な る た め 、 一部 の文字 を 除 い てキー ヮ ー ド 構成要素か ら 除外 し た方がよ い 塲合 が多 い 。 ま た カ タ カ ナ 1 文字 を キー ワ ー ド 構成要素 と す べ き 場合 も 極 め て稀で あ る 。 こ れ ら を考慮す る と 、 た と え ば以下 の よ う な キー ヮ ー ド 構成要素パ タ ー ン を用 い る こ と が考 え ら れ る 。
" ( [亜ー瑤 ] {2, H [ァ—ケー _] {2, H [光熱 ]) " ( 2 ) な お 、 " [亜 ー 瑤 ] " はすべて の漢字 を 、 " [ ァ ー ケ 一 一 ] " はすべて の カ タ カ ナ と 長音符号 を 表わすパ タ ー ン で あ る 。 ま た 、 ( C 2 )に 示 し た よ う に マ ッ チ ン グで は左 の 選択肢が優先 さ れ る た め 、 " [光熱 ] " の よ う に短 い文 字列 に マ ッ チす る 選択肢は右 の方 に置 き 、 パ タ ー ン全体 と し てで き る だ け長 い 文字列 に マ ッ チす る よ う に し て い る 。
キー ワ ー ド 構成要素抽 出手段 40は、 テ キス ト 入 力手段 10で 入力 さ れ た テ キ ス ト に 対 し 、 パ タ ー ン格納 手段 30 に格納 さ れた キー ワ ー ド 構成要素パ タ ー ン を用 い て 、 パ タ ー ン処理手段 20に よ り マ ッ チ ン グ を行な い 、 互 い に重 複な く マ ッ チす る すべて の文字列 を キー ヮ ー ド構成要素 と し て抽 出す る 。
た と え ば
「 15日 の東京外国為替市場 の 円 相場 は 1 ド ル = 106円 11
銭で、 前 日 に 比べ 1 円 15銭 円 高 と な っ た 。 」 ( 3 ) と い う テキ ス ト に対 し 、 円 相場情報 に対応 し たキ一 ヮ一 ド 構成要素パ タ ー ン ( 1 )を 用 い れば、
「 106円 」 「 11銭」 「 1 円 」 「 15銭」 「 円 高」 ( 4 ) と い っ た キー ヮ ー ド 構成要素が抽 出 さ れ る 。
ま た
「光デバイ ス を 用 い た通信装置 を 開 発 し た。 」 ( 5 ) と い う テキ ス ト に対 し て技術系文書 に対応 し たキー ヮ ー ド 構成要素ノ タ ー ン ( 2 )を 用 い れ ば、
「光」 「デバイ ス 」 「通信装置」 「 開発」 ( 6 ) と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 な お 、 「用 い た」 の 「用 」 は こ のパ タ ー ン に マ ッ チ し な い た め 、 キー ヮ 一 ド 構成要素 と はな ら な い 。
キー ヮ ー ド候補集合生成手段 50はキー ヮ 一 ド構成要素 抽 出手段 40が抽 出 し たキー ヮ ー ド 構成要素か ら キー ヮ ー ド 候補集合 を 生成す る 。
最 も 単純な も の は、 各キー ワ ー ド 構成要素 をそ の ま ま キー ワ ー ド 候補 と す る も の で あ る 。 こ の方式 は要素概念 を抽 出 し やす い も の の 、 い く つ か の キ一 ワ ー ド 構成要素 か ら な る 複合キ一 ワ ー ド を抽 出 で き な い と い う 側面 を持 つ 。
ま た、 テキス ト 上連続 し た キー ワ ー ド 構成要素 は連結 し て 1 つ の キー ワ ー ド 候補 と し て 、 単独 のキ一 ワ ー ド 構 成要素 はそ の ま ま キー ワ ー ド 候補 と し て 、 キ ー ワ ー ド 候 補集合 を 生成す る こ と も 考 え ら れ る 。 前述の例で は前二 者 と 後 者がそれぞれ連続 し て い る の で 、
「 106円 11銭」 「 1 円 15銭 円 高」 ( 7 ) と い う キー ワ ー ド 候補集合が生成 さ れる 。 こ の方式 は複
合キー ワ ー ド を 抽 出 し やすい も の の 、 要素概念 を取 り 出 し に く い と い う 側面 を も つ 。
さ ら に 、 テキ ス ト 上連続 し た キー ワ ー ド 構成要素 はそ れぞれ を 単独 の キー ワ ー ド 候補 と す る と と も に 、 前後の キ― ヮ一 ド 構成要素 を連結 し た も の も それぞれキー ヮ ー ド 候補 と す る 一方、 単独 の キー ワ ー ド 構成要素 はそ の ま ま キ一 ワ ー ド 候補 と し て、 キー ワ ー ド 候補集合 を 生成す る 方式 も 考 え ら れ る 。 こ の場合前述 の例で は、
「 106円 」 「 11銭」 「 1 円 」 「 15銭」 「 円 高」 「 106円 11銭」 「 1 円 15銭」 「 15銭 円 高」 「 1 円 15銭円 高」
( 8 ) と い う キー ワ ー ド 候補集合が生成 さ れ る 。 こ の方式 に よ る キ一 ヮ一 ド 候補集合は前二者 に よ る も の を包含す る も の で あ り 、 要素概念 も 複合キー ワ ー ド も 抽 出可能で あ る が、 不完全な複合キー ワ ー ド が抽 出 さ れ る 場合 も あ る 。
な お 、 キー ワ ー ド 構成要素がテ キ ス ト 上連続 し て い る か ど う か の判定 は、 た と え ばつ ぎの よ う に実現 さ れ る 。 ま ずキー ワ ー ド 構成要素抽 出手段 40にお い て 、 キ一 ヮ一 ド 構成要素 を抽 出す る と と も に抽 出位置 を テキス ト の 先 頭か ら の文字数 と し て記録 し てお く 。 た と え ば、 文字列 長 L1の キ ー ヮ ー ド 構成要素 E1が位置 P1で抽 出 さ れ 、 つ ぎにキ一 ヮ一 ド構成要素 E2が位置 P2で抽 出 さ れた とする と 、 P1 + L1が P2に 等 し ければ E1と E2はテキス ト 上連続 し て い る と 判定 さ れる 。
ま た 、 後続処理 に お け る 冗長性 を 回避す る た め に 、 キ ー ヮ ー ド候補集合生成手段 50は重複 し たキ一 ヮ一 ド候補 を 1 つ に ま と め て も よ い.。
キー ワ ー ド 出 力 手段 60は、 キ一 ワ ー ド 候補集合 の 各キ
一ワ ー ド 候補 を キー ワ ー ド と し て フ ァ イ ルや プ リ ン タ 、 ディ ス プ レー な ど に 出 力 す る も の で あ る 。
こ の よ う に実施の形態 1 に よ れば、 記述性の高 い正規 表現 も し く は同等 のパ タ ー ン を用 い て キー ワ ー ド 構成要 素 を抽 出す る た め 、 字種 に こ だわ ら な い 柔軟な キー ヮ 一 ド 抽 出 を 容易 に 実現す る こ と が可能で あ る 。
実施 の形態 2
図 2 は、 こ の 発明 を 実施す る た め の実施 の形態 2 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 2 に お い て 、 図 1 と 同一 の 符号 を付 し た も の は、 同 一ま た は こ れ に 相 当 す る も の で あ る 。
図 2 に お い て 、 7 0は非キー ワ ー ド 候補除去手段で あ る ま た パ タ ー ン格納手段 3 0に は、 キ一 ワ ー ド の候補 と な り 得な い部分 を表わす非 キー ヮ ー ド 候補パ タ ー ンが追加 し て格納 さ れて い る 。
た と え ば円 相 場情報で現在の 円 相場 と は関係な く 、 単 に 円 相場 の動向 だ け を キー ワ ー ド と し て取 り 出 し た い 場 合、 非キ ー ワ ー ド 候補パ タ ー ン と し て
" 1 ド ル = [ 0— 9 ] + 円 ( [ 0 _ 9 ] + 銭) ? " ( 9 ) と い っ たノ\° タ ー ン を格納 し てお け ばよ い 。
非 キ 一 ヮ一 ド 候補 除去手段 7 0はパ 夕 一 ン 処理 手 段 2 0 を用 い て 、 パ タ ー ン格納手段 3 0に格納 さ れた 非キ—— ヮ一 ド 候補ノ、° タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プ ( 同 一の部分 を有す る ) の な い文字列 を テキス ト か ら すべて 検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ツ チ し な い特別な文字列 に置換す る 。
た と え ば ど の パ タ ー ン も 決 し て半角 文字 を含む文字列 に マ ッ チす る こ と がな けれ ば、 非キー ワ ー ド 候補パ 夕一
ン に マ ッ チ し た文字列 を 、 同 じ 文字数 の 半角 の " ###… " と い う 文字列 に置換す る ( " … " は繰返 し の省略記号で あ る ) 。 前 出 の 円 相場情報の例文 ( 3 )は、
「 15日 の東京外国為替市場 の 円 相場 は ###########で、 前 日 に 比べ 1 円 15銭 円 高 と な っ た 。 」 ( 10) と レゝ ぅ テキ ス ト に変換 さ れ る 。
キー ワ ー ド 構成要素抽 出手段 40は、 非 キー ワ ー ド 候補 除去手段 70に よ っ て変換 さ れたテキス ト か ら キー ヮ ー ド 構成要素 を 抽 出す る 。 円 相場情報 の例で は、 前記 ( 10 )の テキ ス ト に 対 し 、 た と え ば前述 の 円 相場情報 に対応 し た キー ワ ー ド 構成要素パ タ ー ン (1)を用 い る こ と に よ り 、
「 1 円 」 「 15銭」 「 円 高」 ( 11) と い う キ一 ヮ一 ド 構成要素が抽 出 さ れ る 。
こ の よ う に実施の形態 2 に よ れ ば、 キー ワ ー ド の候補 と な り 得な い 部分 を あ ら か じ め 除去 し て キ一 ヮ一 ド 構成 要素 を抽 出 す る の で、 不要なキ ー ワ ー ド 構成要素 の抽 出 を 防 ぐ こ と が可能 と な る 。
実施 の形態 3
図 3 は、 こ の発 明 を 実施す る た め の実施 の形態 3 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 3 にお い て、図 1 〜 2 と 同一 の 符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 3 に お い て 、 80は例外キ一 ワ ー ド 構成要素抽 出手段 で あ る 。 ま たパ タ ー ン格納手段 30に は、 キー ワ ー ド 構成 要素パ タ ー ンで網羅す る こ と が困難なキー ヮ 一 ド 構成要 素 を表わす例外キ ー ヮ ー ド 構成要素パ タ ー ンが追加 し て 格納 さ れて い る 。
た と え ば技術系文書 の場合、 キー ワ ー ド 構成要素パ 夕
ー ン ( 2 )で は網羅で き な い 、 ひ ら がな の混在 し た キ ー ヮ — ド 構成要素 を抽 出す る た め の パ タ ー ン を 用 意す る こ と が考 え ら れる 。
ま た技術系文書で は よ く 数値デー タ が現れ る が、 こ れ ら を
" [ 0 - 9 . 一 ] + " ( 1 2 ) と い う よ う な非キー ワ ー ド 候補パ タ ー ン と し てお け ば非 キー ヮ ー ド候補除去手段 7 0で こ れ ら を 除去する こ と が可 能で あ る 。 し か し なが ら こ の よ う にす る と 、 数字 を含ん だキー ヮ ー ド構成要素 をキー ヮ ー ド構成要素抽出手段 4 0 で抽 出で き な く な る 。
こ れ ら の キー ヮ ー ド 構成要素 を抽 出す る た め に はた と え ば、
" ( し き い 値 I 割 り 込 み i [ 0— 9 ] + (進数 I 次元) ) "
( 1 3 ) と い う よ う な例外キー ワ ー ド 構成要素パ タ ー ン を 用 意す る 。
例外キー ヮ ー ド 構成要素抽 出手段 8 0はパ タ ー ン処理手 段 2 0を用 い て、 パ タ ー ン格納手段 3 0に格納 さ れた 例外キ ー ヮ ー ド 構成要素パ タ ー ン に マ ッ チす る 、 互 い に オーバ 一ラ ッ プの な い すべて の文字列 を 例外キー ワ ー ド 構成要 素 と し て抽 出 し 、 そ の抽出位置 を 記録す る と と も に 、 ど の パ タ ー ン も 決 し てそれを含む文字列 に マ ッ チ し な い特 別 な文字列 に置換す る 。 た と え ば ど の パ タ ー ン も 決 し て 半角 文字 を含む文字列 に マ ッ チす る こ と がな けれ ば、 抽 出 さ れた文字列 を 同 じ 文字数の半角 の " @ @ @ … " と い う 文字列 に置換す る 。
た と え ば
「受光素子 を 2 次元 に配列 し た 。 」 ( 14) と い う テキ ス ト に対 し て例外キー ワ ー ド 構成要素パ タ ー ン ( 13 )を 用 い れば、
「 2 次元」 ( 15) と い う 例外キー ワ ー ド 構成要素が抽 出 さ れ る と と も に 、 も と の テキス ト は
「受光素子 を @ @ @ に配列 し た 。 」 ( 16) と い う テキ ス ト に変換 さ れて後 の処理 に移 さ れ る 。
キー ヮ 一 ド候補集合生成手段 50は例外キー ヮ ー ド構成 要素抽 出手段 80で抽 出 さ れた例外キー ヮ ー ド 構成要素 と キ一 ヮ一 ド構成要素抽 出手段 40で抽 出 さ れたキー ヮー ド 構成要素か ら キー ヮ 一 ド 候補 を 生成す る 。
前 出 の例文 ( 14 )に対 し てキー ヮ 一 ド 構成要素パ タ ー ン (2)を 用 い れば
「受光素子」 「配列」 ( 17) の 2 つ の キー ワ ー ド 構成要素が抽 出 さ れ、 それ ら と (15) の例外キ一 ワ ー ド 構成要素か ら 、 た と え ば実施 の 形態 1 で述べた方法 の い ずれか に よ り 、 キー ワ ー ド 候補が生成 さ れ る こ と に な る 。
なお キー ワ ー ド 候補集合生成手段 50に お け る 、 例外キ — ヮ 一 ド 構成要素お よ びキ一 ヮ 一 ド 構成要素 の テキ ス ト 上 の 連続性判定 に つ い て は、 た と え ば例外キ ー ワ ー ド 構 成要素抽 出手段 80も し く は非 キー ヮ ー ド 候補除去手段 7 0に お け る テ キ ス ト の 置換 に お い て 前述 の よ う に テ キ ス ト の文字数 を 変 え な い よ う にす る こ と に よ り 、 実施 の 形 態 1 で述べた方法 を用 い る こ と がで き る 。
こ の よ う に実施 の形態 3 に よ れ ば、 キ ー ワ ー ド 構成要 素パ タ ー ンで は網羅す る こ と が困難な 、 あ る い は非キ一
ヮ ー ド 候補 の 除去 に伴 っ て抽 出 で き な く な る キ一 ワ ー ド 構成要素 を あ ら か じ め 抽 出す る こ と が可能 と な る 。
実施 の 形態 4
図 4 は、 こ の発 明 を 実施す る た め の 実施 の 形態 4 に よ る キ ー ヮ ー ド 抽 出装置 を説明す る た め の 図 で あ る 。
図 4 にお い て 、図 1 〜 3 と 同 - ^ の符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 4 に お い て 、 90は不要語除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要語 を表わす不要語パ タ ー ンが追 加 し て格納 さ れて い る 。
た と え ば技術系文書 にお い て 「 開発」 「利用 」 な ど の よ う な一般的な単語や 、 「 同 図」 「次表」 「前行」 と い つ た 図表な ど の参照 を示す も の な ど は、 そ の文書で説明 さ れて い る 事物 · ア イ デア な ど の機能的な特徴 を 表わ し て い る と は言え ず、 キー ワ ー ド と すべ き でな い 場合が多 い 。
こ の よ う な も の を不要語 と す る に は た と え ばつ ぎの よ う な不要語パ タ ー ン を用 意 し てお く
" ' ( [同本次前後 ] [図表式行頁 ] I開発 利用 I ···) $
( 18) 不要語 除去手段 90は キ ー ヮ 一 ド 候補集合 生成手段 50 が生成 し た各キー ヮ ー ド 候補 に対 し てパ タ ー ン処理手段 20を 用 い 、 文字列全体が不要語パ タ ー ン に マ ッ チす る キ — ヮ ー ド 候補 を キー ヮ 一 ド 候補集合か ら 除去す る 。な お 、 パ タ ー ン ( 18) の 先頭 の " " と 末尾 の " $ " は、 各キ ー ヮ 一 ド 候補 の文字列全体 と の マ ッ チ ン グが行な われる こ と を表わす。
た と え ば ( 6 )の キ ー ヮ ー ド 構成要素 がキ 一 ヮ一 ド 候補
集合生成手段 50に よ っ てそ の ま ま キ一 ヮ 一 ド 候補 と な り それ に対 し て不要語除去手段 90が ( 18) の 不要語パ タ ー ン を用 い る と すれ ば、 「 開発」 が不要語 と し て 除去 さ れ、 「光」 「デバイ ス 」 「通信装置」 ( 19) の 3 つ がキ ー ワ ー ド 候補 と し て残 る こ と に な る 。
ま た 、 パ タ ー ン格納手段 30に必要語 を表わす必要語パ タ ー ン を追加 し て格納す る と と も に 、 不要語除去手段 90 に お い て各 キー ワ ー ド 候補 に対 し てパ タ ー ン処理手段 20 を用 い 、 文字列全体が必要語パ タ ー ン に マ ッ チせず、 不 要語パ タ ー ン に マ ッ チす る キー ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去す る よ う に構成す る こ と に よ り 、 不要 語パ タ ー ン で誤 っ て必要な キー ヮ ー ド 候補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
仮に 「同 行」 が動詞 と し てキー ワ ー ド とすべき に も か か わ ら ず、 ( 18) の不要語パ タ ー ン を用 い る と マ ッ チ し て し ま う 場合、 必要語パ タ ー ン と し て、
" ~ ( 同行 I …) $ " ( 20) を用 い れば、 「 同行」 はキー ワ ー ド 候補 と し て残 さ れ る 。
こ の よ う に実施 の 形態 4 に よ れ ば、 不要な キ一 ワ ー ド 候補 を 除去す る の に記述性 の 高 い パ 夕 一 ン を 用 い る こ と が可能で あ る 。 ま た必要語パ タ ー ン を用 意す る こ と に よ り 、 不要語パ タ ー ンで誤 っ て キー ワ ー ド 候補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
実施 の 形態 5
図 5 は、 こ の発 明 を実施す る た め の実施 の 形態 5 に よ る キ一 ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 5 にお い て 、図 1 〜 4 と 同 一 の符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 5 にお い て 、 100は不要先頭文字列除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要先頭文字列 を表わす不 要先頭パ タ ー ン が追加 し て格納 さ れて い る 。 こ こ で不要 先頭文字列 と は、 「各」 「約」 な ど い わ ゆ る 接頭語で不 要な も の だ けで な く 、 キー ワ ー ド 候補 の 先頭文字列 と し て は不要な部分文字列 を指す。
た と え ばキー ヮ ー ド 構成要素抽 出手段 40におい てキー ワ ー ド 構成要素パ タ ー ン ( 2 ) を 用 い る 場合、
「電圧 を加 え た 際発振す る … 」 . ( 21) と い う よ う なテ キス ト に お い て 、 「際発振」 と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 こ れがそ の ま ま キー ヮ ー ド 候補 と な る 場合、 「際」 と い う 文字列 を不要先頭文字 列 と 考 え る こ と に よ り 、 「発振」 だ け を キー ワ ー ド 候補 と し て残す こ と が可能で あ る 。 そ の他、 「実用 上」 「実 際上」 な ど漢字か ら な る 副詞句 な ど も 不要先頭文字列 と し て扱 う 場合、 た と え ばつ ぎの よ う な不要先頭パ タ ー ン が考 え ら れ る 。
" " ( (実用 I実際 I事実 i ··· )上 I [各約 際…]) " ( 22) 不要先頭文字列除去手段 100は不要語除去手段 90で除 去 さ れなか っ た各キー ヮ ー ド 候補 の先頭文字列 に対 し て パ タ ー ン処理手段 20を 用 い 、 不要先頭パ タ ー ン に マ ッ チ し たキ一 ヮ一 ド候補 に対 してはマ ッ チ した部分 を除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ ー ド候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 。 置換 さ れた キー ヮ ー ド 候補 は不要語除去手段 90に戻 さ れ、 再び不要語除去 処理、 不要先頭文字列 除去処理が行な われ る 。 な お 、 パ タ ー ン ( 22) の先頭の " ~ " は 、 各キー ワ ー ド候補 の 先
頭文字列 と の マ ッ チ ン グが行な わ れる こ と を表わす。 ま たパ タ ー ン格納手段 3 0に必要先頭文字列 を表わす必 要先頭パ タ ー ン を追加 し て格納す る と と も に 、 不要先頭 文字列 除去手段 1 0 0に お い て 、 各キ ー ワ ー ド 候補 の先頭 文字列 に対 し てパ タ ー ン処理手段 2 0を用 い 、 必要先頭パ タ ー ン に マ ッ チせず不要先頭パ タ ー ン に マ ッ チ し たキ ー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た 部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キ ー ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換す る よ う に構成す る こ と に よ り 、 必要な 先頭文字列 を誤っ て 除去 す る こ と を 防 ぐ こ と が可能 と な る 。
た と え ば 「約数」 「約分」 と い う キー ワ ー ド候補 に対 し て不要先頭パ タ ー ン ( 2 2 ) に よ っ て 「約」 だ けが誤 つ て 除去 さ れな い よ う に す る た め に はた と え ば :
" (約数 I 約分 I … ) " ( 2 3 ) と い う よ う な必要先頭パ タ ー ン を用 意すれ ばよ い 。
こ の よ う に 実施 の 形態 5 に よ れ ば、 キー ワ ー ド 候補 に お い て不要な先頭文字列 を 除去す る の に記述性の 高 い パ タ ー ン を 用 い る こ と が可能で あ る 。 ま た 必要先頭パ タ ー ン を用 意す る こ と に よ り 、 不要先頭パ タ ー ン で誤 っ て キ ー ヮ ー ド 候補 の必要な 先頭文字列が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
実施 の 形態 6
図 6 は、 こ の発 明 を 実施す る た め の実施 の 形態 6 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 6 に お い て、図 1 〜 5 と 同一の 符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 6 に お い て、 110は不要末尾文字列除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要末尾文字列 を表わす不 要末尾パ タ ー ンが追加 し て格納 さ れて い る 。 こ こ で不要 末尾文字列 と は、 「等」 「群」 な ど い わ ゆ る 接尾語で不 要な も の だ けでな く 、 キー ワ ー ド 候補 の末尾文字列 と し て は不要な部分文字列 を指す。
た と え ばキー ヮ ー ド 構成要素抽 出手段 40にお い てキー ワ ー ド 構成要素パ タ ー ン ( 2 ) を 用 い た場合、
「共有 メ モ リ を有す る 並列計算機特 に … 」 ( 24) と レゝ う よ う な テキ ス ト にお い て 、 「並列計算機特」 と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 こ れがそ の ま ま キ 一ワ ー ド 候補 と な る 場合、 「特」 と い う 文字列 を不要末 尾文字列 と考 え る こ と に よ り 、 「並列計算機」 だ け を キ ー ヮ 一 ド 候補 と し て残す こ と が可能で あ る 。 そ の他、 「装 置」 「手段」 な ど漢字か ら な る 一般的 な 名詞で、 特 に機 能な ど の 説明 に は不要な部分.も 不要末尾文字列 と し て扱 う 場合、 た と え ばつ ぎの よ う な 不要末尾パ タ ー ン が考 え ら れ る 。
" (装置 I 手段 I [等群特… ] ) $ " ( 25) 不要末尾文字列 除去手段 110は、 不要語除去手段 90で 除去 さ れず、 不要先頭文字列 除去手段 100に よ っ て も 変 更 の な か っ た各キー ワ ー ド 候補 の 末尾文字列 に対 し てパ タ ー ン処理手段 20を用 い 、 不要末尾パ タ ー ン に マ ッ チ し た キ一 ヮ一 ド 候補 に対 し て はマ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キ一 ヮ一 ド候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 。 置換 さ れた キー ヮ ー ド 候補 は不要語除去手段 90に 戻 さ れ、 再び不要語除去
処理 、 不要先頭文字列除去処理、 不要末尾文字列除去処 理が行な われ る 。 な お 、 ( 2 5 ) の末尾 の " $ " は、 各キ 一ワ ー ド 候補 の末尾文字列 と の マ ッ チ ン グが行な わ れ る こ と を表わす。
ま たパタ ー ン格納手段 3 0に必要末尾文字列 を表わす必 要末尾パ タ ー ン を 追加 し て格納す る と と も に 、 不要末尾 文字列 除去手段 1 1 0に お い て 、 各キ ー ワ ー ド 候補 の 末尾 文字列 に対 し てパ タ ー ン処理手段 2 0を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不要末尾パ タ ー ン に マ ッ チ し た キー ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た 部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な ければそれ を も と の キ一 ワ ー ド 候補 と 置換す る よ う に構成す る こ と に よ り 、 必要な末尾文字列 を誤 っ て 除去 す る こ と を 防 ぐ こ と が可能 と な る 。
た と え ば 「〇〇症候群」 と い う キー ワ ー ド 候補 に対 し て不要末尾パ タ ー ン ( 2 5 )に よ っ て 「群」 だ けが誤 っ て 除 去 さ れな い よ う にす る た め に はた と え ば :
" (症候群 I …) $ " ( 2 6 ) と レゝ う よ う な必要末尾パ タ ー ン を用 意すれ ばよ い 。
こ の よ う に実施 の形態 6 に よ れ ば、 キー ワ ー ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性の 高 い パ タ ー ン を用 い る こ と が可能で あ る 。 ま た必要末尾パ タ ー ン を用 意す る こ と に よ り 、 不要末尾パ タ ー ンで誤 っ てキ 一ワ ー ド 候補 の末尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
なお 、 実施 の形態 5 ま た は実施 の形態 6 に お い て は、 あ る キー ワ ー ド 候補 に対 し て不要語除去処理、 不要先頭
文字列除去処理、 不要末尾文字列除去処理 の う ち 2 っ 以 上 を 組み合わせて 、 も し く は不要先頭文字列除去処理、 不要末尾文字列除去処理 の い ずれか を 2 回以上適用 す る こ と に よ っ て、 最終的 に キ— ヮ 一 ド 候補集合か ら あ る キ ー ヮ 一 ド 候補が除去 さ れ る こ と が あ る 。 1 つ の文書でそ の よ う な文字列 を含む フ レ一ズが複数回 出現す る 場合、 そ の よ う な文字列 を不要語パ タ ー ン の選択肢 に付加す る こ と に よ り 、 冗長な処理 を省 く こ と が可能で あ る 。
こ れ を実現す る に はた と え ば、 キ一 ヮ一 ド 候補集合生 成手段 5 0で各キ一 ヮ一 ド候補が生成 さ れた と き の文字列 を 、初期文字列 と し て各キ - ワ ー ド 候補 二付与 し て お く 。 そ し て不要語除去処理 、 不要先頭文字列除去処理、 不要 末尾文字列 除去処理 の い ずれか に お い て最終的 に キ ー ヮ ー ド 候補が除去 さ れる と き 、 そ の直前 の文字列が初期文 字列 と 異な っ て い れ ば、 初期文字列 を不要語パ タ ー ン の 選択肢 に付加す る 。
た と え ば 「利用 手段」 と い う キ一 ヮ一 ド 候補 に ま ず不 要末尾パ タ ー ン ( 2 5 )が適用 さ れて 「禾 IJ用 」 が残 り 、 つ ぎ に不要語ノ タ ー ン ( 1 8 )が適用 さ れてキー ヮ ー ド候補集合 か ら 最終的 に 除去 さ れた と す る 。
こ の と き "利用 手段 " を不要語パ タ ー ン の選択肢 にカロ え てお け ば、 つ ぎに 「各利用 手段」 と い う キ一 ヮ一 ド 候補 に対 し て、 不要先頭パ タ ー ン ( 2 2 )が適用 さ れて 「利用 手 段」 が残 る と 、 つ ぎに は新た な不要語パ タ ー ン を適用 す る こ と に よ り 、 「利用 手段」 そ の も の がマ ッ チ し て不要 語 と し て 除去 さ れ る 。 こ の よ う に し て冗長な処理 を 回避 す る こ と が可能 と な る 。
実施 の形態 7
図 7 は、 こ の発 明 を 実施す る た め の実施 の 形態 7 に よ る キ ― ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 7 に お い て 、図 1 〜 6 と 同 一 の符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 Ί に お い て 、 3 0 a〜 3 0 cはテ キス ト の タ イ プゃ分野、 格納パ タ ー ン の種別な ど に対応 し た複数 のパ タ ー ン格納 手段で あ る 。
各パ タ ー ン格納手段 は必ず し も 同 じ 種類 の パ タ ー ン を そ ろ え て い な く て も よ い 。
た と え ばモバイ ル コ ン ピ ュ ー 夕 関連 の テキ ス ト に 関 し てキー ワ ー ド 抽 出 を行な う 場合、 キー ワ ー ド 抽出 の た め の情報 と し て は、 技術系文書全般 に普遍的な も の 、 コ ン ピ ュ ー 夕 関係 に 一般 に利用 で き る も の 、 そ し てモパイ ル コ ン ピ ュ ー タ に特有な も の と い っ た よ う に 、 さ ま ざ ま な レベルの も の が考 え ら れ る 。 ま た 同 じ モ ノ イ ルコ ン ピ ュ 一 夕 関連 の テキ ス ト に し て も 、た と え ば特許 の 場合は「発 明」 「請求項」 な ど の単語はそ の テキス ト の特徴 を 表わ し て い な い た め 、 キ一 ヮ 一 ド と し て適 さ な い と レ つ た よ う に 、 テ キス ト の タ イ プ に応 じ た情報 も 考 え ら れ る 。
そ こ で 図 8 に示す よ う に 、 そ の よ う な キー ワ ー ド 抽 出 に 関す る さ ま ざ ま な レ ベル、 タ イ プの 情報 に対応 し たパ タ ー ン を格納す る パ タ ー ン格納手段 を各種用 意 し 、 対象 と す る テ キス 卜 の タ イ プや分野な ど に応 じ てそれ ら を 組 み合わせて利用 で き る よ う に すれ ば、 さ ま ざ ま な テ キ ス ト に対応 し たキー ヮ ー ド 抽 出が効率的 に 実現 さ れ る 。
パ タ ー ン処理手段 2 0は各種パ タ ー ン を適用 する 際 に、 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の
文字列 を マ ツ チ ン グ結果 とす る 。 いずれ も マ ッ チ し な け れば、 全体 と し て マ ッ チ ン グ に失敗 し た も の と す る 。
キー ワ ー ド 構成要素抽 出手段 40、 非 キ ー ワ ー ド 候補除 去手段 70、 例外キ ー ワ ー ド 構成要素抽 出手段 80、 不要語 除去手段 90、 不要先頭文字列除去手段 100、 不要末尾文 字列除去手段 110は、 それぞれ の処理 に お い て必要な パ 夕 ー ン を すベて の パ タ ー ン格納手段か ら 取 り 出 し 、 パ タ ー ン処理手段 20に処理 さ せ る 。
た と え ば例外キー ヮ ー ド 構成要素パ タ ー ン と し てパ タ ー ン格納手段 30a、 30b、 30cにそれぞれ
" [ 0 — 9 ] 次 ', ( 27a) " [ 0 - 9 ] 次元,' ( 27b) " (書き込み I 読 み込み) " ( 27c) と い う パ タ 一 ンが格納 さ れて い る 場合、
「 3 次元デ一 夕 と し て書 き込み を行な う 。 」 ( 28) と い う テ キ ス ト に 対 し て は、 ( 27 a )が 「 3 次」 に マ ッ チ し 、 ( 27 b )力 S 「 3 次元」 に マ ッ チす る 一方、 (28)は 「書 き込み」 に マ ツ チす る が、 パ タ ー ン処理手段 20は最 も 先 頭でマ ッ チす る 最長 の文字列 を 全体 の マ ッ チ ン グ結果 と す る の で 、 ま ず 「 3 次元」 がマ ッ チ ン グ結果 と な る 。 続 い て残 り の 「デー タ と し て書き込み を行な う 。 」 に対 し て マ ッ チ ン グ を行 な う と 、 ( 27 c )だ けが 「書 き込み」 に マ ッ チす る の で、 「書 き込み」 がマ ッ チ ン グ結果 と な る 。 残 り の 「 を行な う 。 」 に マ ッ チす る も の はな い た め 、 結 果的 に例外キ— ヮ ー ド 構成要素抽 出手段 80は
「 3 次元」 「書 き 込み」 ( 29) を例外キー ヮ ー ド 構成要素 と し て抽 出す る 。
あ る / タ ー ン格納手段 に格納 さ れた不要語パ タ ー ン に
よ つ て不要 と 判 断 さ れる キー ヮ ー ド 候補 を 、 あ る テキ ス 卜 に お い てキ ー ワ ー ド と すべ き 場合、 そ の 八。 夕 ー ン格納 手段 を用 い る の を や め た り 、 あ る レゝ はそ の不要語パ 夕 一 ン を修正す る こ と も 考 え ら れ る が、 そ の キ一 ヮ 一 ド 候補 と マ ツ チす る 必要語パ タ ー ン を格納す る 八 ° 夕 一 ン格納手 段 を合わせて用 い る こ と も考 え ら れ る 。 不要先頭パ 夕 一 ン 、 不要末尾パ タ ー ン に 関 し て も 同様 に 、 必要先頭パ 夕 一 ン 、 必要末尾パ タ ー ン を 組み合わせて必要な先 頭 ノ 末 尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。 ま た あ る 非キー ヮ ー ド 候補パ 夕 — ン に よ つ て削除 さ れ る 部 分 に含 ま れ る 、 本来必要な キ— ワ ー ド 構成要素 に 関 し て も 、 それ に マ ッ チす る 例外キ一 ワ ー ド 構成要素パ タ 一 ン を格納 し たパ タ ー ン格納手段 を合わせて用 い る こ と に よ
Ό 、 抽 出す る こ と が可能で あ る 。
た 、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て はキー ヮ 一 ド 候補 の文字列全体 に対 し て マ ッ チ ン グが行 な わ れ る た め 、 い ずれか のパ タ ー ンでマ ツ チすれば、 他 の パ タ ー ン の マ ッ チ ン グ結果 は不要で あ る の で、 パ タ ー ン処理手段 2 0はそれ ら の適用 を 中 止 し 、 マ ッ チ し た結果 M し て 、 不要なパ タ ー ン処理 を 回避 し て も よ レ 。
の よ う に 実施 の 形態 7 に よ れ ば、 テ キス ト の タ イ プ や分野、 格納パ タ ー ン の種別な ど に対応 し た各種パ タ ー ン格納手段 を 組み合わせて用 い る こ と に よ り 、 キー ヮ ー ド 抽 出 に用 い る 情報 の再利用 性 を 向上 さ せ、 さ ま ざ ま な テキス ト に柔軟か つ効率的 に対応 さ せ る こ と が可能で あ る 。
実施の形態 8
9 は、 こ の発 明 を 実施す る た め の実施 の形態 8 に よ
る キ一 ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 9 に お い て 、図 1 〜 8 と 同一 の符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 9 に お い て 、 1 2 0はパ タ ー ン統合手段で あ る 。
ま たパ タ ー ン処理手段 2 0は、 実施 の 形態 7 に示 し た よ う な複数 の パ タ ー ン を並行 し て適用 す る も の でな く 、 実 施 の 形態 1 に示 し た も の で よ い 。
パ タ ー ン統合手段 1 2 0は各パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る 。 こ こ で各パ タ ー ン の統合 に お い て は、 各パ タ ー ン にマ ッ チす る 可能性の あ る 文字列 の う ち 、 最 も 先頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ に お け る ( C 2 ) の性質 を考慮 し て統合パ タ ー ン を 構成す る 。 すな わ ち 、 各パ タ ー ン の構成要素 に お け る 選択や連結、 反復 な ど を 展開 し なが ら 、 マ ッ チす る 可能性 の あ る 文字列長 が同 じ ノ° タ ー ン を そ ろ え 、 それ ら を長 い も の か ら 順 に選 択肢 と す る 統合パ タ ー ン を構成す る 。
キ一 ワ ー ド 構成要素抽 出手段 4 0、 非 キ ー ワ ー ド 候補除 去手段 7 0、 例外キ ー ワ ー ド 構成要素抽 出手段 8 0、 不要語 除去手段 9 0、 不要先頭文字列 除去手段 1 0 0、 不要末尾文 字列除去手段 1 1 0は、パ タ ー ン統合手段 1 2 0に よ っ て統合 さ れたパ タ ー ン を 用 い てそれぞれの処理 を実行す る 。
以下、 具体的 に 前記パ タ ー ン統合処理 に つ いて説明す る 。
説明 を簡略化す る た め 、 マ ッ チす る 可能性の あ る 文字 列長が 同 じ パ タ ー ン をそ ろ え た も の (以下、 整列パ タ ー ン と 呼ぶ こ と にす る ) を 、 そ の文字列長 を丸数字 と し て 先頭 に付与 し たパ タ ー ン の組で表現す る 。 た と え ば、
"①ぁ② ( い う I え お ) ,, ( 3 0 ) は長 さ 1 の ノ° タ ー ン " あ " と 長 さ 2 の パ タ ー ン " ( レ う I え お ) " カゝ ら な る 整列パ タ ー ン で あ る 。
前記 のパ タ ー ン統合処理 は、 各パ タ ー ン を選択肢 と す る パ タ ー ン に対応 し た 整列ノ\° タ ー ン を構成 し 、 マ ッ チす る 可能性の あ る 文字列長が長 い パ タ ー ンか ら 順 に選択肢 と す る 統合パ タ ー ン を 出力 す る こ と に よ り 実現 さ れ る 。 た と え ば ( 3 0 )の整列パ タ ー ン は最終的 に
" ( ( い う I え お ) I あ ) " ( 3 1 ) と レ う 統合ノ\° 夕 一 ン と し て 出 力 さ れ る 。
ま た 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 けて、 それ を超え る パ タ ー ン は除去 し て統合パ タ 一 ン を構成す る こ と に よ り 、 マ ッ チす る 可能性がな い よ う な極端 に長 いパ タ ー ン を除外 し て統合パタ ー ン を短縮 し、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と も 可能で あ る 。 入力 テキ ス ト の 文字列長は 自 明 な上限 の例で あ る が、 実用 的 に は 2 0文字程度で も 充分な 場合が多 い 。
つ ぎ に、 あ る パ タ ー ン に対応す る 整列パ タ ー ン は、 以 下 の よ う に 求め る 。
• 通常 の文字が連続 し たパ タ ー ン は、 そ のパ タ ー ン を そ の 文字列長 に対応 し て も つ 整列パ タ ー ン と な る 。
(例) " ぁ レ う " → "③ あ い う "
• " " " や " $ " はそれ を長 さ 0 に対応 し て も つ 整列パ 夕 一 ン と な る 。
(例) 一 " → "◎ "
• " [ " と " ] " 、 も し く は " [ ~ " と " ] " と の 間 に 通常 の文字や文字範 囲 の並び を も つ パ タ ー ン は 、 そ の パ タ ー ン を長 さ 1 に対応 して も つ整列パ タ ー ン と な る 。
(例) " [ あ 一 お ] ,, → "① [ あ 一 お ] " • " ( " と ") " で 囲 ま れた パ タ ー ン は、 括弧 内 の パ 夕 ー ン に対応 し た整列パ タ ー ン と な る 。
(例) " (か き く ) " → "③か き く "
• " I " を は さ ん だノ° タ ー ン は、 そ の 前後のパ タ ー ン に 対応 し た整列パ タ ー ン に お い て 、 各長 さ ご と に 対応 し た パ タ ー ン を選択肢 と す る 新た な パ タ ー ン を も つ 整列 パ タ ー ン と な る 。
(例) " あ い う I [ あ 一 お ] I (か き く ) "
→ "③ あ い う I ① [ あ 一 お ] I ③ (か き く ) " → "① [ あ 一 お ] ③ぁ レ う I (力 き く ) "
• パ タ ー ン を連結 し た も の は、 各パ タ ー ン に対応す る 整 列パ タ ー ン につ い て 、 そ れぞれ各長 さ の 組合せ に対応 し たパ タ ー ン を必要 に応 じて括弧で 囲みなが ら 連結 し 、 連結 し たパ タ ー ン を 選択肢 と す る 新たな パ タ ー ン を 合 計 し た長 さ に対応 し て も つ 整列パ タ ー ン と な る 。
(例) " ( あ I い う ) (力 I き く ) "
→ "①ぁ② い う " "①か②き く "
→ "② あ か③あ き く I い う か④い う き く " • パ タ ー ン に " { m , n } " ( m, n は 0 以上の 整数) が後置 さ れた も の は、 そ の パ タ ー ン に対応す る 整列パ タ ー ン の 各長 さ に 対応す る パ タ ー ン を 、 必要 に 応 じ て 括弧で 囲 みなが ら 、 " { p } " ( m ≤ p ≤ n ) を そ れ ぞれ後置 し た も の を選択肢 と す る 新た なパ タ ー ン を 、 そ の パ タ ー ン に対応す る 長 さ の p 倍 の長 さ に対応 し て それぞれ も つ整列パ タ ー ン と な る 。 た だ し p = 0 の 場 合 は単 に長 さ 0 に対応 し て空文字列 に対応す る パ タ ー ン (た と え ば " () " ) を も たせ る 。 ま た p = 1 の 場
合 は " { 1 } " の後置 を 省略で き る 。 ま た長 さ 0 に対 応す る パ タ ー ン に は " { p } " を後置 し な く て も よ い 。
(例) " ( あ 1 い う ) { 0 , 2 } "
→ "① ぁ② い う " { 0 , 2 }
→ " ◎ ( ) 1 ①ぁ②い う I ②ぁ { 2 } ④ (い う ) { 2 } "
→ "◎ ( ) ①ぁ② い う I あ { 2 } ④ ( い う ) { 2 } "
' パ タ ー ン に " { m } " 、 " { m , } " 、 " * " 、 " + " " ? " が後置 さ れた も の は、 それぞれそ の パ タ ー ン に " { m , m } " , " { m , ∞ } " , " { 0 , οο } " , " { 1 , ∞ } " 、 " { 0 , 1 } " が後置 さ れた も の に 対応す る 整列パ タ ー ン と な る ( m は 0 以上 の整数) 。
(例) " ( [ あ 一 お ] 1 い う ) { 2 } "
→ "① [ あ 一 お ] ② い う " { 2 }
→ "② [ あ 一 お ] { 2 } ④ ( い う ) { 2 } " た だ し 、前記 の よ う な反復 に お い て n が非常 に大 き い 、 あ る い は∞ の 場合、 反復展開 回数 に 上限 を設 け、 それ を 超え る よ う なパ タ ー ン の反復は、 マ ッ チす る 可能性がな い も の と し て除外 し て 、 統合パ タ ー ンが膨大な も の と な る こ と を 防 ぐ こ と が考 え ら れ る 。 ま たそ の よ う な 上限が な い 場合 も 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て 上限 を設 けて 、 それ を 超 え る よ う な反復展 開 を 除去す る こ と も考 え ら れ る 。 こ れはパ タ ー ン の連結 を展開 す る 場 合な ど も 同様で あ る 。
不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は、 キ 一 ワ ー ド 候補の文字列全体 に対 し てマ ッ チ ン グが行なわ れる た め 、 前記 の よ う なパ タ ー ン統合処理 を行な わず、
単 に 各パ タ ー ン を 選択肢 と す る 統合パ タ ー ン を 出 力 す る だ けで も よ い 。
こ の よ う に実施 の 形態 8 に よ れば、 テキ ス ト の タ イ プ や分野、 格納パ タ ー ン の種別 な ど に対応 し て各種パ 夕 一 ン格納手段 に格納 さ れた各種パ タ ー ン の適用 を 、 単一 の パ タ ー ン処理で実現す る こ と が可能で あ る 。 さ ら に パ タ — ン統合手段 に よ る 各パ タ ー ン の統合 にお い て は、 各パ タ ー ン に マ ッ チす る 可能性の あ る 文字列 の う ち 、 最 も 先 頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ツ チ ン グにお け る ( C 2 )の性質 を考慮 し て統合パタ ー ンが 構成 さ れる ため、各パタ ー ン の選択肢 の記述 においては ( C 2 )の性質 を考慮す る 必要がな く な り 、 よ り 柔軟な記述が 可能 と な る 。
実施の形態 9
図 10は、 こ の発 明 を実施す る た め の実施 の 形態 9 に よ る キ一 ヮ一 ド 抽 出 装置 を 説明す る た め の 図で あ る 。
図 10に お い て、 図 1 〜 9 と 同一 の 符号 を付 し た も の は 同 一 ま た は こ れ に相 当 す る も の で あ る 。
図 10に お い て 品詞解析手段 130は非キ ー ヮ 一 ド 候補除 去手段 70か ら 入力 さ れた テ キ ス ト に対 し 、 単語 も し く は 形態素 を抽 出 し て 品詞 を解析す る 。 入力 テキ ス ト か ら 単 語 も し く は形態素 を抽 出 して品詞 を解析する手段 と し て、 例 え ば 日 本文テキ ス ト な ら 形態素解析、 英文テキ ス ト な ら Part— of — speech Taggingを用 い る こ と がで き る 。
キー ワ ー ド 候補集合生成手段 50は、 品詞解析手段 130 の 出 力 か ら 、 キー ワ ー ド 候補 と すべ き 品詞 シー ケ ン ス と し て あ ら か じ め定 め ら れた も の に対応 し た単語 も し く は 形態素 の シー ケ ン ス を キ一 ヮ一 ド 候補 と する 。
そ の よ う な 品詞 シー ケ ンス の単純な例 と し て 、 連続 し た名 詞 を キー ヮ ー ド 候補 と す る ¾3 ノロ ヽ
「暗号装置 を 用 い た」 ( 32) と い う テキス ト を解析 し て、
「暗号 <名詞 >装置 <名詞 > を <助詞 >用 い ぐ動詞 > た <助動詞 >」 ( 33) と い う 結果が得 ら れれ ば、
「暗号装置」 ( 34) がキー ワ ー ド 候補 と な る 。 た だ し ( 33) で は解析結果 と し て各形態素 の後 に <〉 で品詞 を示 し て い る 。
こ こ で ( 34) の キー ワ ー ド 候補 に対 し 、 ( 25) の よ う な不要末尾パ タ ー ンが用 意 さ れて い れ ば、 「装置」 の部 分が不要 と 判 断 さ れ、
「暗号」 ( 35) が最終的 なキ ー ヮ ー ド 候補 と な る 。
同様 に英文テ キ ス ト に お い て も 、 た と え ば
A ci her device is used ( 36) と い う テキ ス ト を解析 し て、
" 八 <冠詞 > cipher< 名 詞 > deviceく名 詞 isく動 詞 > used<動詞 > . . . " ( 37) と い う 結果が得 ら れれ ば、 " c: pher device が干 一 ゾ ー ド 候補 と し て 生成 さ れ る 。
こ こ で不要末尾パ タ ー ン と し てた と え ば
(device I method; ( S | ) $ ( 38) が用 意 さ れて い れ ば、
cipher ( 39) が最終的なキー ヮ 一 ド 候補 と な る 。 な お ( 38) で は 、 先 頭 に単語 の区切 り を示すスぺー ス が入 っ てレ る と と も に、
複数形 に も 対応 し たノ、 タ ー ンが用 い ら れて い る こ と に注 意 さ れた い 。
なお こ こ で 、 キー ワ ー ド 候補 と すべ き 品詞 シー ケ ン ス と し て あ ら カゝ じ め 定 め ら れた も の に対応 し た単語 も し く は形態素 の シー ケ ン ス を抽 出す る 方法 に は さ ま ざま な も の が考 え ら れ る が、 1 つ の方法 と し てパ タ ー ン を用 い る こ と が考 え ら れ る 。
品詞解析手段 1 3 0の 出 力 が、 ( 3 3 ) も し く は ( 3 7 ) の よ う に 、 単語 も し く は形態素 の あ と に 品詞 を く >で示 さ れた も の がス ペー ス で 区切 ら れて 出 力 さ れ、 かつ 各単語 も し く は形態素が " < " 、 " > " の文字 を含 ま な い 場合、 た と え ば連続 し た 名 詞 を取 り 出す に はパ タ ー ン処理手段 2 0を用 い て 、
" ( [ ' く 〉 ] + く名詞 > ) + " ( 4 0 ) と い う パ タ ー ン に マ ッ チ し た部分 を 抽 出 し た 上で、 < > で 囲 ま れた 品詞 の 部分 を 削除 し 、 言語 に応 じ て 区切 り の ス ペー ス を適宜削 除すればよ い 。
こ の よ う に 実施 の 形態 9 に よ れば、 品詞解析 を行な つ て得 ら れた キ 一 ヮ一 ド 候補 に対 し て も 、 パ タ ー ン を用 い た柔軟な不要文字列処理が可能で あ る 。 産業上 の利用 可能性
以上の よ う に 、 本発 明 の第 1 の キー ワ ー ド 抽 出装置 に よ れ ば、 テキ ス ト を入 力 す る テ キス ト 入力 手段 と 、 正規 表現 も し く は 同等 のノ\° タ ー ン に よ る 文字列 の マ ッ チ ン グ お よ び置換 を行な う ノ\° タ ー ン処理手段 と 、 キー ワ ー ド の 構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成要素 パ タ ー ン を 少な く と も 有す る パ タ 一 ン格納手段 と 、 テキ
ス ト に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キー ワ ー ド 構成要素パ タ ー ン にマ ッ チす る 互い に ォーノ —ラ ッ プの な い すべて の文字列 を キー ヮ ー ド 構成要素 と し て抽 出す る キー ワ ー ド 構成要素抽 出手段 と 、 各キ ー ワ ー ド 構成要 素か ら キ ー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集 合生成手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 を キー ワ ー ド と し て 出 力 す る キー ワ ー ド 出 力 手段 と を 備 え た の で 、 記述性 の 高 い正規表現 も し く は 同等 のパ タ ー ン を用 い て 、 字種 に こ だわ ら な い柔軟な キー ヮ 一 ド 抽 出 を容易 に 実現す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 2 の キー ワ ー ド 抽 出装置 に よ れ ば、 各キー ヮ ー ド 構成要素 をそ の ま ま キー ヮ ー ド 候補 と し て キー ヮ 一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 を備 え た の で 、 要素概念 を抽 出 し やす い と い う 効果 が あ る 。
ま た 、 本発 明 の 第 3 の キー ワ ー ド 抽 出装置 に よ れ ば、 テキス ト に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キ一 ヮ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と し て抽 出 し なが ら 抽 出位置 を 記録す る キ一 ヮ一 ド 構成要素抽 出 手段 と 、 各キー ワ ー ド 構成要素 の文字列長 と 抽出位置か ら テキ ス ト 上連続 し て い る と 判定 さ れた キー ワ ー ド 構成 要素 は連結 し て 1 つ の キー ワ ー ド 候補 と し て 、 単独 の キ 一ワ ー ド 構成要素 はそ の ま ま キ一 ワ ー ド 候補 と し て 、 キ 一ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手 段 と を備 え た の で 、 複合キー ワ ー ド を抽 出 し やすい と い う 効果が あ る 。
ま た 、 本発明 の 第 4 の キー ワ ー ド 抽 出装置 に よ れば、
テキ ス ト 上連続 し た キー ヮ ー ド 構成要素 はそれぞれ を単 独 の キー ワ ー ド 候補 と す る と と も に 、 前後 の キー ワ ー ド 構成要素 を連結 し た も の を それぞれキー ヮ ー ド候補 と す る 一方、 単独 の キ ー ワ ー ド 構成要素 はそ の ま ま キ一 ヮ一 ド 候補 と し て 、 キー ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 を備 え た の で 、 要素概念 も 複合キー ワ ー ド も 抽 出可能で あ る 。
ま た、 本発 明 の 第 5 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド 候補集合 に お い て重複 し た キ一 ヮ 一 ド 候補 を 1 つ に ま と め る キー ヮ ー ド 候補集合生成手段 を備 え た の で、 後続処理 に お け る 冗長性 を 回避す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 6 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ — ド 構成要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い 部分 を表わす非キ ー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テ キ ス ト に対 し 前記パ タ ー ン処理手段 を用 い て、 非キ一 ワ ー ド 候補パ タ ー ン に マ ツ チす る 互 い に ォーノ ー ラ ッ プの な い すべて の文字列 を検 索 し 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別な文字列 に 置換す る 非キー ヮ ー ド 候補除去手 段 と を備 え た の で 、 不要なキー ワ ー ド 構成要素の抽 出 を 防 ぐ こ と が可能 と な る 。
ま た 、 本発 明 の第 7 の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と キー ヮ ー ド 構成要素パ タ ー ンで 網羅す る こ と が困難な キー ヮ ー ド 構成要素 を表わす例外 キー ヮ 一 ド 構成要素パ タ ー ン と を 少な く と も 有す る パ 夕
ー ン格納手段 と 、 テキス ト に対 し て前記パ タ ー ン処理手 段 を用 いて 、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チ す る 互 い に オーバ一 ラ ッ プの な い すべて の文字列 を 例外 キ ー ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録 す る と と も に 、 テキス ト 中 マ ッ チ し た各文字列 を 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に 変換す る 例外キー ヮ 一 ド 構成要素抽出手段 と キ ー ワ ー ド 構成要素お よ び例外キ ー ワ ー ド 構成要素 か ら キー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 と を備 え た の で、 キ一 ワ ー ド 構成要素パ タ ー ン で は 網羅す る こ と が困難な 、 あ る い は非キー ワ ー ド候補 の 除 去 に伴 っ て抽 出で き な く な る キ一 ワ ー ド 構成要素 を あ ら か じ め 抽出す る こ と が可能 と な る 。
ま た 、 本発明 の第 8 の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 不要語 を 表わす不要語パ タ ー ン と を 少 な く と も 有する パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合の 各キー ヮ ー ド 候補 の文字列全体 に対 し て 前記 パ タ ー ン処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ一 ヮ一 ド 候補集合か ら 除去す る 不要語除去手段 と を備 えた の で 、 不要な キー ワ ー ド 候補 を 除去す る の に 記述性 の高 い パ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発明 の 第 9 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 必要語 を 表わす必要語パ タ ー ン と 不要語 を 表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合の各キー ヮ ー ド 候補 の文字列全体 に 前記パ タ ー ン処理手段 を用 い 、 必
要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の を キ ー ワ ー ド 候補集合か ら 除去す る 不要語除去手段 と を備 え た の で 、 不要語パ タ ー ンで誤 っ て キー ヮ 一 ド 候 補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の第 1 0の キー ワ ー ド 抽 出装置 に よ れば、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ 一 ド 構成要素パ タ ー ン と 不要な先頭文字列 を表わす不要 先頭パタ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合の各キー ヮ ー ド 候補 の 先頭文字列 に 対 し て前記パ タ ー ン処理手段 を 用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 して は、 不要先頭パ 夕 ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ 一 ド 候補 を キ一 ヮ一 ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ワ ー ド 候 補 と 置換す る 不要先頭文字列除去手段 と を備 え た の で 、 キー ヮ ー ド 候補 に お い て不要な 先頭文字列 を 除去す る の に記述性 の 高 いパ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 1 1の キー ワ ー ド 抽 出装置 に よ れ ば、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を表わす不要 先頭パ タ ー ン と 必要な先頭文字列 を表わす必要先頭パ タ 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の 各キー ヮ ー ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 必要先頭パ タ ー ン に マ ツ チせず不要先頭パ タ ー ン に マ ッ チす る キー ヮ ー ド 候補 に 対 し て は、不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ワ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ
を も と の キー ヮ 一 ド 候補 と 置換す る 不要先頭文字列除去 手段 と を備 え た の で、 不要先頭パ タ ー ン で誤 っ て キ ー ヮ 一 ド 候補の 必要な 先頭文字列が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発明 の第 1 2の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を表わす不要 末尾パ タ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キー ヮ ー ド 候補集合の 各キ一 ヮ 一 ド 候補 の末尾文字列 に 対 し て前記パ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は 、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ ー ド 候補 を キー ヮ 一 ド候補集合か ら 除去 し 、 空文字列でな ければそれ を も と のキ ー ヮ 一 ド 候 補 と 置換す る 不要末尾文字列除去手段 と を備 え た の で、 キー ヮ 一 ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性の 高 いパ タ ー ン を 用 い る こ と が可能で あ る 。
ま た 、 本発明 の第 1 3の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を 表わす不要 末尾パ タ ー ン と 必要な 末尾文字列 を表わ す必要末尾パ タ 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ ― ド 候補集合の 各キ一 ヮ一 ド 候補 の末尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ツ チせず不要末尾パ タ ー ン に マ ッ チす る キ ー ヮ 一 ド 候補 に 対 し て は、不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と の キー ヮ 一 ド候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな けれ ばそれ
を も と のキ ー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去 手段 と を備 え た の で、 不要末尾パ タ ー ンで誤 っ て キー ヮ 一 ド 候補の 末尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可 能で あ る 。
ま た 、 本発明 の第 1 4の キ ー ワ ー ド 抽 出装置 に よ れば、 不要語除去手段、 不要先頭文字列除去手段、 不要末尾文 字列除去手段 の う ち 2 つ 以上 を 組み合わせて 、 あ る い は 不要先頭文字列 除去手段、 不要末尾文字列除去手段 の い ずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キー ワ ー ド 候補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要 語パ タ ー ン の選択肢 に 付加す る よ う に構成 し た の で 、 冗 長な処理 を 回避す る こ と が可能 と な る 。
ま た 、 本発 明 の第 1 5の キー ワ ー ド 抽 出装置 に よ れ ば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 のパ タ ー ン格納手段 と 、 各種パ タ ー ン を 適用 す る 際 に各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を並行 し て適用 し 、最 も 先頭で マ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を備 えた の で 、 キー ワ ー ド 抽 出 に用 い る 情報 の再利用 性 を 向上 さ せ、 さ ま ざ ま な テキ ス ト に柔軟か つ効率的 に 対応 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の第 1 6の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ 夕 ー ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか の パ タ ー ンでマ ッ チすれ ばそれ を マ ッ チ ン グ結 果 と し て、 他 のパ タ ー ン の適用 を 中止す る ノ " タ ー ン処理 手段 を備え た の で 、 不要語パ タ ー ンお よ び必要語パ 夕 一 ン に 関 し て不要なパ タ ー ン処理 を 回避す る こ と が可能で
あ る 。
ま た 、 本発明 の第 1 7の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た 複数 のパ タ ー ン格納手段 と 、 必要 に応 じ てパ 夕 一 ン に お け る 選択 、 連結 、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を整 列 し な が ら 、 前記パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を備 え た の で 、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に 対応 し て各種パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン の適用 を 、 単一 のパ タ ー ン処理で実現 す る こ と が可能で あ る 。 さ ら に パ タ ー ン統合手段 に よ る 各パ タ ー ン の統合 にお い て は、 各ノ\° タ ー ン に マ ッ チす る 可能性 の あ る 文字列 の う ち 、 最 も 先頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ にお け る ( C 2 ) の性質 を考慮 し て統合パ タ ー ンが構成 さ れ る た め 、 各パ タ ー ン の選択肢 の 記述 に お い て は ( C 2 ) の性質 を考 慮す る 必要がな く な り 、 よ り 柔軟な記述が可能 と な る 。
ま た 、 本発明 の第 1 8の キー ワ ー ド抽 出装置 に よ れば、 マ ッ チす る 可能性 の あ る 文字列長 に関 し て 上限を 設 け 、 それ を 超え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記 パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を備 え た の で、 統 合パ タ ー ン を短縮 し 、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の第 1 9の キー ワ ー ド 抽 出装置 に よ れば、 パ タ ー ン の 反復 に 関 し て反復展 開 回数 の 上限 を設 け、 そ れ を超 え る パ タ ー ン の 反復は除外 し て 、 前記パ タ ー ン格
納手段 に格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出力 す る パ タ ー ン統合手段 を 備 え た ので 、 統合パ タ ー ン が膨大な も の と な る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発明 の第 2 0の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ 夕 ー ン格納手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と する パ ター ン を 出 力する パター ン統合手段 を備 えた ので、 不要な パ タ ー ン統合処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 2 1の キ一 ワ ー ド 抽 出装置 に よ れば、 テキス ト を 入力 す る テ キ ス ト 入力 手段 と 、 入力 さ れた テ キス 卜 に対 し単語 を抽 出 し て 品詞 を解析す る 品詞解析手 段 と 、 品詞解析手段 の 出 力 か ら 、 特定の 品詞 の シー ケ ン ス に対応 し た単語列 を キー ヮ ー ド 候補 と し て生成す る キ 一ワ ー ド候補集合生成手段 と 、 キー ワ ー ド 候補集合 の 各 キー ワ ー ド 候補 を キー ワ ー ド と し て 出 力 す る キ一 ワ ー ド 出 力 手段 と を備 え た の で 、 キー ワ ー ド 構成要素抽 出手段 と キ一 ワ ー ド 構成要素パ 夕 一 ン を用 い る か わ り に 、 品詞 解析 を 用 い た キー ワ ー ド 抽 出 を容易 に実現す る こ と が可 能で あ る 。
ま た 、 本発 明 の第 2 2の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド 候補集合 に お い て重複 し たキ一 ヮ一 ド 候補 を 1 つ に ま と め る キ一 ヮ一 ド 候補集合生成手段 を備 え た の で、 後続処理 にお け る 冗長性 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 2 3の キ一 ワ ー ド 抽 出装置 に よ れば、 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列の マ ッ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 パ タ ー ン 処理手段で の マ ッ チ ン グお よ び置換 に使用 さ れる 文字列
を表わすパ タ ー ン を 格納す る パ タ ー ン格納手段 と を備 え た の で 、 品詞解析 を行な っ て得 ら れたキー ヮ ー ド 候補 に 対 し て も 、 パ タ ー ン を 用 い た柔軟な不要文字処理が可能 で あ る 。
ま た 、 本発明 の第 2 4の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ ー ド 構成要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い 部分 を 表わす非 キー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テキス ト に対 し 前記パ 夕 一 ン処理手段 を 用 い て 、 非 キー ワ ー ド 候補パ タ ー ン に マ ツ チす る 互い に ォ一バー ラ ッ プの な い すべて の文字列 を検 索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補 除去手 段 と を 備 え た の で、 不要なキー ワ ー ド 構成要素 の抽 出 を 防 ぐ こ と が可能 と な る 。
ま た 、 本発 明 の第 2 5の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ ― ド 構成要素パ タ ー ン と キ一 ヮ 一 ド 構成要素パ タ ー ン で 網羅す る こ と が困難な キ一 ヮ一 ド 構成要素 を表わす例外 キー ヮ 一 ド 構成要素パ タ ー ン と を 少な く と も 有す る パ タ — ン格納手段 と 、 テキ ス ト に対 し て前記パ タ ー ン処理手 段 を用 い て 、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チ す る 互 い に オーバー ラ ッ プの な いすべて の文字列 を 例外 キー ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録 す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別 な文字列 に変換す る 例外キ一 ヮ一 ド 構成要素抽出手段 と キー ヮ ー ド 構成要素お よ び例外キー ヮ ー ド 構成要素か ら
キ一 ヮ一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 と を 備 え た の で 、 キー ワ ー ド 構成要素パ タ ー ン で は 網羅する こ と が困難な 、 あ る い は非キー ワ ー ド 候補 の 除 去 に伴っ て抽 出で き な く な る キ 一 ワ ー ド 構成要素 を あ ら か じ め抽 出す る こ と が可能 と な る 。
ま た 、 本発 明 の第 2 6の キー ワ ー ド 抽 出装置 に よ れば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キ一 ヮ一 ド 候補 の文字列全体 に対 し て前記 パ タ ー ン処理手段 を 用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 と を 備え た の で、 不要な キー ワ ー ド 候補 を 除去す る の に 記述性の 高 い パ タ ー ン を 用 い る こ と が可能で あ る 。
ま た、 本発 明 の第 2 7の キー ワ ー ド 抽 出装置 に よ れ ば、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わす キー ヮ 一 ド 構成要素 'パ タ ー ン と 必要語 を表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キー ヮ ー ド 候補の 文字列全体 に 前記パ タ ー ン処理手段 を 用 い 、 必 要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の をキ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 と を 備え た の で 、 不要語パ タ ー ンで誤 っ てキー ワ ー ド 候 補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た、 本発明 の第 2 8の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を表わす不要 先頭パタ ー ン と を少な く と も有するパタ ー ン格納手段 と 、
キ一 ヮ一 ド 候補集合の各キ一 ヮ 一 ド 候補 の先頭文字列 に 対 し て 前記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と のキー ワ ー ド 候 補 と 置換す る 不要先頭文字列除去手段 と を備 え た の で、 キー ヮ ー ド 候補 に お い て不要な 先頭文字列 を 除去す る の に記述性 の 高 い パ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 2 9の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を 表わす不要 先頭パ タ ー ン と 必要な先頭文字列 を表わす必要先頭パ 夕 一 ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ ー ヮ 一 ド 候補集合 の 各キ一 ヮ一 ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 必要先頭パ タ ー ン に マ ツ チせず不要先頭パ タ ー ン にマ ッ チす る キ ー ヮ ー ド 候補 に 対 し て は、不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ 一 ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな ければそれ を も と の キ一 ヮ一 ド 候補 と 置換す る 不要先頭文字列 除去 手段 と を備 え た の で、 不要先頭パ タ ー ン で誤 っ てキ ー ヮ ー ド 候補 の必要な先頭文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の第 3 0の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を表わす不要 末尾パ タ ー ン と を少な く と も有するパタ ー ン格納手段 と 、
キ ー ヮ 一 ド 候補集合 の 各キー ヮ 一 ド 候補 の 末尾文字列 に 対 し て前記パ タ ー ン処理手段 を 用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要末尾バ タ
— ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と のキー ヮー ド 候補 を キー ヮ一 ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ワ ー ド 候 補 と 置換す る 不要末尾文字列除去手段 と を備 え たので、 キー ヮ ー ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性 の高 いゾ\° タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 3 1の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ― ド 構成要素パ タ ー ン と 不要な 末尾文字列 を表わす不要 末尾パ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ — ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の 各キー ヮ ー ド 候補 の末尾文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 必要末尾パ タ ー ン に マ ツ チせず不要末尾パ タ ー ン に マ ッ チす る キ ー ワ ー ド 候補 に 対 し て は、不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と の キー ヮ ー ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キ一 ヮ一 ド 候補 と 置換する 不要末尾文字列除去 手段 と を 備え た の で、 不要末尾パ タ ー ン で誤 っ てキ一 ヮ ー ド 候補 の末尾文字列が削除 さ れる こ と を 防 ぐ こ と が可 能で あ る 。
ま た 、 本発 明 の 第 3 2の キー ワ ー ド 抽 出装置 に よ れば、 不要語除去手段、 不要先頭文字列除去手段、 不要末尾文 字列除去手段 の う ち 2 つ 以上 を 組み合わせて 、 あ る い は 不要先頭文字列除去手段、 不要末尾文字列除去手段 の い
ずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キ一 ワ ー ド 候補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要 語パ タ ー ン の選択肢 に 付加す る よ う に構成 し た の で 、 冗 長な処理 を 回避す る こ と が可能 と な る 。
ま た、 本発 明 の第 3 3の キー ワ ー ド 抽 出装置 に よ れば、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 の パ タ ー ン格納手段 と 、 各種パ タ ー ン を 適用 す る 際 に各パ タ ー ン格納手段 に格納 さ れた 同 種のパ タ ー ン を 並行 し て適用 し 、最 も 先頭で マ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を備 え た の で 、 キー ワ ー ド 抽 出 に 用 い る 情報の再利用 性 を 向上 さ せ 、 さ ま ざ ま なテキ ス ト に柔軟か つ効率的 に 対応 さ せ る こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 4の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し ては各パ タ — ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか の パ タ ー ンで マ ッ チすればそれ を マ ッ チ ン グ結 果 と し て 、 他 の パ タ ー ン の適用 を 中 止す る パ タ ー ン処理 手段 を備 え た の で 、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て不要な パ タ ー ン処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 5の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 の パ タ ー ン格納手段 と 、 必要 に応 じてパ タ ー ン に お け る 選択、 連結、 反復な ど を 展 開 し 、 マ ッ チす る 可能性の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を 整 列 し なが ら 、 前記パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段
と を 備 え た の で、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し て各種パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン の適用 を 、 単一 の パ タ ー ン処理で実現 す る こ と が可能で あ る 。 さ ら にパ タ ー ン統合手段 に よ る 各パ タ ー ン の統合 に ぉ レ て は、 各パ タ ー ン に マ ッ チす る 可能性 の あ る 文字列 の う ち 、 最 も 先頭 に 近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ に お け る ( C 2 ) の 性質 を考慮 し て統合パ タ ー ン が構成 さ れ る た め 、 各パ タ ー ン の選択肢の 記述 に お い て は ( C 2 ) の性質 を考 慮す る 必要がな く な り 、 よ り 柔軟な記述が可能 と な る 。
ま た 、 本発明 の第 3 6の キ一 ヮ一 ド 抽 出装置 に よ れ ば、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し なが ら 、 前記 パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力す る パ タ ー ン統合手段 を備 え た の で 、 統 合パ タ ー ン を 短縮 し 、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の 第 3 7の キー ワ ー ド 抽 出装置 に よ れ ば、 パ タ ー ン の 反復 に 関 し て反復展 開 回数の 上限 を設 け 、 そ れ を 超 え る パ タ ー ン の 反復は除外 し て、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を備 え た の で 、 統合パ タ ー ン が膨大な も の と な る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 8の キ一 ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と する パタ ー ンを出 力する パター ン統合手段 を備えた ので、 不要なパ タ ー ン統合処理 を 回避す る こ と が可能で あ る 。