WO2001050343A1 - Dispositif d'extraction d'un mot-cle - Google Patents

Dispositif d'extraction d'un mot-cle Download PDF

Info

Publication number
WO2001050343A1
WO2001050343A1 PCT/JP2000/005433 JP0005433W WO0150343A1 WO 2001050343 A1 WO2001050343 A1 WO 2001050343A1 JP 0005433 W JP0005433 W JP 0005433W WO 0150343 A1 WO0150343 A1 WO 0150343A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
keyword
key
character string
unnecessary
Prior art date
Application number
PCT/JP2000/005433
Other languages
English (en)
French (fr)
Inventor
Hiroki Konaka
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to EP00951977A priority Critical patent/EP1189150A4/en
Priority to CA002362416A priority patent/CA2362416C/en
Priority to JP2001550633A priority patent/JP4253152B2/ja
Publication of WO2001050343A1 publication Critical patent/WO2001050343A1/ja
Priority to US09/945,677 priority patent/US7191177B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Description

明 糸田 キー ヮ 一 ド 抽 出装置 技術分野
こ の発 明 は、 テキス ト か ら キ ー ワ ー ド を抽 出す る キー ワ ー ド 抽 出装置 に 関す る も の で あ る 。 背景技術
図 1 1は、 た と え ば特 開平 1 0— 3 3 4 1 0 2に示 さ れた従来 の キ一 ヮ一 ド 抽 出装置 を示す構成 図で あ る 。 図 1 1にお レ ^ て 、 1 はデ一 夕 ベ ース 、 2 は一次キー ヮ - - ド 切 出処理部、 3 は字種情報部、 4 は一次キ一 ワ ー ド 格納部、 5 は不要 語除去処理部、 6 はキ ー ワ ー ド 情報格納部で あ る 。
つ ぎ に 、 動作 に つ い て説明す る 。 キ一 ヮ 一 ド と な る 文 字 の種別 を 定 め た字種情報部 3 の 情報 に基づき 、 一次キ 一ワ ー ド 切 出処理部 2 はデー タ ベー ス 1 か ら 一次キー ヮ ー ド と な る 文字列 を抽 出 し て一次キ一 ヮ — ド 格納部 4 に 格納す る 。 不要語除去処理部 5 は他 の一次キー ヮ ー ド を 結合 し た も の と 等 し い 一次キー ワ ー ド (合成語) を 不要 語 と し て 除去 し 、 残 っ た も の を キ一 ヮ 一 ド 情報格納部 に 格納す る 。
ま た 、 不要語除去処理部 5 で は 1 文字 の一次キー ヮ ー ド を 除去 し た り 、 あ ら か じ め格納 さ れた接頭語、 接尾語 を 除 い て不要語除去処理 を行な っ た り 、 あ ら か じ め 登録 さ れて い る か あ る い は頻出す る 合成語 は除去 し な い な ど と い っ た処理 も 記載 さ れて い る 。
従来の キ一ワ ー ド抽 出装置は字種情報 を べ一ス と し て い る の で、 複数 の字種 に ま た が つ た キ ~ 7 ~~ ド を抽 出す る こ と が困難で あ っ た 。 ま た キ一フ ー ド と はな り 得な い と 同定で き る 部分 に 関 し て も キ ド 抽 出処理が行な わ れ る た め 、 不要な処理 の結果 、 誤 つ た キー ヮ一 ド を抽 出 す る 可能性 も あ っ た 。 さ ら に キー ヮ — ド と な る べ き 合 成語や不要な一次キー ワ ー ド 、 · ^ロロ 、 接尾語 に 関す る 情報が文字列 も し く は単な る 文字数 と し て格納 /規定 さ れ る た め 、 述 の柔軟性、 簡潔性 に欠 け、 ま た本来 は接 sSロロ ■ 接尾語で はな い 部分が誤 つ て削除 さ れた り 、 キー ワ ー ド と な る ベ き 1 文字 の文字列 を抽 出で き な い と い つ た 問題点 あ つ た 。 ま たそれ ら の情報 を 分野 ' 文書 タ イ プな ど に対応 し て モ ジ ユ ール化 し 、 必要 に応 じ て組み合 わ せて用 い る こ と も 不可能で あ り 、 それ ら の *報 の 再利 用 性が乏 し か つ た 。
こ の発明 は、 HU Θ己 の よ う な 問 題点 を解決す る た め に な さ れた も の で あ り 、 キー ヮ ー ド 抽 出 に 関す る 情報 の 記述 性、 再利用 性 を 向 上 さ せなが ら 、 精度よ く 効率的 に キー ワ ー ド を抽 出す る キー ワ ー ド 抽 出装置 を 得 る こ と を 目 的 と す る も の で あ る 。 発 明 の 開示
本発 明 に 係 る 第 1 の キー ワ ー ド 抽 出装置は、 テキ ス ト を 入力 す る テキ ス ト 入力 手段 と 、 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列 の マ ッ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン を 少 な く と も 有す る パ タ ー ン格納手段 と 、 テキス 卜 に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キ一 ワ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に ォーノ ー ラ ッ プの な いすべて の文字 列 を キ一 ヮ一 ド 構成要素 と し て抽 出す る キー ヮ ー ド 構成 要素抽 出手段 と 、 各キ 一 ヮ 一 ド 構成要素か ら キ一 ワ ー ド 候補集合 を 生成す る キー ワ ー ド 候補集合生成手段 と 、 キ
— ヮ ー ド 候補集合 の各キ一 ヮ一 ド 候補 を キ一 ヮ一 ド と し て 出力 す る キー ワ ー ド 出 力 手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に 係 る 第 2 の キー ワ ー ド 抽 出装置は、 各キー ヮ ー ド 構成要素 を そ の ま ま キー ワ ー ド 候補 と し て キー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 を有 す る こ と を 特徴 と す る も ので あ る 。
本発 明 に 係 る 第 3 の キ ー ワ ー ド 抽 出装置は、 テキ ス ト に対 し 前記パ タ ー ン処理手段 を 用 い て、 キー ワ ー ド 構成 要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と して抽 出 し なが ら 抽出位置 を 記録す る キー ヮ ー ド 構成要素抽 出手段 と 、 各キー ヮ ー ド 構成要素 の文字列長 と抽 出位置か ら テ キ ス ト 上連続 し て い る と 判定 さ れた キ一 ワ ー ド 構成要素 は連 結 し て 1 つ の キ ー ワ ー ド 候補 と し て、 単独の キー ワ ー ド 構成要素はそ の ま ま キ ー ワ ー ド 候補 と し て、 キー ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有 す る こ と を 特徴 と す る も の で あ る 。
本発 明 に 係 る 第 4 の キー ワ ー ド 抽 出装置は、 テキス ト 上連続 し た キ一 ヮ一 ド 構成要素 はそれぞれを 単独の キー ワ ー ド 候補 と す る と と も に 、 前後の キー ワ ー ド 構成要素 を連結 し た も の をそれぞれキー ヮ ー ド 候補 と す る 一方、 単独 の キ一 ヮ 一 ド 構成要素 はそ の ま ま キー ヮ ー ド 候補 と し て 、 キ一 ワ ー ド 候補集合を 生成す る キー ワ ー ド 候補集 合生成手段 を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 5 の キー ワ ー ド 抽 出装置 は、 キー ヮ 一 ド 候補集合 に お い て重複 し た キー ヮ 一 ド 候補 を 1 つ に ま と め る キ 一 ヮ一 ド 候補集合生成手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 6 の キー ワ ー ド 抽 出装置 は、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い部分 を表 わす非キー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テキ ス ト に対 し 前記パ タ ー ン処理手 段 を用 い て非キー ヮ ー ド 候補パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な いすべて の文字列 を検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補除去手段 と を 有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 7 の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素 パ タ ー ン と キー ヮ ー ド 構成要素パ タ ー ンで網羅す る こ と が困難な キー ヮ ー ド 構成要素 を表わす例外キー ヮ ー ド 構成要素パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納 手段 と 、 テキス ト に対 し て前記パ タ ー ン処理手段 を 用 い て、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に ォ一バー ラ ッ プの な いすべて の文字列 を例外キー ヮ 一 ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別な文字列 に変換す る 例外キー ワ ー ド 構成要素抽 出手段 と 、 キー ヮ 一 ド 構成要素お よ び例外キー ヮ ー ド 構成要素か ら キー ヮ 一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 8 の キー ワ ー ド 抽 出装置は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を 表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ一 ワ ー ド候補集合 の 各キ一 ヮ一 ド 候補 の文字列全体 に対 し て前記パ タ ー ン 処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ ー ヮ 一 ド 候補集合か ら 除去す る 不要語除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 9 の キー ワ ー ド 抽 出装置は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 必要語 を表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン 格納手段 と 、 キー ワ ー ド 候補集合 の 各キ ー ワ ー ド 候補 の 文字列全体 に 前記パ タ ー ン処理手段 を用 い 、 必要語パ 夕 — ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の を キ 一ワ ー ド 候補集合か ら 除去す る 不要語除去手段 と を有す る こ と を特徴 と す る も の で あ る
本発 明 に係 る 第 1 0の キー ワ ー ド 抽 出装置 は、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要な 先頭文字列 を表わす不要先頭パ 夕 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の各キー ヮ ー ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ツ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と のキ一 ヮ一 ド候補 をキー ヮー ド候補集合か ら 除去 し、 空文字列 でな けれ ばそれ を も と の キ ー ヮ 一 ド 候補 と 置換 す る 不要先頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 1の キー ワ ー ド 抽 出装置 は、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成 要素パ タ ー ン と 不要な 先頭文字列 を 表わ す不要先頭パ タ ー ン と 必要な 先頭文字列 を表わす必要先頭パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補 集合 の各キー ヮ 一 ド 候補 の先頭文字列 に対 し て前記バ タ — ン処理手段 を 用 い 、 必要先頭パ タ ー ン に マ ッ チせず不 要先頭パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 し ては、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果 が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、. 空文字列で な けれ ばそれ を も と の キ一 ヮ一 ド 候補 と 置換す る 不要先頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 2の キー ワ ー ド 抽 出装置は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成 要素パ タ ー ン と 不要な 末尾文字列 を表わ す不要末尾パ 夕 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ一 ヮ 一 ド 候補集合 の各キ一 ヮ一 ド 候補 の 末尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ツ チす る キ 一 ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と のキ一 ヮ一 ド候補 をキー ヮ一 ド候補集合か ら 除去 し、 空文字列 でな けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換 す る 不要末尾文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。 本発 明 に係 る 第 1 3の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ワ ー ド 構成 要素パ タ ー ン と 不要な末尾文字列 を表わ す不要末尾バ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補 集合 の 各キー ヮ ー ド 候補 の末尾文字列 に対 し て前記パ 夕 ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不 要末尾パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 し ては、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果 が空文字列で あ れ ばも と の キー ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去手段 と を 有す る こ と を特徴 とす る も の で あ る 。
本発 明 に係 る 第 1 4の キー ワ ー ド 抽 出装置は、 不要語 除 去手段 、 不要先頭文字列除去手段、 不要末尾文字列除去 手段 の う ち 2 つ以上 を 組み合わせて 、 あ る い は不要先頭 文字列除去手段、 不要末尾文字列除去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て最終的 に キー ヮ 一 ド 候補 集合か ら 除去 さ れたキ一 ワ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に 付加す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 1 5の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 のパ タ ー ン格納手段 と 、 各種パ タ ー ン を適用す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を有 す る こ と を特徴 と す る も ので あ る 。
本発 明 に係 る 第 1 6の キー ヮ ー ド 抽 出装置は、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に格納 さ れた パ タ ー ン を並行 し て適用 し 、 い ずれか のパ タ ー ンでマ ッ チすればそれ を マ ッ チ ン グ結果 と し て、 他 のパ タ ー ン の適用 を 中止す る パ タ ー ン処理手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 7の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 の パ タ ー ン格納手段 と 、 必要 に応 じ てパ タ ー ン に お け る 選択、 連結、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を 整列 し な が ら 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を 種別 ご と に統合 し て 出 力す る パ タ ー ン統合手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 1 8の キー ワ ー ド 抽 出装置は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し なが ら 、 前記パ タ ー ン 格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を 有す る こ と を 特徴 とす る も の で あ る 。
本発 明 に係 る 第 1 9の キー ワ ー ド 抽 出装置は、 パ タ ー ン の 反復 に 関 し て反復展 開 回数 の 上限 を設 け、 それ を超え る パ タ ー ン の 反復 は除外 し て 、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を有する こ と を特徴 と する も のであ る 。
本発 明 に係 る 第 2 0の キー ワ ー ド 抽 出装置は、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と す る パ タ ー ン を 出 力す る パ タ ー ン統合手段 を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 1の キー ワ ー ド 抽 出装置は、 テキス ト を入力 す る テキ ス ト 入 力 手段 と 、 入力 さ れた テキス ト に 対 し 単語 を抽 出 し て品詞 を解析す る 品詞解析手段 と 、 品 詞解析手段 の 出力 か ら 、 特定 の 品詞 の シー ケ ンス に対応 し た単語列 を キー ヮ ー ド 候補 と し て生成す る キ一 ヮ一 ド 候補集合 生成手段 と 、 キー ワ ー ド 候補集合 の各キー ヮ 一 ド 候補 を キー ヮ 一 ド と し て 出 力 す る キー ヮ 一 ド 出力手段 と を 有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 2の キー ワ ー ド 抽 出装置 は、 キー ヮ ー ド 候補集合 にお い て重複 し たキ一 ヮ一 ド 候補 を 1 つ ま と め る キ ー ヮ ー ド 候補集合生成手段 を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 3の キー ワ ー ド 抽 出装置 は、 正規表現 も し く は 同等のノ タ ー ン に よ る 文字列 の マ ッ チ ン グお よ び置換を 行な う パ タ ー ン処理手段 と 、 パ タ ー ン処理手段 で の マ ッ チ ン グお よ び置換に使用 さ れ る 文字列 を表わす パ タ ー ン を格納す る パ タ ー ン格納手段 と を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 4の キ一 ワ ー ド 抽 出装置は、 キー ヮ ー ド の候補 と な り 得な い 部分 を表わす非キー ワ ー ド 候補パ タ ー ン を 有す る パ タ ー ン格納手段 と 、 テキス ト に対 し パ タ ー ン処理手段 を用 い て 、 非キー ワ ー ド 候補パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な い すべて の文字列 を検索 し 、 特定 の 品詞 の シー ケ ン ス に対応 し な い特別 な 文字列 に 置換す る 非キー ヮ ー ド 候補除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 5の キー ワ ー ド 抽 出装置は、 特定の 品 詞 の シー ケ ン ス に対応 し た単語列 と し て 生成す る こ と が 困難なキー ヮ ー ド 構成要素 を表わす例外キー ヮ ー ド 構成 要素パ タ ー ン を 有す る パ タ ー ン格納手段 と 、 テキス ト に 対 し てパ タ ー ン処理手段 を用 い て 、 例外キー ワ ー ド 構成 要素ノ° タ ー ン に マ ッ チす る 互 い に ォ一ノ ー ラ ッ プの な い すべての文字列 を例外キー ヮ一 ド構成要素 と して抽 出 し、 そ の抽 出位置 を記録す る と と も に 、 テキ ス ト 中 マ ッ チ し た各文字列 を 、 前記特定 の 品詞 の シーケ ンス に対応 し な い 特別な文字列 に変換す る 例外キー ヮ ー ド 構成要素抽 出 手段 と 、 前記特定 の 品詞 の シー ケ ン ス に対応 し た単語列 'お よ び例外キー ヮ ー ド 構成要素か ら キ一 ヮ一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 6の キー ワ ー ド 抽 出装置は、 不要語 を 表わす不要語パ タ ー ン を有す る パ タ ー ン格納手段 と 、 キ ー ヮ ー ド 候補集合 の 各キー ヮ ー ド 候補 の文字列全体 に対 し てノ\° タ ー ン処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チ す る も の を キー ヮ ー ド 候補集合か ら 除去す る 不要語除去 手段 と を有す る こ と を 特徴 と す る も の で あ る 。
本発明 に係 る 第 2 7の キー ワ ー ド 抽 出装置は、 必要語 を 表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キー ヮ ー ド 候補 の文字列全体 にパ タ ー ン処理手段 を 用 い 、 必要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ツ チす る も の を キー ヮ ー ド 候補集合か ら 除去す る 不要語除 去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 2 8の キー ワ ー ド 抽 出装置は、 不要な 先 頭文字列 を表わす不要先頭パ タ ー ン を有す る パ タ ー ン格 納手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 の 先 頭文字列 に対 し 記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先 頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文 字列で あ れば も と の キー ヮ ー ド 候補 を キー ヮ ー ド 候補集 合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ 一 ド 候補 と 置換す る 不要先頭文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に 係 る 第 2 9の キ ー ワ ー ド 抽 出装置 は、 不要な 先 頭文字列 を表わす不要先頭.パ タ ー ン と 必要な 先頭文字列 を 表わす必要先頭パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キ一 ワ ー ド 候補集合 の各キー ワ ー ド 候補 の先頭文字 列 に対 し て前記パ タ ー ン処理手段 を用 い 、 必要先頭パ 夕 ー ン に マ ッ チせず不要先頭パ タ ー ン にマ ッ チす る キ 一 ヮ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部 分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と の キ ー ヮ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列で な けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 不要先 頭文字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 0の キー ワ ー ド 抽 出装置は、 不要な 末 尾文字列 を 表わす不要末尾パ タ ー ン を有す る パ タ ー ン格 納手段 と 、 キ一 ワ ー ド 候補集合 の各キー ワ ー ド 候補 の 末 尾文字列 に対 し てパ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要末 尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文 字列で あ れば も と の キー ワ ー ド 候補 を キー ワ ー ド 候補集 合か ら 除去 し 、 空文字列でな ければそれ を も と のキー ヮ 一 ド 候補 と 置換す る 不要末尾文字列除去手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 1の キー ワ ー ド 抽 出装置は、 不要な 末 尾文字列 を表わす不要末尾パ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ ー ン と を有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 の末尾文字 列 に対 し てパ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不要末尾パ タ ー ン に マ ッ チす る キ一 ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列で な け ればそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文 字列除去手段 と を 有す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 2の キー ワ ー ド 抽 出装置は、 不要語 除 去手段、 不要先頭文字列除去手段、 不要末尾文字列 除去 手段の う ち 2 つ 以上 を 組み合わせて、 あ る い は不要先頭 文字列除去手段、 不要末尾文字列除去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て、 最終的 に キー ワ ー ド 候 補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に 付加す る こ と を特徴 と す る も の で あ る 。
本発明 に係 る 第 3 3の キー ワ ー ド 抽 出装置は、 テキス ト の タ イ プや分野 、 格納パ タ ー ン の種別 な ど に対応 し た複 数のパ タ ー ン格納手段 と 、 各種パ タ ー ン を適用 す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種 のパ タ ー ン を並行 し て適用 し 、 最 も 先頭 でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 を有す る こ と を特徵 と す る も の で あ る 。
本発明 に係 る 第 3 4の キー ワ ー ド 抽出装置 は、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に 格納 さ れた パ タ ー ン を並行 し て適用 し 、 いずれか 'のパタ ー ンでマ ッ チすればそれを マ ッ チ ン グ結果 と し て 、 他 のパ タ ー ン の 適用 を 中止す る パ タ ー ン処理手段 を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 5の キー ワ ー ド 抽 出装置 は、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複 数 のパ タ ー ン格納手段 と 、 必要 に 応 じ て パ タ ー ン に お け る 選択 、 連結、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を整列 し なが ら 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 6の キー ワ ー ド 抽 出装置は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記パ タ ー ン 格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出力 す る パ タ ー ン統合手段 を 有す る こ と を特徴 と す る も の で あ る 。
本発 明 に係 る 第 3 7の キー ワ ー ド 抽 出装置 は、 パ タ ー ン の反復 に 関 し て反復展 開 回数の 上限 を設 け、 それ を超 え る パ タ ー ン の反復 は除外 し て、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パタ ー ン統合手段 を有する こ と を特徵 と する も のであ る 。
本発 明 に係 る 第 3 8の キー ワ ー ド 抽 出装置 は、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納 手段 に 格納 さ れたパ タ ー ン をそれぞれ選択肢 と す る パ タ — ン を 出 力 す る パ タ ー ン統合手段 を有す る こ と を特徴 と す る も の で あ る 。 図面 の簡単な説明
図 1 は実施 の形態 1 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 2 は実施 の形態 2 の キ一 ヮ一 ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 3 は実施 の 形態 3 の キー ワ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 4 は実施 の形態 4 の キー ヮ ー ド 抽 出装置 を説明す る た め の 図で あ る 。
図 5 は実施 の 形態 5 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 6 は実施 の 形態 6 の キー ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 7 は実施の形態 7 のキー ヮ 一 ド 抽 出 装置 を説明す る た め の 図で あ る 。
図 8 は実施 の 形態 7 にお け る パ タ ー ン格納手段 の組合 せ を 説明す る た め の 図で あ る 。
図 9 は実施 の形態 8 の キ一 ヮ ー ド 抽 出装置 を説 明す る た め の 図で あ る 。
図 1 0は実施 の形態 9 のキ一 ヮ一 ド抽 出装置 を説 明す る た め の 図で あ る 。
図 1 1は従来のキー ヮ ー ド抽 出装置 を説明す る た め の 図 で あ る 。 発 明 を 実施す る た め の 最良 の形態 実施 の 形態 1
図 1 は、 こ の発 明 を 実施す る た め の実施 の 形態 1 に よ る キー ヮ ー ド 抽 出装置 を説明す る た め の 図で あ る 。
図 1 にお い て 、 1 0はテキス ト 入力 手段、 2 0はパ タ ー ン 処理手段、 3 0はパ タ ー ン格納手段 、 40はキ ー ワ ー ド 構成 要 素抽 出 手 段 、 5 0はキ ー ワ ー ド 候補集合生 成手段 、 6 0 はキ一 ヮ一 ド 出 力 手段で あ る 。
テキ ス ト 入力 手段 1 0はた と え ばハー ド ディ ス ク な ど に 格納 さ れた フ ァ イ ルな どか ら 、 必要 に応 じ て 日 本語 コ ー ド の変換な ど を行な い なが ら テキス ト デー タ を読み込む。
パ タ ー ン処理手段 2 0はテキ ス ト な ど の文字列 と 、 正規 表現 も し く は 同 等 のパ タ ー ン を 与 え ら れてマ ッ チ ン グ を 行な い 、マ ッ チ し た部分文字列 と そ の位置 を 出 力 し た り 、 与え ら れた別 の文字列 に よ っ て マ ッ チ し た部分文字列 の 置換 を 行な う 。 ま た、 あ る パ タ ー ン に マ ッ チ し た部分 の 後続の文字列 にそのパタ ー ン を再び適用 する こ と に よ り 、 あ る 文字列 か ら そ のパ タ ー ン に互 い に オーバー ラ ッ プな く マ ッ チす る すべて の部分文字列 を検索 し 、 置換す る こ と も 可能で あ る 。
正規表現 と は特定の文字列で はな く 、 文字列 の一部 を 一般化 し て表現す る こ と を可能 と す る も の で あ り 、 た と え ば以下の よ う に定義 さ れ る 。
• 通常 の文字 は 、それ 自 身 と マ ッ チす る 正規表現で あ る 。 例) 正規表現 " レ " はテキス ト 「 あ い う えお」 の 「 レ 」 に マ ッ チす る 。
• 正規表現 を連結 し た も の は、 各正規表現 に マ ッ チす る 文字列 を連結 し た文字列 にマ ッ チする正規表現で あ る 。 例) " う え " は 「 あ い う え お」 の 「 う え」 に マ ッ チす る 。 • " " は文字列 の先頭 に マ ッ チす る 正規表現で あ る 。 例) " ' あ " は 「 あ い う え お」 の 「 あ 」 に マ ッ チす る 。 • " $ " は文字列 の末尾 に マ ッ チす る 正規表現で あ る 。 例) "お $ " は 「 ぁ レ、 う え お」 の 「お」 に マ ッ チす る 。
• " C " と " ] " の 間 に通常 の文字 を並べた も の は、 そ れ ら の い ずれか 1 文字 に マ ッ チす る 正規表現で あ る 。 " [ A - Z ] " と い う よ う に あ る 範 囲 の 文字 を 指定す る こ と も 可能で あ る 。 ま た " [ " の 直後 に " " を 置 く と 、 並べた文字以外 の 1 文字 と マ ッ チす る 正規表現 と な る 。
例) " [ レ、 一 え ] " は 「 ぁ レ、 う え お」 の 「 い 」 「 う 」 「 え 」 の い ずれカゝ に マ ッ チす る 。
" [ い 一 え ] " は 「 あ い う え お 」 の 「 あ 」 「 お 」 の い ずれカゝ に マ ッ チす る 。
• " ( " と " ) " で 囲 ま れた正規表現 は括弧 内 の正規表 現 と 同 等 の 正規表現で あ る 。
例) " ( う え) " は 「 ぁ レ う え お」 の 「 う え」 に マ ッ チ す る 。
• " I " を は さ ん だ正規表現 は、 そ の 前後の正規表現 の い ずれ か に マ ッ チす る 文字列 に マ ッ チす る 正規表現 で あ る (選択) 。
例) " ( レ I う え ) " は 「 ぁ レ、 う えお」 の 「 い」 「 う え 」 の い ずれカゝ に マ ッ チす る 。
' 正規表現 に " { m, n} " ( m, nは 0 以上 の 整数、 m≤ n ) が後置 さ れた も の は、 そ の 正規表現 の m回以上 n 回以下 の 反復 を表わす正規表現で あ る 。
例) " い { 1, 3} " は 「 あ い い え お 」 の 「 い い」 も し く は い ずれか の 「 レ 」 に マ ッ チす る 。
' 正規表現 に " { m } " 、 " { m, } " 、 " * " 、 " + " " ? " が後置 さ れた も の はそれぞれ、 そ の正規表現 に " { m, m } ', 、 " { m , ∞ } ', 、 " { 0, ∞ } ,' 、 { 1 ,
∞ } " 、 " { 0, 1 } " が後置 さ れた も の と 同等の正規表 現で あ る 。
例) " レ { 2 } " は 「 ぁ レ、 い え お 」 の 「 い い 」 に マ ッ チ す る 。 '-
" い + " は " い { 1 , } " と 同等で あ り 、 「 あ い い え お」 の 「 い レ 」 も し く は レ ずれか の 「 い」 に マ ツ チす る 。
" レ * え " は 「 あ い い え お 」 の 「 い い え 」 「 レ え 」 「 え」 の い ずれ力、 に マ ッ チす る 。
" い ? え " は 「 あ い い え お」 の 「 レ え」 「 え」 の レ ずれか に マ ッ チす る 。
正規表現 に よ る マ ッ チ ン グは非決定性有限状態ォ一 ト マ ト ン を用 い て効率的 に行な わ れ る が、 こ の 場合 : • 文字列 の複数 の部分がマ ッ チ可能な場合、 文字列 の 先 頭 に近 い 部分がマ ッ チす る 。 ( C 1 )
• 選択 にお い て複数の 選択肢がマ ッ チ可能な場合、 左の 選択肢が優先 さ れ る 。 ( C 2 )
• 反復 を含む正規表現で は、 よ り 多 く の 反復 に よ る マ ツ チが優先 さ れ る 。 ( C 3 ) と い う 点 に注意が必要で あ る 。
パ タ ー ン格納手段 3 0は、 パ タ ー ン処理手段 2 0 が処理 可能な正規表現 も し く は同等 の パ タ ー ン を格納 し て お く も の で あ る 。 以下、 パ タ ー ン は前述の 正規表現で記述す る も の と す る 。
た と え ば円相場情報な ど の テキス ト か ら 、 円相場 の 情 勢 を表わすキ一 ヮ一 ド 構成要素 を抽出 し た い 場合 に は : " ( [ 0— 9 ] + [円 銭 ] 1 (円 I ドル) [高安 ] ) " ( 1 ) な ど と い っ た キ一 ヮ一 ド 構成要素パ タ ー ン を 用意すれば よ い 。
ま た技術系 文書な ど で は、 連続 し た漢字や カ タ カ ナ の 文字列 を キー ワ ー ド 構成要素 と す る こ と が有用 な場合が 多 い 。 た だ し漢字 1 文字 の 場合 は、 「光」 「熱」 な ど分 野 に よ っ て意味が あ る も の も あ る が、 多 く の 場合ひ ら が な が あ と に続 い て動詞や形容詞 と な る た め 、 一部 の文字 を 除 い てキー ヮ ー ド 構成要素か ら 除外 し た方がよ い 塲合 が多 い 。 ま た カ タ カ ナ 1 文字 を キー ワ ー ド 構成要素 と す べ き 場合 も 極 め て稀で あ る 。 こ れ ら を考慮す る と 、 た と え ば以下 の よ う な キー ヮ ー ド 構成要素パ タ ー ン を用 い る こ と が考 え ら れ る 。
" ( [亜ー瑤 ] {2, H [ァ—ケー _] {2, H [光熱 ]) " ( 2 ) な お 、 " [亜 ー 瑤 ] " はすべて の漢字 を 、 " [ ァ ー ケ 一 一 ] " はすべて の カ タ カ ナ と 長音符号 を 表わすパ タ ー ン で あ る 。 ま た 、 ( C 2 )に 示 し た よ う に マ ッ チ ン グで は左 の 選択肢が優先 さ れ る た め 、 " [光熱 ] " の よ う に短 い文 字列 に マ ッ チす る 選択肢は右 の方 に置 き 、 パ タ ー ン全体 と し てで き る だ け長 い 文字列 に マ ッ チす る よ う に し て い る 。
キー ワ ー ド 構成要素抽 出手段 40は、 テ キス ト 入 力手段 10で 入力 さ れ た テ キ ス ト に 対 し 、 パ タ ー ン格納 手段 30 に格納 さ れた キー ワ ー ド 構成要素パ タ ー ン を用 い て 、 パ タ ー ン処理手段 20に よ り マ ッ チ ン グ を行な い 、 互 い に重 複な く マ ッ チす る すべて の文字列 を キー ヮ ー ド構成要素 と し て抽 出す る 。
た と え ば
「 15日 の東京外国為替市場 の 円 相場 は 1 ド ル = 106円 11 銭で、 前 日 に 比べ 1 円 15銭 円 高 と な っ た 。 」 ( 3 ) と い う テキ ス ト に対 し 、 円 相場情報 に対応 し たキ一 ヮ一 ド 構成要素パ タ ー ン ( 1 )を 用 い れば、
「 106円 」 「 11銭」 「 1 円 」 「 15銭」 「 円 高」 ( 4 ) と い っ た キー ヮ ー ド 構成要素が抽 出 さ れ る 。
ま た
「光デバイ ス を 用 い た通信装置 を 開 発 し た。 」 ( 5 ) と い う テキ ス ト に対 し て技術系文書 に対応 し たキー ヮ ー ド 構成要素ノ タ ー ン ( 2 )を 用 い れ ば、
「光」 「デバイ ス 」 「通信装置」 「 開発」 ( 6 ) と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 な お 、 「用 い た」 の 「用 」 は こ のパ タ ー ン に マ ッ チ し な い た め 、 キー ヮ 一 ド 構成要素 と はな ら な い 。
キー ヮ ー ド候補集合生成手段 50はキー ヮ 一 ド構成要素 抽 出手段 40が抽 出 し たキー ヮ ー ド 構成要素か ら キー ヮ ー ド 候補集合 を 生成す る 。
最 も 単純な も の は、 各キー ワ ー ド 構成要素 をそ の ま ま キー ワ ー ド 候補 と す る も の で あ る 。 こ の方式 は要素概念 を抽 出 し やす い も の の 、 い く つ か の キ一 ワ ー ド 構成要素 か ら な る 複合キ一 ワ ー ド を抽 出 で き な い と い う 側面 を持 つ 。
ま た、 テキス ト 上連続 し た キー ワ ー ド 構成要素 は連結 し て 1 つ の キー ワ ー ド 候補 と し て 、 単独 のキ一 ワ ー ド 構 成要素 はそ の ま ま キー ワ ー ド 候補 と し て 、 キ ー ワ ー ド 候 補集合 を 生成す る こ と も 考 え ら れ る 。 前述の例で は前二 者 と 後 者がそれぞれ連続 し て い る の で 、
「 106円 11銭」 「 1 円 15銭 円 高」 ( 7 ) と い う キー ワ ー ド 候補集合が生成 さ れる 。 こ の方式 は複 合キー ワ ー ド を 抽 出 し やすい も の の 、 要素概念 を取 り 出 し に く い と い う 側面 を も つ 。
さ ら に 、 テキ ス ト 上連続 し た キー ワ ー ド 構成要素 はそ れぞれ を 単独 の キー ワ ー ド 候補 と す る と と も に 、 前後の キ― ヮ一 ド 構成要素 を連結 し た も の も それぞれキー ヮ ー ド 候補 と す る 一方、 単独 の キー ワ ー ド 構成要素 はそ の ま ま キ一 ワ ー ド 候補 と し て、 キー ワ ー ド 候補集合 を 生成す る 方式 も 考 え ら れ る 。 こ の場合前述 の例で は、
「 106円 」 「 11銭」 「 1 円 」 「 15銭」 「 円 高」 「 106円 11銭」 「 1 円 15銭」 「 15銭 円 高」 「 1 円 15銭円 高」
( 8 ) と い う キー ワ ー ド 候補集合が生成 さ れ る 。 こ の方式 に よ る キ一 ヮ一 ド 候補集合は前二者 に よ る も の を包含す る も の で あ り 、 要素概念 も 複合キー ワ ー ド も 抽 出可能で あ る が、 不完全な複合キー ワ ー ド が抽 出 さ れ る 場合 も あ る 。
な お 、 キー ワ ー ド 構成要素がテ キ ス ト 上連続 し て い る か ど う か の判定 は、 た と え ばつ ぎの よ う に実現 さ れ る 。 ま ずキー ワ ー ド 構成要素抽 出手段 40にお い て 、 キ一 ヮ一 ド 構成要素 を抽 出す る と と も に抽 出位置 を テキス ト の 先 頭か ら の文字数 と し て記録 し てお く 。 た と え ば、 文字列 長 L1の キ ー ヮ ー ド 構成要素 E1が位置 P1で抽 出 さ れ 、 つ ぎにキ一 ヮ一 ド構成要素 E2が位置 P2で抽 出 さ れた とする と 、 P1 + L1が P2に 等 し ければ E1と E2はテキス ト 上連続 し て い る と 判定 さ れる 。
ま た 、 後続処理 に お け る 冗長性 を 回避す る た め に 、 キ ー ヮ ー ド候補集合生成手段 50は重複 し たキ一 ヮ一 ド候補 を 1 つ に ま と め て も よ い.。
キー ワ ー ド 出 力 手段 60は、 キ一 ワ ー ド 候補集合 の 各キ 一ワ ー ド 候補 を キー ワ ー ド と し て フ ァ イ ルや プ リ ン タ 、 ディ ス プ レー な ど に 出 力 す る も の で あ る 。
こ の よ う に実施の形態 1 に よ れば、 記述性の高 い正規 表現 も し く は同等 のパ タ ー ン を用 い て キー ワ ー ド 構成要 素 を抽 出す る た め 、 字種 に こ だわ ら な い 柔軟な キー ヮ 一 ド 抽 出 を 容易 に 実現す る こ と が可能で あ る 。
実施 の形態 2
図 2 は、 こ の 発明 を 実施す る た め の実施 の形態 2 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 2 に お い て 、 図 1 と 同一 の 符号 を付 し た も の は、 同 一ま た は こ れ に 相 当 す る も の で あ る 。
図 2 に お い て 、 7 0は非キー ワ ー ド 候補除去手段で あ る ま た パ タ ー ン格納手段 3 0に は、 キ一 ワ ー ド の候補 と な り 得な い部分 を表わす非 キー ヮ ー ド 候補パ タ ー ンが追加 し て格納 さ れて い る 。
た と え ば円 相 場情報で現在の 円 相場 と は関係な く 、 単 に 円 相場 の動向 だ け を キー ワ ー ド と し て取 り 出 し た い 場 合、 非キ ー ワ ー ド 候補パ タ ー ン と し て
" 1 ド ル = [ 0— 9 ] + 円 ( [ 0 _ 9 ] + 銭) ? " ( 9 ) と い っ たノ\° タ ー ン を格納 し てお け ばよ い 。
非 キ 一 ヮ一 ド 候補 除去手段 7 0はパ 夕 一 ン 処理 手 段 2 0 を用 い て 、 パ タ ー ン格納手段 3 0に格納 さ れた 非キ—— ヮ一 ド 候補ノ、° タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プ ( 同 一の部分 を有す る ) の な い文字列 を テキス ト か ら すべて 検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ツ チ し な い特別な文字列 に置換す る 。
た と え ば ど の パ タ ー ン も 決 し て半角 文字 を含む文字列 に マ ッ チす る こ と がな けれ ば、 非キー ワ ー ド 候補パ 夕一 ン に マ ッ チ し た文字列 を 、 同 じ 文字数 の 半角 の " ###… " と い う 文字列 に置換す る ( " … " は繰返 し の省略記号で あ る ) 。 前 出 の 円 相場情報の例文 ( 3 )は、
「 15日 の東京外国為替市場 の 円 相場 は ###########で、 前 日 に 比べ 1 円 15銭 円 高 と な っ た 。 」 ( 10) と レゝ ぅ テキ ス ト に変換 さ れ る 。
キー ワ ー ド 構成要素抽 出手段 40は、 非 キー ワ ー ド 候補 除去手段 70に よ っ て変換 さ れたテキス ト か ら キー ヮ ー ド 構成要素 を 抽 出す る 。 円 相場情報 の例で は、 前記 ( 10 )の テキ ス ト に 対 し 、 た と え ば前述 の 円 相場情報 に対応 し た キー ワ ー ド 構成要素パ タ ー ン (1)を用 い る こ と に よ り 、
「 1 円 」 「 15銭」 「 円 高」 ( 11) と い う キ一 ヮ一 ド 構成要素が抽 出 さ れ る 。
こ の よ う に実施の形態 2 に よ れ ば、 キー ワ ー ド の候補 と な り 得な い 部分 を あ ら か じ め 除去 し て キ一 ヮ一 ド 構成 要素 を抽 出 す る の で、 不要なキ ー ワ ー ド 構成要素 の抽 出 を 防 ぐ こ と が可能 と な る 。
実施 の形態 3
図 3 は、 こ の発 明 を 実施す る た め の実施 の形態 3 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 3 にお い て、図 1 〜 2 と 同一 の 符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 3 に お い て 、 80は例外キ一 ワ ー ド 構成要素抽 出手段 で あ る 。 ま たパ タ ー ン格納手段 30に は、 キー ワ ー ド 構成 要素パ タ ー ンで網羅す る こ と が困難なキー ヮ 一 ド 構成要 素 を表わす例外キ ー ヮ ー ド 構成要素パ タ ー ンが追加 し て 格納 さ れて い る 。
た と え ば技術系文書 の場合、 キー ワ ー ド 構成要素パ 夕 ー ン ( 2 )で は網羅で き な い 、 ひ ら がな の混在 し た キ ー ヮ — ド 構成要素 を抽 出す る た め の パ タ ー ン を 用 意す る こ と が考 え ら れる 。
ま た技術系文書で は よ く 数値デー タ が現れ る が、 こ れ ら を
" [ 0 - 9 . 一 ] + " ( 1 2 ) と い う よ う な非キー ワ ー ド 候補パ タ ー ン と し てお け ば非 キー ヮ ー ド候補除去手段 7 0で こ れ ら を 除去する こ と が可 能で あ る 。 し か し なが ら こ の よ う にす る と 、 数字 を含ん だキー ヮ ー ド構成要素 をキー ヮ ー ド構成要素抽出手段 4 0 で抽 出で き な く な る 。
こ れ ら の キー ヮ ー ド 構成要素 を抽 出す る た め に はた と え ば、
" ( し き い 値 I 割 り 込 み i [ 0— 9 ] + (進数 I 次元) ) "
( 1 3 ) と い う よ う な例外キー ワ ー ド 構成要素パ タ ー ン を 用 意す る 。
例外キー ヮ ー ド 構成要素抽 出手段 8 0はパ タ ー ン処理手 段 2 0を用 い て、 パ タ ー ン格納手段 3 0に格納 さ れた 例外キ ー ヮ ー ド 構成要素パ タ ー ン に マ ッ チす る 、 互 い に オーバ 一ラ ッ プの な い すべて の文字列 を 例外キー ワ ー ド 構成要 素 と し て抽 出 し 、 そ の抽出位置 を 記録す る と と も に 、 ど の パ タ ー ン も 決 し てそれを含む文字列 に マ ッ チ し な い特 別 な文字列 に置換す る 。 た と え ば ど の パ タ ー ン も 決 し て 半角 文字 を含む文字列 に マ ッ チす る こ と がな けれ ば、 抽 出 さ れた文字列 を 同 じ 文字数の半角 の " @ @ @ … " と い う 文字列 に置換す る 。
た と え ば 「受光素子 を 2 次元 に配列 し た 。 」 ( 14) と い う テキ ス ト に対 し て例外キー ワ ー ド 構成要素パ タ ー ン ( 13 )を 用 い れば、
「 2 次元」 ( 15) と い う 例外キー ワ ー ド 構成要素が抽 出 さ れ る と と も に 、 も と の テキス ト は
「受光素子 を @ @ @ に配列 し た 。 」 ( 16) と い う テキ ス ト に変換 さ れて後 の処理 に移 さ れ る 。
キー ヮ 一 ド候補集合生成手段 50は例外キー ヮ ー ド構成 要素抽 出手段 80で抽 出 さ れた例外キー ヮ ー ド 構成要素 と キ一 ヮ一 ド構成要素抽 出手段 40で抽 出 さ れたキー ヮー ド 構成要素か ら キー ヮ 一 ド 候補 を 生成す る 。
前 出 の例文 ( 14 )に対 し てキー ヮ 一 ド 構成要素パ タ ー ン (2)を 用 い れば
「受光素子」 「配列」 ( 17) の 2 つ の キー ワ ー ド 構成要素が抽 出 さ れ、 それ ら と (15) の例外キ一 ワ ー ド 構成要素か ら 、 た と え ば実施 の 形態 1 で述べた方法 の い ずれか に よ り 、 キー ワ ー ド 候補が生成 さ れ る こ と に な る 。
なお キー ワ ー ド 候補集合生成手段 50に お け る 、 例外キ — ヮ 一 ド 構成要素お よ びキ一 ヮ 一 ド 構成要素 の テキ ス ト 上 の 連続性判定 に つ い て は、 た と え ば例外キ ー ワ ー ド 構 成要素抽 出手段 80も し く は非 キー ヮ ー ド 候補除去手段 7 0に お け る テ キ ス ト の 置換 に お い て 前述 の よ う に テ キ ス ト の文字数 を 変 え な い よ う にす る こ と に よ り 、 実施 の 形 態 1 で述べた方法 を用 い る こ と がで き る 。
こ の よ う に実施 の形態 3 に よ れ ば、 キ ー ワ ー ド 構成要 素パ タ ー ンで は網羅す る こ と が困難な 、 あ る い は非キ一 ヮ ー ド 候補 の 除去 に伴 っ て抽 出 で き な く な る キ一 ワ ー ド 構成要素 を あ ら か じ め 抽 出す る こ と が可能 と な る 。
実施 の 形態 4
図 4 は、 こ の発 明 を 実施す る た め の 実施 の 形態 4 に よ る キ ー ヮ ー ド 抽 出装置 を説明す る た め の 図 で あ る 。
図 4 にお い て 、図 1 〜 3 と 同 - ^ の符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 4 に お い て 、 90は不要語除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要語 を表わす不要語パ タ ー ンが追 加 し て格納 さ れて い る 。
た と え ば技術系文書 にお い て 「 開発」 「利用 」 な ど の よ う な一般的な単語や 、 「 同 図」 「次表」 「前行」 と い つ た 図表な ど の参照 を示す も の な ど は、 そ の文書で説明 さ れて い る 事物 · ア イ デア な ど の機能的な特徴 を 表わ し て い る と は言え ず、 キー ワ ー ド と すべ き でな い 場合が多 い 。
こ の よ う な も の を不要語 と す る に は た と え ばつ ぎの よ う な不要語パ タ ー ン を用 意 し てお く
" ' ( [同本次前後 ] [図表式行頁 ] I開発 利用 I ···) $
( 18) 不要語 除去手段 90は キ ー ヮ 一 ド 候補集合 生成手段 50 が生成 し た各キー ヮ ー ド 候補 に対 し てパ タ ー ン処理手段 20を 用 い 、 文字列全体が不要語パ タ ー ン に マ ッ チす る キ — ヮ ー ド 候補 を キー ヮ 一 ド 候補集合か ら 除去す る 。な お 、 パ タ ー ン ( 18) の 先頭 の " " と 末尾 の " $ " は、 各キ ー ヮ 一 ド 候補 の文字列全体 と の マ ッ チ ン グが行な われる こ と を表わす。
た と え ば ( 6 )の キ ー ヮ ー ド 構成要素 がキ 一 ヮ一 ド 候補 集合生成手段 50に よ っ てそ の ま ま キ一 ヮ 一 ド 候補 と な り それ に対 し て不要語除去手段 90が ( 18) の 不要語パ タ ー ン を用 い る と すれ ば、 「 開発」 が不要語 と し て 除去 さ れ、 「光」 「デバイ ス 」 「通信装置」 ( 19) の 3 つ がキ ー ワ ー ド 候補 と し て残 る こ と に な る 。
ま た 、 パ タ ー ン格納手段 30に必要語 を表わす必要語パ タ ー ン を追加 し て格納す る と と も に 、 不要語除去手段 90 に お い て各 キー ワ ー ド 候補 に対 し てパ タ ー ン処理手段 20 を用 い 、 文字列全体が必要語パ タ ー ン に マ ッ チせず、 不 要語パ タ ー ン に マ ッ チす る キー ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去す る よ う に構成す る こ と に よ り 、 不要 語パ タ ー ン で誤 っ て必要な キー ヮ ー ド 候補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
仮に 「同 行」 が動詞 と し てキー ワ ー ド とすべき に も か か わ ら ず、 ( 18) の不要語パ タ ー ン を用 い る と マ ッ チ し て し ま う 場合、 必要語パ タ ー ン と し て、
" ~ ( 同行 I …) $ " ( 20) を用 い れば、 「 同行」 はキー ワ ー ド 候補 と し て残 さ れ る 。
こ の よ う に実施 の 形態 4 に よ れ ば、 不要な キ一 ワ ー ド 候補 を 除去す る の に記述性 の 高 い パ 夕 一 ン を 用 い る こ と が可能で あ る 。 ま た必要語パ タ ー ン を用 意す る こ と に よ り 、 不要語パ タ ー ンで誤 っ て キー ワ ー ド 候補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
実施 の 形態 5
図 5 は、 こ の発 明 を実施す る た め の実施 の 形態 5 に よ る キ一 ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 5 にお い て 、図 1 〜 4 と 同 一 の符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。 図 5 にお い て 、 100は不要先頭文字列除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要先頭文字列 を表わす不 要先頭パ タ ー ン が追加 し て格納 さ れて い る 。 こ こ で不要 先頭文字列 と は、 「各」 「約」 な ど い わ ゆ る 接頭語で不 要な も の だ けで な く 、 キー ワ ー ド 候補 の 先頭文字列 と し て は不要な部分文字列 を指す。
た と え ばキー ヮ ー ド 構成要素抽 出手段 40におい てキー ワ ー ド 構成要素パ タ ー ン ( 2 ) を 用 い る 場合、
「電圧 を加 え た 際発振す る … 」 . ( 21) と い う よ う なテ キス ト に お い て 、 「際発振」 と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 こ れがそ の ま ま キー ヮ ー ド 候補 と な る 場合、 「際」 と い う 文字列 を不要先頭文字 列 と 考 え る こ と に よ り 、 「発振」 だ け を キー ワ ー ド 候補 と し て残す こ と が可能で あ る 。 そ の他、 「実用 上」 「実 際上」 な ど漢字か ら な る 副詞句 な ど も 不要先頭文字列 と し て扱 う 場合、 た と え ばつ ぎの よ う な不要先頭パ タ ー ン が考 え ら れ る 。
" " ( (実用 I実際 I事実 i ··· )上 I [各約 際…]) " ( 22) 不要先頭文字列除去手段 100は不要語除去手段 90で除 去 さ れなか っ た各キー ヮ ー ド 候補 の先頭文字列 に対 し て パ タ ー ン処理手段 20を 用 い 、 不要先頭パ タ ー ン に マ ッ チ し たキ一 ヮ一 ド候補 に対 してはマ ッ チ した部分 を除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ ー ド候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 。 置換 さ れた キー ヮ ー ド 候補 は不要語除去手段 90に戻 さ れ、 再び不要語除去 処理、 不要先頭文字列 除去処理が行な われ る 。 な お 、 パ タ ー ン ( 22) の先頭の " ~ " は 、 各キー ワ ー ド候補 の 先 頭文字列 と の マ ッ チ ン グが行な わ れる こ と を表わす。 ま たパ タ ー ン格納手段 3 0に必要先頭文字列 を表わす必 要先頭パ タ ー ン を追加 し て格納す る と と も に 、 不要先頭 文字列 除去手段 1 0 0に お い て 、 各キ ー ワ ー ド 候補 の先頭 文字列 に対 し てパ タ ー ン処理手段 2 0を用 い 、 必要先頭パ タ ー ン に マ ッ チせず不要先頭パ タ ー ン に マ ッ チ し たキ ー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た 部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キ ー ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な けれ ばそれ を も と の キー ヮ ー ド 候補 と 置換す る よ う に構成す る こ と に よ り 、 必要な 先頭文字列 を誤っ て 除去 す る こ と を 防 ぐ こ と が可能 と な る 。
た と え ば 「約数」 「約分」 と い う キー ワ ー ド候補 に対 し て不要先頭パ タ ー ン ( 2 2 ) に よ っ て 「約」 だ けが誤 つ て 除去 さ れな い よ う に す る た め に はた と え ば :
" (約数 I 約分 I … ) " ( 2 3 ) と い う よ う な必要先頭パ タ ー ン を用 意すれ ばよ い 。
こ の よ う に 実施 の 形態 5 に よ れ ば、 キー ワ ー ド 候補 に お い て不要な先頭文字列 を 除去す る の に記述性の 高 い パ タ ー ン を 用 い る こ と が可能で あ る 。 ま た 必要先頭パ タ ー ン を用 意す る こ と に よ り 、 不要先頭パ タ ー ン で誤 っ て キ ー ヮ ー ド 候補 の必要な 先頭文字列が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
実施 の 形態 6
図 6 は、 こ の発 明 を 実施す る た め の実施 の 形態 6 に よ る キー ヮ ー ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 6 に お い て、図 1 〜 5 と 同一の 符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。 図 6 に お い て、 110は不要末尾文字列除去手段で あ る 。 ま たパ タ ー ン格納手段 30に は不要末尾文字列 を表わす不 要末尾パ タ ー ンが追加 し て格納 さ れて い る 。 こ こ で不要 末尾文字列 と は、 「等」 「群」 な ど い わ ゆ る 接尾語で不 要な も の だ けでな く 、 キー ワ ー ド 候補 の末尾文字列 と し て は不要な部分文字列 を指す。
た と え ばキー ヮ ー ド 構成要素抽 出手段 40にお い てキー ワ ー ド 構成要素パ タ ー ン ( 2 ) を 用 い た場合、
「共有 メ モ リ を有す る 並列計算機特 に … 」 ( 24) と レゝ う よ う な テキ ス ト にお い て 、 「並列計算機特」 と い う キー ワ ー ド 構成要素が抽 出 さ れ る 。 こ れがそ の ま ま キ 一ワ ー ド 候補 と な る 場合、 「特」 と い う 文字列 を不要末 尾文字列 と考 え る こ と に よ り 、 「並列計算機」 だ け を キ ー ヮ 一 ド 候補 と し て残す こ と が可能で あ る 。 そ の他、 「装 置」 「手段」 な ど漢字か ら な る 一般的 な 名詞で、 特 に機 能な ど の 説明 に は不要な部分.も 不要末尾文字列 と し て扱 う 場合、 た と え ばつ ぎの よ う な 不要末尾パ タ ー ン が考 え ら れ る 。
" (装置 I 手段 I [等群特… ] ) $ " ( 25) 不要末尾文字列 除去手段 110は、 不要語除去手段 90で 除去 さ れず、 不要先頭文字列 除去手段 100に よ っ て も 変 更 の な か っ た各キー ワ ー ド 候補 の 末尾文字列 に対 し てパ タ ー ン処理手段 20を用 い 、 不要末尾パ タ ー ン に マ ッ チ し た キ一 ヮ一 ド 候補 に対 し て はマ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キ一 ヮ一 ド候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キー ワ ー ド 候補 と 置換す る 。 置換 さ れた キー ヮ ー ド 候補 は不要語除去手段 90に 戻 さ れ、 再び不要語除去 処理 、 不要先頭文字列除去処理、 不要末尾文字列除去処 理が行な われ る 。 な お 、 ( 2 5 ) の末尾 の " $ " は、 各キ 一ワ ー ド 候補 の末尾文字列 と の マ ッ チ ン グが行な わ れ る こ と を表わす。
ま たパタ ー ン格納手段 3 0に必要末尾文字列 を表わす必 要末尾パ タ ー ン を 追加 し て格納す る と と も に 、 不要末尾 文字列 除去手段 1 1 0に お い て 、 各キ ー ワ ー ド 候補 の 末尾 文字列 に対 し てパ タ ー ン処理手段 2 0を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不要末尾パ タ ー ン に マ ッ チ し た キー ワ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た 部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ワ ー ド 候補 を キー ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な ければそれ を も と の キ一 ワ ー ド 候補 と 置換す る よ う に構成す る こ と に よ り 、 必要な末尾文字列 を誤 っ て 除去 す る こ と を 防 ぐ こ と が可能 と な る 。
た と え ば 「〇〇症候群」 と い う キー ワ ー ド 候補 に対 し て不要末尾パ タ ー ン ( 2 5 )に よ っ て 「群」 だ けが誤 っ て 除 去 さ れな い よ う にす る た め に はた と え ば :
" (症候群 I …) $ " ( 2 6 ) と レゝ う よ う な必要末尾パ タ ー ン を用 意すれ ばよ い 。
こ の よ う に実施 の形態 6 に よ れ ば、 キー ワ ー ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性の 高 い パ タ ー ン を用 い る こ と が可能で あ る 。 ま た必要末尾パ タ ー ン を用 意す る こ と に よ り 、 不要末尾パ タ ー ンで誤 っ てキ 一ワ ー ド 候補 の末尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
なお 、 実施 の形態 5 ま た は実施 の形態 6 に お い て は、 あ る キー ワ ー ド 候補 に対 し て不要語除去処理、 不要先頭 文字列除去処理、 不要末尾文字列除去処理 の う ち 2 っ 以 上 を 組み合わせて 、 も し く は不要先頭文字列除去処理、 不要末尾文字列除去処理 の い ずれか を 2 回以上適用 す る こ と に よ っ て、 最終的 に キ— ヮ 一 ド 候補集合か ら あ る キ ー ヮ 一 ド 候補が除去 さ れ る こ と が あ る 。 1 つ の文書でそ の よ う な文字列 を含む フ レ一ズが複数回 出現す る 場合、 そ の よ う な文字列 を不要語パ タ ー ン の選択肢 に付加す る こ と に よ り 、 冗長な処理 を省 く こ と が可能で あ る 。
こ れ を実現す る に はた と え ば、 キ一 ヮ一 ド 候補集合生 成手段 5 0で各キ一 ヮ一 ド候補が生成 さ れた と き の文字列 を 、初期文字列 と し て各キ - ワ ー ド 候補 二付与 し て お く 。 そ し て不要語除去処理 、 不要先頭文字列除去処理、 不要 末尾文字列 除去処理 の い ずれか に お い て最終的 に キ ー ヮ ー ド 候補が除去 さ れる と き 、 そ の直前 の文字列が初期文 字列 と 異な っ て い れ ば、 初期文字列 を不要語パ タ ー ン の 選択肢 に付加す る 。
た と え ば 「利用 手段」 と い う キ一 ヮ一 ド 候補 に ま ず不 要末尾パ タ ー ン ( 2 5 )が適用 さ れて 「禾 IJ用 」 が残 り 、 つ ぎ に不要語ノ タ ー ン ( 1 8 )が適用 さ れてキー ヮ ー ド候補集合 か ら 最終的 に 除去 さ れた と す る 。
こ の と き "利用 手段 " を不要語パ タ ー ン の選択肢 にカロ え てお け ば、 つ ぎに 「各利用 手段」 と い う キ一 ヮ一 ド 候補 に対 し て、 不要先頭パ タ ー ン ( 2 2 )が適用 さ れて 「利用 手 段」 が残 る と 、 つ ぎに は新た な不要語パ タ ー ン を適用 す る こ と に よ り 、 「利用 手段」 そ の も の がマ ッ チ し て不要 語 と し て 除去 さ れ る 。 こ の よ う に し て冗長な処理 を 回避 す る こ と が可能 と な る 。
実施 の形態 7 図 7 は、 こ の発 明 を 実施す る た め の実施 の 形態 7 に よ る キ ― ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 7 に お い て 、図 1 〜 6 と 同 一 の符号 を 付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 Ί に お い て 、 3 0 a〜 3 0 cはテ キス ト の タ イ プゃ分野、 格納パ タ ー ン の種別な ど に対応 し た複数 のパ タ ー ン格納 手段で あ る 。
各パ タ ー ン格納手段 は必ず し も 同 じ 種類 の パ タ ー ン を そ ろ え て い な く て も よ い 。
た と え ばモバイ ル コ ン ピ ュ ー 夕 関連 の テキ ス ト に 関 し てキー ワ ー ド 抽 出 を行な う 場合、 キー ワ ー ド 抽出 の た め の情報 と し て は、 技術系文書全般 に普遍的な も の 、 コ ン ピ ュ ー 夕 関係 に 一般 に利用 で き る も の 、 そ し てモパイ ル コ ン ピ ュ ー タ に特有な も の と い っ た よ う に 、 さ ま ざ ま な レベルの も の が考 え ら れ る 。 ま た 同 じ モ ノ イ ルコ ン ピ ュ 一 夕 関連 の テキ ス ト に し て も 、た と え ば特許 の 場合は「発 明」 「請求項」 な ど の単語はそ の テキス ト の特徴 を 表わ し て い な い た め 、 キ一 ヮ 一 ド と し て適 さ な い と レ つ た よ う に 、 テ キス ト の タ イ プ に応 じ た情報 も 考 え ら れ る 。
そ こ で 図 8 に示す よ う に 、 そ の よ う な キー ワ ー ド 抽 出 に 関す る さ ま ざ ま な レ ベル、 タ イ プの 情報 に対応 し たパ タ ー ン を格納す る パ タ ー ン格納手段 を各種用 意 し 、 対象 と す る テ キス 卜 の タ イ プや分野な ど に応 じ てそれ ら を 組 み合わせて利用 で き る よ う に すれ ば、 さ ま ざ ま な テ キ ス ト に対応 し たキー ヮ ー ド 抽 出が効率的 に 実現 さ れ る 。
パ タ ー ン処理手段 2 0は各種パ タ ー ン を適用 する 際 に、 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の 文字列 を マ ツ チ ン グ結果 とす る 。 いずれ も マ ッ チ し な け れば、 全体 と し て マ ッ チ ン グ に失敗 し た も の と す る 。
キー ワ ー ド 構成要素抽 出手段 40、 非 キ ー ワ ー ド 候補除 去手段 70、 例外キ ー ワ ー ド 構成要素抽 出手段 80、 不要語 除去手段 90、 不要先頭文字列除去手段 100、 不要末尾文 字列除去手段 110は、 それぞれ の処理 に お い て必要な パ 夕 ー ン を すベて の パ タ ー ン格納手段か ら 取 り 出 し 、 パ タ ー ン処理手段 20に処理 さ せ る 。
た と え ば例外キー ヮ ー ド 構成要素パ タ ー ン と し てパ タ ー ン格納手段 30a、 30b、 30cにそれぞれ
" [ 0 — 9 ] 次 ', ( 27a) " [ 0 - 9 ] 次元,' ( 27b) " (書き込み I 読 み込み) " ( 27c) と い う パ タ 一 ンが格納 さ れて い る 場合、
「 3 次元デ一 夕 と し て書 き込み を行な う 。 」 ( 28) と い う テ キ ス ト に 対 し て は、 ( 27 a )が 「 3 次」 に マ ッ チ し 、 ( 27 b )力 S 「 3 次元」 に マ ッ チす る 一方、 (28)は 「書 き込み」 に マ ツ チす る が、 パ タ ー ン処理手段 20は最 も 先 頭でマ ッ チす る 最長 の文字列 を 全体 の マ ッ チ ン グ結果 と す る の で 、 ま ず 「 3 次元」 がマ ッ チ ン グ結果 と な る 。 続 い て残 り の 「デー タ と し て書き込み を行な う 。 」 に対 し て マ ッ チ ン グ を行 な う と 、 ( 27 c )だ けが 「書 き込み」 に マ ッ チす る の で、 「書 き込み」 がマ ッ チ ン グ結果 と な る 。 残 り の 「 を行な う 。 」 に マ ッ チす る も の はな い た め 、 結 果的 に例外キ— ヮ ー ド 構成要素抽 出手段 80は
「 3 次元」 「書 き 込み」 ( 29) を例外キー ヮ ー ド 構成要素 と し て抽 出す る 。
あ る / タ ー ン格納手段 に格納 さ れた不要語パ タ ー ン に よ つ て不要 と 判 断 さ れる キー ヮ ー ド 候補 を 、 あ る テキ ス 卜 に お い てキ ー ワ ー ド と すべ き 場合、 そ の 八。 夕 ー ン格納 手段 を用 い る の を や め た り 、 あ る レゝ はそ の不要語パ 夕 一 ン を修正す る こ と も 考 え ら れ る が、 そ の キ一 ヮ 一 ド 候補 と マ ツ チす る 必要語パ タ ー ン を格納す る 八 ° 夕 一 ン格納手 段 を合わせて用 い る こ と も考 え ら れ る 。 不要先頭パ 夕 一 ン 、 不要末尾パ タ ー ン に 関 し て も 同様 に 、 必要先頭パ 夕 一 ン 、 必要末尾パ タ ー ン を 組み合わせて必要な先 頭 ノ 末 尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。 ま た あ る 非キー ヮ ー ド 候補パ 夕 — ン に よ つ て削除 さ れ る 部 分 に含 ま れ る 、 本来必要な キ— ワ ー ド 構成要素 に 関 し て も 、 それ に マ ッ チす る 例外キ一 ワ ー ド 構成要素パ タ 一 ン を格納 し たパ タ ー ン格納手段 を合わせて用 い る こ と に よ
Ό 、 抽 出す る こ と が可能で あ る 。
た 、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て はキー ヮ 一 ド 候補 の文字列全体 に対 し て マ ッ チ ン グが行 な わ れ る た め 、 い ずれか のパ タ ー ンでマ ツ チすれば、 他 の パ タ ー ン の マ ッ チ ン グ結果 は不要で あ る の で、 パ タ ー ン処理手段 2 0はそれ ら の適用 を 中 止 し 、 マ ッ チ し た結果 M し て 、 不要なパ タ ー ン処理 を 回避 し て も よ レ 。
の よ う に 実施 の 形態 7 に よ れ ば、 テ キス ト の タ イ プ や分野、 格納パ タ ー ン の種別な ど に対応 し た各種パ タ ー ン格納手段 を 組み合わせて用 い る こ と に よ り 、 キー ヮ ー ド 抽 出 に用 い る 情報 の再利用 性 を 向上 さ せ、 さ ま ざ ま な テキス ト に柔軟か つ効率的 に対応 さ せ る こ と が可能で あ る 。
実施の形態 8
9 は、 こ の発 明 を 実施す る た め の実施 の形態 8 に よ る キ一 ヮ一 ド 抽 出装置 を 説明す る た め の 図で あ る 。
図 9 に お い て 、図 1 〜 8 と 同一 の符号 を付 し た も の は、 同一 ま た は こ れ に相 当 す る も の で あ る 。
図 9 に お い て 、 1 2 0はパ タ ー ン統合手段で あ る 。
ま たパ タ ー ン処理手段 2 0は、 実施 の 形態 7 に示 し た よ う な複数 の パ タ ー ン を並行 し て適用 す る も の でな く 、 実 施 の 形態 1 に示 し た も の で よ い 。
パ タ ー ン統合手段 1 2 0は各パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る 。 こ こ で各パ タ ー ン の統合 に お い て は、 各パ タ ー ン にマ ッ チす る 可能性の あ る 文字列 の う ち 、 最 も 先頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ に お け る ( C 2 ) の性質 を考慮 し て統合パ タ ー ン を 構成す る 。 すな わ ち 、 各パ タ ー ン の構成要素 に お け る 選択や連結、 反復 な ど を 展開 し なが ら 、 マ ッ チす る 可能性 の あ る 文字列長 が同 じ ノ° タ ー ン を そ ろ え 、 それ ら を長 い も の か ら 順 に選 択肢 と す る 統合パ タ ー ン を構成す る 。
キ一 ワ ー ド 構成要素抽 出手段 4 0、 非 キ ー ワ ー ド 候補除 去手段 7 0、 例外キ ー ワ ー ド 構成要素抽 出手段 8 0、 不要語 除去手段 9 0、 不要先頭文字列 除去手段 1 0 0、 不要末尾文 字列除去手段 1 1 0は、パ タ ー ン統合手段 1 2 0に よ っ て統合 さ れたパ タ ー ン を 用 い てそれぞれの処理 を実行す る 。
以下、 具体的 に 前記パ タ ー ン統合処理 に つ いて説明す る 。
説明 を簡略化す る た め 、 マ ッ チす る 可能性の あ る 文字 列長が 同 じ パ タ ー ン をそ ろ え た も の (以下、 整列パ タ ー ン と 呼ぶ こ と にす る ) を 、 そ の文字列長 を丸数字 と し て 先頭 に付与 し たパ タ ー ン の組で表現す る 。 た と え ば、 "①ぁ② ( い う I え お ) ,, ( 3 0 ) は長 さ 1 の ノ° タ ー ン " あ " と 長 さ 2 の パ タ ー ン " ( レ う I え お ) " カゝ ら な る 整列パ タ ー ン で あ る 。
前記 のパ タ ー ン統合処理 は、 各パ タ ー ン を選択肢 と す る パ タ ー ン に対応 し た 整列ノ\° タ ー ン を構成 し 、 マ ッ チす る 可能性の あ る 文字列長が長 い パ タ ー ンか ら 順 に選択肢 と す る 統合パ タ ー ン を 出力 す る こ と に よ り 実現 さ れ る 。 た と え ば ( 3 0 )の整列パ タ ー ン は最終的 に
" ( ( い う I え お ) I あ ) " ( 3 1 ) と レ う 統合ノ\° 夕 一 ン と し て 出 力 さ れ る 。
ま た 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 けて、 それ を超え る パ タ ー ン は除去 し て統合パ タ 一 ン を構成す る こ と に よ り 、 マ ッ チす る 可能性がな い よ う な極端 に長 いパ タ ー ン を除外 し て統合パタ ー ン を短縮 し、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と も 可能で あ る 。 入力 テキ ス ト の 文字列長は 自 明 な上限 の例で あ る が、 実用 的 に は 2 0文字程度で も 充分な 場合が多 い 。
つ ぎ に、 あ る パ タ ー ン に対応す る 整列パ タ ー ン は、 以 下 の よ う に 求め る 。
• 通常 の文字が連続 し たパ タ ー ン は、 そ のパ タ ー ン を そ の 文字列長 に対応 し て も つ 整列パ タ ー ン と な る 。
(例) " ぁ レ う " → "③ あ い う "
• " " " や " $ " はそれ を長 さ 0 に対応 し て も つ 整列パ 夕 一 ン と な る 。
(例) 一 " → "◎ "
• " [ " と " ] " 、 も し く は " [ ~ " と " ] " と の 間 に 通常 の文字や文字範 囲 の並び を も つ パ タ ー ン は 、 そ の パ タ ー ン を長 さ 1 に対応 して も つ整列パ タ ー ン と な る 。 (例) " [ あ 一 お ] ,, → "① [ あ 一 お ] " • " ( " と ") " で 囲 ま れた パ タ ー ン は、 括弧 内 の パ 夕 ー ン に対応 し た整列パ タ ー ン と な る 。
(例) " (か き く ) " → "③か き く "
• " I " を は さ ん だノ° タ ー ン は、 そ の 前後のパ タ ー ン に 対応 し た整列パ タ ー ン に お い て 、 各長 さ ご と に 対応 し た パ タ ー ン を選択肢 と す る 新た な パ タ ー ン を も つ 整列 パ タ ー ン と な る 。
(例) " あ い う I [ あ 一 お ] I (か き く ) "
→ "③ あ い う I ① [ あ 一 お ] I ③ (か き く ) " → "① [ あ 一 お ] ③ぁ レ う I (力 き く ) "
• パ タ ー ン を連結 し た も の は、 各パ タ ー ン に対応す る 整 列パ タ ー ン につ い て 、 そ れぞれ各長 さ の 組合せ に対応 し たパ タ ー ン を必要 に応 じて括弧で 囲みなが ら 連結 し 、 連結 し たパ タ ー ン を 選択肢 と す る 新たな パ タ ー ン を 合 計 し た長 さ に対応 し て も つ 整列パ タ ー ン と な る 。
(例) " ( あ I い う ) (力 I き く ) "
→ "①ぁ② い う " "①か②き く "
→ "② あ か③あ き く I い う か④い う き く " • パ タ ー ン に " { m , n } " ( m, n は 0 以上の 整数) が後置 さ れた も の は、 そ の パ タ ー ン に対応す る 整列パ タ ー ン の 各長 さ に 対応す る パ タ ー ン を 、 必要 に 応 じ て 括弧で 囲 みなが ら 、 " { p } " ( m ≤ p ≤ n ) を そ れ ぞれ後置 し た も の を選択肢 と す る 新た なパ タ ー ン を 、 そ の パ タ ー ン に対応す る 長 さ の p 倍 の長 さ に対応 し て それぞれ も つ整列パ タ ー ン と な る 。 た だ し p = 0 の 場 合 は単 に長 さ 0 に対応 し て空文字列 に対応す る パ タ ー ン (た と え ば " () " ) を も たせ る 。 ま た p = 1 の 場 合 は " { 1 } " の後置 を 省略で き る 。 ま た長 さ 0 に対 応す る パ タ ー ン に は " { p } " を後置 し な く て も よ い 。
(例) " ( あ 1 い う ) { 0 , 2 } "
→ "① ぁ② い う " { 0 , 2 }
→ " ◎ ( ) 1 ①ぁ②い う I ②ぁ { 2 } ④ (い う ) { 2 } "
→ "◎ ( ) ①ぁ② い う I あ { 2 } ④ ( い う ) { 2 } "
' パ タ ー ン に " { m } " 、 " { m , } " 、 " * " 、 " + " " ? " が後置 さ れた も の は、 それぞれそ の パ タ ー ン に " { m , m } " , " { m , ∞ } " , " { 0 , οο } " , " { 1 , ∞ } " 、 " { 0 , 1 } " が後置 さ れた も の に 対応す る 整列パ タ ー ン と な る ( m は 0 以上 の整数) 。
(例) " ( [ あ 一 お ] 1 い う ) { 2 } "
→ "① [ あ 一 お ] ② い う " { 2 }
→ "② [ あ 一 お ] { 2 } ④ ( い う ) { 2 } " た だ し 、前記 の よ う な反復 に お い て n が非常 に大 き い 、 あ る い は∞ の 場合、 反復展開 回数 に 上限 を設 け、 それ を 超え る よ う なパ タ ー ン の反復は、 マ ッ チす る 可能性がな い も の と し て除外 し て 、 統合パ タ ー ンが膨大な も の と な る こ と を 防 ぐ こ と が考 え ら れ る 。 ま たそ の よ う な 上限が な い 場合 も 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て 上限 を設 けて 、 それ を 超 え る よ う な反復展 開 を 除去す る こ と も考 え ら れ る 。 こ れはパ タ ー ン の連結 を展開 す る 場 合な ど も 同様で あ る 。
不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は、 キ 一 ワ ー ド 候補の文字列全体 に対 し てマ ッ チ ン グが行なわ れる た め 、 前記 の よ う なパ タ ー ン統合処理 を行な わず、 単 に 各パ タ ー ン を 選択肢 と す る 統合パ タ ー ン を 出 力 す る だ けで も よ い 。
こ の よ う に実施 の 形態 8 に よ れば、 テキ ス ト の タ イ プ や分野、 格納パ タ ー ン の種別 な ど に対応 し て各種パ 夕 一 ン格納手段 に格納 さ れた各種パ タ ー ン の適用 を 、 単一 の パ タ ー ン処理で実現す る こ と が可能で あ る 。 さ ら に パ タ — ン統合手段 に よ る 各パ タ ー ン の統合 にお い て は、 各パ タ ー ン に マ ッ チす る 可能性の あ る 文字列 の う ち 、 最 も 先 頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ツ チ ン グにお け る ( C 2 )の性質 を考慮 し て統合パタ ー ンが 構成 さ れる ため、各パタ ー ン の選択肢 の記述 においては ( C 2 )の性質 を考慮す る 必要がな く な り 、 よ り 柔軟な記述が 可能 と な る 。
実施の形態 9
図 10は、 こ の発 明 を実施す る た め の実施 の 形態 9 に よ る キ一 ヮ一 ド 抽 出 装置 を 説明す る た め の 図で あ る 。
図 10に お い て、 図 1 〜 9 と 同一 の 符号 を付 し た も の は 同 一 ま た は こ れ に相 当 す る も の で あ る 。
図 10に お い て 品詞解析手段 130は非キ ー ヮ 一 ド 候補除 去手段 70か ら 入力 さ れた テ キ ス ト に対 し 、 単語 も し く は 形態素 を抽 出 し て 品詞 を解析す る 。 入力 テキ ス ト か ら 単 語 も し く は形態素 を抽 出 して品詞 を解析する手段 と し て、 例 え ば 日 本文テキ ス ト な ら 形態素解析、 英文テキ ス ト な ら Part— of — speech Taggingを用 い る こ と がで き る 。
キー ワ ー ド 候補集合生成手段 50は、 品詞解析手段 130 の 出 力 か ら 、 キー ワ ー ド 候補 と すべ き 品詞 シー ケ ン ス と し て あ ら か じ め定 め ら れた も の に対応 し た単語 も し く は 形態素 の シー ケ ン ス を キ一 ヮ一 ド 候補 と する 。 そ の よ う な 品詞 シー ケ ンス の単純な例 と し て 、 連続 し た名 詞 を キー ヮ ー ド 候補 と す る ¾3 ノロ ヽ
「暗号装置 を 用 い た」 ( 32) と い う テキス ト を解析 し て、
「暗号 <名詞 >装置 <名詞 > を <助詞 >用 い ぐ動詞 > た <助動詞 >」 ( 33) と い う 結果が得 ら れれ ば、
「暗号装置」 ( 34) がキー ワ ー ド 候補 と な る 。 た だ し ( 33) で は解析結果 と し て各形態素 の後 に <〉 で品詞 を示 し て い る 。
こ こ で ( 34) の キー ワ ー ド 候補 に対 し 、 ( 25) の よ う な不要末尾パ タ ー ンが用 意 さ れて い れ ば、 「装置」 の部 分が不要 と 判 断 さ れ、
「暗号」 ( 35) が最終的 なキ ー ヮ ー ド 候補 と な る 。
同様 に英文テ キ ス ト に お い て も 、 た と え ば
A ci her device is used ( 36) と い う テキ ス ト を解析 し て、
" 八 <冠詞 > cipher< 名 詞 > deviceく名 詞 isく動 詞 > used<動詞 > . . . " ( 37) と い う 結果が得 ら れれ ば、 " c: pher device が干 一 ゾ ー ド 候補 と し て 生成 さ れ る 。
こ こ で不要末尾パ タ ー ン と し てた と え ば
(device I method; ( S | ) $ ( 38) が用 意 さ れて い れ ば、
cipher ( 39) が最終的なキー ヮ 一 ド 候補 と な る 。 な お ( 38) で は 、 先 頭 に単語 の区切 り を示すスぺー ス が入 っ てレ る と と も に、 複数形 に も 対応 し たノ、 タ ー ンが用 い ら れて い る こ と に注 意 さ れた い 。
なお こ こ で 、 キー ワ ー ド 候補 と すべ き 品詞 シー ケ ン ス と し て あ ら カゝ じ め 定 め ら れた も の に対応 し た単語 も し く は形態素 の シー ケ ン ス を抽 出す る 方法 に は さ ま ざま な も の が考 え ら れ る が、 1 つ の方法 と し てパ タ ー ン を用 い る こ と が考 え ら れ る 。
品詞解析手段 1 3 0の 出 力 が、 ( 3 3 ) も し く は ( 3 7 ) の よ う に 、 単語 も し く は形態素 の あ と に 品詞 を く >で示 さ れた も の がス ペー ス で 区切 ら れて 出 力 さ れ、 かつ 各単語 も し く は形態素が " < " 、 " > " の文字 を含 ま な い 場合、 た と え ば連続 し た 名 詞 を取 り 出す に はパ タ ー ン処理手段 2 0を用 い て 、
" ( [ ' く 〉 ] + く名詞 > ) + " ( 4 0 ) と い う パ タ ー ン に マ ッ チ し た部分 を 抽 出 し た 上で、 < > で 囲 ま れた 品詞 の 部分 を 削除 し 、 言語 に応 じ て 区切 り の ス ペー ス を適宜削 除すればよ い 。
こ の よ う に 実施 の 形態 9 に よ れば、 品詞解析 を行な つ て得 ら れた キ 一 ヮ一 ド 候補 に対 し て も 、 パ タ ー ン を用 い た柔軟な不要文字列処理が可能で あ る 。 産業上 の利用 可能性
以上の よ う に 、 本発 明 の第 1 の キー ワ ー ド 抽 出装置 に よ れ ば、 テキ ス ト を入 力 す る テ キス ト 入力 手段 と 、 正規 表現 も し く は 同等 のノ\° タ ー ン に よ る 文字列 の マ ッ チ ン グ お よ び置換 を行な う ノ\° タ ー ン処理手段 と 、 キー ワ ー ド の 構成要素 と な り 得 る 文字列 を表わすキー ヮ ー ド 構成要素 パ タ ー ン を 少な く と も 有す る パ タ 一 ン格納手段 と 、 テキ ス ト に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キー ワ ー ド 構成要素パ タ ー ン にマ ッ チす る 互い に ォーノ —ラ ッ プの な い すべて の文字列 を キー ヮ ー ド 構成要素 と し て抽 出す る キー ワ ー ド 構成要素抽 出手段 と 、 各キ ー ワ ー ド 構成要 素か ら キ ー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集 合生成手段 と 、 キー ワ ー ド 候補集合 の各キー ワ ー ド 候補 を キー ワ ー ド と し て 出 力 す る キー ワ ー ド 出 力 手段 と を 備 え た の で 、 記述性 の 高 い正規表現 も し く は 同等 のパ タ ー ン を用 い て 、 字種 に こ だわ ら な い柔軟な キー ヮ 一 ド 抽 出 を容易 に 実現す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 2 の キー ワ ー ド 抽 出装置 に よ れ ば、 各キー ヮ ー ド 構成要素 をそ の ま ま キー ヮ ー ド 候補 と し て キー ヮ 一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 を備 え た の で 、 要素概念 を抽 出 し やす い と い う 効果 が あ る 。
ま た 、 本発 明 の 第 3 の キー ワ ー ド 抽 出装置 に よ れ ば、 テキス ト に対 し 前記パ タ ー ン処理手段 を 用 い て 、 キ一 ヮ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と し て抽 出 し なが ら 抽 出位置 を 記録す る キ一 ヮ一 ド 構成要素抽 出 手段 と 、 各キー ワ ー ド 構成要素 の文字列長 と 抽出位置か ら テキ ス ト 上連続 し て い る と 判定 さ れた キー ワ ー ド 構成 要素 は連結 し て 1 つ の キー ワ ー ド 候補 と し て 、 単独 の キ 一ワ ー ド 構成要素 はそ の ま ま キ一 ワ ー ド 候補 と し て 、 キ 一ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手 段 と を備 え た の で 、 複合キー ワ ー ド を抽 出 し やすい と い う 効果が あ る 。
ま た 、 本発明 の 第 4 の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト 上連続 し た キー ヮ ー ド 構成要素 はそれぞれ を単 独 の キー ワ ー ド 候補 と す る と と も に 、 前後 の キー ワ ー ド 構成要素 を連結 し た も の を それぞれキー ヮ ー ド候補 と す る 一方、 単独 の キ ー ワ ー ド 構成要素 はそ の ま ま キ一 ヮ一 ド 候補 と し て 、 キー ワ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成手段 を備 え た の で 、 要素概念 も 複合キー ワ ー ド も 抽 出可能で あ る 。
ま た、 本発 明 の 第 5 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド 候補集合 に お い て重複 し た キ一 ヮ 一 ド 候補 を 1 つ に ま と め る キー ヮ ー ド 候補集合生成手段 を備 え た の で、 後続処理 に お け る 冗長性 を 回避す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 6 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ — ド 構成要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い 部分 を表わす非キ ー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テ キ ス ト に対 し 前記パ タ ー ン処理手段 を用 い て、 非キ一 ワ ー ド 候補パ タ ー ン に マ ツ チす る 互 い に ォーノ ー ラ ッ プの な い すべて の文字列 を検 索 し 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別な文字列 に 置換す る 非キー ヮ ー ド 候補除去手 段 と を備 え た の で 、 不要なキー ワ ー ド 構成要素の抽 出 を 防 ぐ こ と が可能 と な る 。
ま た 、 本発 明 の第 7 の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と キー ヮ ー ド 構成要素パ タ ー ンで 網羅す る こ と が困難な キー ヮ ー ド 構成要素 を表わす例外 キー ヮ 一 ド 構成要素パ タ ー ン と を 少な く と も 有す る パ 夕 ー ン格納手段 と 、 テキス ト に対 し て前記パ タ ー ン処理手 段 を用 いて 、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チ す る 互 い に オーバ一 ラ ッ プの な い すべて の文字列 を 例外 キ ー ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録 す る と と も に 、 テキス ト 中 マ ッ チ し た各文字列 を 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に 変換す る 例外キー ヮ 一 ド 構成要素抽出手段 と キ ー ワ ー ド 構成要素お よ び例外キ ー ワ ー ド 構成要素 か ら キー ヮ ー ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 と を備 え た の で、 キ一 ワ ー ド 構成要素パ タ ー ン で は 網羅す る こ と が困難な 、 あ る い は非キー ワ ー ド候補 の 除 去 に伴 っ て抽 出で き な く な る キ一 ワ ー ド 構成要素 を あ ら か じ め 抽出す る こ と が可能 と な る 。
ま た 、 本発明 の第 8 の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 不要語 を 表わす不要語パ タ ー ン と を 少 な く と も 有する パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合の 各キー ヮ ー ド 候補 の文字列全体 に対 し て 前記 パ タ ー ン処理手段 を用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ一 ヮ一 ド 候補集合か ら 除去す る 不要語除去手段 と を備 えた の で 、 不要な キー ワ ー ド 候補 を 除去す る の に 記述性 の高 い パ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発明 の 第 9 の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 必要語 を 表わす必要語パ タ ー ン と 不要語 を 表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合の各キー ヮ ー ド 候補 の文字列全体 に 前記パ タ ー ン処理手段 を用 い 、 必 要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の を キ ー ワ ー ド 候補集合か ら 除去す る 不要語除去手段 と を備 え た の で 、 不要語パ タ ー ンで誤 っ て キー ヮ 一 ド 候 補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の第 1 0の キー ワ ー ド 抽 出装置 に よ れば、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ 一 ド 構成要素パ タ ー ン と 不要な先頭文字列 を表わす不要 先頭パタ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合の各キー ヮ ー ド 候補 の 先頭文字列 に 対 し て前記パ タ ー ン処理手段 を 用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 して は、 不要先頭パ 夕 ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ 一 ド 候補 を キ一 ヮ一 ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ワ ー ド 候 補 と 置換す る 不要先頭文字列除去手段 と を備 え た の で 、 キー ヮ ー ド 候補 に お い て不要な 先頭文字列 を 除去す る の に記述性 の 高 いパ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 1 1の キー ワ ー ド 抽 出装置 に よ れ ば、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を表わす不要 先頭パ タ ー ン と 必要な先頭文字列 を表わす必要先頭パ タ 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の 各キー ヮ ー ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 必要先頭パ タ ー ン に マ ツ チせず不要先頭パ タ ー ン に マ ッ チす る キー ヮ ー ド 候補 に 対 し て は、不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ワ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ 一 ド 候補 と 置換す る 不要先頭文字列除去 手段 と を備 え た の で、 不要先頭パ タ ー ン で誤 っ て キ ー ヮ 一 ド 候補の 必要な 先頭文字列が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発明 の第 1 2の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を表わす不要 末尾パ タ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キー ヮ ー ド 候補集合の 各キ一 ヮ 一 ド 候補 の末尾文字列 に 対 し て前記パ タ ー ン処理手段 を用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は 、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ ー ド 候補 を キー ヮ 一 ド候補集合か ら 除去 し 、 空文字列でな ければそれ を も と のキ ー ヮ 一 ド 候 補 と 置換す る 不要末尾文字列除去手段 と を備 え た の で、 キー ヮ 一 ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性の 高 いパ タ ー ン を 用 い る こ と が可能で あ る 。
ま た 、 本発明 の第 1 3の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を 表わす不要 末尾パ タ ー ン と 必要な 末尾文字列 を表わ す必要末尾パ タ 一ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ ― ド 候補集合の 各キ一 ヮ一 ド 候補 の末尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ツ チせず不要末尾パ タ ー ン に マ ッ チす る キ ー ヮ 一 ド 候補 に 対 し て は、不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れ ば も と の キー ヮ 一 ド候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな けれ ばそれ を も と のキ ー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去 手段 と を備 え た の で、 不要末尾パ タ ー ンで誤 っ て キー ヮ 一 ド 候補の 末尾文字列が削 除 さ れ る こ と を 防 ぐ こ と が可 能で あ る 。
ま た 、 本発明 の第 1 4の キ ー ワ ー ド 抽 出装置 に よ れば、 不要語除去手段、 不要先頭文字列除去手段、 不要末尾文 字列除去手段 の う ち 2 つ 以上 を 組み合わせて 、 あ る い は 不要先頭文字列 除去手段、 不要末尾文字列除去手段 の い ずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キー ワ ー ド 候補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要 語パ タ ー ン の選択肢 に 付加す る よ う に構成 し た の で 、 冗 長な処理 を 回避す る こ と が可能 と な る 。
ま た 、 本発 明 の第 1 5の キー ワ ー ド 抽 出装置 に よ れ ば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 のパ タ ー ン格納手段 と 、 各種パ タ ー ン を 適用 す る 際 に各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を並行 し て適用 し 、最 も 先頭で マ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を備 えた の で 、 キー ワ ー ド 抽 出 に用 い る 情報 の再利用 性 を 向上 さ せ、 さ ま ざ ま な テキ ス ト に柔軟か つ効率的 に 対応 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の第 1 6の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て は各パ 夕 ー ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか の パ タ ー ンでマ ッ チすれ ばそれ を マ ッ チ ン グ結 果 と し て、 他 のパ タ ー ン の適用 を 中止す る ノ " タ ー ン処理 手段 を備え た の で 、 不要語パ タ ー ンお よ び必要語パ 夕 一 ン に 関 し て不要なパ タ ー ン処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 1 7の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た 複数 のパ タ ー ン格納手段 と 、 必要 に応 じ てパ 夕 一 ン に お け る 選択 、 連結 、 反復な ど を展 開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を整 列 し な が ら 、 前記パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を備 え た の で 、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に 対応 し て各種パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン の適用 を 、 単一 のパ タ ー ン処理で実現 す る こ と が可能で あ る 。 さ ら に パ タ ー ン統合手段 に よ る 各パ タ ー ン の統合 にお い て は、 各ノ\° タ ー ン に マ ッ チす る 可能性 の あ る 文字列 の う ち 、 最 も 先頭 に近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ にお け る ( C 2 ) の性質 を考慮 し て統合パ タ ー ンが構成 さ れ る た め 、 各パ タ ー ン の選択肢 の 記述 に お い て は ( C 2 ) の性質 を考 慮す る 必要がな く な り 、 よ り 柔軟な記述が可能 と な る 。
ま た 、 本発明 の第 1 8の キー ワ ー ド抽 出装置 に よ れば、 マ ッ チす る 可能性 の あ る 文字列長 に関 し て 上限を 設 け 、 それ を 超え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記 パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を備 え た の で、 統 合パ タ ー ン を短縮 し 、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の第 1 9の キー ワ ー ド 抽 出装置 に よ れば、 パ タ ー ン の 反復 に 関 し て反復展 開 回数 の 上限 を設 け、 そ れ を超 え る パ タ ー ン の 反復は除外 し て 、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出力 す る パ タ ー ン統合手段 を 備 え た ので 、 統合パ タ ー ン が膨大な も の と な る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発明 の第 2 0の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ 夕 ー ン格納手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と する パ ター ン を 出 力する パター ン統合手段 を備 えた ので、 不要な パ タ ー ン統合処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 2 1の キ一 ワ ー ド 抽 出装置 に よ れば、 テキス ト を 入力 す る テ キ ス ト 入力 手段 と 、 入力 さ れた テ キス 卜 に対 し単語 を抽 出 し て 品詞 を解析す る 品詞解析手 段 と 、 品詞解析手段 の 出 力 か ら 、 特定の 品詞 の シー ケ ン ス に対応 し た単語列 を キー ヮ ー ド 候補 と し て生成す る キ 一ワ ー ド候補集合生成手段 と 、 キー ワ ー ド 候補集合 の 各 キー ワ ー ド 候補 を キー ワ ー ド と し て 出 力 す る キ一 ワ ー ド 出 力 手段 と を備 え た の で 、 キー ワ ー ド 構成要素抽 出手段 と キ一 ワ ー ド 構成要素パ 夕 一 ン を用 い る か わ り に 、 品詞 解析 を 用 い た キー ワ ー ド 抽 出 を容易 に実現す る こ と が可 能で あ る 。
ま た 、 本発 明 の第 2 2の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド 候補集合 に お い て重複 し たキ一 ヮ一 ド 候補 を 1 つ に ま と め る キ一 ヮ一 ド 候補集合生成手段 を備 え た の で、 後続処理 にお け る 冗長性 を 回避す る こ と が可能で あ る 。
ま た 、 本発明 の第 2 3の キ一 ワ ー ド 抽 出装置 に よ れば、 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列の マ ッ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 パ タ ー ン 処理手段で の マ ッ チ ン グお よ び置換 に使用 さ れる 文字列 を表わすパ タ ー ン を 格納す る パ タ ー ン格納手段 と を備 え た の で 、 品詞解析 を行な っ て得 ら れたキー ヮ ー ド 候補 に 対 し て も 、 パ タ ー ン を 用 い た柔軟な不要文字処理が可能 で あ る 。
ま た 、 本発明 の第 2 4の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ ー ド 構成要素パ タ ー ン と キー ワ ー ド の候補 と な り 得な い 部分 を 表わす非 キー ワ ー ド 候補パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 テキス ト に対 し 前記パ 夕 一 ン処理手段 を 用 い て 、 非 キー ワ ー ド 候補パ タ ー ン に マ ツ チす る 互い に ォ一バー ラ ッ プの な い すべて の文字列 を検 索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補 除去手 段 と を 備 え た の で、 不要なキー ワ ー ド 構成要素 の抽 出 を 防 ぐ こ と が可能 と な る 。
ま た 、 本発 明 の第 2 5の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ ― ド 構成要素パ タ ー ン と キ一 ヮ 一 ド 構成要素パ タ ー ン で 網羅す る こ と が困難な キ一 ヮ一 ド 構成要素 を表わす例外 キー ヮ 一 ド 構成要素パ タ ー ン と を 少な く と も 有す る パ タ — ン格納手段 と 、 テキ ス ト に対 し て前記パ タ ー ン処理手 段 を用 い て 、 例外キー ワ ー ド 構成要素パ タ ー ン に マ ッ チ す る 互 い に オーバー ラ ッ プの な いすべて の文字列 を 例外 キー ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を 記録 す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い特別 な文字列 に変換す る 例外キ一 ヮ一 ド 構成要素抽出手段 と キー ヮ ー ド 構成要素お よ び例外キー ヮ ー ド 構成要素か ら キ一 ヮ一 ド 候補集合 を 生成す る キー ヮ ー ド 候補集合生成 手段 と を 備 え た の で 、 キー ワ ー ド 構成要素パ タ ー ン で は 網羅する こ と が困難な 、 あ る い は非キー ワ ー ド 候補 の 除 去 に伴っ て抽 出で き な く な る キ 一 ワ ー ド 構成要素 を あ ら か じ め抽 出す る こ と が可能 と な る 。
ま た 、 本発 明 の第 2 6の キー ワ ー ド 抽 出装置 に よ れば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キ一 ヮ一 ド 候補 の文字列全体 に対 し て前記 パ タ ー ン処理手段 を 用 い 、 不要語パ タ ー ン に マ ッ チす る も の を キ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 と を 備え た の で、 不要な キー ワ ー ド 候補 を 除去す る の に 記述性の 高 い パ タ ー ン を 用 い る こ と が可能で あ る 。
ま た、 本発 明 の第 2 7の キー ワ ー ド 抽 出装置 に よ れ ば、 キ一 ヮ一 ド の構成要素 と な り 得 る 文字列 を表わす キー ヮ 一 ド 構成要素 'パ タ ー ン と 必要語 を表わす必要語パ タ ー ン と 不要語 を表わす不要語パ タ ー ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ワ ー ド 候補集合 の 各キー ヮ ー ド 候補の 文字列全体 に 前記パ タ ー ン処理手段 を 用 い 、 必 要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ッ チす る も の をキ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 と を 備え た の で 、 不要語パ タ ー ンで誤 っ てキー ワ ー ド 候 補が削除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た、 本発明 の第 2 8の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキ一 ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を表わす不要 先頭パタ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キ一 ヮ一 ド 候補集合の各キ一 ヮ 一 ド 候補 の先頭文字列 に 対 し て 前記パ タ ー ン処理手段 を用 い 、 不要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ヮ 一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と のキー ワ ー ド 候 補 と 置換す る 不要先頭文字列除去手段 と を備 え た の で、 キー ヮ ー ド 候補 に お い て不要な 先頭文字列 を 除去す る の に記述性 の 高 い パ タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 2 9の キ一 ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ 一 ヮ 一 ド 構成要素パ タ ー ン と 不要な 先頭文字列 を 表わす不要 先頭パ タ ー ン と 必要な先頭文字列 を表わす必要先頭パ 夕 一 ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キ ー ヮ 一 ド 候補集合 の 各キ一 ヮ一 ド 候補 の 先頭文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 必要先頭パ タ ー ン に マ ツ チせず不要先頭パ タ ー ン にマ ッ チす る キ ー ヮ ー ド 候補 に 対 し て は、不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ 一 ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな ければそれ を も と の キ一 ヮ一 ド 候補 と 置換す る 不要先頭文字列 除去 手段 と を備 え た の で、 不要先頭パ タ ー ン で誤 っ てキ ー ヮ ー ド 候補 の必要な先頭文字列が削 除 さ れ る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の第 3 0の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 不要な末尾文字列 を表わす不要 末尾パ タ ー ン と を少な く と も有するパタ ー ン格納手段 と 、 キ ー ヮ 一 ド 候補集合 の 各キー ヮ 一 ド 候補 の 末尾文字列 に 対 し て前記パ タ ー ン処理手段 を 用 い 、 不要末尾パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要末尾バ タ
— ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と のキー ヮー ド 候補 を キー ヮ一 ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ワ ー ド 候 補 と 置換す る 不要末尾文字列除去手段 と を備 え たので、 キー ヮ ー ド 候補 に お い て不要な末尾文字列 を 除去す る の に記述性 の高 いゾ\° タ ー ン を用 い る こ と が可能で あ る 。
ま た 、 本発 明 の第 3 1の キー ワ ー ド 抽 出装置 に よ れ ば、 キー ヮ ー ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ ― ド 構成要素パ タ ー ン と 不要な 末尾文字列 を表わす不要 末尾パ タ ー ン と 必要な末尾文字列 を表わす必要末尾パ タ — ン と を 少な く と も 有す る パ タ ー ン格納手段 と 、 キー ヮ 一 ド 候補集合 の 各キー ヮ ー ド 候補 の末尾文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 必要末尾パ タ ー ン に マ ツ チせず不要末尾パ タ ー ン に マ ッ チす る キ ー ワ ー ド 候補 に 対 し て は、不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と の キー ヮ ー ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそれ を も と の キ一 ヮ一 ド 候補 と 置換する 不要末尾文字列除去 手段 と を 備え た の で、 不要末尾パ タ ー ン で誤 っ てキ一 ヮ ー ド 候補 の末尾文字列が削除 さ れる こ と を 防 ぐ こ と が可 能で あ る 。
ま た 、 本発 明 の 第 3 2の キー ワ ー ド 抽 出装置 に よ れば、 不要語除去手段、 不要先頭文字列除去手段、 不要末尾文 字列除去手段 の う ち 2 つ 以上 を 組み合わせて 、 あ る い は 不要先頭文字列除去手段、 不要末尾文字列除去手段 の い ずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キ一 ワ ー ド 候補集合か ら 除去 さ れた キー ワ ー ド 候補 を 、 不要 語パ タ ー ン の選択肢 に 付加す る よ う に構成 し た の で 、 冗 長な処理 を 回避す る こ と が可能 と な る 。
ま た、 本発 明 の第 3 3の キー ワ ー ド 抽 出装置 に よ れば、 テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 の パ タ ー ン格納手段 と 、 各種パ タ ー ン を 適用 す る 際 に各パ タ ー ン格納手段 に格納 さ れた 同 種のパ タ ー ン を 並行 し て適用 し 、最 も 先頭で マ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る パ タ ー ン処理手段 と を備 え た の で 、 キー ワ ー ド 抽 出 に 用 い る 情報の再利用 性 を 向上 さ せ 、 さ ま ざ ま なテキ ス ト に柔軟か つ効率的 に 対応 さ せ る こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 4の キー ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し ては各パ タ — ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか の パ タ ー ンで マ ッ チすればそれ を マ ッ チ ン グ結 果 と し て 、 他 の パ タ ー ン の適用 を 中 止す る パ タ ー ン処理 手段 を備 え た の で 、 不要語パ タ ー ン お よ び必要語パ タ ー ン に 関 し て不要な パ タ ー ン処理 を 回避す る こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 5の キー ワ ー ド 抽 出装置 に よ れば、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対 応 し た複数 の パ タ ー ン格納手段 と 、 必要 に応 じてパ タ ー ン に お け る 選択、 連結、 反復な ど を 展 開 し 、 マ ッ チす る 可能性の あ る 文字列長 に 関 し てパ タ ー ン の構成要素 を 整 列 し なが ら 、 前記パ タ ー ン格納手段 に格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 と を 備 え た の で、 テキ ス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し て各種パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン の適用 を 、 単一 の パ タ ー ン処理で実現 す る こ と が可能で あ る 。 さ ら にパ タ ー ン統合手段 に よ る 各パ タ ー ン の統合 に ぉ レ て は、 各パ タ ー ン に マ ッ チす る 可能性 の あ る 文字列 の う ち 、 最 も 先頭 に 近 く 最 も 長 い も の がマ ッ チ ン グ結果 と な る よ う 、 マ ッ チ ン グ に お け る ( C 2 ) の 性質 を考慮 し て統合パ タ ー ン が構成 さ れ る た め 、 各パ タ ー ン の選択肢の 記述 に お い て は ( C 2 ) の性質 を考 慮す る 必要がな く な り 、 よ り 柔軟な記述が可能 と な る 。
ま た 、 本発明 の第 3 6の キ一 ヮ一 ド 抽 出装置 に よ れ ば、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し なが ら 、 前記 パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力す る パ タ ー ン統合手段 を備 え た の で 、 統 合パ タ ー ン を 短縮 し 、 マ ッ チ ン グ の効率 を 向上 さ せ る こ と が可能で あ る 。
ま た 、 本発明 の 第 3 7の キー ワ ー ド 抽 出装置 に よ れ ば、 パ タ ー ン の 反復 に 関 し て反復展 開 回数の 上限 を設 け 、 そ れ を 超 え る パ タ ー ン の 反復は除外 し て、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る パ タ ー ン統合手段 を備 え た の で 、 統合パ タ ー ン が膨大な も の と な る こ と を 防 ぐ こ と が可能で あ る 。
ま た 、 本発 明 の 第 3 8の キ一 ワ ー ド 抽 出装置 に よ れば、 不要語パ タ ー ンお よ び必要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン をそれぞれ選択肢 と する パタ ー ンを出 力する パター ン統合手段 を備えた ので、 不要なパ タ ー ン統合処理 を 回避す る こ と が可能で あ る 。

Claims

言青 求 の 範 囲 テキス 卜 を 入力す る テキ ス ト 入 力 手段 と 、
正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列 の マ ツ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を 表わすキー ワ ー ド構成要素パ タ ー ン を 少な く と も 有す る パ タ ー ン 格納手段 と 、
テキス ト に対 し 前記パ タ ー ン処理手段 を用 いて 、 キ 一 ワ ー ド 構成要素パ タ ー ン に マ ッ チす る 互 い にォーノ 一 ラ ッ プの な い すべて の文字列 を キー ワ ー ド 構成要素 と し て抽 出す る キー ヮ ー ド 構成要素抽出手段 と 、 各キー ヮ 一 ド 構成要素か ら キー ヮ ー ド 候補集合 を 生成 す る キー ヮ ー ド 候補集合生成手段 と 、
キ一 ヮ 一 ド 候補集合 の 各キ 一 ヮ一 ド 候補 を キ一 ヮ 一 ド と し て 出 力す る キ ー ヮ ー ド 出 力 手段 と 、
を有す る こ と を特徴 と す る キ一 ヮ一 ド 抽 出装置。
前記キ 一 ワ ー ド候補集合生成手段 は、 各キ一 ヮ 一 ド 構成要素 をそ の ま ま キー ヮ ー ド 候補 と し て キー ヮ ー ド 候補集合 を 生成す る こ と を 特徴 と す る 請求の範 囲第 1 項記載の キー ヮ 一 ド 抽 出装置。
前記キ ー ワ ー ド 構成要素抽 出手段は、 テ キス ト に対 し 前記パ タ ー ン処理手段 を 用 い て、 キー ワ ー ド 構成要 素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な い すべて の文字列 を キー ヮ ー ド 構成要素 と し て抽 出 し な が ら 抽 出位置 を記録 し 、
前記キー ワ ー ド 候補集合生成手段 は、 各キ一 ワ ー ド 構 成要素 の文字列長 と 抽 出位置か ら テキス ト 上連続 し て い る と 判定 さ れた キー ヮ ー ド 構成要素 を連結 し て 1 つ の キー ワ ー ド 候補 と し て、 単独 の キー ワ ー ド 構成要素 はそ の ま ま キー ワ ー ド 候補 と し て 、 キー ワ ー ド 候補集 合 を 生成す る こ と を特徴 と す る 請求 の範 囲第 1 項記載 の キー ヮ 一 ド 抽 出装置。
前記キー ワ ー ド 候補集合生成手段 は、 テキス ト 上連 続 し た キ一 ヮ一 ド 構成要素 はそれぞれ を 単独 の キ ー ヮ — ド 候補 と す る と と も に 、 前後の キー ワ ー ド 構成要素 を連結 した も の をそれぞれキー ヮ ー ド候補 とする 一方、 単独 の キ一 ヮ一 ド 構成要素 はそ の ま ま キー ヮ 一 ド 候補 と し て 、 キー ワ ー ド 候補集合 を 生成す る こ と を特徴 と す る 請求 の範 囲第 3 項記載 の キー ヮ 一 ド 抽 出装置。
前記キー ワ ー ド 候補集合生成手段 は、 キー ワ ー ド 候 補集合 に お い て重複 し たキ ー ヮ ー ド 候補 を 1 つ に ま と め る こ と を特徴 と す る 請求 の 範 囲第 1 項、 第 2 項、 第 3 項 ま た は第 4 項記載 のキー ヮ ー ド 抽 出装置。
前記パ タ ー ン格納手段 は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキ ー ヮ ー ド 構成要素パ タ ー ン と 、
キ一 ワ ー ド の候補 と な り 得な い部分 を表わす非キー ヮ ー ド 候補パ タ ー ン と を 少な く と も 有 し 、
さ ら に 、 テキス ト に対 し前記パ タ ー ン処理手段 を 用 い て、 非キ ー ヮ ー ド 候補パ タ ー ン に マ ッ チす る 互 い に ォ 一ノ 一 ラ ッ プの な いすべて の文字列 を検索 し 、 ど の パ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別 な文字列 に置換す る 非キー ヮ ー ド 候補除去手段 を 有す る こ と を 特徴 と す る 請求の 範囲第 1 項、 第 2 項、 第 3 項、 第 4 項 ま た は第 5 項記載 の キー ワ ー ド 抽出装置。 前記パ タ ー ン格納手段 は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
キー ワ ー ド 構成要素パ タ ー ンで網羅す る こ と が困難な キ一 ヮ一 ド 構成要素 を表わす例外キ ー ヮ ー ド 構成要素 パ タ ー ン と を 少 な く と も 有 し 、
さ ら に 、 テ キス ト に対 し て前記パ タ ー ン処理手段 を 用 い て、 例外キ一 ヮ 一 ド 構成要素パ タ ー ン に マ ッ チす る 互 い に オーバー ラ ッ プの な いすべて の文字列 を 例外キ 一ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を記録 す る と と も に 、 テ キス ト 中 マ ッ チ し た各文字列 を 、 ど のパ タ ー ン も 決 し てそれ を含む文字列 に マ ッ チ し な い 特別な文字列 に 変換す る 例外キー ヮ 一 ド 構成要素抽 出 手段 を有 し 、
前記キ一 ワ ー ド 候補集合生成手段 は、 キー ワ ー ド 構成 要素お よ び例外キ ー ワ ー ド 構成要素か ら キー ワ ー ド 候 補集合 を生成する こ と を特徴 とする請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項 ま た は第 6 項記載 の キー ヮ ー ド 抽 出装置。
前記パ タ ー ン格納手段 は、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
不要語 を 表わす不要語パ タ ー ン と を 少な く と も 有 し 、 さ ら に 、 キー ワ ー ド 候補集合の各キー ワ ー ド 候補 の 文 字列全体 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要 語パ タ ー ン に マ ッ チす る も の を キー ヮ 一 ド 候補集合か ら 除去す る 不要語除去手段 を有す る こ と を特徴 と す る 請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項 ま た は第 7 項記載の キー ヮ ー ド 抽 出装置。
前記パ タ ー ン格納手段は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を表わすキ ー ヮ 一 ド 構成要素パ タ ー ン と 、
必要語 を表わす必要語パ タ ー ン と 、
不要語 を表わす不要語パ タ ー ン と を少な く と も 有 し 、 前記不要語除去手段 は、 キー ワ ー ド 候補集合 の 各キ 一 ヮ ー ド 候補 の文字列全体に 前記パ タ ー ン処理手段 を 用 い 、 必要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ツ チす る も の を キー ワ ー ド 候補集合か ら 除去す る こ と を特徴 と す る 請求の範 囲第 8 項記載の キ ー ヮ ー ド 抽 出 装置。
. 前記パ タ ー ン格納手段 は、 キ一 ヮ 一 ド の構成要素 と な り 得 る 文字列 を表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
不要な 先頭文字列 を表わす不要先頭パ タ ー ン と を 少 な く と も 有 し 、
さ ら に 、 キー ワ ー ド 候補集合 の 各キ ー ワ ー ド 候補 の 先 頭文字列 に対 し て前記パ タ ー ン処理手段 を 用 い 、 不要 先頭パ タ ー ン にマ ッ チする キー ワ ー ド候補 に対 して は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れ ば も と の キ ー ヮ ー ド 候補 を キー ヮ ー ド候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キ一 ヮ一 ド 候補 と置換す る 不要先頭文字列除去 手段 を 有す る こ と を特徴 と す る 請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項 ま た は第 9 項記載のキー ヮ ー ド 抽 出装置。
. 前記パ タ ー ン格納手段は、 キ一 ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキ一 ワ ー ド 構成要素パ タ ー ン と 、
不要な 先頭文字列 を表わす不要先頭パ タ ー ン と 、 必要な 先頭文字列 を表わす必要先頭パ タ ー ン と を 少 な く と も 有 し 、
前記不要先頭文字列除去手段 は、 キー ワ ー ド 候補集合 の各キ 一 ヮ 一 ド 候補 の 先頭文字列 に対 し て前記パ タ ー ン処理手段 を用 い 、 必要先頭パ タ ー ン に マ ッ チせず不 要先頭パ タ ー ン に マ ッ チす る キ ー ヮ 一 ド 候補 に対 し て は、 不要先頭パ タ ー ン にマ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キー ヮ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな けれ ばそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の 範 囲第 1 0項記載の キー ヮ 一 ド 抽 出装置。
. 前記パ タ ー ン格納手段 は、 キー ワ ー ド の構成要素 と な り 得 る 文字列 を 表わすキ 一 ヮ一 ド 構成要素パ タ ー ン と 、
不要な末尾文字列 を表わす不要末尾パ タ ー ン と を 少 な く と も 有 し 、
さ ら に 、 キー ワ ー ド 候補集合の 各キー ワ ー ド 候補 の 末 尾文字列 に対 し て 前記パ タ ー ン処理手段 を用 い 、 不要 末尾パ タ ー ン にマ ッ チする キー ヮ 一 ド候補 に対 して は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キー ヮ — ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ ー ド 候補 と置換す る 不要末尾文字列除去 手段 を有す る こ と を特徴 と す る 請求 の範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項、 第 9 項、 第 1 0項 ま た は第 1 1項記載 の キ一 ワ ー ド 抽 出装置。
3 . 前記パ タ ー ン格納手段 は、 キー ヮ ド の構成要素 と な り 得 る 文字列 を 表わすキー ヮ 一 ド 構成要素パ タ ー ン と 、
不要な末尾文字列 を表わす不要末尾パ タ ー ン と 、 必要な 末尾文字列 を表わす必要末尾パ タ ー ン と を 少 な く と も 有 し 、
前記不要末尾文字列除去手段は、 キ 一 ワ ー ド 候補集合 の 各キ ー ヮ ー ド 候補 の末尾文字列 に対 し て前記パ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不 要末尾パ タ ー ン に マ ッ チす る キー ヮ ー ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結果が空文字列で あ れば も と の キー ヮ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の 範囲第 1 2項記載の キー ヮ ー ド 抽 出装置。
4. 前記不要語除去手段、 不要先頭文字列 除去手段、 不 要末尾文字列 除去手段 の う ち 2 つ以上 を組み合わせて、 あ る い は不要先頭文字列除去手段、 不要末尾文字列 除 去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キー ヮ ー ド 候補集合か ら 除去 さ れたキー ヮ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に付加す る こ と 、 を特徴 と す る 請求 の範囲第 8 項、 第 9 項 、 第 1 0項、 第 1 1項、第 1 2項 ま た は第 1 3項記載 のキ ー ヮ 一 ド抽 出装置5 . テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複数 のパ タ ー ン格納手段 を さ ら に有 し 、 前記パ タ ー ン処理手段 は、 各種パ タ ー ン を適用 す る 際 に 各パ タ ー ン格納手段 に格納 さ れた 同種の パ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る こ と を特徴 と す る 請求 の 範 囲第 1 項、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項、 第 9 項、 第 10項、 第 11 項、 第 12項 、 第 13項 ま た は第 14項記載 の キー ヮ ー ド 抽 出装置。
16. 前記パ タ ー ン処理手段 は、 不要語パ タ ー ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 いずれか のパ タ ー ン でマ ッ チすればそれ を マ ッ チ ン グ結果 と し て、 他 の パ タ ー ン の 適用 を 中 止す る こ と を 特徴 と す る 請求 の 範 囲 第 15項記載 の キ一 ヮ 一 ド 抽 出装置。
17. テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複数 の パ タ ー ン格納手段 と 、
必要 に応 じ てパ タ ー ン に お け る 選択、 連結、 反復な ど を 展開 し 、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て パ タ ー ン の構成要素 を 整列 し な が ら 、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る ノ° 夕 一 ン統合手段 と を さ ら に有す る こ と を 特徴 と す る 請求 の 範囲第 1 、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項、 第 8 項、 第 9 項、 第 10項、 第 11項 、 第 12項、 第 13項 ま た は第 14項記載 の キ 一 ヮ 一 ド 抽 出装置。
18. 前記パ タ ー ン統合手段 は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を設 け、 それ を超え る パ タ 一 ン の構成要素 は除去 し な が ら 、 前記パ タ ー ン格納手段 に 格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る こ と を特徴 と す る 請求 の範囲第 1 7項記載 の キ一 ヮ一 ド 抽 出装置。
. 前記パ タ ー ン統合手段 は、 パ タ ー ン の 反復に 関 し て 反復展開 回数 の 上限 を設 け 、 それ を超え る パ タ ー ン の 反復は除外 し て 、 前記パ タ ー ン格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に統合 し て 出 力 す る こ と を 特 徵 とする 請求 の範 囲第 1 7項 ま たは第 1 8項記載 のキー ヮ ― ド 抽 出装置。
. 前記パ タ ー ン統合手段 は、 不要語パ タ ー ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を そ れぞれ選択肢 と す る パ タ ー ン を 出 力 す る こ と を特徴 と す る 請求 の 範囲第 1 7項、 第 1 8項 ま た は第 1 9項記載の キー ヮ ー ド 抽 出装置。
. テキス ト を 入力 す る テ キ ス ト 入力 手段 と 、
入力 さ れ た テキ ス ト に対 し 単語 を 抽 出 し て 品詞 を解析 す る 品詞解析手段 と 、
品詞解析手段 の 出 力 か ら 、 特定 の 品詞の シー ケ ン ス に 対応 し た 単語列 を キ一 ヮ一 ド 候補 と し て生成す る キ ー ヮ ー ド 候補集合生成手段 と 、
キ一 ヮ一 ド 候補集合 の 各キ ー ヮ ー ド 候補 を キー ヮ 一 ド と し て 出 力す る キ ー ヮ 一 ド 出 力 手段 と 、
を有す る こ と を特徴 と す る キー ヮ 一 ド 抽 出装置。
. 前記キー ワ ー ド 候補集合生成手段 は、 キー ワ ー ド 候 補集合 に お い て重複 し たキ一 ヮ一 ド 候補 を 1 つ に ま と め る こ と を特徴 と す る 請求 の範 囲第 2 1項記載の キー ヮ ― ド 抽 出装置。
. 正規表現 も し く は 同等 の パ タ ー ン に よ る 文字列 の マ ツ チ ン グお よ び置換 を行な う パ タ ー ン処理手段 と 、 パ タ ー ン処理手段で の マ ッ チ ン グお よ び置換 に 使用 さ れる 文字列 を表わすパ タ ー ン を格納す る パ タ ー ン格納 手段 と 、
を有す る こ と を特徴 と す る 請求 の範 囲第 2 1項ま た は第 2 2項記載 の キ一 ヮ一 ド 抽 出装置。
. 前記パ タ ー ン格納手段が、 キー ワ ー ド の 候補 と な り 得ない部分 を表わす非キー ヮー ド候補パタ ー ン を有 し 、 さ ら に 、 テキス ト に対 し 前記パ タ ー ン処理手段 を用 い て 、 非キー ヮ ー ド 候補パ タ ー ン に マ ッ チす る 互 い に ォ 一バー ラ ッ プの な い すべて の文字列 を検索 し 、 前記特 定の 品詞 の シー ケ ン ス に対応 し な い 特別な文字列 に 置 換す る 非キ一 ヮ 一 ド 候補除去手段 を 有す る こ と を特徴 と す る 請求 の範 囲第 2 3項記載の キ一 ヮ 一 ド 抽 出装置。. 前記パ タ ー ン格納手段が、 前記特定 の 品詞 の シー ケ ン ス に対応 し た単語列 と し て生成す る こ と が困難な キ ー ヮ 一 ド 構成要素 を表わす例外キ一 ヮ一 ド 構成要素パ タ ー ン を有 し 、
さ ら に 、 テキス ト に対 し て 前記パ タ ー ン処理手段 を 用 い て 、 例外キー ヮ 一 ド 構成要素パ タ ー ン に マ ッ チす る 互い に オーバー ラ ッ プの な い すべて の文字列 を 例外キ 一ワ ー ド 構成要素 と し て抽 出 し 、 そ の抽 出位置 を記録 す る と と も に 、 テキ ス ト 中 マ ッ チ し た各文字列 を 、 前 記特定 の 品詞 の シー ケ ンス に対応 し な い特別な文字列 に変換す る 例外キー ヮ ー ド 構成要素抽 出手段 を 有 し 、 前記キー ワ ー ド 候補集合生成手段 は、 前記特定 の 品詞 の シー ケ ン ス に対応 し た単語列お よ び例外キ一 ヮ一 ド 構成要素か ら キー ワ ー ド 候補集合 を 生成す る こ と を 特 徵 とする請求 の範囲第 2 3項 ま たは第 2 4項記載のキー ヮ 一 ド 抽 出装置。
. 前記パ タ ー ン格納手段が、 不要語 を 表わす不要語パ 夕 一 ン を 有 し 、
さ ら に 、 キー ワ ー ド 候補集合の 各キ ー ワ ー ド 候補 の 文 字列全体 に対 し て前記パ タ ー ン処理手段 を用 い 、 不要 語パ タ ー ン に マ ッ チす る も の を キ ー ヮ ー ド 候補集合か ら 除去す る 不要語除去手段 を有す る こ と を特徴 と す る 請求 の範 囲第 2 3項、第 2 4項 ま た は第 2 5項記載の キー ヮ ― ド 抽 出装置。
. 前記パ タ ー ン格納手段が、
必要語 を 表わす必要語パ タ ー ン と 、
不要語 を 表わす不要語パ タ ー ン と を有 し 、
前記不要語除去手段 は、 キ ー ワ ー ド 候補集合の 各キ ー ヮ 一 ド 候補 の文字列全体 に 前記パ タ ー ン処理手段 を 用 い 、 必要語パ タ ー ン に マ ッ チせず不要語パ タ ー ン に マ ツ チす る も の を キ ー ワ ー ド 候補集合か ら 除去す る こ と を特徴 と す る 請求 の範 囲第 2 6項記載 の キー ヮ ー ド 抽 出 . 前記パ タ ー ン格納手段が、
不要な先頭文字列 を表わす不要先頭パ タ ー ン を 有 し 、 さ ら に 、 キー ワ ー ド 候補集合の 各キー ワ ー ド 候補 の 先 頭文字列 に対 し て 前記パ タ ー ン処理手段 を 用 い 、 不要 先頭パタ ー ン にマ ッ チする キ一 ヮ 一 ド候補 に対 して は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キー ヮ ー ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キ ー ヮ ー ド 候補 と 置換す る 不要先頭文字列除去 手段 を有す る こ と を特徴 と す る 請求 の範 囲第 2 3項、 第 24項、 第 25項、 第 26項 ま た は第 27項記載 の キ ー ヮ 一 ド 抽 出 装置。
29. 前記パ タ ー ン格納手段が、
不要な 先頭文字列 を表わす不要先頭パ タ ー ン と 、 必要な先頭文字列 を表わす必要先頭パタ ー ン と を有 し、 前記不要先頭文字列除去手段 は、 キ一 ワ ー ド 候補集合 の 各キ ー ヮ ー ド 候補 の 先頭文字列 に対 し て前記パ 夕 一 ン処理手段 を用 い 、 必要先頭パ タ ー ン に マ ッ チせず不 要先頭パ タ ー ン に マ ッ チす る キー ワ ー ド 候補 に対 し て は、 不要先頭パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れば も と の キ一 ヮ一 ド 候補 を キ — ワ ー ド 候補集合か ら 除去 し 、 空文字列 で な ければそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の範 囲第 28項記載 の キ一 ヮ一 ド 抽 出装置。
30. 前記パ タ ー ン格納手段が、
不要な 末尾文字列 を表わす不要末尾パ タ ー ン を 有 し 、 さ ら に 、 キ ー ワ ー ド 候補集合 の 各キ ー ワ ー ド 候補 の 末 尾文字列 に対 し て前記パ タ ー ン処理手段 を 用 い 、 不要 末尾パ タ ー ン にマ ッ チする キー ヮー ド候補 に対 して は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の 結 果が空文字列で あ れ ば も と の キー ワ ー ド 候補 を キ一 ヮ — ド 候補集合か ら 除去 し 、 空文字列でな ければそれ を も と の キー ヮ ー ド 候補 と 置換す る 不要末尾文字列除去 手段 を 有す る こ と を特徴 と す る 請求 の範 囲第 23項、 第 24項、 第 25項、 第 26項、 第 27項、 第 28項 ま た は第 29 項記載 の キー ヮ ー ド 抽 出装置。
31. 前記パ タ ー ン格納手段が、
不要な 末尾文字列 を表わす不要末尾パ タ ー ン と 、 必要な末尾文字列 を表わす必要末尾パタ ー ン と を有 し、 前記不要末尾文字列除去手段 は、 キ ー ワ ー ド 候補集合 の 各キ一 ヮ一 ド 候補 の末尾文字列 に 対 し て前記パ タ ー ン処理手段 を用 い 、 必要末尾パ タ ー ン に マ ッ チせず不 要末尾パ タ ー ン に マ ッ チす る キー ヮ 一 ド 候補 に対 し て は、 不要末尾パ タ ー ン に マ ッ チ し た部分 を 除去 し 、 そ の結果が空文字列で あ れ ば も と の キー ヮ ー ド 候補 を キ 一ワ ー ド 候補集合か ら 除去 し 、 空文字列 でな けれ ばそ れ を も と の キー ワ ー ド 候補 と 置換す る こ と を特徴 と す る 請求 の 範囲第 30項記載の キー ヮ 一 ド 抽 出装置。
32. 前記不要語除去手段、 不要先頭文字列除去手段、 不 要末尾文字列除去手段 の う ち 2 つ以上 を組み合わせて、 あ る い は不要先頭文字列除去手段 、 不要末尾文字列 除 去手段 の いずれか を 2 回以上適用 す る こ と に よ っ て 、 最終的 に キー ヮ ー ド 候補集合か ら 除去 さ れた キー ヮ ー ド 候補 を 、 不要語パ タ ー ン の選択肢 に付加す る こ と 、 を特徴 と す る 請求 の 範 囲第 26項、 第 27項、 第 28項、 第 29項、第 30項 ま た は第 31項記載 の キー ヮ ー ド 抽 出装置
33. テキス ト の タ イ プや分野、 格納パ タ ー ン の種別な ど に対応 し た複数 の パ タ ー ン格納手段 を さ ら に有 し 、 前記パ タ ー ン処理手段 は、 各種パ タ ー ン を 適用 する 際 に 各パ タ ー ン格納手段 に格納 さ れた 同 種 のパ タ ー ン を 並行 し て適用 し 、 最 も 先頭でマ ッ チ し た も の の う ち 、 最長 の文字列 を マ ッ チ ン グ結果 と す る こ と を特徴 と す る 請求の 範囲第 23項、 第 24項、 第 25項、 第 26項、 第 2 7項 、 第 28項 、 第 29項 、 第 30項、 第 31項 ま た は第 32 項記載の キ一 ヮ一 ド 抽 出装置。
34. 前記パ タ ー ン処理手段 は、 不要語パ タ ー ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を並行 し て適用 し 、 い ずれか のパ タ ー ン でマ ッ チすればそれ を マ ッ チ ン グ結果 と し て、 他 の パ タ ー ン の 適用 を 中 止す る こ と を特徴 と す る 請求 の 範 囲 第 33項記載 の キー ヮ ー ド抽 出装置。
35. テキス ト の タ イ プや分野、 格納パ タ ー ン の種別 な ど に対応 し た複数 の パ タ ー ン格納手段 と 、
必要 に応 じ てパ タ ー ン に お け る 選択、 連結 、 反復な ど を展 開 し 、 マ ッ チす る 可能性の あ る 文字列長 に 関 し て パ タ ー ン の構成要素 を 整列 し な が ら 、 前記パ タ ー ン格 納手段 に格納 さ れた各種パ タ ー ン を種別 <— <t ί^- t □ し て 出 力 す る パ タ ー ン統合手段 と を さ ら に有す る こ と を 特徴 と す る 請求 の範 囲第 23項、 第 24項、 第 25項、 第 2 6項、 第 27項、 第 28項、 第 29項、 第 30項、 第 31項 ま た は第 32項記載 の キー ヮ ー ド 抽 出装置。
36. 前記パ タ 一 ン統合手段 は、 マ ッ チす る 可能性 の あ る 文字列長 に 関 し て上限 を 設 け、 それ を超 え る パ タ ー ン の構成要素 は除去 し な が ら 、 前記パ タ ー ン格納手段 に 格納 さ れた各種パ タ ー ン を 種別 ご と に統合 し て 出 力 す る こ と を特徴 とす る 請求 の範 囲第 35項記載 のキー ヮ 一 ド 抽 出装置。
37. 前記パ タ ー ン統合手段 は、 パ タ ー ン の 反復 に 関 し て 反復展 開 回数の 上限 を 設 け 、 それ を超 え る パ タ ー ン の 反復 は除外 し て 、 前記パ 夕 一 ン格納手段 に格納 さ れた 各種パ タ ー ン を種別 ご と に 統合 し て 出 力 す る こ と を 特 徵 とする請求の範 囲第 35項 ま たは第 36項記載のキー ヮ ― ド 抽 出装置。
38. 前記パ タ ー ン統合手段 は、 不要語パ 夕 ンお よ び必 要語パ タ ー ン に 関 し て は各パ タ ー ン格納手段 に格納 さ れたパ タ ー ン を そ れぞれ選択肢 と す る パ タ ー ン を 出 力 す る こ と を特徴 と す る 請求 の範 囲第 35項、 第 36項 ま た は第 37項記載の キー ヮ ー ド 抽 出装置。
PCT/JP2000/005433 2000-01-05 2000-08-14 Dispositif d'extraction d'un mot-cle WO2001050343A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP00951977A EP1189150A4 (en) 2000-01-05 2000-08-14 DEVICE FOR EXTRACTING KEYWORDS
CA002362416A CA2362416C (en) 2000-01-05 2000-08-14 Keyword extracting device
JP2001550633A JP4253152B2 (ja) 2000-01-05 2000-08-14 キーワード抽出装置
US09/945,677 US7191177B2 (en) 2000-01-05 2001-09-05 Keyword extracting device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000000382 2000-01-05
JP2000/382 2000-01-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/945,677 Continuation US7191177B2 (en) 2000-01-05 2001-09-05 Keyword extracting device

Publications (1)

Publication Number Publication Date
WO2001050343A1 true WO2001050343A1 (fr) 2001-07-12

Family

ID=18529738

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/005433 WO2001050343A1 (fr) 2000-01-05 2000-08-14 Dispositif d'extraction d'un mot-cle

Country Status (5)

Country Link
US (1) US7191177B2 (ja)
EP (1) EP1189150A4 (ja)
JP (1) JP4253152B2 (ja)
CA (1) CA2362416C (ja)
WO (1) WO2001050343A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023878A (ja) * 2004-07-07 2006-01-26 Quin Land Co Ltd データ抽出システム
JP2015158833A (ja) * 2014-02-25 2015-09-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
KR20160041267A (ko) * 2014-10-07 2016-04-18 인포뱅크 주식회사 정보 검색 장치 및 방법

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049707A1 (en) * 2000-02-29 2001-12-06 Tran Bao Q. Systems and methods for generating intellectual property
US8590013B2 (en) 2002-02-25 2013-11-19 C. S. Lee Crawford Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry
JP4040382B2 (ja) * 2002-07-30 2008-01-30 ソニー株式会社 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
US7444323B2 (en) * 2004-09-02 2008-10-28 International Business Machines Corporation System and method for focused routing of content to dynamically determined groups of reviewers
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US8209344B2 (en) 2005-09-14 2012-06-26 Jumptap, Inc. Embedding sponsored content in mobile applications
US8238888B2 (en) 2006-09-13 2012-08-07 Jumptap, Inc. Methods and systems for mobile coupon placement
US8503995B2 (en) 2005-09-14 2013-08-06 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US20070061242A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Implicit searching for mobile content
US9471925B2 (en) 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US8615719B2 (en) 2005-09-14 2013-12-24 Jumptap, Inc. Managing sponsored content for delivery to mobile communication facilities
US8027879B2 (en) 2005-11-05 2011-09-27 Jumptap, Inc. Exclusivity bidding for mobile sponsored content
US20110313853A1 (en) 2005-09-14 2011-12-22 Jorey Ramer System for targeting advertising content to a plurality of mobile communication facilities
US9703892B2 (en) 2005-09-14 2017-07-11 Millennial Media Llc Predictive text completion for a mobile communication facility
US8819659B2 (en) 2005-09-14 2014-08-26 Millennial Media, Inc. Mobile search service instant activation
US20090029687A1 (en) * 2005-09-14 2009-01-29 Jorey Ramer Combining mobile and transcoded content in a mobile search result
US9076175B2 (en) 2005-09-14 2015-07-07 Millennial Media, Inc. Mobile comparison shopping
US8364540B2 (en) * 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US8311888B2 (en) * 2005-09-14 2012-11-13 Jumptap, Inc. Revenue models associated with syndication of a behavioral profile using a monetization platform
US10592930B2 (en) 2005-09-14 2020-03-17 Millenial Media, LLC Syndication of a behavioral profile using a monetization platform
US8660891B2 (en) 2005-11-01 2014-02-25 Millennial Media Interactive mobile advertisement banners
US8131271B2 (en) 2005-11-05 2012-03-06 Jumptap, Inc. Categorization of a mobile user profile based on browse behavior
US7676394B2 (en) 2005-09-14 2010-03-09 Jumptap, Inc. Dynamic bidding and expected value
US8688671B2 (en) 2005-09-14 2014-04-01 Millennial Media Managing sponsored content based on geographic region
US20070288427A1 (en) * 2005-09-14 2007-12-13 Jorey Ramer Mobile pay-per-call campaign creation
US8364521B2 (en) 2005-09-14 2013-01-29 Jumptap, Inc. Rendering targeted advertisement on mobile communication facilities
US9201979B2 (en) * 2005-09-14 2015-12-01 Millennial Media, Inc. Syndication of a behavioral profile associated with an availability condition using a monetization platform
US20090240568A1 (en) * 2005-09-14 2009-09-24 Jorey Ramer Aggregation and enrichment of behavioral profile data using a monetization platform
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US10038756B2 (en) 2005-09-14 2018-07-31 Millenial Media LLC Managing sponsored content based on device characteristics
US8229914B2 (en) 2005-09-14 2012-07-24 Jumptap, Inc. Mobile content spidering and compatibility determination
US20070061198A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Mobile pay-per-call campaign creation
US8989718B2 (en) 2005-09-14 2015-03-24 Millennial Media, Inc. Idle screen advertising
US8195133B2 (en) 2005-09-14 2012-06-05 Jumptap, Inc. Mobile dynamic advertisement creation and placement
US7769764B2 (en) 2005-09-14 2010-08-03 Jumptap, Inc. Mobile advertisement syndication
US9058406B2 (en) 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
US8666376B2 (en) 2005-09-14 2014-03-04 Millennial Media Location based mobile shopping affinity program
US8812526B2 (en) 2005-09-14 2014-08-19 Millennial Media, Inc. Mobile content cross-inventory yield optimization
US7752209B2 (en) 2005-09-14 2010-07-06 Jumptap, Inc. Presenting sponsored content on a mobile communication facility
US20070118533A1 (en) * 2005-09-14 2007-05-24 Jorey Ramer On-off handset search box
US8290810B2 (en) 2005-09-14 2012-10-16 Jumptap, Inc. Realtime surveying within mobile sponsored content
US8805339B2 (en) 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US8156128B2 (en) 2005-09-14 2012-04-10 Jumptap, Inc. Contextual mobile content placement on a mobile communication facility
US7860871B2 (en) * 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
US20080215623A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Mobile communication facility usage and social network creation
US7660581B2 (en) 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US20080214148A1 (en) * 2005-11-05 2008-09-04 Jorey Ramer Targeting mobile sponsored content within a social network
US8302030B2 (en) 2005-09-14 2012-10-30 Jumptap, Inc. Management of multiple advertising inventories using a monetization platform
US8463249B2 (en) 2005-09-14 2013-06-11 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US8832100B2 (en) 2005-09-14 2014-09-09 Millennial Media, Inc. User transaction history influenced search results
US20070061334A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Search query address redirection on a mobile communication facility
US7702318B2 (en) 2005-09-14 2010-04-20 Jumptap, Inc. Presentation of sponsored content based on mobile transaction event
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US10911894B2 (en) 2005-09-14 2021-02-02 Verizon Media Inc. Use of dynamic content generation parameters based on previous performance of those parameters
US8175585B2 (en) 2005-11-05 2012-05-08 Jumptap, Inc. System for targeting advertising content to a plurality of mobile communication facilities
US7502788B2 (en) * 2005-11-08 2009-03-10 International Business Machines Corporation Method for retrieving constant values using regular expressions
US8571999B2 (en) 2005-11-14 2013-10-29 C. S. Lee Crawford Method of conducting operations for a social network application including activity list generation
US7958164B2 (en) * 2006-02-16 2011-06-07 Microsoft Corporation Visual design of annotated regular expression
US7860881B2 (en) * 2006-03-09 2010-12-28 Microsoft Corporation Data parsing with annotated patterns
WO2008090606A1 (ja) * 2007-01-24 2008-07-31 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
EP1962242A1 (en) * 2007-02-22 2008-08-27 Research In Motion Limited Community based method and system for creating and subscribing to dynamic push channels
US7949670B2 (en) * 2007-03-16 2011-05-24 Microsoft Corporation Language neutral text verification
CN101276361B (zh) * 2007-03-28 2010-09-15 阿里巴巴集团控股有限公司 一种显示相关关键词的方法及系统
US7739261B2 (en) * 2007-06-14 2010-06-15 Microsoft Corporation Identification of topics for online discussions based on language patterns
US7814108B2 (en) * 2007-12-21 2010-10-12 Microsoft Corporation Search engine platform
US8417698B2 (en) 2008-05-06 2013-04-09 Yellowpages.Com Llc Systems and methods to provide search based on social graphs and affinity groups
US8145620B2 (en) * 2008-05-09 2012-03-27 Microsoft Corporation Keyword expression language for online search and advertising
US8463794B2 (en) * 2008-10-02 2013-06-11 International Business Machines Corporation Computer system, method, and computer program for extracting terms from document data including text segment
US9418136B1 (en) * 2009-03-31 2016-08-16 Cellco Partnership Method and system for matching descriptive text for a multimedia content in a vendor's catalog with descriptive text for a multimedia content in media store's catalog
US8370357B1 (en) 2009-03-31 2013-02-05 Cellco Partnership Method and system for grouping multimedia files from plural vendors' servers in media store's catalog
US9405456B2 (en) * 2009-06-08 2016-08-02 Xerox Corporation Manipulation of displayed objects by virtual magnetism
US8595297B2 (en) 2010-02-08 2013-11-26 At&T Intellectual Property I, L.P. Searching data in a social network to provide an answer to an information request
WO2011118428A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 要求獲得システム、要求獲得方法、及び要求獲得用プログラム
US8892580B2 (en) * 2010-11-03 2014-11-18 Microsoft Corporation Transformation of regular expressions
WO2013049864A1 (en) * 2011-09-30 2013-04-04 Willem Morkel Van Der Westhuizen Method for human-computer interaction on a graphical user interface (gui)
WO2013137864A1 (en) * 2012-03-13 2013-09-19 Hewlett-Packard Development Company, L.P. Submatch extraction
US9396758B2 (en) 2012-05-01 2016-07-19 Wochit, Inc. Semi-automatic generation of multimedia content
US20130294746A1 (en) * 2012-05-01 2013-11-07 Wochit, Inc. System and method of generating multimedia content
US9524751B2 (en) 2012-05-01 2016-12-20 Wochit, Inc. Semi-automatic generation of multimedia content
CN103870442A (zh) * 2012-12-17 2014-06-18 鸿富锦精密工业(深圳)有限公司 中文简繁体转换系统及方法
US9678993B2 (en) 2013-03-14 2017-06-13 Shutterstock, Inc. Context based systems and methods for presenting media file annotation recommendations
US9553904B2 (en) 2014-03-16 2017-01-24 Wochit, Inc. Automatic pre-processing of moderation tasks for moderator-assisted generation of video clips
CN104462552B (zh) * 2014-12-25 2018-07-17 北京奇虎科技有限公司 问答页面核心词提取方法和装置
CN104462553B (zh) * 2014-12-25 2019-02-26 北京奇虎科技有限公司 问答页面相关问题推荐方法及装置
US9659219B2 (en) 2015-02-18 2017-05-23 Wochit Inc. Computer-aided video production triggered by media availability
CN105426360B (zh) * 2015-11-12 2018-08-07 中国建设银行股份有限公司 一种关键词抽取方法及装置
CN108804487A (zh) * 2017-12-28 2018-11-13 中国移动通信集团公司 一种提取目标字符的方法及装置
US11250842B2 (en) * 2019-01-27 2022-02-15 Min Ku Kim Multi-dimensional parsing method and system for natural language processing
US11551674B2 (en) * 2020-08-18 2023-01-10 Bank Of America Corporation Multi-pipeline language processing platform

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法
JPH08221440A (ja) * 1995-02-15 1996-08-30 Oki Electric Ind Co Ltd ネットワークニュース記事からのキーワード抽出方法および装置
JPH08329108A (ja) * 1995-06-01 1996-12-13 Hitachi Ltd テキストのハイパーテキスト化方法
JPH09128399A (ja) * 1995-11-02 1997-05-16 Techno Res Kk 特許データベースのキーワードデータ抽出方法及びキーワードデータ抽出装置
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JPH11259524A (ja) * 1998-03-06 1999-09-24 Omron Corp 情報検索システム、情報検索システムにおける情報処理方法および記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03278176A (ja) * 1990-03-27 1991-12-09 Nippon Telegr & Teleph Corp <Ntt> 日本文固有用語抽出処理装置
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
EP0610760B1 (en) * 1993-01-28 2003-05-02 Kabushiki Kaisha Toshiba Document detection system with improved document detection efficiency
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
JPH07282055A (ja) * 1994-04-06 1995-10-27 Fujitsu Ltd 文解析方法および装置
JP3986098B2 (ja) * 1994-08-16 2007-10-03 富士通株式会社 文字列検索方法及び文字列検索装置
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
JP3231673B2 (ja) * 1996-11-21 2001-11-26 シャープ株式会社 文字,文字列検索方法及び該方法に用いる記録媒体
US6314410B1 (en) * 1997-06-04 2001-11-06 Nativeminds, Inc. System and method for identifying the context of a statement made to a virtual robot
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
JPH1153384A (ja) 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US6446076B1 (en) * 1998-11-12 2002-09-03 Accenture Llp. Voice interactive web-based agent system responsive to a user location for prioritizing and formatting information
US6826553B1 (en) * 1998-12-18 2004-11-30 Knowmadic, Inc. System for providing database functions for multiple internet sources
US6654741B1 (en) * 1999-05-03 2003-11-25 Microsoft Corporation URL mapping methods and systems
US6327561B1 (en) * 1999-07-07 2001-12-04 International Business Machines Corp. Customized tokenization of domain specific text via rules corresponding to a speech recognition vocabulary

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法
JPH08221440A (ja) * 1995-02-15 1996-08-30 Oki Electric Ind Co Ltd ネットワークニュース記事からのキーワード抽出方法および装置
JPH08329108A (ja) * 1995-06-01 1996-12-13 Hitachi Ltd テキストのハイパーテキスト化方法
JPH09128399A (ja) * 1995-11-02 1997-05-16 Techno Res Kk 特許データベースのキーワードデータ抽出方法及びキーワードデータ抽出装置
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JPH11259524A (ja) * 1998-03-06 1999-09-24 Omron Corp 情報検索システム、情報検索システムにおける情報処理方法および記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP1189150A4 *
YASUSHI OGAWA, MASAKO MOCHINUSHI, AYAKO BESSHO: "Fukugougo key word no jidou chushutsuhou", JOHO SHORI GAKKAI KENKYO HOKOKU, vol. 93, no. 79 (93-NL-97), pages 103 - 110, XP002944731 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023878A (ja) * 2004-07-07 2006-01-26 Quin Land Co Ltd データ抽出システム
JP2015158833A (ja) * 2014-02-25 2015-09-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
US9785726B2 (en) 2014-02-25 2017-10-10 International Business Machines Corporation Pattern matching based character string retrieval
US9916397B2 (en) 2014-02-25 2018-03-13 International Business Machines Corporation Pattern matching based character string retrieval
US9946812B2 (en) 2014-02-25 2018-04-17 International Business Machines Corporation Pattern matching based character string retrieval
US10007740B2 (en) 2014-02-25 2018-06-26 International Business Machines Corporation Pattern matching based character string retrieval
US10176274B2 (en) 2014-02-25 2019-01-08 International Business Machines Corporation Pattern matching based character string retrieval
KR20160041267A (ko) * 2014-10-07 2016-04-18 인포뱅크 주식회사 정보 검색 장치 및 방법
KR102274391B1 (ko) 2014-10-07 2021-07-26 인포뱅크 주식회사 정보 검색 장치 및 방법

Also Published As

Publication number Publication date
US7191177B2 (en) 2007-03-13
JP4253152B2 (ja) 2009-04-08
CA2362416C (en) 2009-08-04
CA2362416A1 (en) 2001-07-12
EP1189150A4 (en) 2004-10-06
EP1189150A1 (en) 2002-03-20
US20020042794A1 (en) 2002-04-11

Similar Documents

Publication Publication Date Title
WO2001050343A1 (fr) Dispositif d&#39;extraction d&#39;un mot-cle
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
Campos et al. Gimli: open source and high-performance biomedical name recognition
Nelken et al. Arabic diacritization using weighted finite-state transducers
US6928448B1 (en) System and method to match linguistic structures using thesaurus information
Graliński et al. PSI-toolkit: A natural language processing pipeline
US9906238B2 (en) Encoding device, encoding method and search method
Onyenwe et al. Toward an effective igbo part-of-speech tagger
JP2005063470A (ja) キーワード抽出装置
Mall et al. Innovative algorithms for Parts of Speech Tagging in hindi-english machine translation language
US11263408B2 (en) Alignment generation device and alignment generation method
JP5380566B2 (ja) 言語処理装置、プログラムおよび方法
Tummalapalli et al. Syllables for sentence classification in morphologically rich languages
Chaware et al. Rule-based phonetic matching approach for Hindi and Marathi
Iwakura et al. A named entity recognition method based on decomposition and concatenation of word chunks
Shokrollahi-Far Self-Organizing Computational Efficiency in Quranic Grammar
Nghiem et al. A hybrid approach for semantic enrichment of MathML mathematical expressions
Yahia et al. An intelligent algorithm for Arabic soundex function using intuitionistic fuzzy logic
Chidiebere et al. Analysis and representation of Igbo text document for a text-based system
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
JP6784084B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
Ifeanyi-Reuben Nkechi et al. Analysis and Representation of Igbo Text Document for a Text-Based System
De Vries Finite Automata: Behavior and Synthesis
Sentence Approximate sentence matching and its applications in corpus-based research Summary
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP MX US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): FR GB

ENP Entry into the national phase

Ref document number: 2362416

Country of ref document: CA

Ref country code: CA

Ref document number: 2362416

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 2000951977

Country of ref document: EP

ENP Entry into the national phase

Ref country code: JP

Ref document number: 2001 550633

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: PA/a/2001/008925

Country of ref document: MX

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09945677

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000951977

Country of ref document: EP