WO2009154241A1 - 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体 - Google Patents

検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体 Download PDF

Info

Publication number
WO2009154241A1
WO2009154241A1 PCT/JP2009/061056 JP2009061056W WO2009154241A1 WO 2009154241 A1 WO2009154241 A1 WO 2009154241A1 JP 2009061056 W JP2009061056 W JP 2009061056W WO 2009154241 A1 WO2009154241 A1 WO 2009154241A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
identifier
input
search expression
structured document
Prior art date
Application number
PCT/JP2009/061056
Other languages
English (en)
French (fr)
Inventor
圭一 井口
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010517951A priority Critical patent/JP5429165B2/ja
Priority to US12/996,918 priority patent/US20110087698A1/en
Publication of WO2009154241A1 publication Critical patent/WO2009154241A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation

Abstract

 例示に使用する構造解析手段と検索に使用する構造解析手段が異なる解釈をする場合にも例示により検索式を生成でき、異なる解釈を行う複数の構造解析手段のための検索式を生成することが可能な検索式生成システムを提供する。  検索式生成システムは、構造化文書の要素に対して構造解析に依存しない属性として識別子を追加する識別子付与手段と、識別子が付加された構造化文書を解析し、ユーザからの検索対象要素の入力を受け付け、入力された検索対象要素に追加された識別子を取得する検索要素指定手段と、識別子が付加された構造化文書を解析し、検索要素指定手段から検索対象要素に対応する識別子の入力を受け付け、入力された識別子を用いて該解析された構造から検索対象要素を検索し、該検索対象要素の構造上の位置を示す検索式を生成する検索式生成手段と、を有する。

Description

検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
 本発明は、検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体に関し、特に、解釈の異なる複数の構造化文書解析システムに対応した検索式の生成に好ましく適用される技術に関するものである。
 構造化文書内の特定の要素を検索するための言語として例えばXPathが挙げられる(非特許文献1)が、このXPathによる検索式を記述するにはある程度の熟練度が必要となる。例えば特許文献1には、XPath検索式の記述を支援する技術として検索式作成支援システムの一例が記載されている。当該検索式作成支援システムは、構造化文書が記憶される記憶手段、検索結果の1つとしてユーザから例示された構造化文書の部分構造を抽出する構造抽出手段、構造抽出手段により抽出された部分構造から検索式を合成する検索式合成手段から構成されている。そして、このような構成を有する検索式作成支援システムは、概略以下のように動作する。すなわち、ユーザは検索したい部分を例示し、例示された要素の構造と同形の部分構造を知識ベースから抽出し、抽出した部分構造から検索式を合成する。
 また、例えば特許文献2では、目的とする論理構造だけを対象に指定する構造指定検索を高速に実現することが可能な文書登録検索方法が開示されている。当該発明では、検索時に一括して参照される可能性の高い文字列データの組に所定のインデックスグループ識別子を付与し、登録対象文書中に出現した文字列データにインデックスグループ識別子を付与し、メタ要素群及びメタ文字列群の木構造から構成される構造インデックスを生成する。そして、登録文書中に出現した各論理構造に属する文字列データに対して、構造インデックスの文脈識別子とインデックスグループ識別子を対応付け、文字列データの文書識別子、文脈識別子及び構造化文字位置情報をインデックスグループ識別子ごとに蓄積、管理する。
 また、例えば特許文献3では、人間にとって理解しやすい解析結果を出力できる文章解析装置が開示されている。当該装置は、分割部、言語解析部、新密度算出部、選択部からなる解析部を備え、各部が以下のように動作することで人間にとって理解しやすい解析結果を出力する。分割部は、入力された文章を単語単位で分割し、言語解析部は、分割候補(分割された文章)に対して構文解析、意味解析、構文意味解析等の言語解析を行って、複数の異なる解析構造を有する解析候補を生成する。新密度算出部は、各解析候補に含まれる各単語の新密度を記憶部から抽出して文中に含まれる該新密度の平均を解析候補ごとに算出する。選択部は親密殿平均が最も高い解析構造を複数の解析候補の中から抽出する。
 また、例えば特許文献4では、複数の文字列を入力するだけで文字列間の階層関係を考慮して構造化文書の検索を実行し、適切な検索結果が得られる構造化文書検索装置が開示されている。当該装置は、データ解析部、検索実行部、記憶部を備え、各部が以下のように動作する。データ解析部は、検索対象の構造化文書ごとに対応して、各文書に含まれる語彙間の階層関係を示すデータを生成する。検索実行部は、生成したデータを参照して、検索者からの検索条件に含まれる複数の文字列を語彙として含む語彙階層関係データにより示される該複数の文字列間の階層関係に基づいて、語彙間の階層関係に適合する構造化文書の検索式を作成する。記憶部は、作成された検索式に基づいて、該検索式に合致する構造化文書を検索する。
James Clark, Steve DeRose, "XML XPath Language(XPath) Version 1.0", [online], W3C Recommendation, Novemver 16, 1999、[平成20年6月5日検索]、インターネット<URL:http://www.w3.org/TR/xpath>
特開平7-225771号公報 特開2000-3366号公報 特開2007-11774号公報 特開2008-65543号公報
 特許文献1の検索式生成システムにおいて生成された検索式は、検索式生成システムと異なる構造解析手段を利用した場合には正しく解釈されない場合があった。それは、該検索式生成システムが、1つの構造解析手段を対象としている、あるいは、構造解析手段によって解釈の異なる場合を対象としていないためである。しかし、現実には複数の構造解析手段が存在し、それらは構造化文書をそれぞれ異なるように解釈し、異なる構造木を作成することがある。
 特に構造化文書の1つであるHTMLの解釈にあたっては、HTML文書が完全な形式に従っていない場合に、構造解釈手段が独自の解釈により構造木を作成する。異なる解釈の例を図1に示す。構造化文書の形式の指定によって、「table要素の中にはtbody要素が存在し、さらにその中にtr要素が存在すること」と決まっている場合に、構造解釈手段Aは定められた形式に従って構造木にtbody要素を追加して解釈する(構造木120を構築)のに対し、構造解釈手段Bは入力された構造化文書のまま定められた形式とは異なる構造木130を構築する。
 また、別の例では、「構造化文書を要素の開始タグと終了タグで記述し、各要素の開始タグと終了要素は交差してはならない」とされる場合に、この形式に違反し、要素aの開始タグ、要素bの開始タグ、要素aの終了タグ、要素bの終了タグの順に記述されると、構造解析手段によって、要素aと要素bを親子関係とするか、あるいは兄弟関係とするかの解釈が異なる。また、このような解釈の違いは多数存在するため、対応関係表を作成することは困難である。
 上記のような解釈の違いは、構造化文書の欠陥または構造解析手段の欠陥として、検索式生成システムの対象とされなかった。しかし、現実には複数の構造解析手段が存在し、また構造定義に完全に従っていない構造化文書を処理対象とするためには、これらを対象とした検索式を生成できる検索式生成システムが必要とされる。
 特許文献1の検索式作成支援システムの、第1の問題点は、例示に使用する構造解析手段と検索に使用する構造解析手段が異なる解釈をする場合に、検索に使用する構造解析手段用の検索式を生成することができないということである。その理由は以下のとおりである。これまで、例示に使用する構造解析手段と検索に使用する構造解析手段は同一か、検索対象とする構造化文書はすべての構造解析手段において一意に解釈可能であるか、すべての構造解析手段は相互に互換であり構造化文書を同様に解釈すると仮定されていた。このため、検索式作成支援システムでは、メモリ内に構築した例示のための構造化文書内の指定された要素と一致する構造をもつ部分構造(部分木)を抽出して検索式を生成しており、指定された要素の、検索に使用する構造解析手段が構築する構造木内の構造上の位置を特定できない。
 第2の問題点は、異なる解釈を行う複数の構造解析手段のための検索式を生成できないということである。その理由は、異なる解釈を行う構造解析手段はそれぞれ異なる構造木を構築するが、特許文献1の検索式作成支援システムは、特定の構造木を想定しており、検索対象要素の、他の構造解析手段によって構築された構造木内の構造上の位置を特定できないためである。
 特許文献1での問題点を考慮すると、構造解析手段の種類間で一意な識別を可能とすることは有効といえる。この点、特許文献2は解析済みの構造木情報に識別子を振る手法を採用している(なお、解析前の識別子の振り方については特に開示していない)が、これでは構造解析手段の種類に強く依存してしまうことから該種類間での一意な識別は困難である。また上記問題点から、異なる構造に対して同一の要素を識別して該要素のXPath検索式を生成できるようにすることが望ましい。この点、特許文献3は複数の異なる構造を処理対象にすることが述べられているのみで、その中の同一の要素を識別する方法については開示していない。また上記問題点から、ユーザが異なる構造をもとに指定した要素を特定できるようにすることが好ましい。この点、特許文献4は検索式を生成する対象を複数の語彙により指定する手法を採用しているが、これでは対象語彙が複数箇所に出現する場合に一意に指定することはできない。
 上述してきた事情に鑑みて、本発明の第1の目的は、例示に使用する構造解析手段と検索に使用する構造解析手段が異なる解釈をする場合にも例示により検索式を生成できる検索式生成システムを提供することにある。また、本発明の第2の目的は、異なる解釈を行う複数の構造解析手段のための検索式を生成できる検索式生成システムを提供することにある。
 かかる目的を達成するために、本発明の検索式生成システムは、構造化文書の要素に対して構造解析に依存しない属性として識別子を追加する識別子付与手段と、識別子が付加された構造化文書を解析し、ユーザからの検索対象要素の入力を受け付け、入力された検索対象要素に追加された識別子を取得する検索要素指定手段と、識別子が付加された構造化文書を解析し、検索要素指定手段から検索対象要素に対応する識別子の入力を受け付け、入力された識別子を用いて該解析された構造から検索対象要素を検索し、該検索対象要素の構造上の位置を示す検索式を生成する検索式生成手段と、を有する。
 また、本発明の検索式生成方法は、構造化文書の要素に対して構造解析に依存しない属性として識別子を追加する識別子付与ステップと、識別子が付加された構造化文書を解析し、ユーザからの検索対象要素の入力を受け付け、入力された検索対象要素に追加された識別子を取得する検索要素指定ステップと、識別子が付加された構造化文書を解析し、検索要素指定ステップによる検索対象要素に対応する識別子の入力を受け付け、入力された識別子を用いて該解析された構造から検索対象要素を検索し、該検索対象要素の構造上の位置を示す検索式を生成する検索式生成ステップと、を有する。
 また、本発明の検索式生成用プログラムは、記憶手段及び操作入力手段を備える検索式生成システムで用いられる検索式生成用プログラムであって、記憶手段から読み込んだ又は外部端末から取得した構造化文書の要素に対して構造解析に依存しない属性として識別子を追加して記憶手段に格納する識別子付与機能と、記憶手段から識別子が付加された構造化文書を読み込んで解析し、ユーザからの操作入力手段による検索対象要素の入力を受け付け、入力された検索対象要素に追加された識別子を取得する検索要素指定機能と、記憶手段から識別子が付加された構造化文書を読み込んで解析し、検索要素指定機能による検索対象要素に対応する識別子の入力を受け付け、入力された識別子を用いて該解析された構造から検索対象要素を検索し、該検索対象要素の構造上の位置を示す検索式を生成する検索式生成機能と、をコンピュータに実現させる。
 また、本発明の記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
 本発明の第1の効果は、例示に使用する構造解析手段と検索に使用する構造解析手段が異なる解釈をする場合にも例示により検索式を生成できることである。その理由は、例示用構造木と検索用構造木をそれぞれ構築し、構造化文書に追加された、構造解析手段に依存しない識別子で検索対象要素を指定するためである。また、本発明の第2の効果は、異なる解釈を行う複数の構造解析手段のための検索式を生成できることである。その理由は、対象とする検索用構造解析手段毎に検索用構造木をそれぞれ構築し、各検索用構造木内での構造上の位置を示す検索式をそれぞれ生成するためである。
構造解釈手段ごとの異なるHTML解釈を説明するための図である。 本発明の実施形態に係る検索式生成システムの構成を示した図である。 本発明の実施形態における検索式生成動作の全体の流れを示したフローチャートである。 本発明の実施形態における検索式生成例(XML内の要素を指定するXPath式の生成例)の流れを示したフローチャートである。 本発明の実施形態に係る検索式生成システムを適用したHTML編集ルール記述システムの構成を示した図である。 本発明の実施形態における検索式生成動作の全体の流れを示したフローチャートである。 本発明の実施形態におけるHTML文書の構造を説明するための図である。 本発明の実施形態における識別子付きHTML文書の構造を説明するための図である。 本発明の実施形態におけるHTML編集ルールの内容を説明するための図である。
 本発明の検索式生成システムは、識別子付与手段、検索要素指定手段、検索式生成手段を備え、検索要素指定手段は例示用構造解析手段を有し、検索式生成手段は1つ以上の検索用構造解析手段を有する。
 識別子付与手段は、構造化文書内の全ての要素に一意な識別子を、構造解析手段に依存しない属性として付与する。例示構造解析手段は、識別子が付与された構造化文書を解析して例示用構造木を作成し、検索要素指定手段に入力する。検索要素指定手段は、入力された例示用構造木をユーザに提示し、ユーザが指定した要素(検索対象要素)から識別子を表す属性を取得し、検索式生成手段に入力する。検索用構造解析手段は、検索要素指定手段からの構造化文書を解析して検索用構造木を作成し、検索式生成手段に入力する。検索式生成手段は、入力された各検索用構造木内から入力された識別子をもつ要素を検索し、該要素の構造上の位置を示す検索式を検索用構造木ごとに生成する。
 このような構成を採用し、構造に影響しない形で構造化文書に追加された構造解析手段に依存しない識別子を用いて検索対象要素を指定し、検索に使用する構造解析手段ごとに検索用構造木を作成し、検索対象要素の検索用構造木ごとに構造上の位置を示す検索式を生成することによって、本発明の目的を達成することができる。
 以下、図面を参照しながら、本発明の実施形態について説明する。なお、後述する実施形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
 図2は、本発明の実施形態に係る検索式生成システムの構成を示す図である。本実施形態の検索式生成システム200は、検索対象を指定するための構造化文書210と、構造化文書210の各要素に識別子を付与する識別子付与部220と、識別子付与部220によって識別子を追加された識別子付き構造化文書230と、構造化文書をユーザに提示して検索対象を指定する検索要素指定部240と、構造解析部ごとの検索式を生成する検索式生成部250と、生成された検索式を蓄積する検索式蓄積部260を有して構成される。
 検索要素指定部240は、ユーザに提示する構造木を構築するための構造解析部241と、構造解析部241により構築された構造木を蓄積する構造木蓄積部242とを含む。
 検索式生成部250は、検索式を生成する対象である1つ以上の構造解析部251と、構造解析部251が構築した構造木を蓄積するための構造木蓄積部252とを含む。
 これらの要素は次のように動作する。
 識別子付与部220は、構造化文書210を読み込み、構造化文書210の各要素に、構造解析部に依存しない形で識別子を追加する。識別子の好適な追加方法は、独自の属性値を各要素に追加することである。属性値の形式で追加することで、構造化文書210の構造を変化させることなく、多くの構造解析部251において識別子情報を失わない形で識別子を付与できる。また識別子は、構造木を作成せずに構造化文書を逐次解析し、要素の開始位置に属性用文字列を挿入することで特定の構造解析部に依存しない識別子を追加できる。
 検索要素指定部230は、入力された識別子付き構造化文書230を構造解析部241により解析し構造木を構築し構造木蓄積部242に蓄積し、ユーザからの指示で検索対象要素の指定を受ける。検索対象要素が指定されると、その要素に付与された識別子を取得し、検索式生成部250に識別子を入力する。
 検索式生成部250は、それぞれの構造解析部251において識別子付き構造化文書230を解析し、構造木蓄積部252に蓄積し、入力された識別子を構造木蓄積部252に蓄積された構造木から検索することで、各構造木における同一の対象要素を特定する。また、該要素の構造木蓄積部252に蓄積された構造木内での構造上の位置を示す検索式を生成し、検索式蓄積部260に蓄積する。
 次に、図2及び図3のフローチャートを参照して本実施形態の全体の動作について詳細に説明する。
 まず、検索対象を指示するための構造化文書210を読み込む(ステップS11)。次に、構造化文書210に識別子を付与し、識別子付き構造化文書230を生成する(ステップS12)。そして、構造解析部241において、識別子付き構造化文書230を解析し、構造木を作成して構造木蓄積部242に蓄積する(ステップS13)。
 続いて、構造木蓄積部242に蓄積された構造木、あるいは構造木をユーザが見やすいようにレンダリングした図をユーザに提示し、ユーザからの検索要素の指定を受け、指定された要素の識別子を検索式生成部250に入力する(ステップS14)。このとき、ユーザが指定した要素に識別子がない場合は、該要素は構造化文書210、識別子付き構造化文書230には存在せず構造解析部241が独自に追加した要素であるため、検索式を生成できない旨をユーザに知らせ、再度の指定を促すように構成してもよい。
 次いで、構造解析部251により、識別子付き構造化文書230を解析し、構造木を構築して構造木蓄積部252に蓄積する(ステップS16)。続いて、生成された構造木について入力された識別子の構造上の位置を示す検索式を生成する(ステップS17)。ステップS16からステップS17の処理を検索式生成部250に含まれるそれぞれの構造解析部251について行う(ステップS15)。
 次に、検索式の生成の詳細な手順について、XML内の要素を指定するXPath式を生成する場合を例に図4のフローチャートに示す。
 まず、入力された識別子を持つ要素を対象の構造木内から検索する(ステップS41)。続いて、該当要素について兄弟内で何番目の要素であるかを数える(ステップS42)。次いで、該当要素の要素名及び先の順番を使用して”/要素名[順番]”の記述を追加する(ステップS43)。なお、他の兄弟要素が存在しない場合、順番の記述は省略するように構成してもよい。そして、該当要素に親要素があれば(ステップS44/YES)、親要素を該当要素としてステップS42からの処理を継続する(ステップS45)。
 このようにして構築された検索式は、“/html[1]/body[1]/table[1]/tr[1]/td[1]”のように対象構造木における対象要素の構造上の位置を一意に特定する形で生成される。
 なお、ここでは、順番のみに着目した構造上の位置を示す検索式を生成する例を示したが、要素を一意に示すID属性を使用した検索式を生成するように構成してもよい。
 また、検索式指定部240は、検索式生成部と同等の機能を兼ね備えることで、構造解析部241用の検索式をさらに生成し、検索式250によって生成された検索式と併せて検索式蓄積部260に蓄積するように構成してもよい。
 上述してきた本実施形態によれば、検索要素指定部と検索式生成部で、識別子付与部において追加された共通の識別子を用いて対象要素の指定を行うようにしているため、検索要素指定部で使用される構造解析部とは異なる解釈を行う構造解析部のための検索式を生成することが可能となる。
 また、上述してきた本実施形態によれば、さらに、検索式生成部は1つ以上の構造解析部を含み、それぞれの構造解析部について構造木を生成し、対象要素の構造上の位置を指定する検索式を生成するようにしているため、複数の構造解析部用の検索式を生成することが可能となる。
[実施例]
 次に、具体的な実施例を用いて、本発明の実施に好ましい形態の動作について説明する。図5は、本実施形態の検索生成システムを用いたHTML編集ルール記述システムの構成を示した図である。本実施例のHTML編集ルール記述システム500は、検索対象を指定するためのHTML510、HTML編集機能付きProxy580、HTML編集ルール記述機能付きブラウザ570、HTML編集ルール蓄積部560を有して構成される。
 HTML編集機能付きProxy580は、識別子付与部220、検索式生成部250、を含んでなり、検索式生成部250は、上記の実施形態と同様に、構造解析部251、構造木蓄積部252を有する。
 HTML編集ルール記述機能付きブラウザ570は検索要素指定部240を含み、検索要素指定部240は、上記の実施形態と同様に、構造解析部241、構造木蓄積部242を有する。
 このように構成されたHTML編集ルール記述システム500の動作を図6のフローチャートを用いて説明する。
 まず、検索対象を指定するためのHTML510を、ユーザが指定した外部のサーバからネットワークを経由して読み込む(S91)。HTML510の詳細な例を図7に示す。次いで、識別子付与部220によってHTML510の各要素に識別子を付与し、識別子付きHTML530を生成する(S92)。生成された識別子付きHTML530を図8に示す。
 次に、識別子付きHTML530をHTML編集ルール記述機能付きブラウザ570に送信し、構造解析部241で解析し構造木をメモリによって構成される構造木蓄積部242に蓄積する(S93)。続いて、ユーザに解析されたHTMLをレンダリングして表示し、編集ルールを生成する対象である要素の指定を受ける(S94)。次いで、ユーザが指定した要素の識別子を取得し、HTML編集機能付きProxy580内の検索式生成部250に識別子を入力し、構造解析部251用(S95)の検索式を生成する(S96)。
 次に、ユーザによって入力された名前、構造解析部251用の検索式及び構造解析部241用の検索式と併せてHTML編集ルール571を作成する(S97)。HTML編集ルール571は、図9に示すように、検索式対応表573及びHTML編集コマンド572からなる。そして、ユーザによって編集ルールの記述完了が指示されるまで(ステップS98/NO)、ステップS94からステップS97までの処理を繰り返す。ユーザから編集ルールの記述完了が指示されたとき、記述されたHTML編集ルール571をHTML編集ルール蓄積部560に蓄積する(ステップS99)。
 本実施例のHTML編集ルール記述システム500において上記のように動作することにより、HTML編集機能付きProxy580は、HTML編集ルール蓄積部560に蓄積されたルールを使用することが可能となる。
 構造解析部251に他のブラウザ用の構造解析部を追加することによって、検索式対応表573に別のブラウザ用のXPathを併せて記述させるように構成してもよい。また、検索式対応表573について、使用する構造解析部251、241の種類ごとに列を持ち、構造解析部ごとのXPathを保存するように構成してもよい。また、検索式対応表573は、ユーザごとに列を持ち、ユーザごとに使用する構造解析部用のXPathを保存するような構成であってもよい。また、検索式対応表573は、対象HTMLの識別子(例えばURL)を記述する列をもち、どのHTMLにおける対応かを明記するように構成されてもよい。
 このように構成することによって、HTML編集ルール51は、HTML編集機能付きProxy580だけでなく、各種ブラウザ上で実行することも可能となる。
 本発明は、上記実施例で述べたような、ProxyにおいてHTMLをルールに従って編集するHTML編集機能付きProxy用の編集ルール記述ツールに適用できるほか、複数パーサ互換XPath式生成システムといった用途にも適用可能である。
 以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 すなわち、本実施形態における検索式生成システムで実行されるプログラムは、先に述べた各部(検索要素指定部、検索式生成部、識別子付与部等)を含むモジュール構成となっており、実際のハードウェアを用いて具体的手段を実現する。すなわち、コンピュータ(CPU)が所定の記録媒体からプログラムを読み出して実行することにより上記各手段が主記憶装置上にロードされ、検索要素指定部、検索式生成部、識別子付与部等が主記憶装置上に生成される。
 本実施形態における検索式生成システムで実行されるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードさせることにより提供されるように構成してもよい。また、上記プログラムをインターネット等のネットワーク経由で提供あるいは配布するように構成してもよい。
 また、上記プログラムは、インストール可能な形式又は実行可能な形式のファイルで、フロッピーディスク(登録商標)、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD、不揮発性のメモリカード等のコンピュータで読み取り可能な記録媒体に記録されて提供されるように構成してもよい。また、上記プログラムは、ROM等にあらかじめ組み込んで提供するように構成してもよい。
 この場合、上記記録媒体から読み出された又は通信回線を通じてロードし実行されたプログラムコード自体が前述の実施形態の機能を実現することになる。そして、そのプログラムコードを記録した記録媒体は本発明を構成する。
 この出願は、2008年6月18日に出願された日本出願特願2008-159160を基礎とする優先権を主張し、その開示を全てここに取り込む。
 200  検索式生成システム
 210  構造化文書
 220,520  識別子付与部
 230  識別子付き構造化文書
 240  検索要素指定部
 241,251  構造解析部
 242,252  構造木蓄積部
 250  検索式生成部
 260  検索式蓄積部
 500  HTML編集ルール記述システム
 510  HTML
 530  識別子付きHTML
 560  HTML編集ルール蓄積部
 570  HTML編集ルール記述機能付きブラウザ
 580  HTML編集機能付きProxy

Claims (14)

  1.  構造化文書の要素に対して構造解析に依存しない属性として識別子を追加する識別子付与手段と、
     前記識別子が付加された構造化文書を解析し、ユーザからの検索対象要素の入力を受け付け、入力された検索対象要素に追加された識別子を取得する検索要素指定手段と、
     前記識別子が付加された構造化文書を解析し、前記検索要素指定手段から前記検索対象要素に対応する識別子の入力を受け付け、入力された識別子を用いて該解析された構造から検索対象要素を検索し、該検索対象要素の構造上の位置を示す検索式を生成する検索式生成手段と、
     を有することを特徴とする検索式生成システム。
  2.  前記検索要素指定手段は、
     前記識別子付与手段により識別子が追加された構造化文書を解析し、例示用構造木を作成する例示用構造解析手段を有し、
     前記例示用構造解析手段で作成された例示用構造木をユーザに提示し、ユーザからの検索対象要素の入力を受け付けて該検索対象要素に追加された識別子を取得し、取得した識別子を前記検索式生成手段に入力することを特徴とする請求項1に記載の検索式生成システム。
  3.  前記検索式生成手段は、
     前記識別子付与手段により識別子が追加された構造化文書を解析し、検索用構造木を作成する検索用構造解析手段を有し、
     前記検索要素指定手段から前記検索対象要素に対応する識別子の入力を受け付け、前記検索用構造解析手段で作成された検索用構造木から前記入力された識別子を持つ要素を検索し、前記検索用構造木における前記検索された要素の構造上の位置を示す検索式を生成することを特徴とする請求項1又は2に記載の検索式生成システム。
  4.  前記検索式生成手段は、
     前記識別子付与手段により識別子が追加された構造化文書を独自に解析し、検索用構造木を作成する検索用構造解析手段を複数有し、
     前記それぞれの検索用構造解析手段で作成された各検索用構造木から前記入力された識別子を持つ要素を検索し、検索用構造解析手段ごとに検索用構造木における前記検索された要素の構造上の位置を示す検索式を生成することを特徴とする請求項1から3のいずれか1項に記載の検索式生成システム。
  5.  前記構造化文書はHTMLで表された文書であることを特徴とする請求項1から4のいずれか1項に記載の検索式生成システム。
  6.  前記検索式生成部は、生成した検索式を構造解析の種類ごとに対応させた検索式対応表を用いて該検索式を保存することを特徴とする請求項1から5のいずれか1項に記載の検索式生成システム。
  7.  前記検索式生成部は、生成された検索式を使用してHTML編集コマンドを生成する
    ことを特徴とする請求項1から6のいずれか1項に記載の検索式生成システム。
  8.  構造化文書の要素に対して構造解析に依存しない属性として識別子を追加する識別子付与ステップと、
     前記識別子が付加された構造化文書を解析し、ユーザからの検索対象要素の入力を受け付け、入力された検索対象要素に追加された識別子を取得する検索要素指定ステップと、
     前記識別子が付加された構造化文書を解析し、前記検索要素指定ステップによる前記検索対象要素に対応する識別子の入力を受け付け、入力された識別子を用いて該解析された構造から検索対象要素を検索し、該検索対象要素の構造上の位置を示す検索式を生成する検索式生成ステップと、
     を有することを特徴とする検索式生成方法。
  9.  前記検索要素指定ステップは、
     前記識別子付与ステップにより識別子が追加された構造化文書を解析して例示用構造木を作成する例示用構造解析ステップを有し、
     前記例示用構造解析ステップで作成された例示用構造木をユーザに提示し、ユーザからの検索対象要素の入力を受け付けて該検索対象要素に追加された識別子を取得し、取得した識別子を入力することを特徴とする請求項8に記載の検索式生成方法。
  10.  前記検索式生成ステップは、
     前記識別子付与ステップにより識別子が追加された構造化文書を解析し、検索用構造木を作成する検索用構造解析ステップを有し、
     前記検索要素指定ステップによる前記検索対象要素に対応する識別子の入力を受け付け、前記検索用構造解析ステップで作成された検索用構造木から前記入力された識別子を持つ要素を検索し、前記検索用構造木における前記検索された要素の構造上の位置を示す検索式を生成することを特徴とする請求項8又は9に記載の検索式生成方法。
  11.  記憶手段及び操作入力手段を備える検索式生成システムで用いられる検索式生成用プログラムであって、
     前記記憶手段から読み込んだ又は外部端末から取得した構造化文書の要素に対して構造解析に依存しない属性として識別子を追加して記憶手段に格納する識別子付与機能と、
     前記記憶手段から前記識別子が付加された構造化文書を読み込んで解析し、ユーザからの前記操作入力手段による検索対象要素の入力を受け付け、入力された検索対象要素に追加された識別子を取得する検索要素指定機能と、
     前記記憶手段から前記識別子が付加された構造化文書を読み込んで解析し、前記検索要素指定機能による前記検索対象要素に対応する識別子の入力を受け付け、入力された識別子を用いて該解析された構造から検索対象要素を検索し、該検索対象要素の構造上の位置を示す検索式を生成する検索式生成機能と、
     をコンピュータに実現させることを特徴とする検索式生成用プログラム。
  12.  前記検索式生成機能は、
     前記識別子付与機能により識別子が追加された構造化文書を解析し、例示用構造木を作成して前記記憶手段に格納する例示用構造解析機能を有し、
     前記例示用構造解析機能で作成された例示用構造木を前記記憶手段から読み出して画面表示し、ユーザからの前記操作入力手段による検索対象要素の入力を受け付けて該検索対象要素に追加された識別子を取得し、取得した識別子を入力することを特徴とする請求項11に記載の検索式生成用プログラム。
  13.  前記検索式生成機能は、
     前記識別子付与機能により識別子が追加された構造化文書を解析し、検索用構造木を作成して前記記憶手段に格納する検索用構造解析機能を有し、
     前記検索要素指定手段から前記検索対象要素に対応する識別子の入力を受け付け、前記検索用構造解析機能で作成された検索用構造木を前記記憶手段から読み出し、前記検索用構造木から前記入力された識別子を持つ要素を検索し、前記検索用構造木における前記検索された要素の構造上の位置を示す検索式を生成することを特徴とする請求項11又は12に記載の検索式生成用プログラム。
  14.  請求項11から13のいずれか1項に記載のプログラムを記録しコンピュータ読み取り可能なことを特徴とする記録媒体。
PCT/JP2009/061056 2008-06-18 2009-06-17 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体 WO2009154241A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010517951A JP5429165B2 (ja) 2008-06-18 2009-06-17 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
US12/996,918 US20110087698A1 (en) 2008-06-18 2009-06-17 Search expression creating system, search expression creating method, search expression creating program, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-159160 2008-06-18
JP2008159160 2008-06-18

Publications (1)

Publication Number Publication Date
WO2009154241A1 true WO2009154241A1 (ja) 2009-12-23

Family

ID=41434157

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/061056 WO2009154241A1 (ja) 2008-06-18 2009-06-17 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体

Country Status (3)

Country Link
US (1) US20110087698A1 (ja)
JP (1) JP5429165B2 (ja)
WO (1) WO2009154241A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011108618A1 (ja) * 2010-03-01 2011-09-09 日本電気株式会社 検索式更新装置、検索式更新方法
JP2013218627A (ja) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 構造化文書からの情報抽出方法、装置、及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214244B2 (en) 2008-05-30 2012-07-03 Strategyn, Inc. Commercial investment analysis
US8494894B2 (en) 2008-09-19 2013-07-23 Strategyn Holdings, Llc Universal customer based information and ontology platform for business information and innovation management
US8666977B2 (en) 2009-05-18 2014-03-04 Strategyn Holdings, Llc Needs-based mapping and processing engine

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225771A (ja) * 1993-10-30 1995-08-22 Fuji Xerox Co Ltd 検索式作成支援システム
JP2000003366A (ja) * 1998-06-11 2000-01-07 Hitachi Ltd 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JP2000057152A (ja) * 1998-08-06 2000-02-25 Fuji Xerox Co Ltd 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004234192A (ja) * 2003-01-29 2004-08-19 Mitsubishi Electric Information Systems Corp Htmlデータとxmlデータの編集システム及び編集プログラム
JP2007011774A (ja) * 2005-06-30 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 文章解析装置、文章解析方法、プログラムおよび記憶媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
US6766330B1 (en) * 1999-10-19 2004-07-20 International Business Machines Corporation Universal output constructor for XML queries universal output constructor for XML queries
JP4039484B2 (ja) * 2002-02-28 2008-01-30 インターナショナル・ビジネス・マシーンズ・コーポレーション XPath評価方法、これを用いたXML文書処理システム及びプログラム
JP4036718B2 (ja) * 2002-10-02 2008-01-23 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書検索システム、文書検索方法、文書検索を実行するためのプログラム
US7171407B2 (en) * 2002-10-03 2007-01-30 International Business Machines Corporation Method for streaming XPath processing with forward and backward axes
JP3982623B2 (ja) * 2003-03-25 2007-09-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、データベース検索システム及びプログラム
US7124147B2 (en) * 2003-04-29 2006-10-17 Hewlett-Packard Development Company, L.P. Data structures related to documents, and querying such data structures
US20060106822A1 (en) * 2004-11-17 2006-05-18 Chao-Chun Lee Web-based editing system of compound documents and method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225771A (ja) * 1993-10-30 1995-08-22 Fuji Xerox Co Ltd 検索式作成支援システム
JP2000003366A (ja) * 1998-06-11 2000-01-07 Hitachi Ltd 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JP2000057152A (ja) * 1998-08-06 2000-02-25 Fuji Xerox Co Ltd 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004234192A (ja) * 2003-01-29 2004-08-19 Mitsubishi Electric Information Systems Corp Htmlデータとxmlデータの編集システム及び編集プログラム
JP2007011774A (ja) * 2005-06-30 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 文章解析装置、文章解析方法、プログラムおよび記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011108618A1 (ja) * 2010-03-01 2011-09-09 日本電気株式会社 検索式更新装置、検索式更新方法
JP5440687B2 (ja) * 2010-03-01 2014-03-12 日本電気株式会社 検索式更新装置、検索式更新方法
JP2013218627A (ja) * 2012-04-12 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 構造化文書からの情報抽出方法、装置、及びプログラム

Also Published As

Publication number Publication date
US20110087698A1 (en) 2011-04-14
JPWO2009154241A1 (ja) 2011-12-01
JP5429165B2 (ja) 2014-02-26

Similar Documents

Publication Publication Date Title
JP5112116B2 (ja) 機械翻訳する装置、方法およびプログラム
KR101088983B1 (ko) 데이터 탐색 시스템 및 방법과, 데이터 탐색 방법을수행하는 장치
JP5121146B2 (ja) 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法
JP2003242136A (ja) 構文情報タグ付与支援システムおよび方法
JP5429165B2 (ja) 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
JP2006252381A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
KR100905744B1 (ko) 사용자 제작 문답 데이터에 기반한 회화 사전 서비스 제공방법 및 시스템
KR20050097444A (ko) 엘리먼트 서치 방법 및 장치와 그 방법을 수행하기 위한프로그램이 저장된 기록 매체
JP2008171181A (ja) 構造化データ検索装置
JP2014521159A (ja) 文書の圧縮、解凍及び照会のための方法及び装置
KR101221306B1 (ko) 데이터 구조를 항해하기 위한 방법 및 시스템
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4868733B2 (ja) 構造化文書処理装置及び構造化文書処理方法、プログラム
JP2008077285A (ja) Sql管理システムとsql管理方法およびプログラム
JP4207992B2 (ja) 構造化文書処理システム及び構造化文書処理方法
JP3785439B2 (ja) 自然言語処理装置とその自然言語処理方法、及び自然言語処理プログラム
JP2005228234A (ja) サービス情報生成方法及び実施システム並びに処理プログラム
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP2010218459A (ja) 情報処理装置、情報処理方法及びプログラム
JP2003196306A (ja) 画像検索装置及びその方法、プログラム
CN116108170A (zh) 一种基于自然语言处理的应急预案文本抽取方法及系统
JPH11328199A (ja) 動的データベース検索システム、動的データベース検索方法、および記録媒体
JP2011210193A (ja) 機械翻訳装置および機械翻訳プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09766689

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12996918

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010517951

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09766689

Country of ref document: EP

Kind code of ref document: A1