検索デスク 視点(22) 2001年7月5日

第3世代Web検索エンジンについて
   視点(22) 2001年7月5日

1. 急発展中のWeb検索エンジン

  Web検索エンジン開発の歴史はインターネットの開始から数えてもまだ6~7年しか経っていません。この間にWebコンテンツが爆発的に増加したため、検索エンジンの性能は短期間にも関わらず長足の進歩を遂げています。ここでは、その進歩の足取りをたどり、現状の検索エンジンについて理解を深めたいと思います。

  ロボット系といわれる検索エンジンは、(1)Webページを収集し、(2)それを索引化してデータベースを構築し、(3)検索要求に応じてランキングし、(4)検索結果を返します。ここでは(2)のデータベースを構築する際にWebページの内容をどのように取り込んでいるかという観点から、検索エンジンの発展過程を見ていきます。

  ここでは、以下、
2節 Web以前のデータベースはコンテンツを濃縮、
3節 第1世代はコンテンツの一部分だけを処理、
4節 第2世代はコンテンツの全部を忠実に処理、
5節 第3世代はテンツ間の関連性をもとに処理、
6節 まとめ、
について述べます。

2. Web以前のデータベースはコンテンツを濃縮

  Web開始後の検索を理解するには、開始前の検索技術の状況を理解するのがベターです。情報の流通システムとして、本・雑誌・テレビ・ラジオなどの巨大メディアがあります。コンピュータや通信技術を利用したデジタル情報の流通も普及していました。

  それはオンライン商用データベースといわれ、代表的なものに、Dialog、JOIS、日経テレコンなどがあります。いずれもテキストベースで専用回線や電話回線を使ってアクセスします。もちろん有料ですので、IDやパスワードを取得しなければならず、いわばクローズドなシステムです。検索システムは統一されてなく、データベースごとに検索コマンドは異なっていました。しかも、検索条件の設定が複雑なため検索コマンドの習得は難しく、そのため企業では専門のサーチャーを介して利用しました。

  データベースの属性として、例えば記事データベースの場合、タイトル、キーワード、抄録、発行日などがあります。タイトルは40字以内、キーワードは5個以内、抄録文は200字まで、発行日の表記法、さらに細かな項目、など各新聞社ごとに異なっていました。キーワードは自由に使えるフリーキーワードや、検索精度をよくするためにキーワードを統一するディスクリプタなどを使いました。特に、抄録の作成は困難でした。例えば論文の場合、コンテンツを読んでそれを短い抄録にしなければならず、コンテンツは濃縮されました。データベースの作成は時間とコストのかかるものでした。

  分野により属性が異なるため、データベースごとにソフトウェアが開発されました。したがって、ソフトごとに検索コマンドが異なり、利用するのは本当に使いづらいものでした。キーワード検索は主に属性のキーワードの部分を対象にし、さらに属性ごとに条件を設定して絞り込みました。数万~数百万件のデータ、しかも構造のはっきりしたデータのみを処理する検索システムで、Web検索エンジンからみれば非常にシンプルなものでした。検索システムを標準化する前にインターネット時代を迎えてしまいました。

3. 第1世代はコンテンツの一部分だけを処理

  Webが始まったのは1993年です。当初はどこにコンテンツがあるかを知るために、新着情報やディレクトリなどの検索サイトは貴重な存在でした。1995年初めに米Yahoo!の収集したデータ数は約3万、1996年初めのNTT DIRECTORYのデータ数は約5,200ということを知れば、Webがいかに急成長したか理解できます。情報量が増えるにつれて、ディレクトリをサーフする代わりにキーワードを入力して検索するサービスも提供されました。サイト単位に情報を整理するディレクトリと異なり、ページを収集するロボットといわれるアルゴリズムが公開され、それを使ったロボット型検索サービスが始まりました。

  Webコンテンツはオンライン商用データベースのコンテンツとは似ても似つかないものでした。まず、属性はあるようで全然ないのも同然でした。HTML文はテキスト、画像、音楽、それにレイアウトを示すタグが混在しています。そしてコンテンツは玉石混交で分野の垣根もなく、ページの構成もバラバラでした。これらを処理するにはソフトが必要で、従来のデータベース処理システムを転用したところ、新たに開発したところなど、参入ベースはさまざまでした。いずれにしても従来とは異質で多量なデータを処理しなければならなくなりました。

  Webデータベースが商用データベースと異なる点は入力コストと更新です。Webでは全文がデジタルで得られ、しかも商用に較べればコストはゼロです。次に更新ですが、従来はデータを蓄積し、新しいものよりも古いものに価値があったのですが、Webの世界は逆にデータを更新し、古いものよりも新しいものに価値があります。データベースやホームページを作成するには常識と反対の考え方が必要でした。

  最初の頃はコンテンツの一部分だけしか処理できませんでした。例えば、(1)画面に表示されるテキスト部分だけでタグを処理しない、(2)タグのリンク情報を重点的に処理する、(3)研究段階であった全文の索引化手法がいろいろテストされた、などなどです。このコンテンツの一部しか処理しないものを第1世代検索エンジンとみなします。検索機能の標準はなく、暗黙の空白をOR検索したりもしました。これはデータ数が少ないときにヒット数を多くしようとしたときの名残りです。新しいWebの世界を把握できず、実社会に影響された参入者は敗退していきました。

4. 第2世代はコンテンツの全部を忠実に処理

  1995年12月にAltaVistaは新しい検索エンジンを発表しました。それはタグを含めて収集したページ内容をすべてデータベース化しました。翌1996年5月に開始したInktomi系のHotBot、8月に開始したInfoseekのUltraseekはこの第2世代に属します。英語の場合、単語の区切りがあるため、全文索引化は日本語よりも容易です。

  日本語の場合は単語の区切りが難しいため、日本語全文検索システムの開発は困難を極めました。1997年3月末に、HotBotと提携したgooは第2世代検索エンジンによる検索サービスを始めました。1997年の検索力調査には、gooは従来のものに較べてデータ数10倍の検索エンジンを投入しました。それから3ヶ月以内にInfoseekとInfoNavigatorがデータ数を4倍にしたというドラマティックなことが記録に残っています。

  goo以降の第2世代検索エンジンとして、1997年5月にInfoseek、翌1998年4月に日本語AltaVista、2000年8月に日本語Fast Searchなどがあります。逆リンク情報は非常に貴重な情報源です。第2世代は全文検索ができて、かつタグを処理して得られる逆リンクの検索ができるかどうかで判断します。したがって、優れた形態素解析を開発して日本語全文検索していても逆リンク情報を提供しないところは第1世代とみなします。なお、検索デスクは1997年からリンク検索ができるようにしています。

  第2世代のデータベースの構成単位はこまぎれにしたページでした。ページにはトップページ、サイトマップ、主要コンテンツ、ヘルプなどいろいろな性格のページがあります。ページを隅から隅まで丹念にデータベース化しても、それがデータベースの中に入ると埋没してしまいます。データが増えすぎて検索結果が冗長になったためロボット系は使いにくいといわれるようになりました。

  そこでディレクトリを作成してロボット系とディレクトリ系の2種類のデータベースを運用したりなど、いろいろ努力を重ねています。1999年4月にフレッシュアイが始めた「ずばリンク」、その後、ぴったりgoo、ジャストシーク、公式サイト、ダイレクトリンク、などは、ページ検索とサイト検索の融合を図ったものです。しかし、一部のサイトしかあつかわず、しかも人手によるのであれば、更新が大変なことになります。

5. 第3世代はコンテンツ間の関連性をもとに処理

  1999年10月にGoogleがリンク情報を利用した検索システムを登場させ、日本語Googleは2000年9月から本格サービスを始めています。この特徴は検索結果のランキングが優れていることです。それにポータル化を進めている他の検索サイトが盛沢山な情報を画面いっぱいに表示するのに較べて、検索に特化した結果をシンプルなデザインで表示しています。最近、日本語Googleは新しい形態素解析を導入し全文検索を強化しています。

  新しい技術を取り入れたサービスが登場すると、他の検索サイトは3~6ヶ月でそれに対応します。gooは昨年10月ごろから頻繁にシステムの更新を繰り返して第3世代検索エンジンを開発し、総合的にみてGoogleよりもよい結果を得ています。7月1日の関連検索の調査では、1位 goo 100、2位 ODiN 89、3位 Google 83、4位 kensaku 73、となり、ODiNはGoogleよりもよい結果になっています。特に、kensakuは5月7日の0から7月1日の73へと、検索システムは1ヶ月半で大きく向上しました。

  第3世代のデータベースはばらばらのページという概念から離れ、ページを連結したり、ページに関連した情報を取り込んだり、ページ間の関連性を定義するものになります。何を追加するかが問題ですが、人手で追加するのは不可能で、自動的に付加できるのが一番望ましいです。単純な方法としては階層下部のページを連結することです。また、Googleのようにリンク情報を利用してページ間の関係を利用するのも一つの方法です。

  第3世代の検索エンジンによる検索は、ランキング表示が改善されることと、それに付随して重点的なデータ収集が可能になること、です。現在、Googleはリンクを使ってランキングをしています。goo、ODiN、Nexearchなどもリンク情報を使い始めました。第2世代ではリンクを単に表示していただけですが、第3世代ではリンクを検索に利用するようになりました。ここで困ったことに直面しました。それは第3世代検索エンジンを識別するものが見つからないということです。

  第3世代検索エンジンの検索は、従来のものとは幾分異なった現象が現れます。関連情報も一緒に検索するため、従来のキーワード検索のルールは適応しなくなります。まず、検索したページのなかに検索キーワードが存在しない場合もでてきます。それからラフなキーワードを使っても、同義語をある程度カバーするようになります。そして、検索結果は多くなり、AND検索はあいまいになるなど、検索の常識を書き換えなければなりません

6. まとめ

  日本語検索エンジンの開発が始まってから6年しか経っていないのに、検索技術は大きく進歩しました。今回、その発展の過程を私なりにまとめました。いかがでしたでしょうか。第3世代検索エンジンの開発はまだ試行錯誤の段階であり、今後の展開が楽しみです。HTML文の中にあるハイパーリンクにヒントがあり、それを使った検索エンジンが続々開発されることを願っています。今後も検索力調査を続け、第3世代検索エンジンの動きをウォッチしていきたいと思います。