検索デスク 視点(13) 1997年3月7日

gooグー:本格的な日本語検索サービスの登場
   視点(13) 1997年3月7日

1.日本語サーチエンジン「goo」の登場

  96年10月15日にNTTアド、NTT、INKTOMIの3社が提携し、日本語の検索サービスを始めるとのニュースが流れました。INKTOMEのHOTBOTとNTTとの検索技術力を高く評価していたため、それらが提携して日本語の検索サービスを始めるということで非常に期待していました。一時、サービス開始が予定より遅れるような情報が流れましたが、3月6日に、3月27日より正式に運用開始すると報道されました。ここでは、新サービス「goo」についての概要が分かりましたのでコメントしたいと思います。

2.第2世代のサーチエンジン

  米国では95年末にAltaVistaのサービスが始まりましたが、そのデータ収集力、検索技術など、従来のサーチエンジンに比べて格段の差をもたらしました。その後、このクラスに匹敵するサーチエンジンとして、96年6月にHotBot、96年8月にUltraseekが登場しています。

  一方の日本ではまだ検索が開始されたところであり、従来型のデータベース検索の延長的なものが多く、Web情報の特質を捉えた本格的なサーチエンジンは皆無でした。しかし、この3月末から、新しいサーチエンジン、と言っても、海外のHotBotやAltaVistaなどを利用している人にはおなじみのものが日本語版で利用できるようになります。

3.日本語データは350万件

  サーチエンジンの性能がデータ量に依存しないことを明確にするために検索デスクでは検索力を提案しています。ここで注目すべきことは、gooのデータ数が350万件ということです。2月中旬に検索関連の文章を書きましたが(5月末発行)、その中で、現在の日本語のWeb情報を500万件と推定しました。その線に近い数値が現実に出現したことにほっとしています。

  しかし、日本の多くの検索サービスのデータ収集件数は30~50万で、網羅性の観点からも大変危惧していました。というのは、検索調査で登録系とあまり違わない検索数が得られたり、海外のロボット系のHotBotとディレクトリーのYahoo!では検索力で約250倍の差がついているなどからです。とにかくgooは網羅性の観点から最大のデータベースとみなせます。

4.現在の日本のWeb情報を500万と推定

  HotBotが5,400万件収集したと公表したのは96年7月末です。それから7ヶ月以上経った現在も収集数は5,400万件です。これは何を意味しているのでしょうか。おそらくコンピュータ処理能力が限界に達しているからです。この7ヶ月間、Web情報が増加してないとは誰も思わないでしょう。

  少なく見積もっても、7ヶ月間で2倍以上、すなわち世界のWeb情報は1億件以上と推定できます。その中で日本語の情報を5%とすれば500万件以上と推定できます。それから3,000万件収集しているAltaVistaにある日本の情報は昨年末に50%増加して約170万件入っています。これを3倍しても500万以上の数値が得られます。

5.データの新鮮さ

  gooで使用するロボットは1日200万URLのデータを処理可能とのことです。理想的には毎日全部のデータを総入れ替えすれば速報性と新鮮さが保てますが、350万件のデータに対して200万件ですから2日で見てまわる能力があります。この点からgooの速報性は高いとみなせます。

  なお、海外の主要な検索サービスのデータ数の増加は止まっていますが、手持ちのデータは毎日最新版に更新しています。登録系の更新は早く、ロボット系の更新は遅いと言われてきましたが、今後は登録系は毎日更新、ロボット系は毎時更新と逆転します。データの速報性に関しては海外と同様になるわけですから、いっそう利用価値は高くなります。

6.検索技術

  データ数が多くなると、検索手法も高度なものが必要になります。第1世代のサーチエンジンは2~3語のAND検索かOR検索をしていたのですが、第2世代では検索式が利用できるようになります。AND/OR/NOT検索に加えて、フレーズ、( )、*などが利用できます。gooはHotBotをベースにNTT DIRECTORYが使用しているInfoBee検索技術を取り入れています。

  報道記事から推測する以外ないのですが、Internet WatchのWWW版に入力画面が掲載されています。HotBotと同様に、文章や人名検索、期間限定、地域選択、メディア選択などでき、バラエティな検索ができるとのことです。これらをフルに活用すれば検索は楽しくなります。

7.NTT DIRECTORYはどうなるの

  NTT DIRECTORYはどうなるのとのメールをいただきましたが、ロボット系と登録系とはデータベースの質と役割が異なります。登録系として優秀なNTT DIRECTORYはもっと伸ばすべきものと思います。米国の場合、ロボット系で出発したところは、登録系がないために苦労しています。

  この点、gooはNTT DIRECTORYとタイアップすれば両者にとって相乗効果がでます。そうなれば、NTT DIRECTORYが次世代の登録系データベースを提供してくれるものと期待できます。それよりもTITANの方がどうなるのか心配です。

8.他の検索サービスへの影響

  登録系のYahoo! JAPANは1年もたたないうちに上位に進出しています。これと同様なことがロボット系の世界でおこり、年末までにはロボット系のトップになることが予想されます。

  データ量で5~10倍の差があり、索引化でも数倍の差がありますので、他に第2世代のサービスが出現しなければ独走状態になります。現在の日本の検索が登録系に偏っているのが是正されますので、登録系サービスにも影響します。

9.むすび

  日本語のシェアと成長率から、2年後の日本のデータ数は現在の世界のデータ数と同じとみなせます。これから、日本語のWeb情報が1億件に達するのは98年末とみなせます。網羅性の観点からも、gooは1億件処理可能な検索サービスとしてクローズアップしてきました。gooにはNTTアドというマーケティング会社がついています。その広告活動も始まったようです。

  検索が無料でできるのは検索技術と広告活動に支えられていますので、陰ながら応援したいと思います。いずれにしても、競争を通してユーザーに親しみやすい検索サービスに発展していくわけですから、goo以外にも第2世代のサーチエンジンが出現することを望みます。
新URL: