検索デスク 視点(7) 1996年7月19日

5,000万クラス一番乗り Exciteの実力
   視点(7) 1996年7月19日

1. Excite:静かなスタート

  1週間前の8日に、15日に新しい検索サービスを開始するとExcite社から事前にアナウンスがあったためか、15~16日にExciteの検索に関するニュースは流されず、静かなスタートになりました。日本では16日昼頃からアクセスできるようになりました。今までExciteだけが検索結果の総数表示がないためランクできず、当検索調査では末席に置かれていましたが、今回からは検索総数が表示されるようになりました。Thanks。

2. 検索数調査

  早速,検索調査を行いました。AltaVista を目標にしているということで,収集文書数は5,000万件と公表されており、5,000万クラスへの一番乗りになります。HotBotの時と同じキーワードを使って実力を調べました。Exciteと相前後してLycosも5,500万へアップしましたのでLycosの場合も調べました。ついでに、7月5日頃に更新したAltaVistaを調べました。さらに、HotBotも調べましたが、以前の結果と同じであり、5月21日以降は更新されてないことが分かりました。結果を示しますと、

KeywordExciteLycosHotBotAltaVista
biology554,86869,638353,817285,842
hardware1,243,169134,642811,434612,307
healthcare118,66118,97572,22164,872
holiday364,05244,494216,577173,228
literature772,83383,982498,698375,330
market1,732,760144,1281,096,022956,911
movie701,37982,142443,130324,762
museum577,557103,368405,918325,902
outdoor274,98136,396179,109148,186
photography293,28844,183190,827152,187
technology3,303,985346,2532,123,1821,672,167
average903,41297,109580,994462,881

3. Excite:HotBot:AltaVista=8:5:4

  すべてのキーワードで Excite の検索数はHotBotより多く,平均して55%多いことが分かりました。HotBot の総ページ数は 3,800万頁,AltaVistaは3,000万頁ですので、HotBotとAltaVistaの検索数の比は大体同じになります。HotBotやAltaVistaから逆算したExciteの総数は約5,900万頁になります。公表数値が5,000万ですから、約18%多いことになります。この数字がいわゆる概念検索(Concept Search)によってもたらされたものと考えられます。

  なお、調査で気づいた点が二つありました。
1)Exciteの概念検索とキーワード検索の2種類の検索で検索数と検索結果は同じでした。まだ、キーワード検索は機能していないのかも知れません(17日朝)。
2)AltaVistaは7月5日の更新で以前よりも検索数が6%減少しました。更新で、新しいのを追加しているのは確かですので、重複頁を取り除いたのかも知れません。

4. AND/OR検索は合格

  AND/OR検索結果をテーブルに示しましたが、market+markets=AND検索+OR検索 の式が成り立ちますので、合格です。それにしても、100万近くのAND/OR検索が即座に得られるという驚くべき世界が出現しています。

KeywordExciteHotBotAltaVista
market1,732,7601,096,022956,911
markets572,476353,533311,112
AND検索320,655197,690172,696
OR検索1,984,5811,251,8651,095,327

5. Exciteについて

  検索画面には赤色のイメージで

  50 million web pages + intelligent concept extraction
= the biggest, most accurate web search(7/17)
= twice as powerful as AltaVista(7/19)

  と記述され、AltaVistaより2倍強力と宣伝しています。従来の Excite NetSearch から Excite Search に名称変更がなされました。検索画面の左上の黒い背景のExciteの部分をクリックするとExciteの内容を解説したページが表れます。

  その副題は Now the Biggest and Most Accurate Search Engine となっており、Size、Accuracy、Speed、Featuresの4項目について、他のサービスと比較しながら説明しています。Lycosのときもそうでしたが、ボランティア時代の互いに協調しあうのを払拭し、競争が全面にでてきました。

  データベースは4種類、the Web/Reviews/Usenet/Classifieds があります。Web情報は5,000万頁、Reviewsは6万頁(Magellanのを加えると10万頁)、1週間お休み中のNetnewsなどです。ページの最後のところから行けるCompetetive Matrixは各サーチエンジンの比較表ですので参考にして下さい。

6. 索引の作成は本文だけでHTMLを含まない

  ということが判明しました。本文はブラウザで見える部分をさします。HTMLはタグに囲まれた部分で、本文同様に有用な情報が含まれています。AltaVistaもHotBotもいずれもHTMLを含めた全文を索引化していますので、検索オプションも豊富です。

  新しいExciteはHTMLを処理するものと思っていましたが、少しがっかりしました。マシン性能を拡張し、処理ソフトの改善で、大規模なデータを扱えるようにしただけで、単にAND/OR位しか扱えないのは残念です。しかし、検索数はナンバーワンですので、それが唯一の救いです。

7. 類似文書検索はどこへ?

  以前のバージョンにあったのですが、今回からはなくなりました。あまり使われなかったためか、処理が重いので外されたのか、今回の発表に間に合わなかったのかわかりません。次々に誕生するビギナーにとっては単純な検索で十分ですが、オプションとして残しておいて欲しかった機能です。

8. データベースの能力を測るには

  データベースの大きさとして収集したURLの総数が使われますが、当検索調査からも分かるように、URL総数と実際に検索する数とは比例していません。その理由は索引化が異なるからです。Exciteのサーチエンジン比較表の第1行に各検索サービスのデータベースにあるURL数という項目があります。そこの数字は、実際に集めた総数ではなく、Exciteが収集した5,000万と比較した数値で、effective database sizeと記述されています。これは当検索デスクが以前から行っている検索数に類似のものです。単純な方法ですがデータベースの能力を測る手段として着目されてきたようです。

9. 検索数との比較

  比較表の数値と検索数との比較を試みました。Exciteの50(百万)に調整しました。この表の並べ方からも、Exciteが目標としていたのは、HTMLをあつかうAltaVistaやHotBotではなく、本文をあつかうLycosやInfoseekであることがわかります。そして、機能面で優れたものをもつ OpenText が除外されています。

  Exciteの概念検索はOR検索が入るため検索数は大きくなります。従って、検索デスクの調査のExcite以外を2割位アップしたのが妥当な数値と思われます。なお、この1週間ほどの間に、LycosはURL数5,500万に更新し、Opentextも更新しています。

MethodExciteLycosInfoseekOpen TextAlta VistaHotBotYahoo!
Exciteの記述5064-20300.2
検索デスクの調査50.05.12.42.525.632.20.03

10. 今後の動向について

  ロボット系の検索サービスは索引化の際に処理する内容により、
(1) HTMLと本文を単語単位に処理する AltaVista、HotBot
(2) 本文を単語単位に処理する Excite、OpenText、WebCrawler
(3) 本文を単語群単位に処理する Lycos、Infoseek、Magellan

  の3種類に分けて使い分けることが必要のようです。数週間延期になったUltraseekはどちらのカテゴリーに入るか分かりませんが、やはりHTMLまで処理するのがもっと も~と出てくるのを期待します。私としては(1)のAltaVistaやHotBotを徹底的に使いこなすことをお勧めします。それにしても、日本の検索サービスはどうなっているのでしょうか。心配ですね。