検索デスク > アーカイブ > 調査 2007-2003年

2007年

中国産の新検索エンジン「百度 2007/03/26

  1. 検索エンジンの評価データ

2007.3.26GooglemooterYahoo!BaiduAsk.jpLiveMarsFlagSagool
検索結果95.2100.089.186.876.475.350.833.7
検索数100.054.192.957.375.737.720.0 8.0
総合評価100.094.493.484.179.370.446.429.7

  2. 検索結果の評価
評価は上記の表に示しました。検索結果の評価は、AクラスがmooterとGoogle、BクラスがYahoo!とBaidu、CクラスがAsk.jpとLive、DクラスがMarsFlagとSagoolとみなせます。

  前回に続き、mooterがGoogleを抑えてトップです。新設のBaiduは後発にもかかわらず、4位です。データ収集時のトラブルで、満足なデータを得ていないようです。トラブルが解決し、データ量が増えたときに結果がよくなるかどうかはわかりません。

  なお、今回からfreshEYEを評価対象から外しました。前回の調査では、mooterとfreshEYEとの相関係数が0.92でしたが、今回の調査時では0.96と非常に高くなったからです。50調査キーのうち、10位まで一致するのが9キー、順位が少し入れ替わるのが19キーでした。現在の評価システムではfreshEYEを対象外にせざるを得ませんでした。悪しからずご了承ください。

  Yahoo!、mooter、freshEYEはいずれも検索エンジンinktomiから発展したものです。そこで、Yahoo!とmooterとの相関係数を求めたところ0.77となり、あまり相関がないことが分かりました。そして、多くのケースで順位は異なっていました。したがって、mooterとYahoo!は別物と判定しました。

  3. 検索数について
検索数は毎週収集し、「データ」に公表しています。新たにBaiduを調査対象にしました。Baiduの検索数は非常に多く、まだ未知の部分があるため、Web全体からの検索数としました。

  4. 総合評価について
総合評価は、検索結果評価 対 検索数の比率を4対1にし、トップを100に指数化しました。この結果、1位 Google、2位 mooter、3位 Yahoo!、4位 Baidu、5位 Ask.jp、6位 Live、7位 MarsFlag、8位 Sagool、になりました。

  5. 検索エンジン間の関係
前回と同様に、検索エンジン間の相関を求めました。表は、Googleの検索結果に近いのは、mooter、live、Yahoo!、を示します。代替検索エンジンとして利用できます。

No. 検索サイト 1 2 3 No. 検索サイト 1 2 3
1 Google mooter live Yahoo! 5 Ask.jp mooter Baidu live
2 mooter live Google Yahoo! 6 Live mooter Google Yahoo!
3 Yahoo! mooter Google Live 7 MarsFlag mooter Live Yahoo!
4 Baidu Ask.jp Google Live 8 Sagool Baidu Google Live

  検索エンジン間で相関の高いのは、mooterとlive間の0.83、Googleとmooter間の0.81、mooterとYahoo!間の0.77、でした。

  6. 調査キーと総合評価との関係
各調査キーと総合評価との相関を求め、相関の高い順に並べ替えました。その結果、相関が高いのは「コミック、科学、ニュース、ゲーム、郵便」、逆に相関が低いのは、「芸能、スポーツ、思い出、cancer、再就職」でした。

日本語検索エンジンmooterが健闘しています 2007/02/28

  1. 検索エンジンの評価データ

2007.2.28GooglemooterfreshEYEYahoo!Ask.jpLiveMarsFlagSagool
検索結果90.4100.090.487.270.971.548.845.3
検索数100.048.161.770.261.231.120.0 8.1
総合評価100.097.493.590.978.370.755.343.1

  2. 検索結果の評価
評価は従来の方法で実施しました。50種類の調査キーに対して、各検索エンジンの10位までの検索結果をベースにしました。その際に、検索結果のレイアウトや紹介文の良し悪しは考慮していません。検索評価の結果は、1位のmooter、2位のGoogleとfreshEYE、4位のYahoo!がトップクラスとみなせます。昨年オープンしたmooterがGoogleを抑えてトップになりました。mooterの規模はGoogleとは異なりますが、Googleに対抗できる検索エンジンの登場とみなせます。今後の進展に注目したいと思います。

  次に、5位のLiveと6位のAsk.jpはミドルクラスで、それから間をおいて、7位のMarsFlag、8位のSagoolが続きます。新しいLive Searchは、Web検索のノウハウを蓄積している段階とみなせます。

  3. 検索数について
検索数は毎週収集し、「データ」に公表しています。調査日時がGoogleの更新と重なるためか、Googleの検索数が大きく変化します。トップのため、他の検索サイトの検索数の指数に影響し、変化がなくても指数が変化してしまいます。

  4. 総合評価について
総合評価は、検索結果評価 対 検索数の比率を4対1にし、トップを100に指数化しました。この結果、1位 Google、2位 mooter、3位 freshEYE、4位 Yahoo!、5位 Ask.jp、6位 Live、7位 MarsFlag、8位 Sagool、になりました。

  なお、検索デスクの「ホーム」と「検索」のWeb検索の配置はこの順に変更しました。

  5. 検索エンジン間の関係
検索する場合、1つの検索エンジンしか使わない人、複数の検索エンジンを使う人などさまざまです。ここでは、検索エンジン間の相関を求めました。表は、Googleの検索結果に近いのは、mooter、Yahoo!、freshEYE、を示します。代替検索エンジンとして利用できます。

No.検索サイト123No.検索サイト123
1GooglemooterYahoo!freshEYE5Ask.jpfreshEYEYahoo!MarsFlag
2mooterfreshEYEGoogleYahoo!6LivemooterYahoo!Google
3freshEYEmooterGoogleLive7MarsFlagAsk.jpLivemooter
4Yahoo!mooterGoogleLive8SagoolYahoo!LiveGoogle

  検索エンジン間で相関の高いのは、mooterとfreshEYEの0.92、Googleとmooterの0.89、mooterとYahoo!の0.88、でした。

  6. 調査キーと総合評価との関係
各調査キーと総合評価との相関を求め、相関の高い順に並べ替えました。その結果、相関が高いのは「釣り、コミック、科学、辞書、ファッション」、逆に相関が低いのは、「芸能、電子政府、スポーツ、2005年、Window」でした。

2005年

2004年のWeb検索は新旧交代の年 2005/01/10


★ 日本語検索エンジンの検索結果評価
2005.1.5GoogleNaverYahooAskInfoseekMSN
指 数100.087.981.876.564.561.7
増減----+20.2-4.9+3.8+5.6+4.6

  久しぶりに検索評価を実施しました。2004年に新規にオープンした検索エンジンは、6月1日にYahoo、8月20日にAsk.jp、10月1日にMSN-β、一方、クローズしたのは、AltaVista、Alltheweb、AAA!Cafe、です。日本語のロボット系検索サイトにとって、2004年は新旧交代の年でした。

  1. Google
定量的な検索結果のランキング評価において、2004年のGoogleは年間トップの座を占めました。一部のSEOやブログがGoogleのリンクシステムに悪影響を与えましたが、それらを克服し、最近は多様な検索の場を提供しています。他の検索サイトがリンクベースかそれ以上の検索システムを開発しない限りトップを維持するものと思われます。今後、データベースの切り口次第で何がでてくるのか楽しみです。

  2. Naver
最新の調査で、Naverは2位でした。検索数調査で、8月27日、10月22日、12月3日に10%から30%増加しています。その間に検索システムの変更があったようです。知識検索やLive!キーワードなど、話題が多いですが、時々URLに冗長がみられ、他に較べて更新が遅いように感じられます。

  3. Yahoo!
検索サービスを独自の検索エンジンに切り替えたYahooですが、ベースはInktomiのようです。YahooはAltaVistaやAllthewebも買収してますので、それらの検索システムの良いところを組み合わせた統合システム作りは難しかったようです。多言語データベースをUTF-8に統一したため、時間的な余裕がなかったのかも知れません。鳴り物入りでオープンした割には、ランキング結果はよくなく、少しがっかりしています。データ数が多いのと更新が早いことで少しは評価できます。

  4. Ask.jp
米Teomaを買収したAsk.comの日本語版のAsk.jpが8月20日にオープンしました。検索結果のResults以外に、RefineやResourcesを表示するのが評価されています。RefineやResourcesがアルゴリズムによって得るのか、それとも人為的に得るのか、によって評価は分かれます。

  5. Infoseek
メインの検索はGoogleですが、ユーザーの多いInfoseek独自の検索システムは維持管理され、検索できます。検索数調査では、以前と同様、毎週更新され、微増しています。新しい分野のブログ関連の情報が少ないようですが、収集分野を絞り込んでいるのかも知れません。

  6. MSN
10月に、MSNが検索エンジンの世界に参入してきました。まだ、ベータ版ということで、検索結果の評価も表のような状況です。従来、提携で検索サービスしてきましたが、これから検索技術のノウハウを蓄積しなければならず、時間がかかりそうです。

  YahooやMSNが独自の検索エンジンを開発するとのこと、実力からして大いに期待していました。しかし、検索結果評価は思わしくなく、期待外れでした。それが原因ではないのですが、検索力調査レポートを半年以上も休み、大変ご迷惑をおかけしました。リンクがポイントと言われて久しいですが、YahooもMSNもまだ糸口を見つけてないようです。開発力がありますので、時が解決するものと再期待しています。

  検索エンジンは、Google、Yahoo、そしてMSNに集約されると言われています。しかし、YahooにしてもMSNにしても、潜在的にユーザーが多く、検索を利用する人は必然的に多くなります。利用者数イコール検索システムの優秀さという錯覚に陥らないようにしたいものです。
★ 表:日本語検索エンジンの検索数

2005
.1.7
日本語 Web全体
googlemsnnaveraskseek googleyahoofreshmsn
指 数100.083.261.636.520.7 100.066.028.024.9
増 減+1.9-4.3--------+0.2 +0.7+2.5+2.6-3.7

  2004年の1年間を通して調査したのは、Google(143%増*)、Naver(44%増)、Fresheye(43%増)、Infoseek(25%増)、でした。年度途中で退場したのは、goo、AltaVista、Alltheweb、AAA!Cafe、一方、新規に登場したのは、Yahoo、Ask.jp、MSN-β、でした。

  多言語検索システムを開発している関係で、検索結果の表示が、「日本語のみ」、「全言語」、から選択できます。日本語には漢字や英文も含まれますので、「全言語」にすると中国語や英語が含まれ、検索結果が冗長になります。「全言語」しか検索できないところ、両方あっても「全言語」がデフォルトになっているところがあります。後者のデフォルトは「日本語のみ」にしてもらいたいものです。なお、検索デスクは「日本語のみ」にセットしています。
*カッコ内の増加率は、2004年12月平均を2004年1月平均で割った数値です。
★ 表:海外検索エンジンの検索数

2004
.12.31
MSNYahooGoogleTeomaa9WiseNut
指 数100.082.061.056.234.09.1
増 減+3.6+0.1+7.0+0.3-5.0----

  2004年の検索数調査で、Google(168%増*)、Teoma(116%増)、Yahoo(106%増)、WiseNut(65%減)、とWiseNutを除いて、倍以上に増加しています。途中で退場したのは、Lycos、AltaVista、HotBot、Alltheweb、一方、新規は、MSNとa9でした。

2004年

Yahoo! 2004/06/02


★ 検索エンジンの動向

  5月31日にYahoo! Japanが独自の検索エンジンを採用しました。したがって、検索数や検索結果評価に新たにYahooの調査を追加しました。

  まず、検索数調査でYahooは今までトップのfreshEYEに比べて約1.7倍の結果を示しました。米Yahooの検索数も他に比べて多く、検索数ではトップを維持しています。検索数調査の結果は、1位 Yahoo 100.0、2位 freshEYE 59.2、3位 Google 56.3、と下部の表のようになりました。

  Yahooのデータ数は公表されてませんが、Webの場合、情報量の異なる分野から収集するため、データ数自体あまり意味がなくなりつつあります。その点、検索数調査は有力ですが、検索サイトにおける検索数のカウント方法が異なるため、同じ次元で比較するのも難しくなっています。

  次に検索結果の評価を行いました。新たにYahooのデータを追加し、他の検索サイトのデータは前のものを使いました。YahooとfreshEYEの検索結果は類似しているため、一緒に評価すると互いに有利になるため、評価基準の作成の際にはfreshEYEを外しました。そのため、freshEYEの評価は少し不利になっています。

  検索評価は、1位 Google 100.0、2位 Yahoo 87.7、3位 freshEYE 69.7、と下部の表のような結果が得られました。新しく提供されたYahooのページ検索がどれ位の性能を持つのか、誰にもわかりません。検索をよく利用する人の主観的な評価はどうなるのか知りたいのですが、ランキングだけでない要因がありますのでなかなか解決しません。

  YahooはAltaVista、Inktomi、Allthewebを買収しています。AltaVistaやAllthewebは多言語データベースを構築し、日本語コード問題を解決し、運用していました。InktomiはHotBotやgooを運用していましたが、日本語だけ別扱いのように感じました。

  Yahooは先に英語の方を提供しましたが、その多言語データベースの日本語はまだ未提供です。日本語に設定して検索すると、一部の日本語文字列で検索できませんでした。これは米Yahooだけでなく、Allthewebでも同様な結果が示されるようになり、AltaVistaにいたっては日本語コードを受け付けなくなってしまいました。データベースをUnicodeに統一したためでいずれは解決するものと思っています。

  しかし、今回の日本語検索サービスは米Yahooのとは異なってるようです。そのベースはAltaVista?、Inktomi?、Alltheweb?、のどれかです。Inktomiは、現在、freshEYEとMSNで運用しており、両者の検索結果は同じです。今回のYahooはそれらとは若干異なっていますが、紹介文の作成方法は同じです。ランキング方法の変更、データの増量、収集分野や時期の相違、などで結果は異なってきます。昨年秋までgooはInktomiを採用していましたが、今回のYahooは以前のgooのリバイバルなのかも知れません。

  Googleには「Web全体から検索」と「日本語のページを検索」の検索オプションがあります。freshEYEは前者の「Web全体からの検索」だけしか検索できないですが、今回のYahooも同様に「Web全体からの検索」だけです。英語や中国語で使われるキー(例えば、vrml、文学、生物、など)で検索すると日本語だけの検索に比べて検索数は多くなる傾向があります。

  リンクをベースにしたGoogleの検索はサイトとページの垣根を除くような検索をします。検索数が数十万以上の検索は本来ディレクトリーのサイト検索がカバーする領域です。ページ検索は検索数が1万に満たないような検索で本領をはっきするものと思っています。検索サイトがすべてのコンテンツを収集できない現状を考えると、できるだけ多くの異種の検索サイトが存在し、アクセスできることは意義のあることです。
★ 表:内外検索エンジンの検索力(2004.06.01)

No日 本検索力検索評価検索数.No海 外検索数
1Google 100.0100.0 56.3.1Yahoo! 100.0
2Yahoo 98.8 87.7100.0.2Teoma 55.0
3Fresheye 74.1 69.7 59.2.3Google 30.0
4Naver 65.7 64.7 41.0.4Alltheweb 21.4
5Infoseek 59.6 62.6 21.7.5WiseNut 19.5
6AAA!Cafe 58.5 60.8 23.9.-------

★ 表:日本語検索エンジンの検索結果評価
4~6月GoogleYahooFresheyeNaverInfoseekCafe
2004
.06.01
100.087.7*69.764.762.660.8
増減---------7.2+1.0+2.2+2.4

★ 表:日本語検索エンジンの検索数増減
4~6月Yahoofresheyegooglenavercafeseek
検索数100.059.256.341.023.921.7
増 減====-2.1-1.7------------
2004
.05.31
43,06222,39822,36714,5008,6077,569

★ 表:海外検索エンジンの検索数増減
4~6月YahooTeomaGoogleallthewebWiseNut
検索力100.055.030.021.419.5
増 減-2.4----+10.8-0.8+5.1
2004
.05.28
666,870380,059150,064142,483137,315

Amazonの検索エンジンa9、GoogleのIPO 2004/05/08

  検索数調査は毎週実施しています。4月9日から1ヶ月間の増減は、Google 9%増、NAVER 7%増、FreshEYE 6%増、infoseek 微増、そしてAAA!CAFE 変わらず、です。大きな増減はないものの、情報は着実に増加しています。なお、Yahoo!とAllthewebの日本語検索数は少し増加していますが、前回と同様、一部の検索キーの検索数はきわめて少なくなります。

  海外の検索数調査は、この1ヶ月間で、Teoma 37.2%増、Google 3.0%増、WiseNut 2.1%増、Yahoo 0.8%増、Alltheweb 0.7%増、です。日本語と同様に、情報は増加しています。何も変化していないように見えますが、1ヶ月も経つと変化は感じられます。

  3月末に多くの検索サイトがリニューアルをしました。それが一段落した4月9日に検索評価を実施しました。再評価したのは、Google、FreshEYE、NAVER、です。NAVERの評価は41.4増加しました。これは3月初めに評価が悪くなったのが、元に戻ったものです。評価順は、1位 Google、2位 FreshEYE、3位 NAVER、4位 infoseek、5位 AAA!CAFE、です。一位と2位以下との差が開きました。これはGoogleのランキングがよくなったからと思われます。

  書籍販売のアマゾンは検索エンジンa9のベータ版を公開しました。検索数は35.5でGoogleよりも多く、3位です。英語が主ですが、ブラウザIEで日本語が使えました。検索結果はGoogleの検索結果にアマゾンの子会社Alexaのサイト情報を付加し、アマゾン本体の書籍検索結果、そして検索履歴(登録者のみ利用可)、からなります。

  検索結果の構成をGoogleと比較すると、Googleは紹介文、キャッシュ、関連情報、a9は紹介文(半分位の長さ)、キャッシュ、サイト情報、です。a9のサイト情報のリンク上にカーソルを置くとTraffic RankやSites the Link hereなどの情報がポップアップし、クリックするとAlexaの詳細情報を表示します。

  アマゾン系のa9、Alexa、WayBackの検索フォームは非常にシンプルにできています。特にa9の検索結果のURLは、http://www.a9.com/検索キー、です。ブラウザIEの上部にあるアドレスバーにhttp://www.を省略したa9.com/検索キーを入力するとa9の検索をします。例えば、a9.com/amazon、a9.com/"search engine"、http://www.a9.com/検索、などです。

  Googleは、従来、自社で構築したデータベースを検索サービスしてきましたが、今回、専門データベースをもつ他企業と提携し、専門検索サービスを始めました。これはGoogleの検索ポータル化の第1歩とみなせます。日本経済新聞社の企業情報と株価、ALCの和英・英和辞典、ぐるなびと駅前探険倶楽部の乗り換え、そしてヤマトの荷物問い合わせ、の5種類です。これらは特定の用語(コマンド)と検索キーとで実現します。例えば、「ヤマト 伝票番号」。Googleしか通用しない特定の用語が増大することは望ましくなく、好みにもよりますが、ラジオボタンの方がすっきりします。

  さて、今年度の検索業界で一番のトピックスになるのはGoogleの株式公開(IPO)です。4月29日に書類が提出され、スタートしました。8年前に、Yahoo、Excite、Infoseek、LycosがIPOしましたが、現在はYahooが勝ち組として残っています。GoogleはこれまでにIPOの機会はあったのですが、ITバブルに遭遇し遅れていたものです。IPOにあたりバブル時代の過大な期待を排除する心遣いがなされています。投資家の狂騒をどこまで押さえれるか。。。

  数年かけてWeb検索の覇者になったGoogleですが、これからは利益や株主貢献などの荒波が4半期ごとに押し寄せてきます。しかし、Googleは、(1)4半期ごとの短期利益を追求しない、(2)買収対策?のための株主への対応、など新しい方法を試みようとしています。Yahooはディレクトリからポータルの道へ進みました。成熟したWebになってしまいましたが、得られた資金で新しい世界を築いてもらいたいものです。Webの世界から実世界へ、当分の間、Googleの葛藤が続きそうですね。

米Yahoo!新検索エンジンの登場 2004/04/04

  AltaVistaとAllthewebは、3月末に、独自検索エンジンの運用を終了しました。そして、4月1日から、米Yahooの新検索エンジンからの検索結果を提供しています。AltaVistaとAllthewebは多言語検索エンジンで、画面表示は英語ですが、表示設定の言語を日本語に設定することにより日本語検索ができました。独自の検索エンジンでないため、今回の検索調査から両検索サイトを除きました。

  日本語検索数調査は、Fresheye 3.6%増、Google 5.3%増、などです。検索結果評価を実施する時期でしたが、検索フォームの変更が相次ぎ、次回に行います。前回のデータからAltaVistaとAllthewebを除いた5社の検索結果評価を実施しました。トップ Google、2位はFresheyeで、順位の変動はありませんでした。検索デスクで利用している検索評価システムが安定していることがわかり満足しています。

  海外の検索数調査も、米Yahooの検索エンジン投入で変化がおきています。AltaVista、Alltheweb、HotBot、Lycosの4検索サイトが、ほとんど同じ結果を示しました。いわゆる、Powered by Yahoo! になったのですが、検索数調査から、データはYahooの約5分の1です。したがって、代表としてAllthewebを調査対象に加え、残りは外しました。

  Yahoo!とOvertureのM&Aで、いずれ検索エンジンはYahoo!に統一されると思っていました。これが現実になると少し複雑な気持ちになります。検索数は、1位 Yahoo 100.0、2位 Teoma 36.1、と検索数に関してYahoo!は圧倒的です。しかし、検索結果のランキング性能はまだ未知数です。検索エンジンは高性能になり簡単に評価できなく、それにまだ立ち上げたばかりで試行錯誤が続いています。

  Yahoo!の検索エンジンは多言語系です。米Yahoo!の検索画面にあるPreferenceで表示の設定ができます。言語項目で日本語をチェックすれば、日本語の検索ができます。しかし、残念なことに日本語コードを設定する項目はありません。AllthewebはShift-JISやEUC-Jなどの日本語コードを選択できたのですが、UTF-8だけのようです。3月中旬にAltaVistaの日本語コード変換ができなくなりました。これに関連していたものと思われます。

  米Yahoo!で日本語検索をしました。調査キーの検索数は約2倍あり、7桁あります。しかし、一部の調査キーで検索数が3桁と極端に少なくなっています。そのキーは、楽器、時計、図書館、博物館、病気、野球、です。Powered by Yahoo!のAllthewebの日本語検索はYahoo!の3分の1位、Yahoo!と同じキーで検索結果が少ない現象がおきています。検索数が多い検索はサイト検索だけするのかも知れません。このコード問題が解決すれば、日本語Yahooが登場するものと思われます。

  4月1日には一部の検索サイトがリニューアルしました。CSJのiNETGuideがWhat's Bestと統一し、おすすめサイトを集めたディレクトリとして衣替えしました。ディレクトリですが、AAA!CafeはOpen DirectoryからLooksmartへ、BiglobeはLooksmartからJListingへと変更しています。6==p Webが発展し、コンテンツが膨大になり、検索エンジンの維持費が膨大になり、今後はさらに寡占化が進みます。1996年から1998年にかけて、ディレクトリ系やロボット系サイトが十数社競い合っていた頃がなつかしく思われます。

情報を探せないときの問題点 2004/03/02

  今週の検索数調査は、Google 6.6%増、Fresheye 0.3%減、と2検索サイトだけで、他の5検索サイトの変化はありませんでした。これは今までになかったことです。海外の検索数調査で変化したのは8検索サイトのうち4検索サイトで、しかも2%以内と低調でした。

  今回は全検索サイトの検索評価を実施しました。トップはGoogleの100.0、2位はAltaVistaの92.2、3位はFresheyeの79.8、とトップとの差が開いてしまいました。Naverが今回21.1と大きく低下しました。その理由はわかりませんが、サイトへのウェイトが少なく、昔のようにページ主体の検索になってるようです。最近の検索サイトの傾向として、KWIC形式の紹介文を取り入れるところが多くなってきました。

  Web検索で満足な結果を得ていますか。数年前に較べてコンテンツも増加し、検索エンジンもよくなってきましたので、あまり検索サイトへの不平や不満は聞かれなくなっています。しかし、情報を探せないときがあります。そのような時はどこかにエラーやミスが入っているかも知れません。その際に考慮するポイントを示します。

  1)コンテンツ作成
コンテンツはプロが作ったものから素人が作ったものまでいろいろあります。会社のコンテンツのように真正面から扱うものからBBSのように何ら校正もない即時的なものまであります。コンテンツの中にある不適切な用語や誤字はそのまま検索エンジンで処理されてしまいます。

  2)データ収集
Webコンテンツは新しいページを追加・蓄積するだけでなく、現在あるページも部分修正され新しいものに更新されます。検索ロボットがいつの時点にどれだけ収集するかは検索結果に影響を与えます。時間軸があってないような世界ですが、コンテンツの追加・更新・削除などに対応した収集は重点的になっています。

  3)収集ページの索引化
英語のように空白で区切られるのと異なり、日本語は句読点までシームレスに文字列が続きます。そこから意味のある単語を切り出すわけですから大変です。日本語文字列は、漢字、ひらがな、カタカナ、英語、数字、記号などから構成されますので、ある程度のヒントは隠されています。しかし、フレーズのような文字列を単語としてバラバラにあつかう場合が多くなってきましたので、フレーズ概念の普及が必要になってきました。

  4)データベースの選択
YahooやGoogleなどの検索サイトを使用するだけである程度探せますが、ニュース、マネー、ソフト、地図、時刻表などの専門検索サイトを使いこなせるようになると検索可能性は高くなります。検索キーワードを考える前にどの検索サイトを使うかを選択するのが先決です。

  5)検索キーワードの選定
ビギナーのうちは検索キーを考えることは難しく、慣れるには経験を通して学ぶ以外方法はありません。検索数の多い場合は複数のキーを並べて絞り込むことが必要です。適切な検索キーが浮かばない場合でも、少しでも手がかりになるものを入力すると新しい発見ができます。入力ミスで間違ったキーを入力しても、修正する機能をもつ検索サイトもあります。

  6)検索結果の紹介文
検索結果はタイトルと紹介文などがランク順に表示されます。探している情報のありかはタイトルから判断できますが、紹介文も有力な情報です。紹介文が不適切なために情報のあるサイトを素通りすることもあります。ページの紹介文はアブストラクト(抄録)とみなされていましたが、やはりKWIC形式の方が優れています。検索サイトがKWIC形式かアブストラクト形式か見分けることも大切です。

  情報が探せないときに、どこに問題があるか、参考になれば幸いです。

Powerd Googleの検索結果について by

  検索数調査でGoogleは30%増加しましたが、先々週の30%減が元に戻ったようです。Naverは先週約50%減の半分になりました。総合の検索力の順位も変化なしです。海外の検索数調査はYahoo! 7.5%減、Google 6.6%増ですが、いずれも2~3週間前の状態に戻ったものです。

  さて、今回はGoogleとPowerd by Googleの6検索サイトとの検索結果について調べました。Googleの検索は、1)日本語のページを検索、2)ウェブ全体からの検索、の2種類あります。また、検索サイトの中には、関連ページのインデント表示をするのと、しないのとがあり、これらから3つのタイプに分類できます。なお、検索数についても調べました。

  1)Biglobe、Infoseek -- 日本語のページ検索、インデント表示する(白色)
検索数はGoogleの約30%で、Googleとほとんど同じ検索結果を示します。

  2)goo、@nifty、Yahoo -- 日本語のページ検索、インデント表示しない(黄色)
検索数はGoogleの約30%、Yahooは40%です。検索結果の順序は同じですが、インデント表示しないため冗長に感じられます。

  3)Excite -- ウェブ全体からの検索、インデント表示する(ピンク)
検索数は日本語に比べて3.5倍、Exciteはその40%位です。中国語でよく使われる漢字や、英語などを検索すると、中国語や英語のページが上位に表示されます。

検索調査に使う検索キーについて 2004/02/08

  以下の表は、検索調査に使う検索キーについて各検索サイトごとの検索結果1位から5位までを示しました。番号はGoogle(日本語)をベースにしています。表中の1,1'などダッシュはインデント表示の部分、中は中国語、英は英語です。

  最初調べたときは順序が乱れていましたが、次の日に再確認したところ、表のように順序の移動は見られなくなりました。Powered by Google の検索数は30~40%と減少していますが、リンクベースの検索システムではランクに影響しないことがわかります。なお、検索評価の際にはインデント部分を除いたものを使っています。

検索サイト文学生物vrml博物館マーケット
Google(日)1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
Biglobe1,2,3,4,51,3,2,4,81,2,3,4,51,2,3,4,51,2,3,4,5
Infoseek1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
goo1,2,3,4,51,1',2,3,41,1',2,2',31,2,2',3,41,2,2',3,4
@nifty1,2,3,4,51,1',2,3,41,1',2,2',31,2,2',3,41,2,2',3,4
Yahoo1,2,3,4,51,1',3,2,41,1',2,2',31,2,2',3,41,2,2',3,4
Google(ウ)中,中,中,中,中1,2,3,4,中英,英,英,英,英1,2,3,4,51,2,3,4,5
Excite中,中,中,中,中1,2,3,4,中英,英,英,英,英1,2,3,4,51,2,3,4,5

検索サイトグルメ時計図書館ドメイン病気
Google(日)1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
Biglobe1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
Infoseek1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
goo1,2,3,3',41,1',2,2',31,1',2,3,3'1,2,3,4,4'1,1',2,2',3
@nifty1,2,3,4,51,2,2',3,41,1',2,3,41,2,3,4,4'1,1',2,3,4
Yahoo1,2,3,3',41,1',2,2',31,1',2,3,3'1,2,3,4,4'1,1',2,3,4
Google(ウ)1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
Excite1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5

検索サイトイントラネット楽器コミックヒント野球
Google(日本語)1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
Biglobe1,3,2,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
Infoseek1,3,2,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
goo1,3,2,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
@nifty1,3,2,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,5
Yahoo1,3,2,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,6
Google(ウ)1,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,6
Excite1,3,2,4,51,2,3,4,51,2,3,4,51,2,3,4,51,2,3,4,6

海外検索サイトの検索項目、プライベート情報 2004/01/31

  検索数の増減は、Google 32.4%減、Fresheye 6.9%増、海外は、Yahoo 9.0%増、AltaVista 5.8%増、Google 30.0%減、でした。Googleが日米とも30%以上の減少です。保守中に調査したのかも知れませんが、それにしても増減が激しすぎます。検索評価はGoogleだけ実施しました。Google以外のすべての検索エンジンが1.8から2.7に増加していますが、これはGoogleの検索評価が悪くなり、他が相対的によくなったためとみなせます。なんだかGoogleの試行実験につき合わされてるように感じています。

  ディレクトリから出発した米Yahoo!は11月初めにトップページを変更しWeb検索を強化しました。3ヶ月間の試行期間を経た1月末にGoogleを使ったWeb検索を終了し、独自の検索エンジンに全面的に切り替えたようです。米Yahoo!系列になったAlltheweb、AltaVista、HotBotなどの検索サイトが存続するのか、その使命を終えるのか、気になるところです。海外検索サイトの検索項目をリストしました。

検索サイト種類検索項目
Alltheweb6Web, News, Picture, Video, Audio, FTPfiles
AltaVista6Web, Image, MP3/Audio, Video, Dictionary, News
Google5Web, Image, Groups, Directory, News
Lycos3Web, Image, Shopping
Yahoo6Web, Image, Directory, YellowPages, News, Products
Webのみ: HotBot, Teoma, WiseNut

  検索項目はそれぞれ独自のデータベースを持ち、検索に応じています。Web検索は8検索サイト、Imageは5、Newsは4、DirectoryはYahooとGoogle、VideoとAudioはAllthewebとAltaVista、ShoppingはYahooとLycos、です。これらよりも独自にサービスしている項目が検索サイトの特徴を表しているのかも知れません。AllthewebはFTPfiles、AltaVistaはDictionary、GoogleはGroups、YahooはYellowPage、などです。

  Googleが公共のデータベースWhoisを検索サービスしたところアクセスが増加し、Whoisの利用限度を超えたためサービスを停止したとの記事がありました。Whoisにはプライベートなデータが含まれています。人によりプライベートの解釈が異なっているのかも知れません。同じ記事の中に有料でメールアドレスを非公開にするサービスを始めたとのこと、プライベートを守るためにお金を払わなければならなくなってきました。

  今回のウイルスMyDoomは通常のスパムメールが霞んでしまうほど沢山到着しています。プロバイダのメールチェックで削除されますので安心ですが、早く収束してもらいたいものです。

AND検索とOR検索のシームレス化、8周年Thanks 2004/01/18

  昨年暮れから2週間の検索数増減は、Google 21.4%増、Alltheweb 4.5%増、Fresheye 4.9%減、Naver 9.9%減、でした。昨年10月から始まったGoogleの検索数のぶれはまだ続いているようです。また、この2週間の海外検索エンジンの検索数はすべて4%以内で、静かなスタートでした。

  検索結果のヒット数は検索キーによって、ゼロから数百万の範囲になります。ロボット系はページ、ディレクトリ系はサイト、と検索目的に応じて、使い分ければよいのですが、多くの利用者はページとサイトの区別をせずに検索しています。企業でも個人でもWeb検索を習得することは必須なのですが、体系的な教育を受けることなく、試行錯誤で検索技術を習得しているのが実情です。

  数年前のダイヤルアップ接続時には、1回検索するのに少し気合を入れなければなりませんでした。まだWeb情報は少なく、キーワードの選択に失敗すると検索結果はゼロ、数十分間検索しても必要な情報が得られない場合が多々ありました。それが現在は常時接続のブロードバンド時代。少々ピントはずれの検索キーで検索しても、何らかの情報が入手できます。

  これは質のよいWebコンテンツが増加したことと、検索エンジンの進歩によるものです。数年前に登録型ディレクトリは消滅しましたが、それは検索エンジンがサイトのウェイトを高くして、検索結果の上位に表示できるようにしたため、ページとサイトを区別することなくシームレスに扱えるようになったからです。

  データ収集にコストがかかるようなデータ量の少ないデータベースの検索は検索結果がゼロになるため、複数キーのOR検索を返すのがベターでした。しかし、Webのように膨大な情報に対してはOR検索よりもAND検索の方がベターです。

  現在、複数の検索キーに対して暗黙にAND検索を適用する検索アルゴリズムは、検索結果の検索数に応じて、自動的に変更する時代がくるかもしれません。例えば、検索結果のヒット数が1,000以上の場合はAND検索、1,000未満の場合はOR検索、と検索数に応じてAND検索とOR検索を使い分けます。ページとサイトの区別がなくなったように、AND検索とOR検索を意識することなく検索が使えるようになればストレスは少なくなります。

  検索デスクは1996年1月18日にスタートして、丸8年を経過しました。現在のトップページのアクセスは1,350,000/週、スタート時は1,000/週でしたので、8年間で1,350倍に成長したことになります。最初の数年間はコンテンツづくりに熱中しました。コンテンツはオリジナルを優先し独自のカラーを出すように勤めました。相変わらず一人で運営しています。今年はWeb検索に関するアーカイブの整理を目標にしています。本年もよろしくお願いいたします。

2003年

2003年のWeb検索のまとめ 2003/12/30


★ 日本語検索エンジンの動向

  今回はGoogleとFresheyeの検索評価を実施しました。順位は前回と同じでした。2003年を締めくくるために、1年分の検索評価データをまとめました。下図は検索サイトの月単位別折れ線グラフです。5月分がないので4月分と6月分で補正しました。年間を通して、順位の変動はあまりみられません。Googleのトップが定着し、AltaVistaは4月に処理方法が変わり大幅にアップしています。

  2003年のWeb検索のまとめ

  次に12ヶ月分の平均を求め、その大きい順に並べ替えたものを下表にまとめました。12月との差で増加したのは、AltaVista +9.5、Infoseek +4.9、Naver +3.4、一方、減少したのは、Fresheye -5.3、Alltheweb -1.4、でした。Googleのようなリンクを基にしたWebデータベースを構築すればよいのですが、実現は難しいようです。

No.検索サイト平均12月
Google100.0100.00.0
goo98.0----
Fresheye86.080.7-5.3
AltaVista83.492.9+9.5
Naver76.680.0+3.4
Alltheweb73.171.7-1.4
AAA!Cafe65.565.6+0.1
Infoseek56.961.8+4.9

  情報を探すユーザーにとって、検索結果のランキングに次いで重要なのは紹介文です。GoogleとAAA!CafeはKWIC方式の紹介文を作成していますが、他はテキスト前部にある文章の抜粋で作成しています。KWIC方式はオリジナルのテキスト部分を蓄積しなければならないため、それだけ検索システムに負荷がかかります。

  検索結果の評価は2年以上続いています。簡単なストリング言語で処理していますが、何ら改善することなく同じ方法を使っています。学生時代にORを学び、経営現象や情報現象をモデル化したりしてたのが役立っています。

  さて、最近の検索力調査レポートは数週間に1回というペースになってご心配をおかけしていますが、検索数調査は毎週実施しています。日本語と英語の検索サイトの検索数の1月平均、12月平均、その間の増加率を下表に示しました。日本語検索サイトは増減があり、少し停滞気味ですが、英語検索サイトはすべてプラスと好調です。

No.日本語検索サイト1月平均12月平均増加率
Fresheye16,09420,490+27%
Naver25,51021,848-14
Google10,43824,198+132
Altheweb13,26611,471-13
AAA!Cafe9,8118,223-16
Infoseek4,3527,275+67
AltaVista8,3787,105-15

No.英語検索サイト1月平均12月平均増加率
Alltheweb343,911459,808+34%
Lycos342,246458,030+34
Yahoo!261,550311,991+19
Teoma93,195213,705+129
Google61,924135,683+119
HotBot126,447131,042+4
AltaVista108,940126,866+16
WiseNut127,252152,452+20

★ 2003年の検索動向

  最後に、2003年の検索動向をまとめました。

  1)買収 -- 2002年12月に米Yahoo!がInktomiを、2003年2月にOvertureがAltaVistaを、2月にGoogleがBlogのPyra Labsを、3月にOvertureがFastSearchを、5月に米Yahoo!がOvertureを、など。Google以外の検索サイトが米Yahoo!に集結しています。

  2)提携 -- 9月にInfoseekがGoogleを採用、12月にgooがGoogleを採用、など、日本の主要な検索サイトはGoogleを採用しました。

  3)終了 -- 2月に日LycosがWiseNutを終了、9月初に日LycosはInfoseekに吸収、9月末にTOCCが検索サービスを終了、12月にgooがInktomiからGoogleへ、と老舗が消えていくのは忍びない思いです。

  4)広告検索 -- 広告データベースを構築し、それをキーワード検索し、通常の検索結果とともに提供するサービスが盛んになり、検索サイトの収入源として重要になってきました。

  5)開発 -- 米Yahoo!の更新が11月初めから止まっています。3ヵ月後として、2004年1月末までに何らかの動きがあると予想しています。それからソフト界の王者Microsoftが新しいロボットを走らせ、新検索エンジンを開発中とのことです。米国ではGoogle以上の検索を提供できなければ認められませんのできびしいものがあります。さらにOSに絡めた新しい検索方法を模索しているものと思われます。

  6)Web以外の検索 -- ニュース、掲示板、ショッピングなど、データがリアルタイムに変化する分野ではそのデータベース内の検索サービスができます。場合によっては大変有用な検索ができますのでご利用ください。

No日 本検索力検索評価検索数.No海 外検索数
1Google100.0100.0 93.6.1Alltheweb100.0
2fresheye 85.6 80.7100.0.2Lycos 99.9
3Naver 84.9 80.0 99.1.3Yahoo! 67.3
4AltaVista 82.7 92.9 36.7.4Teoma 43.1
5Alltheweb 71.2 71.7 64.6.5Google 35.8
6AAA!Cafe 61.6 65.6 41.6.6HotBot 28.4
7Infoseek 58.4 61.8 40.8.7AltaVista 28.0
......8WiseNut 27.7

gooの検索エンジンがInktomiからGoogleへ 2003/12/01

  検索数調査において、Googleは9月末に比べて59%増です。米Googleも9月末に比べて49%増で、日米とも接近してきました。9月末から続いた一連の試行錯誤は収まりつつあるとみなせます。前回の検索評価が相対的に悪かったのですが、今回は元に戻っています。

  その他の検索エンジンは、この2ヶ月間で、Infoseek 44%増、Alltheweb 13%増、Fresheye 12%増、Naver 5%増、AltaVista 3%減、AAA!Cafe 20%減、でした。海外では、Yahoo! 21%増、TeomaとLycos 7%増、AltaVistaとAlltheweb 6%増、WiseNutとHotBot 0%、となっています。米Yahooは、この4週間増減なく、新しい検索サービスを準備中のようです。

  12月1日にgooは日本語検索サービスをInktomiからGoogleへ変更しました。したがって、今回から検索評価はgooに替わってFresheyeを採用しました。検索評価の結果は、1位 Google 100.0、2位 AltaVista 92.1、3位 Fresheye 81.6、です。Inktomi系のFresheyeは、一部の検索結果に英語や中国語が混じるため評価は若干悪くなっています。

  12月1日にgooの検索エンジンがGoogleに変更されました。Googleの日本語検索エンジンは2000年9月に開始しましたが、2000年12月にBiglobe、2001年4月にYahooJ、2002年2月にExciteJ、2003年9月にInfoseek、そして2003年12月にgoo、と日本の主要な検索サイトが採用したことになり、日本語検索エンジンはGoogleの一人勝ちです。

  1997年3月にgooはInktomi系の検索エンジンを日本語化して検索サービスを始めました。検索デスクにおける検索力調査は1996年9月に海外検索エンジンを対象にスタートし、gooのサービス開始と同時に日本語検索エンジンの検索力調査を開始しました。gooの調査は6年半以上続いたことになり、一抹の寂しさが漂うというか虚脱状態が続いています。長い間、ありがとうございました。まだ、老舗のInfoseekの調査は続いており、検索に関するニュースも次々に舞い込むのが支えになっています。

Googleの検索結果、IPO、買収、デスクバー 2003/11/09

  先週と今週の検索数調査は、Google 8.7%増、6.0%増、でしたが、9月末よりはまだ25.5%減です。Naverは今週12.8%減です。Infoseekは先週73.6%増加しました。大きく変化したGoogle、goo、そしてInfoseekの検索評価を行いました。トップはGoogle、2位はAltaVistaで、順位の変化はありませんでした。先週データを増加させたInfoseekの検索評価も少し改善しています。

  Googleに関する最近の動向を4点まとめました。まず第1は、10月から始まったGoogleの検索システムの更新ですが、最初はデータが10倍に増加し、10月下旬以降は逆にデータが減少しました。そして現段階の検索結果はダントツのトップですが、以前に較べて少し悪くなったのではないかということです。今週の検索評価で、Google以外の検索サイトの評価はすべてアップしました。9月に較べて、AltaVista 1.0増、goo 3.4増、Naver 1.8増、Alltheweb 1.5増、Infoseek 5.4増、です。これはGoogle以外のところが良くなったのではなく、トップのGoogleの検索結果が悪くなったためと解釈できます。

  第2点は、GoogleのIPOが来年春に実現するのではないかということです。Googleのように成功した企業がまだベンチャー企業に甘んじているのは不自然といえば不自然です。3年前のITバブルの後遺症が尾を引いているのですが、もっとはやく株式を公開し、資金を得ていれば、新しい挑戦ができ発展していたのではないかと思います。

  第3点はGoogleに対するM&Aの話題です。Microsoftは検索システムを自社で開発する代わりに、即戦力のあるGoogleを買収して、Web検索の分野に進出するのではということです。MicrosoftはOSに関連した有望なソフトを次々に取り込み市場を築いてきました。Googleにとっては、買収に応じればIPOは不可能になり、独自性がなくなります。一方断れば手強い競争相手を持つことになります。さて、あなたがGoogleの立場なら買収に応じますか。

  第4点はGoogleがDeskbarという新しい概念の検索手法を公開し、ベータテストを開始したことです。キーワード検索する場合、1)ブラウザに表示した検索サイトの検索窓を使う、2)ブラウザのツールバーやサイドバーにある検索窓を使う、3)ブラウザのアドレスバー(MS専用)を使う、の3種類の方法があります。DeskbarはWindowsの下部にあるタスクバーに検索窓を設置し、ブラウザを開かなくても検索可能にするものです。

日本語だけの検索、検索オプションの設定 2003/10/26

  Googleの検索数は先週よりも77.5%減少しました。9月26日を100とすると、10月3日は1,025、10月10日は1,003、10月17日は288、10月24日は65、となっています。10月前半は10倍でしたが、10月中旬は約3倍に減少し、今週は3分の2になっています。

  Googleはユーザーの入力した検索キーに関連語を付加して検索するようになりました。これは広告用データベースに対しては有効ですが、あまり拡大しすぎるとマイナスです。最近の増減は何を意味するかわかりませんが、広告検索とWeb検索とを分けて適用し始めたのかも知れません。ちなみに、同じ時期の米Googleの増減は、9月26日を100として、10月3日は257、10月10日は700、10月17日は704、10月24日は382、と日本語と同じ傾向がみられます。当分の間、試行錯誤は続くものと思われます。

  Inktomi系のgoo、Fresheye、MSNの検索数は約21%増加しています。Inktomi系は検索サイトごとに検索数は異なります。検索数の多い順は、MSN、goo、Fresheye(TOCC)です。しかし、7月から9月までのgooとTOCCをみますと、gooがTOCCよりも多いとき、TOCCがgooよりも多いとき、もありました。

  多言語検索サイトは、日本語だけの検索、Web全体からの検索、のどちらかを選択できます。Web全体の検索結果には英語や中国語のページが入るため、検索数は多くなります。多くのユーザーにとっては日本語以外の検索結果が入ると利用しにくくなりますので、日本語だけの検索を選んだ方がベターです。なお、12月からgooに替わってInktomi系の検索エンジンとして取り上げる予定のFresheyeはWeb全体からしか検索できないのは残念です。

  AltaVistaやAllthewebは検索ページが英語ですので、使いにくく敬遠されますが、検索デスクからは他の検索サイトと同様な方法で検索できます。最近の検索サイトは検索オプションをユーザーのパソコンにクッキー保存します。これには、Google、goo、AltaVista、Alltheweb、が該当します。検索設定を行ってから利用しないと、日本語だけの検索、日本語フォント、検索件数などを上手く使えませんので、ぜひ設定することをお勧めします。

  1)Google(表示設定)--- 表示言語(日本語)、検索言語(日本語)、表示件数(20件)。
2)goo(検索設定)--- 言語(日本語のみ)、キーワード(すべての語を含む)、別ウィンドウ表示(マーカーあり)、内容(概要文あり)、件数(25件)。
3)AltaVista(settings)--- Country(All other countries)、Language(Japanese-日本語)、Interface(English-US)、Page information(Description、URL)、Useful links(Translate、Related pages)、Results(Bold the search term、20 results)、Language troubleshooting(Japanese(Shift_JIS))。
4)Alltheweb(customize preferences)--- [Basic]、Search Results(25)、Search Type(Menu)、[Language]、Select(Preferred)、Preferred(Japanese/日本語)、Encoding(Japanese(Shift_JIS))。

  最後に、保存(上記を保存、Save Your Settings、Save and Apply Settings)ボタンを押して登録してください。特に、フォントをShift_JISにしないと文字化けが発生します。

  その他の検索サイトですが、Naverは検索数は多いですが、他の検索サイトと索引方法が異なるからではと思います。9月から検索政策を変更したInfoseekですが、従来からある検索プラスの検索数は26%減少しました。AAA!Cafeはメンテナンスで一時検索できませんでしたが再開しています。

関連語を付加したGoogleの検索は広告対策 2003/10/12

  AAA!Cafeが復活しました。検索数は20%減少したため、検索評価を実施しました。検索評価は以前と変化なく、検索システムの変更はなかったものとみなせます。Web検索エンジンは7社ありますが、そのうちの2社が日本国内にあり、6位と7位です。情報資源は分散した方が安全ですので、小さな灯ですが絶やさないようにしたいものです。海外の検索数調査は、Google 172.4%増、Yahoo! 7.7%増、Lycos 5.0%減、Alltheweb 5.6%減、でした。

  この2週間で、Googleの日本語検索数は10倍、英語検索数は7倍、に増加しました。この驚異的な増加はデータベースの増加によるものではなく、前回指摘した3)のユーザーが入力した検索キーに関連語を付加して検索したためのようです。それにしても、関連語を追加し過ぎと思いますが、いろいろ試行錯誤を得て、良くなっていくものと楽観しています。

  一般に、データが増えればランキング性能は悪くなります。先週、実施した検索評価によると、Googleの評価はこれに反してあまり変化しませんでした。リンクを使った検索システムは相関の高い関連語が付加されると相乗効果でランキング性能はよくなるのかも知れません。

  ユーザーは検索するために検索キーを入力します。探したい情報に合った適切な検索キーを選択していれば、検索エンジンは検索キーにマッチした検索結果を吐き出します。しかし、多くの場合、検索キーは曲者です。特に、日本語のカタカナ表記や送り仮名などは複数存在する場合があります。多くの検索サイトは辞書を作成してその問題を解決してきました。Googleはそれを飛び越して、関連語まで付加したようです。

  現在の検索サイトは2種類のユーザーが存在し、それぞれのデータベースをもっています。第1のユーザーは探しものをするために検索エンジンを利用する人で、Webデータベースを準備します。第2のユーザーは検索結果に広告を載せる人で、広告データベースを準備します。第1の利用者が入力した検索キーは、2種類のデータベースを検索して得られるWeb検索結果と広告検索結果をもとに検索結果ページを作成します。

  現在のGoogleは第1の利用者が入力した検索キーに関連語を付加して、Webデータベースと広告データベースを検索しています。関連語を付加する発想は、本来、広告データベースに対するものです。広告主の設定したキーを補足し、広告をクリックする機会を増やします。広告主にも検索サイトにもプラスとして働きます。

  広告データベースに対して関連語を増やして日本語で10倍の広告掲載チャンスが生じたことに関しては異論はありません。しかし、Webデータベースにも関連語を付加するのはもう少し思考錯誤が必要です。日本語のあやを補正した検索はせいぜい数10%しか増加しないように思います。同一の検索キーでWeb用と広告用を検索しますが、やはりWeb用と広告用の2種類の異なった検索キーを作成した方がベターなように思います。

Googleの検索数増加、データベースの自給率 2003/10/05

  この3週間の検索数の増減は、Googleが先週より9.6倍へと大幅に増加しました。Naverは2週間前に比べ1.5倍増、AllthewebとAltaVistaは1.15倍増、などです。海外では、Googleが先週から2.5倍増加し、Allthewebは言語設定の影響でLycosとほとんど同じになりました。月末の検索評価を行いましたが、順位の変化はありませんでした。今回はGoogleの検索数が大きかったため、総合の検索力は検索数を除外して求めました。Googleの大幅増加に関してコメントを記します。

  1)Googleが日本語5,000万ページ収集して検索サービスしていたとすれば、必ずしも検索調査に比例しないのですが、9.6倍増で4億8,000万ページとなります。最新のGoogleの全収集数は33億ページですから、日本語が14%を占めることになります。日本語は5~6%位と推定してましたので、Googleが日本語を重視していることを示すのかも知れません。

  2)Googleの発表する収集数の内容は変化します。2000年6月の10.6億ページは、収集し索引したのが5.6億ページ、リンクから得られた未収集のタイトルだけが5億ページとの和です。2001年12月の30.5億ページは、htmやpdfが20億ページ、NewsGroupsが7億ページ、イメージが3.5億ページ、からなります。2002年11月の30.8億ページは、Webページだけです。そして、最近の33億ページは索引したWebページで、タイトルだけのは除いています。従って今回の検索数増加はタイトルだけのも含めているのかも知れません。(あるいは新たにアーカイブ・ファイルを蓄積し、それも対象にしているのかも知れません。)

  3)日本語の表記は漢字、ひらがな、カタカナ、英語などが入り混じっています。Googleは検索キーに対する表記の異なるキーを追加してOR検索することを始めたのかも知れません。例えば、「野球」を検索すれば「ベースボール」や「baseball」も検索する方法です。OR検索ですから検索数は明らかに増加します。

  4)リンクをベースにした検索の検索数はしきい値で決まるとみなしています。10月からしきい値の値が少し下がり、その結果、検索数が増加したことも考えられます。また、リンクをベースにすると、検索キーに関連したキーも検索できますので、今まで除外してたのを含めるようにしたのかも知れません。

  日本語が9.5倍、英語が2.5倍のバランスから考えると、3)の可能性が高いです。

  さて、9月から10月にかけて日本のWeb検索は大きく変化しました。9月1日にLycosはInfoseekに統合し、そしてInfoseekは従来の検索エンジンを残して、メインの検索にGoogleを採用しました。9月末にはInktomi系のTOCCが検索サービスを終了しました。10月2日に同じInktomi系のgooがGoogleを採用すると発表しました。

  今回検索評価した検索エンジンのデータベースは、Google、AltaVista、goo、Allthewebは米国内、Naverは韓国内、Infoseekは日本国内、に存在しています。日本国内に存在するデータベースはInfoseekと休止中のAAA!Cafeだけです。食料の自給率、エネルギーの自給率、などと同様に、Webデータベースの自給率は高めることが必要です。ネットの利用面でのWeb検索の果たす役割を考えると、非常に危惧すべき状況になったとみなせます。(12月6日一部修正)

goo検索は"Powered TOCC"へ? By

  検索数調査は、Google 13.9%増、Fresheye 4.2%減、TOCC 4.6%減、Naver 8.0%減、goo 18.0%減、と減少するところが多い週でした。海外は Yahoo! 5.6%増です。先週はInfoseek、今週はgooと、日本語検索サイトに大きな変化がありました。

  gooの検索エンジンは米Inktomi社の開発したものを日本語化したものです。1997年3月に検索サービスを始め、改良を積み重ねて現在に至っています。一方、TOCCはInktomi系の日本語検索サービスを4年後の2001年7月から始めています。2002年7月にFresheye、2003年2月?にMSN、が" Powered By TOCC"として採用しています。

  Inktomi系の日本語検索エンジンということで、gooとTOCCは同じとみなす人もいました。実際、検索調査している15種類の検索数の相関係数は0.93から0.95と非常に高い相関を示しています。しかし、両者の収集データが異なっているためか、検索結果が微妙に異なっていました。そのため両社を別物と扱ってきました。

  gooの検索は言語機能としてWeb全体と日本語のみを選択していましたが、今回、検索設定で好みの検索オプションを設定しキャッシュに登録できるようになりました。それと同時に、今回の検索調査からTOCCとの相関係数が1.00になりました。データの状況から、TOCCからgooへではなく、gooからTOCCへの移動とみなせます。まだ発表はありませんが、goo検索が"Powered By TOCC"に変更したのではと推測できます。

  昨年12月に米Yahoo!が米Inktomi社を買収しました。Inktomi系のgooの検索エンジンは、1999年1月から2年間、日Yahoo!のWeb検索に提供していました。それが買収によって、今度は日Yahoo!からgooへWeb検索を提供することになり、立場は逆になることが予想されます。昨年のInktomi買収で一番影響を受けるのはgooと思っていましたが、それが現実になりつつあります。

  gooが自社の検索エンジンの維持を終了してTOCCを採用したのか、新しい検索エンジンが開発できるまでTOCCを一時的に採用してるのかわかりません。もし前者であれば、日本における日本語検索エンジンが全滅状態になりますので、先週のInfoseekのGoogle採用とともに日本のWeb検索は大きな転機を迎えたことになります。

  gooの検索評価を急遽実施しました。検索評価の基準を求めるために、Inktomi系からはgooとfresheyeを使っていましたが、今回からgooのみにしました。検索評価は、1位 Google 100.0、2位 AltaVista 91.8、3位 goo 85.3、と順位が入れ替わりました。gooの評価が下がりましたが、goo独自のデータ管理、gooとfresheyeとの相乗効果、がなくなったためと分析しています。

Infoseekの検索、楽天の「旅の窓口」買収 2003.9.5

  先週からの検索数増減は、google 44.9%増、goo 10.2%増、Naver 7.8%増、Alltheweb 15.6%減、でした。海外は、Google 41.5%増、Alltheweb 7.4%減、Lycos 7.7%減、です。Googleは日米とも大幅に増加しています。Googleのトップページにあるウェブページ数が3,307,998,701へと増加し、Alltheweb(Overture)との競争が激化しています。なお、検索数調査でGoogleがトップになったのは初めてです。

  先週末に検索評価をする予定でしたが、9月1日にInfoseekとLycosとの統合があり、その際に検索エンジンも更新されるのではと思い、1週遅らせました。今回は、goo、Google、Naver、Allthewebの再評価を行いました。結果は、FresheyeとTOCCが大幅に増加し、順位を上げています。総合の検索力は、トップ Google、僅差で2位 goo、3位 Fresheye、でした。

  9月1日に新装したInfoseekの検索エンジンは、メインにGoogleを採用し、従来のInfoseek検索エンジンはサブのサーチプラスになっています。Infoseekは新しい検索エンジンを開発中といわれていましたので、その発表があるのではと期待していたのですが、あてがはずれました。それから、Lycosが採用していたWiseNutが復活するのではと思ったりしましたが、それも空振りでした。Infoseek独自の検索エンジンが一歩後退したのは残念ですが、コンテンツは充実し、使いやすくなっています。

  8月末で、LycosJapanはInfoseekに統合されましたが、1998年7月から検索調査などで大変お世話になり名残り惜しいです。長い間、有難うございました。なお、ライコス犬は"Girls plus"で「ぼくがすすめるInfoseek」で元気に活躍しています。多くの検索サイトが誕生し、活躍し、終了しましたが、それらをまとめたいと思っています。

  9月4日に楽天が「旅の窓口」を買収しました。2000年12月のInfoseek買収は約85億円、2002年12月のLycos買収は12億円、そして今回の「旅の窓口」買収は323億円、です。景気変動を考慮しても、検索サイトは過小評価され、ECサイトは過大評価されてるように思えます。これをみても楽天の検索サイトの取り組みが理解できます。買収金額の323億円を会員数の283万人で割ると、会員1人あたり1万1,400円です。会員を10万人集めれば10億の価値になります。3年前のITバブルが再始動し始めたのかも知れません。

米国検索エンジンの動向 2003.8.23

  検索数調査の2ヶ月間の増減は、goo 33.0%増、Fresheye 14.0%増、Google 9.7%増、TOCC 8.5%増、Naver 20.0%減、でした。海外の2ヶ月間の増減は、Teoma 84.7%増、HotBot 18.8%増、Google 17.5%増、Lycos 14.3%増、Alltheweb 13.3%増、Yahoo! 21.3%減。20%以上増減した、日goo、日Naver、米Teoma、米Yahoo!、などの増減した理由を知りたいものです。

  米国の検索エンジンが、Google、Yahoo!、MSに集約されるとのことです。その中のGoogleは膨大なWeb情報の検索技術をすでに確立しています。Yahoo!はInktomiやOvertureを買収して、現在構築中です。MSは陣容を整え、ロボットを動かしてデータを収集し始めた段階です。超後発ですが、ソフトの実績があるため注目されています。

  米Yahoo!はInktomi系の検索エンジンのテストをしているとのことです。Web検索はGoogleと提携していますが、検索結果の50件に1件位にテスト用の結果を返してるとのことです。Inktomi系のHotBot、Overture系のAllthewebとAltaVista、の3種類の特徴のある検索エンジンがありますので、どれを採用するか米Yahoo!も悩むところです。

  検索力調査では日本語検索エンジンの調査をしていますが、この中にInktomi系、AltaVista、Allthewebの日本語版の評価をしています。8月1日時点の検索評価では、goo(Inktomi) 100.0、AltaVista 86.8、Fresheye(Inktomi) 80.2、Alltheweb 71.6、の順になっています。これは日本語検索結果のランキングだけの評価ですから、他の要因を加え総合したら異なる結果になります。現在使用している検索評価法を英語検索エンジンに適用したいのですがまだ実施していません。

  以前にGoogleキラーと言われた、AskJeevesの買収したTeoma、Looksmartの買収したWiseNut、は英語検索サービスをしています。今年の2月まで日Lycosが検索サービスしていたWiseNutの日本語検索は、当時の検索評価で3位という代物でした。後発のMSがTeomaかWiseNutを買収するのではとのうわさがあり、これも目を離せないものです。

  米国の動きはいずれ日本の検索サービスに影響します。特に、買収などで検索エンジンやディレクトリの提携関係は複雑になっています。9月1日にLycosがInfoseekに統合されますが、重複したコンテンツがどのように統廃合されるか、これも大変興味をもたれるところです。

Naver回復、最新情報は掲示板から? 2003.8.2

  検索数調査による今週1週間の増減は、Google 6.6%増、goo 1.9%増、Alltheweb 2.5%減、で変化の少ない週でした。半年前との増減を調べると、増加したのは、goo 41%増、Google 20%増、現状維持は、Fresheye、TOCC、AAA!Cafe、一方減少したのは、Alltheweb 29%減、AltaVista 26%減、Infoseek 17%減、でした。なお海外の更新は活発で、Teoma 14.1%増、HotBot 11.0%増、Google 3.8%増、Lycos 3.2%減、Yahoo! 3.1%減、Alltheweb 3.0%減、でした。

  今回は検索評価を行いました。前回から大きく変化した、goo、Google、Naver、Alltheweb、のデータを更新しました。その結果は、1位 goo、2位 Google、3位 AltaVista、です。Googleは100.0から93.1と6.9減です。昨年の7月末に90.7をつけましたがすぐ回復してますので、定期的なものか、一時的なものか分かりません。

  50種類の評価キーを用いて検索評価をしています。評価キーごとにトップの得点を示す検索サイトを調べ、その総数を求めました。前回→今回を示しますと、goo 22→26、Google 19→13、AltaVista 4→4、TOCC 0→2、Alltheweb 0→2、Fresheye 4→1、AAA!Cafe 1→1、Naver 0→1、です。AltaVistaは4月か5月にシステムを更新し、Naverは前々回の状態に戻っています。

  今回はWebに入っている最新情報について調べました。検索キーを「宮城地震」として、サイトごとの検索数の大きい順にリストしました。宮城地震は5月26日と7月26日にあり、後者から1週間経っています。

  1)検索サイト Google 3,600、Fresheye 1,377、MSN 578、TOCC 292、Alltheweb 54、Naver 46、AltaVista 39、goo 26、Infoseek 22、AAA!Cafe 10。

  2)ニュースサイト goo最速ニュース 94、Yahoo!ニュース 85、Lycosニュース 70、毎日 30、Exciteニュース 23、読売 22、Infoseekニュース 8、朝日 6、産経 3、日経 2。

  3)掲示板サイト 2ch 150、Yahoo!掲示板 111、Naver掲示板 46。

  検索数調査において最小の指数はInfoseekの41.9、最大の指数はFresheyeの100.0ですから、最小と最大との差は2.5倍位です。しかし、今回の例では、最小を24として最大のGoogleの3,600との差は150倍位になります。なぜ、差がついたのでしょうか。

  a)更新頻度 宮城地震は比較的新しいキーワードであるため、まだロボット収集してないことも考えられます。しかし、Googleは3,600、Fresheyeは1,377、MSNは578も収集しています。Googleの秘密はランキングや紹介文だけでないようですね。

  b)収集分野 Webにはいろいろなタイプの情報が流通しています。Webホームページ、ニュース記事、掲示板、ショッピング情報、企業・官庁情報などです。検索サイトによっては掲示板のような質の悪いページをあつかわないところがあります。しかし、収集対象を規制してるところよりも規制してないところが伸びるような気がします。

  c)ニュース記事 ニュースは信頼のおけるソースです。新聞社では、毎日新聞 30が最大です。ニュース記事を集積したポータル系のgoo最速ニュースで94です。全国紙だけでなく地方紙もあつかうかどうかで収集量は異なってきます。Googleの英語版にはNews検索がありますが、日本語版にはありません。しかし、Web検索で検索可能になっています。質をとるか量をとるかですが、ニュース以外に数十倍の情報源があることだけは事実です。

  d)掲示板記事 GoogleやFresheyeの膨大な検索数は掲示板記事を収集しているからです。Fresheyeはデータ数に較べて評判がよかったのですが、それは当時どこも収集してなかった掲示板記事をデータベース化したからです。メールシステムの掲示板である News Groups と同様に、データは1ヶ月しか所有しないこと、従って、Not Foundのない新鮮な情報を提供することを売りにしていました。その後、TOCCの検索エンジンを採用しましたが、掲示板記事を追加してることは明白です。

  GoogleにはNews Gropusを検索できる「グループ」があります。最近はBlogへ進出しており、News GroupsのWeb版である掲示板にも力を注いでいます。掲示板情報は玉石混合ですが、容量は小さく、テキストだけですので、通常のコンテンツよりは索引化は容易です。ニュース記事収集と同様な方法で迅速で重点的に掲示板記事を収集しているものと思われます。

言語オプション、ネット企業の時価総額 2003.7.26

  検索数調査は、goo 8.4%増、Naver 33.8%減、でした。調査キーの「楽器、グルメ、コミック、時計」のNaverの検索数は他に較べて多かったのですが、索引システムが改善して不具合なケースはなくなりました。総合の検索力は僅差で、1位 goo、2位 Google、と入れ替わりました。海外の更新は、Teoma 26.8%増、Google 4.5%増、Yahoo 6.5%減、WiseNut 9.8%減、とやや活発な週でした。

  検索数を調整してるところはFresheyeだけになりました。調査キー「生物、文学、vrml」が該当するのですが、これは「日本語ページ」ではなく、「Web全体」から検索してるためです。「生物、文学」の検索結果に中国語ページが、「vrml」に英語ページが含まれます。TOCCと同じように、「日本語ページだけ検索」と「Web全体から検索」の選択肢があれば解決します。

  「日本語からの検索」と「Web全体からの検索」のできるのはデータベースを複数の言語で構成している検索エンジンです。多言語は、Google、AltaVista、Alltheweb、日本語と英語は、goo、Fresheye、TOCC、日本語と韓国語はNaverです。ほとんどの検索サイトは検索設定やオプション選択を用意しています。なお、AAA!Cafe、Infoseek、は日本語だけのデータベースです。

  今週は日米のネット企業の時価総額(株価×発行株数)を調べました。1ドルを119円で換算しました。Googleはまだ未上場です。

コード会社名検索時価総額
億円
9432NTTgoo79,503
4689ヤフーYahoo20,162
6701NECBiglobe12,969
6702富士通@nifty11,031
6503三菱電機TOCC9,190
4755楽天Infoseek2,366

コード会社名時価総額
億円
MSFTMicrosoft344,600
AOLAOL TimeW82,200
EBAYeBAY42,400
YHOOYahoo!23,600
AMZNAmazon19,600
OVEROverture1,900
ASKJAskJeeves952
LOOKLookSmart476

  日米Yahoo!の時価総額は接近しており、日Yahoo!の健闘が目立ちます。日Yahoo!は月間 150億PVですので、時価総額/月間PVは134円です。2000年のITバブル絶頂期には190円位ありました。なお、楽天は月間25億PVと推定すると95円です。

広告検索の発展とその危惧 2003.7.19

  検索数の更新は、Alltheweb 6.6%減、Google 3.0%減、海外は、Google 2.6%増、Alltheweb 2.1%増、Yahoo! 3.1%減、WiseNut 10.5%減、変化の少ない週でした。

  今週は米Yahooが広告検索サービスのOvertureを買収するという大きなニュースがありました。今までは提携でコンテンツをそろえましたが、今回はM&Aで独自のコンテンツをもちました。Overtureと提携しているところがあるためこの余震は続きます。特に、MSNはどうするか、今後の動きに目が離せません。

  Web検索は短い期間に急成長した分野です。検索エンジンをいくら改善し高性能化しても、検索結果を利用するユーザーから直接収入を得れません。そこで検索サイトは検索結果の欄外にバナー広告を載せて収入を得ました。有料で検索結果の上位にコンテンツを載せる試みもありましたが、検索結果表示の質が悪くなることやユーザーの拒絶反応などで実施できないどころか、検索結果と広告を分離し、広告は広告であることを明示しなければならなくなりました。

  最近の検索サイトの広告はインプレッションで収入の入るバナー広告から、検索キーに関連した広告をテキスト表示する広告検索に変化してきました。この広告検索は1998年にOvertureが始めたものです。その特徴は、少額の広告もあつかうこと、クリックに応じて課金すること、テキストの紹介文を表示すること、検索キーと登録キーが一致したものを表示すること、クリック単価の大きい順に表示すること、など広告主に分かりやすいものでした。ここで、Web検索と広告検索との仕組みを対比してみます。

  1)データ収集--Web検索はWeb上に存在する数十億ページをソフトで収集するのに対して、広告検索はネット募集や対人営業で広告主を得ます。前者のデータ量に較べて後者は小規模です。コストは人件費のいる後者の方が多くかかります。

  2)索引化--Web検索は膨大なページ内の全文を索引するため処理量は膨大なのに対して、広告検索は広告主が指定する複数のキーワードから索引をつくります。

  3)検索結果--Web検索は複雑なアルゴリズムでランキングしページから作成した紹介文を表示するのに対して、広告検索は広告主の設定したクリック単価の大きい順に紹介文を表示します。

  4)ソフト技術--Web検索の開発は広告検索よりも数年早く始まりました。Web検索の検索エンジンはWeb以降に開発され、Web以前のデータベース技術とは雲泥の差があるのに対して、広告検索は汎用のデータベース技術で処理可能です。

  Overture買収でYahoo!は広告検索の特許と1)の広告部門を得たことになります。Overtureとの契約がYahoo!に替わるため、広告利用でトラフィック状況を知られたくない所は契約を解除するかも知れません。またYahoo!にバナー広告などを提供していた広告代理店も影響を受けます。検索サイトが直接広告部門をもつのはGoogleのAdWordsが最初です。利益を与えてスペースを得る観点からすればAmazonのアフィリエイトも広告部門とみなせます。

  処理の簡単な広告検索は利益が大きく、処理が複雑なWeb検索は利益が少ないことから、広告検索結果は前方にWeb検索結果は下方に表示されます。そして広告検索はだんだん大きな場所を占め、やがてスクロールしなければWeb検索結果を見れなくなるかも知れません。何より危惧することは、1)検索サイトが検索エンジンの開発に力を入れなくなること、2)検索サイトもユーザーもWeb検索よりも広告検索を主にすること、です。これは私の考えすぎであることを願っています。

コンテンツの一部を検索するピンポイント検索 2003.7.12

  検索数の更新は、Google 13.3%増、goo 3.0%増、infoseek 2.1%増、で海外はすべて2%以内でした。総合の検索力は、Googleの検索数が大幅に増加したため、1位 Google、僅差で2位 goo、と先週の逆になりました。

  9日のPCWebの記事に「サムネイル表示は著作権侵害に該当せず、リンク表示は今後の課題に」とありました。ここでの問題点を整理すると、

  1)検索結果の紹介文の代わりにサムネイルを表示
写真家や芸術家は自分の作品がリダクションされてサムネイル表示されるのを受け入れないかも知れません。一方、画像検索サイトは画像データを収集し索引をつけて検索サービスします。画像の場合、テキストデータは少なく紹介文の作成は不可能です。そのため紹介文の代わりに画像のサムネイルで代替しています。利用者にとってはサムネイル表示は探しやすく便利です。このサムネイル表示は判決で合法となりました。質の高いサムネイル表示をすればこの問題は解決します。

  2)検索結果のリンクが画像を表示
日本語の画像検索サイトで検索結果のサムネイルをクリックしたときの表示内容とコメントを調べました。
2-1) Googleはリンク元の画像と画像の元ページとを表示します。コメントとして、「この画像は縮小してあります。イメージを最大化。この画像は著作権が存在する可能性があります。」
2-2) gooはリンク元の画像を表示します。コメントなし。
2-3) AltaVistaは画像の元ページを表示します。コメントなし。
2-4) Naverは収集し蓄積した画像を表示しているようです。コメントして、「表示される画像は著作権で保護されている可能性があります。表示される画像をWeb上での閲覧以外にご使用になる場合は、著作権者に問い合わせて承諾を得てください。」

  サムネイルをクリックしたときの表示内容は、1)画像の元ページを表示、2)リンク元にアクセスして画像を表示、3)コピーした画像を表示、の3種類あります。Googleは1)と2)、gooは2)、AltaVistaは1)、Naverは3)、です。3)は著作権法上大いに問題があります。判決では2)が未解決です。直リンクはトップページ以下のページですが、画像は直ページの中の一部分ですので複雑かも知れません。。

  従来の検索サービスは、1)サイト検索: サイトのトップページをディレクトリなどで探す、2)ページ検索: サイト内のページをキーワード検索で探す、ところまできています。次の段階として、3)ピンポイント検索: ページ内の特定のコンテンツを探す、が考えられます。ページを分割し、特定の文章、テーブル、画像などが検索できる世界です。これが実現すると、画像検索のようにリンクを拒否する人が出てこないとも限りません。このピンポイント検索はページをキャッシュすれば簡単に実現します。この場合、前の3)は蓄積したコピーページの一部を表示、になります。これが違法となればWebページがXMLで作成されるまでピンポイント検索はお預けになります。

ツールバーはブラウザの一部?、検索ボタン調査 2003.7.5

  主な検索数の更新は Google 4.6%減だけで2週続きの減少です。海外は米Yahooが8.0%増加しましたが、前週 6.0%減でしたので、変化してないとみなせます。今月初めにAllthewebのカタカナ検索は2週間ぶりに復活しました。個々の調査キーの増減を調べましたが増減幅は少なく、日本語索引システムの変更はなかったとみなせます。

  ブラウザMosaicの誕生は1993年、すでに10年経過したことになります。1995年からNetscapeが使えるようになり、バージョンアップを繰り返して成長し、その後MSのIEが台頭してきました。1998年4月に行った検索デスク利用者のブラウザ調査では、IE 57%、NN 43%、と逆転し、現在はIEが90%以上です。NNはFTP配布、IEは無料のCD-ROM配布、この相違が初心者の多いネットでの決め手になったようです。

  1995年3月からNetscapeを使い始め、1995年6月に「あらゆる情報はブラウザを通過する」と話しましたが、この認識は今でも通用すると思っています。MSがブラウザはOSの一部とみなして、OSのディレクトリ表示、Word、Excelなどのアプリケーション表示、そしてWebの表示をブラウザに統一しました。操作が共通になり、ますます使いやすくなっています。

  ユーザーはブラウザの表示画面にある検索窓に検索キーを入力し検索ボタンを押して検索します。メニュー画面にあるアドレス欄を利用する検索も普及してきました。通常はMSNの検索ですが、ツールバーを設定することにより独自の検索が可能です。これは表示画面の検索窓からメニュー画面のアドレス欄へと検索操作方法を変更することであり、検索処理の統一化の試みです。検索窓はWebの一部ですが、アドレス欄はブラウザの一部です。そのブラウザがMSの手にあることを考えると、検索サイトのツールバー移行は便利ですがあまり好ましくないのではと思います。

  今回は検索サイトの検索ボタンを調べました。

検索サイト検索ボタン
gooWeb、最新ニュース、英和、和英、国語、教えて、企業
Googleウェブ、イメージ、グループ、ディレクトリ
freshEYEサイト、新着、ニュース、カテゴリ、サウンド、動画、ショッピング
AltaVistaWeb、Image、MP3/Audio、Video、Directory、News
AllthewebWeb、News、Picture、Video、Audio、FTPfile
InfoseekWeb、英和、和英、国語、お買い物、オークション、メルマガ、ドメイン
NaverQ&A、ウェブ、韓国Web、BBS、イメージ、動画、サウンド、文章
Yahoo!ダイジェスト、カテゴリ、サイト、ページ、ニュース、辞書、電話帳

  これらの検索サイトはWeb以外にも複数のデータベースを維持管理していることがわかります。なお、Googleは検索ボタンではなくリンクを示し、1回検索すると検索ボタンになります。同様にYahoo!も1回検索すると検索ボタンが現われます。最近、Googleは「大半のブラウザでは、検索ボタンをクリックしなくてもEnterキーを押して、サーチできます。」との表示を中止しました。そして、日本語トップページでツールバーのPRをしてます。上記の理由で少し心配ですね。2・3年後のWeb検索がどうなるか誰にもわかりません。

Google:検索数と検索キーを含まない検索結果 2003.6.28

  検索数調査は、goo 16.0%増、TOCC 11.6%増、Google 5.1%減、と活発に更新しています。3ヶ月前と比較すると、goo 19.5%増、AltaVista 10.4%減、Google 14.0%減、Infoseek 21.0%減、Naver 68.5%減、と減少するところが多く、コンテンツは増大してることを考えると少し心配です。海外はYahoo! 6.0%減が目立つ程度でした。3ヶ月前と比較すると、Yahoo! 28.5%増、Lycos 14.4%増です。

  月末ですので、検索評価を行いました。トップはGoogle、2位は僅差でgooで、総合の検索力は1位goo、僅差で2位Googleと逆転しました。Naverが前回77.6の5位から27.2の9位へと急低下しています。検索数が前回より84%増加し、索引システムが更新したのですがランクシステムはまだ回復してないようです。前回のAltaVista、今回のNaver、と変化をキャッチできました。

  Googleとgooの評価が僅差ですが、各検索キーによる差はあります。Googleがgooより良いのは、「自動車、生活習慣、データ通信、Windows、ゲーム」、その反対にgooがGoogleより良いのは、「図書館、ショッピング、音楽、Sunday、2005年」、そしてほとんど同じなのは、「MMF、うどん、海外出張、時計、カメラ」でした。表示されるランクの評価は同じですが、差があるとすれば以前に検索の視点で指摘した紹介文のように思われます。

  Googleの検索オプションを使うとAND検索、OR検索、NOT検索ができます。例えば、分類 1,520,000、図書館 654,000、AND検索 96,300、OR検索 1,180,000、分類 -図書館 786,000 です。Googleの場合、分類と図書館の和は 2,174,000、AND検索とOR検索の和は 1,276,300 です。従来の検索システムでは分類と図書館の和はAND検索とOR検索の和になりますが、Googleではこの原則は成り立ちません。また、分類からAND検索を引いたのがNOT検索に一致しますが、これも成り立ちません。

  Googleの検索システムはリンクベースであり、検索キーとURLページとの類似性は閾値でコントロールされてるものと思われます。従って、検索数自体はあまり意味をもたず、従来の原則が成り立たないのは当然とみなしています。データ収集にしても、網羅的なロボットアルゴリズムではなく、ランクをベースに行っています。

  Googleの検索では非常に有用な検索結果、それは検索キーを直接含まないが関連性の高いページ、が除外されています。以前に検索キーのないのが表示されるとユーザーから指摘され除外したのかも知れません。一部の検索エンジンは同義語辞書でカバーしていますが、リンクベースでは検索キーを含む含まないにかかわらず関連性の高いのが検索できます。この検索キーを含まない検索結果はぜひ実現してほしいものです。

MSNBOTのテスト開始とその背景 2003.6.21

  今週の主な検索数更新は、Naver 83.9%増、TOCC 10.4%増、fresheye 8.5%、でした。Naverは大幅に増加しましたが、日本語索引システムの改善中で、調査キーによる増加のバラツキがみられました。指数を出す際に調整するキーは先週までゼロでしたが、今週からは「楽器、グルメ、コミック、時計、図書館」と増えています。なお、海外の更新はいつもよりも少ない週でした。

  数日前からAllthewebのWeb検索でカタカナの検索キーを使うと検索できなくなっています。調査できないため、指数は得られませんでした。なお、画像検索と映像検索だけはカタカナが使えます。AltaVistaの画像、映像、音声などマルチメディア用のデータ数が大幅に強化されました。画像は5億4,000万件のデータとのこと、充実してきました。

  MSNの検索ロボット、MSNBOTが活動を始めたことが18日のWeb記事に報道されました。MSNBOTの概要は http://search.msn.com/MSNBOT.htm にあり、a prototype Web Crawler robot で、まだテスト段階です。将来、ロボットが収集したページはマージして検索結果に反映したいとか、開発・研究中なので10ページしか収集しないなどとのことです。

  検索エンジンからの検索結果に独自に収集した結果をマージする方法は米Yahoo!が採用し相当レベルアップしています。先週、米Lycosはマージした検索結果を表示し始めました。MSNはテストし始めたところです。高度なソフト技術をもつMSNですので、マージにとどまらず独自の検索エンジンを持つ方向に進むのではないか、これから眼が離せなくなってきました。

  膨大なトラフィックをもつポータルサイトのYahooやMSNは開発リスクやコストを避けるために提携期限時に一番よい検索エンジンと提携し、検索エンジンを取捨選択してきました。しかし、最近のGoogleのように検索エンジンだけでも膨大なトラフィックを持つようになったため、今度は逆に検索エンジン側からポータルサイトを取捨選択する恐れがでてきました。この強力な検索エンジンの台頭、買収による提携関係の競合、そしてキーワード広告の出現、などがポータルサイトにも検索エンジンの独自開発を促してるようです。

goo画像検索開始、米LycosのFast 2003.6.14

  今週の主な更新は、Alltheweb 3.2%増、AltaVista 4.0%減、でした。9社のうち7社が指数85以上で、日本語検索エンジンの検索数の差はほとんどないとみなせます。したがって、わずかな増減でも順位が変更します。3.2%増加したAllthewebは5位から3位へとアップしました。検索エンジンはWeb情報を100%収集してなく、収集分野のかたよりもあります。検索結果が0件の場合は、他の検索エンジンで横断検索するか、キーワードを再考するのがおすすめです。

  10日にgooの画像検索が始まりました。最初はブロードバンドナビの方からしか検索できなかったのですが、現在はトップページから検索できます。gooの画像検索はAllthewebのデータベースを使っており、AllthewebがOvertureに買収されたため、いわゆるPowered by Overtureになっています。今後は動画検索や音声検索もサービスするとのことです。ただ残念なことは、利用者の90%以上を占めるShift-JISコードのサポートがないため、検索デスクではあつかえず、goo画面から直接利用しなければなりません。これは最速ニュースでも同様です。

  海外の更新は、Teoma 29.2%増、Lycos 21.9%増、AltaVista 13.9%増、Google 7.1%、と大幅に増加するところがみられました。2002年5月以来、米Lycosの検索エンジンはいわゆるPowered by Allthewebで、検索数はほとんどペア状態で推移していました。しかし、今週からLycosがAllthewebよりも20%位多くなり、離陸しました。これは、Allthewebの検索結果に、Lycosが独自に収集し編集したコンテンツを"from the Lycos Network"という名称で付加したためです。このようなマージは米Yahooでも行われていますが、まだ件数も少なくマージの際のランキング手法の開発はこれからです。

  米Lycosの検索結果は、最初に6件のsponcered link、Web Resultsが続きます。それから右端にもテキスト形式のSponsered Linksがあります。Lycosには珍しい機能があります。検索結果のタイトル後部にある"Fast Forword"をクリックすると、左端のサイドバーに検索結果のタイトルが一覧表示されます。そこをクリックすると右側の表示画面にコンテンツを表示します。これは検索デスクのナビバーで利用してる機能と同じです。ブラウザIEのターゲット機能"_search"を使っていますので、IEしか利用できません。ナビバーのようなコンテンツがもっと増えることを期待します。

検索サイトから検索デスクへの訪問は2.25% 2003.6.8

  日本語検索サイト9社の検索数更新は3%以上が1社、1%以上が4社で、海外8社では、3%以上が2社、1%以上が5社でした。先週よりは少し変化がみられました。今回から、このページの下部に検索数増減を示す表を追加します。

  検索デスクの6月2日から6日までの1日あたりのアクセス平均は、トップページに175,000、トップ以外に14,000で、総PVは189,000です。検索などで検索サイトから検索デスクを訪問する数を調べた結果を以下に示します。

カウント検索サイトカウント検索サイト
11,766msn.co.jp7104infoseek.co.jp
2996yahoo.co.jp882excite.co.jp
3720google.co.jp
google.com
933aaacafe.ne.jp
4162biglobe.ne.jp10272ch.net
5155nifty.com1125lycos.co.jp
6153goo.ne.jp1212fresheye .com

  1位 MSN、2位 Yahoo、3位 Google、です。Googleは提携しているところを加えれば1位か2位です。上位には集客力の多いポータルサイト、ISPサイトなどが入っており、検索関連のトラフィック状況を示しているとみなせます。

  検索デスクは多くの人から、ホームページとして採用、お気に入りへ追加、あるいはWebのリンク紹介などがあり、そこからのアクセスが大半を占めています。上記の表のカウントを合計すると4,260、これをPVの189,000で割ると2.25%、すなわち、44PVに1PVが検索サイトからの訪問になります。

  これが多いのか少ないのか議論のわかれるところです。サイトの対象分野、サイトの知名度、サイト構成などで変化しますが、これらに関するデータはほとんどありません。2月のデータと比較しますと、上位8社の訪問率は1.89%から2.19%へ増加しています。それから上位3社は増加していますが、4位以下は減少しています。寡占化が進行しているのかも知れません。いずれ検索の視点にまとめたいと思います。

僅差でgoo、Gooleの順へ、AltaVista 2003.6.1

  検索数の更新は、Google 9.4%増、Infoseek 19.3%減、TOCC 9.8%減、Fresheye 9.3%減、でした。一方、海外はすべて1%以内と良いことなのか悪いことなのか落ち着いています。

  今回は全検索サイト9社の検索評価を試みました。2ヶ月ぶりでしたので、検索サイトのランキングは大きく変化しており、確認するために時間がかかりました。まず、2ヶ月間の検索数の推移は、goo 3.9%増、Naver 82.8%減、Infoseek 21.3%減、TOCC 15.8%減、Fresheye 13.4%減、Alltheweb 12.4%減、Google 9.3%減、AltaVista 3.0%減,AAA!Cafe 2.1%減、と減少するところがほとんどでした。

  最近Googleのリンクシステムが変更しており、検索評価に影響がでてるようです。前回に較べて得点ベースで2.4%減少したため、0.7%増加したgooに逆転され、指数99.0の僅差で2位です。得点が増加したのは、「Sunday、図書館、履歴書、釣り」で、一方減少したのは、「書籍、芸能、ニュース、音楽」でした。少数のリンクシステム悪用を避けるためにGoogleは軌道修正していますが、影響を受けるのは多数の利用者です。

  今回の検索評価の得点の増減は、AltaVista 29.2%増、Naver 14.5%増、Alltheweb 6.2%減、でした。AltaVistaは7位から3位へと大幅に上昇しており、ランキング手法が刷新したことがうかがえます。検索数の増減が少ないため調査しない予定でしたが、調査して大発見しました。索引システムを変更して検索数が大幅に減少したNaverも検索評価はよくなっています。Allthewebは得点の減少が少ないのですが、競合が多いために順位は4位から7位へ落ちています。

  検索評価は2001年10月から同じアルゴリズムを使っています。昨年に較べてデータ収集が数倍手間取るようになりました。AltaVistaとAlltheweb以外は、前処理、コード変換、後処理などをしなければなりませんが、変化を発見できるため続けています。

Naverの索引システム、Webページの定義 2003.5.25

  更新は、Naver 79.1%減、Google 9.2%減、海外のYahoo 10.3%増、が主なところです。Naverが大幅に減少しましたが、不具合な索引システムを変更したためです。グルメは2,050万件から145万件、ドメインは1,900万件から53万件へと大きく減少しました。この2つを除けば17.1%減で、ヒントやマーケットは逆に30%前後増加しています。

  検索デスクのトップページのページビューが9,500万になり、あと1ヶ月位で1億ページビューに達します。7年以上にわたり横断検索用のページと検索サイトの検索数や登録数などの調査結果を提供してきました。

  スタート時は検索サイトの紹介が主でしたが今は何も残っていません。検索サイトの更新が激しく、それを更新するのに時間がなく、やむなく退場させています。良いものも悪いものも新鮮でないという理由で廃棄してきましたが、骨董的な価値があるかも知れません。というわけで、最近はHDDに残っているものや印刷したものを整理しています。

  先日、節単位でページを構成したサイトを見ましたが、数行単位のページが続き、途中で読むのを止めてしまいました。検索で検索結果が1つづつしか表示されなかったら不便です。検索をよく利用する人は、10個づつの表示よりも20~30個づつの表示を好みます。一覧性というのも大切です。1ページの単位として、ディスプレイ1画面に表示できるもの、プリンタ1枚に印刷できるもの、1つの情報だけで構成する、日記などは1日単位、などなどあります。

  検索サイトからの要望として、ディレクトリの面から1ページは1分野、検索エンジンの処理面からテキスト量は数KB以内、Googleのようにリンク処理の立場から1ページは100リンク以内、などがあります。いずれにしてもWebページの定義はなく、あったとしても誰も守ってないのが現状です。

Googleのリンクシステム更新? 2003.5.18

  検索数の更新は、Alltheweb 11.1%減、Infoseek 3.0%減、Google 2.0%減で、減少するところの多い週でした。Allthewebは3位から5位へ順位を下げています。最下位の指数が52.9なので、トップから最下位までの検索数の差は2倍以内です。検索サイトの検索数の差はなく、収集分野が異なりますので、探せないときは横断検索がおすすめです。

  海外の更新は、Yahoo 7.2%増、Alltheweb 4.0%増、Lycos 3.8%増、Teoma 11.1%減、HotBot 11.2%減、と更新の多い週でした。更新が5社になるのは1ヶ月に1回、中旬が多いです。今週、Googleのリンクシステムが更新しました。リンクの定義が厳密になり、各Webサイトのリンク数は数~数10%減少しています。リンクは検索結果のランキングに影響しますので、従来と異なった検索結果になるものと思われます。これが何回目の更新かわかりませんが、検索評価にどう影響するか調べたいと思います。

  GoogleのランキングはPageRankを使っており、多くの人に研究されています。特に、ランクを上げることを商売にする人々は熱心です。Googleがリンクの関係を悪用されないように不自然なリンクを排除するのは当然です。また、従来と異なるリンク関係をもつコンテンツが出現しているからかも知れませんし、まだ更新は続くものと思われます。

  一昔も二昔も前のことですが、私はWebリンクではなく論文の引用・被引用を使った検索システムの雛型を作りました。当時はキーワード主体の検索が主流でしたので、リンク主体の先駆的な検索は理解されず評価されませんでした。Googleのリンクシステムの良し悪しをある程度理解できるのはその当時の経験が役立っています。リンク主体の検索が活躍してるのをみてうれしく思っています。

ドメイン名の移行について 2003.5.11

  検索数調査は、Alltheweb 6.9%増、goo 1.5%増、Google 8.2%減、でした。海外の調査では、Yahoo 1.5%増、Google 1.1%減、Teoma 23.7%減、と全般に低調な動きでした。

  ドメインの取得や移行について、1)新規:新しいドメインを取得してホームページを立ち上げる、2)廃棄:ホームページを終了してドメインを廃棄する、3)移行:ホームページを引越して、旧いドメインから新しいドメインに移行する、4)拡張:一つのドメインから複数のドメインへと拡張する、5)縮小:合併などで複数のドメインを一つに統一する、などがあります。

  ホームページ枠を無料でサービスするところがあり、最初の頃はそれを利用していました。最近は個人でもドメインが取得できますので、できるだけ独自のドメインを取得するのがよく、その際のドメイン名は英数字だけにするのが無難です。新規や廃棄の情報は検索サイトへの申告や巡回ロボットによって収集され、データベースは修正されます。

  検索サイトにとっては廃棄と新規が同時に発生するドメイン移行が一番厄介です。完全に移行してドメインを廃棄するまで、新旧ドメインのページが共存してる期間があります。旧ドメインは引越し情報だけにし、できるだけ共存期間を短くするのが検索エンジンだけでなく当事者にもよい結果をもたらします。

  それから、旧ドメインに対する逆リンクを新ドメインに移行することは不可能です。現在主流の検索結果のランキングは逆リンクをベースにしていますので、移行は不利になります。逆リンクはその存在がはっきりしないため無視する人がいますが、大変貴重なものですからドメイン名はできるだけ変更しないのがベターです。

  4月1日に日本郵政公社が発足し、新ドメインに移行しました。5月11日の時点で、「ゆうびん」で検索するとほとんどの検索サイトは旧ドメインを表示します。しかし、ページ検索のInfoseek、サイト検索のYahooとMSN、の3検索サイトだけは新ドメインを表示します。「ゆうびん」のような有名サイトのドメイン移行でも検索サイトは簡単に対応できません。移行、拡張、縮小などを考えてる人は慎重に!

検索サイトへの負荷、インターネットの休日 2003.5.5

  4月18日から2週間の増減は、Naver 17.9%減、Alltheweb 3.4%減、TOCC 2.2%減、Fresheye 2.2%減、AAA!Cafe 2.1%減、など減少するところが多い週でした。1月31日から3ヶ月間の増減をみると、Naver 50%増、Google 24%増、TOCC 17%増、Fresheye 10%減、Alltheweb 18%減、AltaVista 21%減、などで、全体に増加しています。

  一方、海外の2週間の増減は、WiseNut 4.5%増だけで、他は1%以内と低調でした。3ヶ月では、WiseNut 63%増、Yahoo 10%増、Teoma 7%増、AltaVista 7%増、Google 5%増、Lycos 5%減、で増加するところが多くみられました。

  今回、Naverの減少が大きく、調査キーでもばらつきがみられました。日本語索引システムの変更によるもので、「京都」の検索で「東京都」を検索しなくなりましたが、まだ「グルメ」や「ドメイン」での検索数は多いようです。

  なお、「京都」の検索で「東京都」を検索するところを調べました。ページ検索10社のうち、AAA!Cafe、AltaVista、Openfindの3社、サイト検索8社のうち、Yahoo、Infoseek、JOYの3社が検索結果に「東京都」が混じっています。キーワードによっては検索結果から簡単に気付かないのもあり、探索が無駄になる場合があります。

  正確に検索すること、Not Foundを少なくすること、更新を早くすること、多くのWebページを収集すること、ランキングをよくすること、新旧サイトのバランスを図ること、適切な紹介文をつくること、検索結果を速く表示すること、などなど検索サイトのソフト開発負荷は高まるばかりです。それに、高性能な情報処理機器やネットワークの開発、拡大し続けるWebの変化など、見続けたいと思っています。

  お正月、ゴールデンウィーク、お盆は1週間位のお休みモードになります。Webが始まった頃は、Webニュースは新聞休刊日に合わせて休んでいました。しかし、最近はネットに合わせて24時間営業になっています。しかし、インターネットでも休みは必要であり、何らかのルールがあればと思う今日この頃です。

Traffic 2003.4.20

  検索数調査で、Googleが7.8%増加し、その他の9社は1%以内でした。AAA!Cafeがトラブルで今週の初めから検索できません。もうしばらくかかるようです。海外では、Yahooが7.0%増加し、9社のうち6社が1%以内の増減です。

  18日からAlexa検索を採用しました。Alexaはスケールの大きな調査をしている会社で、有名なArchive(WayBack)を提供している会社です。創立は1996年4月、日本のYahoo!が開始した時です。現在、多くの検索サイトで採用しているツールバーは1997年から始めています。1999年にAmazonに買収されました。

  ユーザーのサイト利用状況を収集するために、1998年にNetscape、1999年にInternet Explorerに採用されています。そこから得られるデータを処理して、サイトのトラフィック数とそのランク、関連サイトや逆リンクなどを各国別に提供しています。

  Alexaの検索窓に、1)ドメインを入力するとAlexaの情報、2)キーワードを入力するとGoogleの検索結果が示され、そこからAlexaの情報が得られます。内容は、Overview、Related Links、Reviews、Sites Linking in、Traffic Detail、の5種類です。Related LinksはIEの「ツール→関連したリンクの表示」でサイドバーの検索バーに示せます。ReviewsはAmazonの書籍Reviewsの応用です。Sites Linking inは逆リンクで、最後のTraffic DetailはTraffic Rankの数値データと6か月分のグラフ表示、100万ユーザーあたりのReach数とそのランク、Page Viewsとそのランクなどです。

  検索デスクの場合、Traffic Rankは7,621、逆リンク数は1,876、Reachは今週平均で250、Page Viewsは1.2、です。これらの数値は全世界対象のサンプル統計ですから、Reachは全世界の4,000人(100万/250)に1人、日本はその16分の1として、日本でのReachは250人(4000/16)に1人とみなせます。Alexaはドメイン単位ですが貴重な情報が得られますのでぜひご活用ください。

米Yahoo、検索専用ページをオープン 2003.4.13

  日本語検索サイトの検索数は、Google 5.1%減、1%以内は10社のうち5社と変化の少ない週でした。一方、英語検索サイトの検索数は、AltaVista 11.4%増、Yahoo 5.4%増、1%以内は9社のうち4社でした。

  7日に米Yahooの検索サイトがリニューアルし、シンプルな検索専用ページを新規に立ち上げました。ポータルサイトは情報量の増大につれて、ページ構成は多くの情報を盛り込むものが主流でした。最近、HotBotやAltaVistaはGoogleのトップのようなシンプルな画面に変更しています。Yahooもこれと同じ流れとみなせます。検索デスクで紹介する海外ページ検索は9社ありますが、Lycosを除いた8社がシンプルな画面を持っています。

  さて、Yahooの検索画面の構成は、Web、Directory、News、Yellow Pages、Images、Mapsの6種類からなります。後の3つが新たに加わりましたが、ImagesはGoogleとの提携によるものです。The Webは3件のInside Yahoo!、3件のCategories、20件のWeb Results、そしてother search engines、で以前と同じ構成です。しかし、Web Resultsの内容は充実しており、キャッシュや新規画面用マークなどが利用できるようになりました。

  YahooとGoogleの検索結果を比較してみました。検索結果のランキングから両者は別物とみなせます。検索結果20件のうち、Yahooはキャッシュ 20件、類似ページ 8件、カテゴリ 15件、Googleはキャッシュ 20件、類似ページ 19件、カテゴリ 13件、日付表示 12件、とWebコンテンツの収集状況により結果にいろいろなパターンがあることがわかります。

  その他、キーワード広告表示は上部にバナー、右端にバナーやテキストなどがありますが、OvertureやAdWordsの広告でないように感じました。

日Yahooの有料新聞記事検索サービス 2003.4.6

  日本語検索サイトの更新は、TOCC 3.0%減、Alltheweb 5.6%減、などです。Naver、Openfind、AAA!Cafe以外の検索サイトの更新は1%以内です。毎月よりも毎週更新してる方が新しい情報が入ります。新しくホームページを立ち上げた人にとってはランキングよりも検索サイトに載ることの方が重要です。いろいろな基準の検索結果表示があれば利用は広がります。

  Webは無料情報を提供することでメディアとしての地位を獲得しました。経済的な基盤のある既存企業のWeb進出と異なり、ネットしか基盤をもたないネット企業は無料サービスから有料サービスへと模索しています。4日に発表されたYahooの新聞記事の検索サービスは有料化の試みです。

  Web以前からあった商用データベースサービスもインターネットで利用できるようになっていますが、その料金体系は以前とほとんど同じです。例えば、新聞の場合、見出しの表示に1件数円と本文表示に1件数十円の従量制の費用がかかります。Webの場合はニュース検索結果の表示やその本文表示は無料ですので、無料に慣れた人に利用料金を理解してもらうのは大変です。

  今回のYahooの有料化は無料のネットと有料の商用データベースの中間的な料金体系を採用しています。見出し表示は無料、3ヶ月以内の本文表示は無料、3ヶ月以上の本文表示は有料、となっています。新しいのが無料で古いのが有料、何か骨董の世界のようです。最先端のWebの価値観が現実と逆転していると感じる今日この頃です。

  海外検索サイトの更新は、HotBot 3.9%増、Alltheweb 4.7%減、AltaVista 13.9%減、と久しぶりに変動しました。Openfindは昨年9月から更新がなく、まだトップページは工事中です。Lycosを除くと実質8検索サイトです。

検索評価実施、goo検索実験一旦終了 2003.3.30

  検索数の更新は、Alltheweb 7.6%増、AltaVista 2.9%減、でした。海外の検索数更新はすべて2%以内と低調な動きでした。3月末ですので、検索エンジンに対する検索評価を、前回より更新のないOpenfindとNaverを除いた8検索サイトに実施しました。freshEYEとTOCCが前回よりも下がったため、順位が少し入れ替わりました。

  現時点でのAグループは、1位 Google 100.0、2位 goo 97.8、です。両者の検索結果のランキングの面ではほとんど同じとみなせます。両者は紹介文の作成方法が異なっており、それが利用のしやすさに影響し、トラフィックの差を生じているものと思われます。

  次のBグループは、3位 freshEYE 77.7、4位 Openfind 74.6、5位 Alltheweb 74.5、6位 TOCC 69.1、ですが、Aグループよりも指数で20以上の差がついています。新規のOpenfindは日本語化が進行中にもかかわらず健闘して4位です。まだトップページの工事中ですが、検索は使えます。

  次にCグループとして、7位 Naver 65.6、8位 AltaVista 65.1、9位 AAA!Cafe 65.1、10位 Infoseek 54.3、です。BとCグループとも、リンクの利用法や日本語索引化法が評価に影響しているように思われますが、その具体的な内容はわかりません。

  仕事や趣味などで1日に数時間Web検索をしているプロの人は経験に基ずいて検索サイトを評価し利用しています。一方、この検索評価は客観的な方法で行っており、わずか10種類の数値を出すのに数日要しますが、誰が行っても同じ結果になります。本来なら協会などが発信する情報です。個人サイトではきびしいですが頑張っています。

  なお、gooが行っていた新鮮情報検索実験が3月末で一旦終了とのことです。現在の検索数指数は34.7、gooと入れ替えた検索評価は2位の82.6で、本家の56.9と97.8に比べて検索評価が悪くなっています。新鮮を意識したランキングでは思っています。紹介文はKWIC方式を採用してますので、gooに反映されればグーです。

Web検索のプロセス、KWIC方式の紹介文 2003.3.23

  検索数の更新は、Google 7.4%増、goo 3.7%増、などです。前にも記しましたが、重複ページを含んだり日本語以外のページを含むため検索数が異常に多いときには検索数を調整して指数を算出します。その調整率は毎回変更しており、今回の例では、Naverの「グルメ 0.069、図書館 0.409、ドメイン 0.089、文学 0.595」、freshEYEの「生物 0.508、文学 0.595、vrml 0.089」、Openfindの「コミック 0.476」を使いました。

  Web検索のプロセスとして、1)検索の明確化、2)検索サイトの選択、3)検索オプションの選択、4)検索キーワードの決定、5)検索結果のブラウズ、6)検索ページのブラウズ、が考えられます。

  1)はWebから何を探すのか何を知りたいのかを明らかにします。2)は検索サイトの長所・短所を知り、目的に合う検索サイトを選びます。3)は検索オプションを上手く利用します。4)のキーワードの選択は一番難しく経験を要し、個人差がでます。5)は検索結果で示されるタイトル、紹介文、URLなどから情報のありそうなところを探します。6)は選択したページをブラウズして情報を探します。

  数年前に比べればWebコンテンツや検索結果のランキングがよくなっています。ユーザーが一番接するのは5)であり、特に紹介文は重要です。丁度1年前に検索の視点で「Googleに隠れた秘密あり!KWIC方式の紹介文」で指摘しました。現在KWIC方式の紹介文を作成してる所は、Google、goo新鮮、Alltheweb、Openfind、Naver、AAA!Cafe、と増えており、この面からも探しやすくなっています。

  検索数の更新は、Teoma 6.8%増、Lycos 3.3%増、Alltheweb 3.1%増、Yahoo! 9.3%減、などで、あまり変化のない週でした。

Naverの画像データ増加、URLの変更は慎重に 2003.3.14

  検索数の更新は、Google 14.8%増、freshEYE 3.2%減、TOCC 3.7%減、Alltheweb 4.0%減、です。3ヶ月間の増減は、Naver 240.7%増、AAA!Cafe 18.2%増、Infoseek 17.7%増、goo 7.6%増、Google 7.5%増、freshEYE 8.4%減、Alltheweb 25.1%減、TOCC 30.2%減、などでした。

  10日にNaverのマルチメディア系データが増量しました。画像は3倍の1億件へ、動画は1.7倍の100万件、音楽は1.3倍の50万件、文書は7倍の140万件、などです。先週から開始したOpenfindは、現在、日本語と英語のトップページが"Under Reconstruction"中です。トップページからの検索はできませんが、検索デスクの検索窓からは検索できます。

  検索数の更新は、Yahoo! 7.3%増、Google 4.4%増、Alltheweb 4.3%減、Lycos 4.5%減、などです。3ヶ月間の増減は、WiseNut 55.9%増、Teoma 26.7%増、AltaVista 6.8%増、Google 5.8%増、などでした。

  検索結果の後部に同じキーワードを使って他の検索エンジンを検索できる検索サイトがあります。Yahoo!は(AltaVista、AskJeeves)、Lycosは(HotBot、AltaVista、Overture、Web Directory、Alltheweb)、HotBotは(Alltheweb、Google、Teoma)、そしてAltaVistaは(Lycos)、などです。最近の買収などでこれらの関係がどう変化するか注目されます。

  Disneyは1998年から1999年にかけてInfoseekを買収し、ニュースサイトと共にポータルサイトのgo.comを立ち上げました。しかし、トラフィックが伸びず2001年には検索サービスを中止しています。11日にDisneyが米Infoseekの検索技術を売却すると報道されました。失敗の原因はGoogleの出現によるのかも知れませんが、www.infoseek.comをgo.comに変更したことによると思われます。同様に、www.hotbot.comをhotbot.lycos.comにしましたが、最近、www.hotbot.comに戻っています。先々週の1+1が2以下というのはこのURLの変更を指しています。

Openfind日本語版、多言語検索エンジン 2003.3.8

  検索数の更新は、freshEYE 14.3%減、Google 6.9%減、です。今回から新たにOpenfindベータの日本語版を調査項目に追加しました。検索数指数は69.8で5位からのスタートです。これに伴いOpenfindの検索結果の評価を行いました。現時点での検索結果の評価は、Aクラス、Google 100.0、goo 94.2、freshEYE 84.6、Bクラス、Alltheweb 76.6、TOCC 75.1、Openfind 74.6、Cクラス、Naver 65.7、AltaVista 64.4、AAA!Cafe 62.7、Infoseek 53.5、です。評価方法を少し変更したため、freshEYEとTOCCは数値的に若干不利になっています。Openfindはまずまずの出発ですが、更新の遅れが気がかります。

  多言語検索エンジンは世界中のWebを収集して言語別に検索サービスしています。AltaVista(25言語)、Google(35言語)、Alltheweb(49言語)、そしてOpenfind(22言語)が該当し、日本語検索サービスをしています。AltaVista、Alltheweb、Openfindはまだ日本語用の検索ページがありません。これらの検索サイトは言語設定を日本語にすれば日本語検索が可能になります。以下、設定方法を記します

  1. Google 表示設定/検索言語の設定で「日本語」→「保存」。
2. AltaVista Search Languageで「Japanese-日本語」、Interfaceで「English-US」
  →「OK」。
3. Alltheweb Results/Select Languageで「Preferred Language」、Preferred Language
  で「Japanese/日本語」、Result Page Encodingで「Japanese(Shift_JIS)」→「Save」。
4. Openfind PreferenceのDisplay in This Languageで「English」、
  Language Setで「Japanese」→「SetUp」。

  これらの設定は1回行えば各自のパソコンにクッキーで保存されます。検索デスクでは英語の検索ページを呼び出さなくても直接検索できるようになっています。

  検索数の更新は、Alltheweb 6.3%増、Lycos 5.7%増、などです。今回から海外検索の表示は検索数からアルファベット順に変更しました。そして、日本語ページ検索の表示は検索数が安定するまで検索力から検索結果の評価順に変更します。

  この数週間、米国の検索サイトはM&Aなどで大きく変化していますが、3ヶ月以内に具体化されます。5日にGoogleは自社の検索結果だけに提供していたAdWordsを拡大し、一般の掲載サイトまで門戸を広げました。これは広告代理店への進出ですので、競合する会社にとっては脅威です。

OvertureのFAST買収、Googleの検索特許 2003.3.1

  検索数の更新は、Google 5.8%増、AAA!Cafe 3.6%増、goo 3.4%減、Alltheweb 14.7%減でした。公開実験中のgooの新検索エンジンの検索数指数は27.1で、本家の半分位です。

  検索結果の評価は検索数の大きく変化した、Alltheweb、Naver、AltaVista、について調査しました。今回からInfoseekを採用したLycos(WiseNut)の調査は中止しました。freshEYE、Naver、AltaVista、は大幅に減少しました。検索力は検索評価と検索数とから求めていますが、今回始めて検索評価の順位と検索力の順位が一緒になりました。

  検索数調査は、AltaVista 13.4%減、Alltheweb 7.0%減、Lycos 6.4%減で、全般に減少するところが多い週でした。OpenFindの更新は昨年9月8日以来5ヶ月近くも未更新の状態が続いていますので、ナビバーの表示位置を変更しました。

  先週、今後第2、第3の再編が起こると記しましたが、24日にMSNが2005年末までInktomiと契約更新しました。InktomiがYahoo!に買収されてますので、従来の流れからすれば不思議な更新です。さらに、先週、AltaVistaを買収したOvertureが1週間も経たないうちにFAST Searchの一部のサービスを買収しました。Overtureの新検索サービスは5月末までに明らかになるものと思われます。

  数年前までは、検索エンジンを自社開発してないところは検索エンジン会社と提携関係を結び、お金を払って検索結果を自社サービスに取り入れていました。しかし、最近は提携するよりも買収して検索エンジンを持つ傾向があります。2001年9月にAskJeevesがTeomaを、2002年3月にLooksmartsがWiseNutを、2002年12月にYahoo!がInktomiを、そして2003年2月にOvertureがAltaVistaとFASTをそれぞれ買収しています。一般企業の買収では1+1は2以上になりますが、Webの世界ではその特有な理由で1+1を2まで持っていくのは非常に難しいようです。

  28日にGoogleのWeb検索特許に関する重要なニュースが流れました。これはWeb検索にリンクを使うPageRank特許に続くものです。PageRankは収集したページ全体に関するものですが、今回のは検索により集められた部分集合に関してPageRankのリダクションを行うものです。これによりリンクの外部への広がりを防ぎ、検索精度の向上が狙えます。それにしても、このような基礎的で普遍的なアルゴリズムに対する特許がWeb検索の発展にブレーキにならないことを願うばかりです。

OvertureのAltaVista買収、GoogleはBlog分野へ 2003.2.22

  検索数の更新は、Naver 294.3%増、freshEYE 18.9%増、AltaVista 15.7%増、などです。Naverの大幅な増加は、グルメ 1,226%増、ドメイン 755%増、図書館 153%増、文学 120%増によるもので、「グルメ」 2,194万件、「ドメイン」 2,355万件で、索引システムの不具合?ではと思います。

  検索数は、WiseNut 41.2%増、AltaVista 42.6%増、Yahoo 13.9%減、AOL 93.7%減、です。1月末に、AOLは約11兆円の損失を発表しましたが、今週の検索数は先週の7%になりました。検索数は減少しても、ランキングはGoogleのを維持してます。検索数の指数が3にダウンしたため調査対象から外しました。先週、検索数が測定できなかったTeomaは復活しました。

  今週は海外から2つの新しい動きがありました。一つは Overture が AltaVista を買収したことです。AltaVista は1995年にWeb用検索エンジンを開発し、日本語検索サービスを提供しています。Compaqが運営していましたが、1999年に23億ドルでCMGIに買収されました。それが2003年2月にキーワード広告検索のOvertureに約1.4億ドルで買収されました。わずか3年で、23億ドルが1.4億ドルと約15分の1になりましたが、CMGIが売らねばならない事情があったからのようです。

  OvertureはInktomiの処理ソフトを使っており、そのInktomiが昨年末にYahoo!に買収されています。先日、AltaVistaはマルチメディア検索を強化しています。今までのユーザーと競合しないようなコンテンツ展開を図るようです。検索サイトの提携関係が複雑になってきており、今後、第2、第3の再編が起こることが予想されます。

  もう一つは Google が Blog のPyra Labs を買収したことです。GoogleがNews Groupsを買収したときは疑問に思ったのですが、今回の買収はBlogがあまり普及してない初期段階時に着目した点に夢があります。コンテンツを評価するGoogleのシステムを生かしたサービスが提供されることが期待できます。

検索結果の構成とスポンサーの増加 2003.2.15

  検索数は、goo 6.7%増、Google 11.4%減です。検索数の順位は若干替わりました。12日にLycosの検索エンジン(ページ検索)はWiseNutからInfoseekへ変更しました。今後、Lycosの調査は中止します。長い間、ありがとうございました。海外の検索数はWiseNut 10.8%増でした。

  検索結果を表示するページの内容は標準のパターンはなく、検索サイトごとに異なっています。検索窓や内部リンクを除いた構成をデフォルトの検索結果別に調べました。用いた記号は、自:自社, A:AdWords, G:Google, I:Infoseek, L:Looksmart, O:Overture, T:TOCC、です。

  1)ページ検索結果
freshEYE バナー、サイト(L)、検索結果(T)
Google  スポンサー(A)、検索結果(自)
goo   バナー、スポンサー(O)、検索結果(自)
Infoseek バナー、カテゴリ(自)、スポンサー(O)、検索結果(自)
Excite  バナー、スポンサー(A)、検索結果(G)
Lycos  バナー、サービス(自)、スポンサー(O)、カテゴリ(L)、検索結果(I)
Biglobe バナー、スポンサー(A,L)、検索結果(G)
@nifty  バナー、サービス(自)、スポンサー(A)、検索結果(G)

  2)サイト検索結果
Yahoo  バナー、サービス(自)、カテゴリ(自)、スポンサー(O)、検索結果(自)
MSN   バナー、カテゴリ(自)、おすすめ(自)、スポンサー(O)、検索結果(自)
AllAbout バナー、コラム(自)、検索結果(自)

  バナー以外は検索キーに関連した情報です。数年前まではカテゴリやサイトが多かったのですが、最近はテキスト中心のスポンサーが増加しています。

LycosはWiseNutからInfoseekへ、提携関係 2003.2.8

  この4週間、検索数が3%以上増減したのが毎週5箇所以上ありましたが、今週は1箇所もありませんでした。海外はAltaVista 6.6%減だけでした。

  Infoseekはリンクをベースにした新検索エンジンを開発しており、3月には検索サービスするとのことです。検索結果のランキングにリンクを使うことが優れていることはGoogleで充分証明されています。この分野に関しては相当遅れてしまいましたが、後発なりに新しいものを出してほしいものです。丁度、1年前の検索力調査2002年2月11日にリンクのことを少し触れたところ、すぐに有名な検索エンジンサイトから問い合わせがありました。リンクに関しては長い間の思い入れがあり、現在の検索エンジンの動向を理解できますので幸せだと思っています。

  Infoseekの発表時に、2月12日頃からLycosの検索エンジンにInfoseekを採用するとアナウンスがありました。Lycosは1998年7月から米Lycosの検索エンジンに日本語処理を施してオープンし、約3年半運用しました。2001年12月にGoogleキラーと言われるWiseNutを採用し、今日にいたっています。昨年12月にLycosは楽天に買収されましたので、いずれInfoseekを採用すると思っていましたが、それにしても早かったです。検索結果評価で4位の検索エンジンが検索できなくなるのは残念といえば残念です。1998年10月に開始したLycosディレクトリも昨年11月に撤退しましたが、トラフィックだけで良し悪しを判断することから早く脱却したいものです。

  提携関係も複雑になってきました。Aの場所を使ってBの情報を載せる場合、AからBへの支払いが生じる場合と、その逆にBからAへの支払いが生じる場合があります。前者は、検索エンジンの結果や専門データベースのコンテンツなどを載せる場合で、後者には広告などがあります。1996年にNetscapeがテナント料を徴収した時には驚きました。情報の流れや金の流れ以外に人(の心)の流れが掴めたらと思う今日この頃です。

MSN検索のリニューアル、リアルタイム性の困難 2003.2.1

  先週と同じようにデータの更新は10社のうち6社と多い週でした。Infoseek 44.3%増、TOCC 8.8%増、freshEYE 7.4%増、Google 5.4%減、AltaVista 17.8%減、Lycos 21.1%減、などです。今回は、Lycos、Naver、Infoseekの検索評価を行いました。Naverは昨年5月26日頃に60から80へ、9月22日頃に80から60へ、そして1月24日頃に60から80へと5位に戻りました。Naverの検索力は6位から5位にアップしましたが、検索調査キーの「グルメ」や「ドメイン」の検索数が他よりも4倍以上と目立つようになってきました。これも収集データによるのか日本語索引法によるのかわかりません。

  検索エンジンやディレクトリの開発を中止したり持たないところは、ページ検索はGoogleやInktomi、ディレクトリはlooksmart、と連携して検索サービスを提供しています。MSNはMSN Searchでディレクトリを、その条件検索でページ検索を提供しています。従来、ディレクトリはlooksmart、ページ検索はinktomeと提携していると言われていましたが、最近、ページ検索のデータが約2.7倍になりました。そこで検索結果を調べたところ、ほとんどFresheyeと同じで、Inktomi系のPowered by TOCC に変更しています。なお、ディレクトリの検索はlooksmart系?に近い独自色の強いものになっています。

  検索数の増減は、AOL 11.2%減、AltaVista 8.3%減、Yahoo! 4.8%減、などで、更新のあった8社全部が減少しました。不況の進行でWebページの公開が縮小し、それに伴いWeb検索サイトのデータ数が縮小しているのではと思われますが、もう少し長い期間での趨勢をみないとわかりません。

  検索エンジンはWebページを収集するためにロボットを走らせています。最近のようにWeb情報のリアルタイム性を要求されると、1日に何回もサーバーを訪問しなければなりません。しかし、サーバーの負荷となるため訪問頻度は制限され実現しません。インターネットの仕組みを再構築する以外にないのではと思います。

検索数増減の振幅、Teomaの多階層カテゴリー 2003.1.25

  この1週間でデータが3%以上増減したところは10社のうち7社と活発な週でした。多いところから示しますと、Naver 86.6%増、goo 10.5%増、AAA!Cafe 6.6%増、Fresheye 3.6%減、Alltheweb 4.7%減、AltaVista 8.0%減、TOCC 26.0%減、でした。今週は、Naverが17箇所のBBS横断検索を正式オープンし、freshEYEがレイアウトをリニューアルしました。

  先週、英単語の検索で英語ページが含まれると指摘しましたが、TOCCとAltaVistaは早速対応していただき、日本語だけになりました。具体的に示しますと、調査キーvrmlで、TOCCは525,329から26,493へ、AltaVistaは623,254から14,521へ、と減少しました。差の減少分が英語ページとみなせます。昨年の夏ごろからですが、索引化などで検索数が異常な場合はデータを調整して指数をだしています。

  今回増減が多かったのですが、Naverは86.6%増、その内訳は、グルメ 9,563,959で4.0倍、ドメイン 11,769,241で1.7倍、と一部のキーだけが突出しています。今回は8箇所修正しましたが、この例外処理は意外に時間がかります。

  データが3%以上増減したところはAOLの3.4%減でした。

  21日にAskJeeve社のTeomaが2.0にバージョンアップしました。Teomaの検索結果は3種類あります。左側に関連したWebページ、右端上部に絞り込みに役立つカテゴリー、右端下部にリンク集を表示します。今回のバージョンアップは2番目のカテゴリーが従来よりも進歩した方法で作成しています。

  検索結果を分類しカテゴリーを自動抽出する方法は多くの検索サイトで試みられ、実用化しています。最初はキーワードの関連性からクラスターリングしていましたが、TeomaやWiseNutはリンク関係をベースにしています。キーワードだけを使うよりもリンクを使えば情報量は増し、精度はよくなります。従来のクラスターリングは1回しか行わなかったので、カテゴリーを開くと、Webページがでてきます。今回のTeomaはカテゴリーを開いてもカテゴリーが出てくるという多階層のカテゴリー化を図っています。類似した情報を整理したものがカテゴリーですから、情報を探す検索から知識を得る検索へと一歩近づいたことになります。

英単語検索上の注意、英語検索サイトは停滞? 2003.1.18

  検索数はAltaVista 8.8%増、TOCC 4.8%増、Fresheye 4.4%増、Alltheweb 4.6%減、goo 6.1%減、などです。総合の検索力の順位は前回と同じでした。

  日本語検索で用いるキーは、漢字、カタカナ、ひらがな、アルファベット、そして数字などがあり、単語間の区切りはありません。一方、英語はアルファベットと数字で単語間の区切りはありますが、フレーズや語尾変化があり、それぞれ問題を抱えています。検索エンジンが採用する索引化手法は異なりますので、検索結果に影響します。

  日本語の切り出しを比較的正確に行ってるgooのキーを基準に各検索サイトのキーの増減を検索数の指数を考慮して比較しました。gooよりも2倍以上のものを示しますと、Fresheyeの文学 4.65倍、生物 2.54倍、Naverのドメイン 4.79倍、グルメ 3.09倍、Lycosの文学 3.75倍、マーケティング 2.39倍、Googleのポータル 5.80倍、文学 3.69倍、AltaVistaのポータル 2.86倍、Infoseekの文学 2.63倍、ポータル 2.41倍、などの結果が得られました。データ収集領域の相違があるにしても索引方法の相違と考えられます。

  昨年の9月からFresheyeとTOCCで英単語を検索すると英語のページが混じるようになりました。英単語の検索だけが突然約20倍増加しましたので、日本語1に対して英語19の割合で混じってることになります。これと同じ現象が昨年の11月中旬からgooで、この1月17日からAltaVistaでも起きています。これは英文のページを除くのを中止したのか、マルチ言語対応に更新中の一時的なものなのかわかりません。しばらくの間、英単語で検索する場合には注意が必要です。

  検索数の更新は、AOL 4.9%増、HotBot 4.5%減、と変化の少ない週でした。1週間に3%以上増減するところが2サイトという状態がすでに1ヶ月以上も続いています。不況の影響なのか、Googleの影響なのか、米国の検索サイトは少し停滞気味に感じられます。

Google検索評価でトップ、文字コードについて 2003.1.11

  検索数は12月20日と比較して、Lycos 35.8%増、AAA!Cafe 6.9%増、goo 4.7%増、Alltheweb 5.6%減、TOCC 7.1%減、Fresheye 8.1%減でした。年末に検索結果の評価をする予定でしたが、年末年始を利用して検索システムを変更するところがあるのではと、年明けに調査しました。その結果、Google 100.0、goo 98.5、Fresheye 95.7、Lycos 91.1、と順位が少し入れ替わりました。1年前の指数と比べた結果は、Infoseek 14.2増、Naver 5.2増、AltaVista 4.1増、Alltheweb 3.7増、Google 3.6増、と増加するところが多く見られました。検索結果で見る限り、2002年の検索エンジンは相対的に大きな変化がなかったとみなせます。

  日本語の文字コードが気になるため少し調べてみました。日本語コードは、シフト-JIS、EUC、JISの3種類ありますが、JISはあまり使われなくなり、Windowsの普及でシフト-JISの情報が多くなっています。ここに新たにUnicodeのUTF-8が普及しつつあります。そこで、検索サイトごとに、
  1)検索サイトのホームページ、
  2)ホームページからの検索結果ページ、
  3)検索デスク(シフト-JIS)からの検索結果ページ、
で使用している文字コードを調べました。

  A) 1) 2) 3) のすべてがEUC (8社) -- goo、Naver、AAA!Cafe、Infoseek、TOCC、
     Yahoo!、Biglobe、@nifty、
B) 1) がシフト-JISで 2) 3) がEUC (3社) -- Fresheye、iNETguide、JOY、
C) 1) 2) 3) のすべてがシフト-JIS (3社) -- Lycos、Excite、AllAbout、
D) 1) 2) がUTF-8で 3) がシフト-JIS (2社) -- Google、Alltheweb、
E) 1) がUTF-8で 2) 3) がシフト-JIS (1社) -- AltaVista、
F) 1) 2) 3) のすべてがUTF-8 (1社) -- MSN。

  検索エンジン内部で処理する文字コードは、EUCがAとBの11社、シフト-JISがCの3社、UTF-8がDとEとFの4社、となっています。マルチ言語をあつかう米国の検索サイトはUTF-8を使っています。トラフィックに流れる文字コードの割合などの情報はわかりませんが、GoogleやMSNが使用してるため、日本語コードの中でUTF-8のシェアが増加していくものと思われます。

  12月20日からの検索数は、Yahoo! 8.4%増、AOL 3.4%増、とクリスマスと新年で更新の少ない週でした。