2003年12月30日
 2003年のWeb検索のまとめ

◆日本語検索エンジンの動向

今回はGoogleとFresheyeの検索評価を実施しました。順位は前回と同じでした。2003年を締めくくるために、1年分の検索評価データをまとめました。下図は検索サイトの月単位別折れ線グラフです。5月分がないので4月分と6月分で補正しました。年間を通して、順位の変動はあまりみられません。Googleのトップが定着し、AltaVistaは4月に処理方法が変わり大幅にアップしています。
.
次に12ヶ月分の平均を求め、その大きい順に並べ替えたものを下表にまとめました。12月との差で増加したのは、AltaVista +9.5、Infoseek +4.9、Naver +3.4、一方、減少したのは、Fresheye -5.3、Alltheweb -1.4、でした。Googleのようなリンクを基にしたWebデータベースを構築すればよいのですが、実現は難しいようです。
.
No.検索サイト平均12月
Google100.0100.00.0
goo98.0----
Fresheye86.080.7-5.3
AltaVista83.492.9+9.5
Naver76.680.0+3.4
Alltheweb73.171.7-1.4
AAA!Cafe65.565.6+0.1
Infoseek56.961.8+4.9

情報を探すユーザーにとって、検索結果のランキングに次いで重要なのは紹介文です。GoogleとAAA!CafeはKWIC方式の紹介文を作成していますが、他はテキスト前部にある文章の抜粋で作成しています。KWIC方式はオリジナルのテキスト部分を蓄積しなければならないため、それだけ検索システムに負荷がかかります。
.
検索結果の評価は2年以上続いています。簡単なストリング言語で処理していますが、何ら改善することなく同じ方法を使っています。学生時代にORを学び、経営現象や情報現象をモデル化したりしてたのが役立っています。
.
さて、最近の検索力調査レポートは数週間に1回というペースになってご心配をおかけしていますが、検索数調査は毎週実施しています。日本語と英語の検索サイトの検索数の1月平均、12月平均、その間の増加率を下表に示しました。日本語検索サイトは増減があり、少し停滞気味ですが、英語検索サイトはすべてプラスと好調です。
.
No.日本語検索サイト1月平均12月平均増加率
Fresheye16,09420,490+27%
Naver25,51021,848-14
Google10,43824,198+132
Altheweb13,26611,471-13
AAA!Cafe9,8118,223-16
Infoseek4,3527,275+67
AltaVista8,3787,105-15

No.英語検索サイト1月平均12月平均増加率
Alltheweb343,911459,808+34%
Lycos342,246458,030+34
Yahoo!261,550311,991+19
Teoma93,195213,705+129
Google61,924135,683+119
HotBot126,447131,042+4
AltaVista108,940126,866+16
WiseNut127,252152,452+20

◆2003年の検索動向

最後に、2003年の検索動向をまとめました。
.
1)買収 −− 2002年12月に米Yahoo!がInktomiを、2003年2月にOvertureがAltaVistaを、2月にGoogleがBlogのPyra Labsを、3月にOvertureがFastSearchを、5月に米Yahoo!がOvertureを、など。Google以外の検索サイトが米Yahoo!に集結しています。
.
2)提携 −− 9月にInfoseekがGoogleを採用、12月にgooがGoogleを採用、など、日本の主要な検索サイトはGoogleを採用しました。
.
3)終了 −− 2月に日LycosがWiseNutを終了、9月初に日LycosはInfoseekに吸収、9月末にTOCCが検索サービスを終了、12月にgooがInktomiからGoogleへ、と老舗が消えていくのは忍びない思いです。
.
4)広告検索 −− 広告データベースを構築し、それをキーワード検索し、通常の検索結果とともに提供するサービスが盛んになり、検索サイトの収入源として重要になってきました。
.
5)開発 −− 米Yahoo!の更新が11月初めから止まっています。3ヵ月後として、2004年1月末までに何らかの動きがあると予想しています。それからソフト界の王者Microsoftが新しいロボットを走らせ、新検索エンジンを開発中とのことです。米国ではGoogle以上の検索を提供できなければ認められませんのできびしいものがあります。さらにOSに絡めた新しい検索方法を模索しているものと思われます。
.
6)Web以外の検索 −− ニュース、掲示板、ショッピングなど、データがリアルタイムに変化する分野ではそのデータベース内の検索サービスができます。場合によっては大変有用な検索ができますのでご利用ください。
.
No日 本検索力検索評価検索数.No海 外検索数
1Google100.0100.0 93.6.1Alltheweb100.0
2fresheye 85.6 80.7100.0.2Lycos 99.9
3Naver 84.9 80.0 99.1.3Yahoo! 67.3
4AltaVista 82.7 92.9 36.7.4Teoma 43.1
5Alltheweb 71.2 71.7 64.6.5Google 35.8
6AAA!Cafe 61.6 65.6 41.6.6HotBot 28.4
7Infoseek 58.4 61.8 40.8.7AltaVista 28.0
......8WiseNut 27.7

 2003年12月1日
 gooの検索エンジンがInktomiからGoogleへ

検索数調査において、Googleは9月末に比べて59%増です。米Googleも9月末に比べて49%増で、日米とも接近してきました。9月末から続いた一連の試行錯誤は収まりつつあるとみなせます。前回の検索評価が相対的に悪かったのですが、今回は元に戻っています。
.
その他の検索エンジンは、この2ヶ月間で、Infoseek 44%増、Alltheweb 13%増、Fresheye 12%増、Naver 5%増、AltaVista 3%減、AAA!Cafe 20%減、でした。海外では、Yahoo! 21%増、TeomaとLycos 7%増、AltaVistaとAlltheweb 6%増、WiseNutとHotBot 0%、となっています。米Yahooは、この4週間増減なく、新しい検索サービスを準備中のようです。
.
12月1日にgooは日本語検索サービスをInktomiからGoogleへ変更しました。したがって、今回から検索評価はgooに替わってFresheyeを採用しました。検索評価の結果は、1位 Google 100.0、2位 AltaVista 92.1、3位 Fresheye 81.6、です。Inktomi系のFresheyeは、一部の検索結果に英語や中国語が混じるため評価は若干悪くなっています。
.
12月1日にgooの検索エンジンがGoogleに変更されました。Googleの日本語検索エンジンは2000年9月に開始しましたが、2000年12月にBiglobe、2001年4月にYahooJ、2002年2月にExciteJ、2003年9月にInfoseek、そして2003年12月にgoo、と日本の主要な検索サイトが採用したことになり、日本語検索エンジンはGoogleの一人勝ちです。
.
1997年3月にgooはInktomi系の検索エンジンを日本語化して検索サービスを始めました。検索デスクにおける検索力調査は1996年9月に海外検索エンジンを対象にスタートし、gooのサービス開始と同時に日本語検索エンジンの検索力調査を開始しました。gooの調査は6年半以上続いたことになり、一抹の寂しさが漂うというか虚脱状態が続いています。長い間、ありがとうございました。まだ、老舗のInfoseekの調査は続いており、検索に関するニュースも次々に舞い込むのが支えになっています。
.

 2003年11月9日
 Googleの検索結果、IPO、買収、デスクバー

先週と今週の検索数調査は、Google 8.7%増、6.0%増、でしたが、9月末よりはまだ25.5%減です。Naverは今週12.8%減です。Infoseekは先週73.6%増加しました。大きく変化したGoogle、goo、そしてInfoseekの検索評価を行いました。トップはGoogle、2位はAltaVistaで、順位の変化はありませんでした。先週データを増加させたInfoseekの検索評価も少し改善しています。
.
Googleに関する最近の動向を4点まとめました。まず第1は、10月から始まったGoogleの検索システムの更新ですが、最初はデータが10倍に増加し、10月下旬以降は逆にデータが減少しました。そして現段階の検索結果はダントツのトップですが、以前に較べて少し悪くなったのではないかということです。今週の検索評価で、Google以外の検索サイトの評価はすべてアップしました。9月に較べて、AltaVista 1.0増、goo 3.4増、Naver 1.8増、Alltheweb 1.5増、Infoseek 5.4増、です。これはGoogle以外のところが良くなったのではなく、トップのGoogleの検索結果が悪くなったためと解釈できます。
.
第2点は、GoogleのIPOが来年春に実現するのではないかということです。Googleのように成功した企業がまだベンチャー企業に甘んじているのは不自然といえば不自然です。3年前のITバブルの後遺症が尾を引いているのですが、もっとはやく株式を公開し、資金を得ていれば、新しい挑戦ができ発展していたのではないかと思います。
.
第3点はGoogleに対するM&Aの話題です。Microsoftは検索システムを自社で開発する代わりに、即戦力のあるGoogleを買収して、Web検索の分野に進出するのではということです。MicrosoftはOSに関連した有望なソフトを次々に取り込み市場を築いてきました。Googleにとっては、買収に応じればIPOは不可能になり、独自性がなくなります。一方断れば手強い競争相手を持つことになります。さて、あなたがGoogleの立場なら買収に応じますか。
.
第4点はGoogleがDeskbarという新しい概念の検索手法を公開し、ベータテストを開始したことです。キーワード検索する場合、1)ブラウザに表示した検索サイトの検索窓を使う、2)ブラウザのツールバーやサイドバーにある検索窓を使う、3)ブラウザのアドレスバー(MS専用)を使う、の3種類の方法があります。DeskbarはWindowsの下部にあるタスクバーに検索窓を設置し、ブラウザを開かなくても検索可能にするものです。
.

 2003年10月26日
 日本語だけの検索、検索オプションの設定

Googleの検索数は先週よりも77.5%減少しました。9月26日を100とすると、10月3日は1,025、10月10日は1,003、10月17日は288、10月24日は65、となっています。10月前半は10倍でしたが、10月中旬は約3倍に減少し、今週は3分の2になっています。
.
Googleはユーザーの入力した検索キーに関連語を付加して検索するようになりました。これは広告用データベースに対しては有効ですが、あまり拡大しすぎるとマイナスです。最近の増減は何を意味するかわかりませんが、広告検索とWeb検索とを分けて適用し始めたのかも知れません。ちなみに、同じ時期の米Googleの増減は、9月26日を100として、10月3日は257、10月10日は700、10月17日は704、10月24日は382、と日本語と同じ傾向がみられます。当分の間、試行錯誤は続くものと思われます。
.
Inktomi系のgoo、Fresheye、MSNの検索数は約21%増加しています。Inktomi系は検索サイトごとに検索数は異なります。検索数の多い順は、MSN、goo、Fresheye(TOCC)です。しかし、7月から9月までのgooとTOCCをみますと、gooがTOCCよりも多いとき、TOCCがgooよりも多いとき、もありました。
.
多言語検索サイトは、日本語だけの検索、Web全体からの検索、のどちらかを選択できます。Web全体の検索結果には英語や中国語のページが入るため、検索数は多くなります。多くのユーザーにとっては日本語以外の検索結果が入ると利用しにくくなりますので、日本語だけの検索を選んだ方がベターです。なお、12月からgooに替わってInktomi系の検索エンジンとして取り上げる予定のFresheyeはWeb全体からしか検索できないのは残念です。
.
AltaVistaやAllthewebは検索ページが英語ですので、使いにくく敬遠されますが、検索デスクからは他の検索サイトと同様な方法で検索できます。最近の検索サイトは検索オプションをユーザーのパソコンにクッキー保存します。これには、Google、goo、AltaVista、Alltheweb、が該当します。検索設定を行ってから利用しないと、日本語だけの検索、日本語フォント、検索件数などを上手く使えませんので、ぜひ設定することをお勧めします。
.
1)Google(表示設定)--- 表示言語(日本語)、検索言語(日本語)、表示件数(20件)。
2)goo(検索設定)--- 言語(日本語のみ)、キーワード(すべての語を含む)、別ウィンドウ表示(マーカーあり)、内容(概要文あり)、件数(25件)。
3)AltaVista(settings)--- Country(All other countries)、Language(Japanese-日本語)、Interface(English-US)、Page information(Description、URL)、Useful links(Translate、Related pages)、Results(Bold the search term、20 results)、Language troubleshooting(Japanese(Shift_JIS))。
4)Alltheweb(customize preferences)--- [Basic]、Search Results(25)、Search Type(Menu)、[Language]、Select(Preferred)、Preferred(Japanese/日本語)、Encoding(Japanese(Shift_JIS))。
.
最後に、保存(上記を保存、Save Your Settings、Save and Apply Settings)ボタンを押して登録してください。特に、フォントをShift_JISにしないと文字化けが発生します。
.
その他の検索サイトですが、Naverは検索数は多いですが、他の検索サイトと索引方法が異なるからではと思います。9月から検索政策を変更したInfoseekですが、従来からある検索プラスの検索数は26%減少しました。AAA!Cafeはメンテナンスで一時検索できませんでしたが再開しています。
.

 2003年10月12日
 関連語を付加したGoogleの検索は広告対策

AAA!Cafeが復活しました。検索数は20%減少したため、検索評価を実施しました。検索評価は以前と変化なく、検索システムの変更はなかったものとみなせます。Web検索エンジンは7社ありますが、そのうちの2社が日本国内にあり、6位と7位です。情報資源は分散した方が安全ですので、小さな灯ですが絶やさないようにしたいものです。海外の検索数調査は、Google 172.4%増、Yahoo! 7.7%増、Lycos 5.0%減、Alltheweb 5.6%減、でした。
.
この2週間で、Googleの日本語検索数は10倍、英語検索数は7倍、に増加しました。この驚異的な増加はデータベースの増加によるものではなく、前回指摘した3)のユーザーが入力した検索キーに関連語を付加して検索したためのようです。それにしても、関連語を追加し過ぎと思いますが、いろいろ試行錯誤を得て、良くなっていくものと楽観しています。
.
一般に、データが増えればランキング性能は悪くなります。先週、実施した検索評価によると、Googleの評価はこれに反してあまり変化しませんでした。リンクを使った検索システムは相関の高い関連語が付加されると相乗効果でランキング性能はよくなるのかも知れません。
.
ユーザーは検索するために検索キーを入力します。探したい情報に合った適切な検索キーを選択していれば、検索エンジンは検索キーにマッチした検索結果を吐き出します。しかし、多くの場合、検索キーは曲者です。特に、日本語のカタカナ表記や送り仮名などは複数存在する場合があります。多くの検索サイトは辞書を作成してその問題を解決してきました。Googleはそれを飛び越して、関連語まで付加したようです。
.
現在の検索サイトは2種類のユーザーが存在し、それぞれのデータベースをもっています。第1のユーザーは探しものをするために検索エンジンを利用する人で、Webデータベースを準備します。第2のユーザーは検索結果に広告を載せる人で、広告データベースを準備します。第1の利用者が入力した検索キーは、2種類のデータベースを検索して得られるWeb検索結果と広告検索結果をもとに検索結果ページを作成します。
.
現在のGoogleは第1の利用者が入力した検索キーに関連語を付加して、Webデータベースと広告データベースを検索しています。関連語を付加する発想は、本来、広告データベースに対するものです。広告主の設定したキーを補足し、広告をクリックする機会を増やします。広告主にも検索サイトにもプラスとして働きます。
.
広告データベースに対して関連語を増やして日本語で10倍の広告掲載チャンスが生じたことに関しては異論はありません。しかし、Webデータベースにも関連語を付加するのはもう少し思考錯誤が必要です。日本語のあやを補正した検索はせいぜい数10%しか増加しないように思います。同一の検索キーでWeb用と広告用を検索しますが、やはりWeb用と広告用の2種類の異なった検索キーを作成した方がベターなように思います。
.

 2003年10月5日
 Googleの検索数増加、データベースの自給率

この3週間の検索数の増減は、Googleが先週より9.6倍へと大幅に増加しました。Naverは2週間前に比べ1.5倍増、AllthewebとAltaVistaは1.15倍増、などです。海外では、Googleが先週から2.5倍増加し、Allthewebは言語設定の影響でLycosとほとんど同じになりました。月末の検索評価を行いましたが、順位の変化はありませんでした。今回はGoogleの検索数が大きかったため、総合の検索力は検索数を除外して求めました。Googleの大幅増加に関してコメントを記します。
.
1)Googleが日本語5,000万ページ収集して検索サービスしていたとすれば、必ずしも検索調査に比例しないのですが、9.6倍増で4億8,000万ページとなります。最新のGoogleの全収集数は33億ページですから、日本語が14%を占めることになります。日本語は5〜6%位と推定してましたので、Googleが日本語を重視していることを示すのかも知れません。
.
2)Googleの発表する収集数の内容は変化します。2000年6月の10.6億ページは、収集し索引したのが5.6億ページ、リンクから得られた未収集のタイトルだけが5億ページとの和です。2001年12月の30.5億ページは、htmやpdfが20億ページ、NewsGroupsが7億ページ、イメージが3.5億ページ、からなります。2002年11月の30.8億ページは、Webページだけです。そして、最近の33億ページは索引したWebページで、タイトルだけのは除いています。従って今回の検索数増加はタイトルだけのも含めているのかも知れません。(あるいは新たにアーカイブ・ファイルを蓄積し、それも対象にしているのかも知れません。)
.
3)日本語の表記は漢字、ひらがな、カタカナ、英語などが入り混じっています。Googleは検索キーに対する表記の異なるキーを追加してOR検索することを始めたのかも知れません。例えば、「野球」を検索すれば「ベースボール」や「baseball」も検索する方法です。OR検索ですから検索数は明らかに増加します。
.
4)リンクをベースにした検索の検索数はしきい値で決まるとみなしています。10月からしきい値の値が少し下がり、その結果、検索数が増加したことも考えられます。また、リンクをベースにすると、検索キーに関連したキーも検索できますので、今まで除外してたのを含めるようにしたのかも知れません。
.
日本語が9.5倍、英語が2.5倍のバランスから考えると、3)の可能性が高いです。
.
さて、9月から10月にかけて日本のWeb検索は大きく変化しました。9月1日にLycosはInfoseekに統合し、そしてInfoseekは従来の検索エンジンを残して、メインの検索にGoogleを採用しました。9月末にはInktomi系のTOCCが検索サービスを終了しました。10月2日に同じInktomi系のgooがGoogleを採用すると発表しました。
.
今回検索評価した検索エンジンのデータベースは、Google、AltaVista、goo、Allthewebは米国内、Naverは韓国内、Infoseekは日本国内、に存在しています。日本国内に存在するデータベースはInfoseekと休止中のAAA!Cafeだけです。食料の自給率、エネルギーの自給率、などと同様に、Webデータベースの自給率は高めることが必要です。ネットの利用面でのWeb検索の果たす役割を考えると、非常に危惧すべき状況になったとみなせます。(12月6日一部修正)
.

 2003年9月14日
 goo検索は"Powered By TOCC"へ?

検索数調査は、Google 13.9%増、Fresheye 4.2%減、TOCC 4.6%減、Naver 8.0%減、goo 18.0%減、と減少するところが多い週でした。海外は Yahoo! 5.6%増です。先週はInfoseek、今週はgooと、日本語検索サイトに大きな変化がありました。
.
gooの検索エンジンは米Inktomi社の開発したものを日本語化したものです。1997年3月に検索サービスを始め、改良を積み重ねて現在に至っています。一方、TOCCはInktomi系の日本語検索サービスを4年後の2001年7月から始めています。2002年7月にFresheye、2003年2月?にMSN、が" Powered By TOCC"として採用しています。
.
Inktomi系の日本語検索エンジンということで、gooとTOCCは同じとみなす人もいました。実際、検索調査している15種類の検索数の相関係数は0.93から0.95と非常に高い相関を示しています。しかし、両者の収集データが異なっているためか、検索結果が微妙に異なっていました。そのため両社を別物と扱ってきました。
.
gooの検索は言語機能としてWeb全体と日本語のみを選択していましたが、今回、検索設定で好みの検索オプションを設定しキャッシュに登録できるようになりました。それと同時に、今回の検索調査からTOCCとの相関係数が1.00になりました。データの状況から、TOCCからgooへではなく、gooからTOCCへの移動とみなせます。まだ発表はありませんが、goo検索が"Powered By TOCC"に変更したのではと推測できます。
.
昨年12月に米Yahoo!が米Inktomi社を買収しました。Inktomi系のgooの検索エンジンは、1999年1月から2年間、日Yahoo!のWeb検索に提供していました。それが買収によって、今度は日Yahoo!からgooへWeb検索を提供することになり、立場は逆になることが予想されます。昨年のInktomi買収で一番影響を受けるのはgooと思っていましたが、それが現実になりつつあります。
.
gooが自社の検索エンジンの維持を終了してTOCCを採用したのか、新しい検索エンジンが開発できるまでTOCCを一時的に採用してるのかわかりません。もし前者であれば、日本における日本語検索エンジンが全滅状態になりますので、先週のInfoseekのGoogle採用とともに日本のWeb検索は大きな転機を迎えたことになります。
.
gooの検索評価を急遽実施しました。検索評価の基準を求めるために、Inktomi系からはgooとfresheyeを使っていましたが、今回からgooのみにしました。検索評価は、1位 Google 100.0、2位 AltaVista 91.8、3位 goo 85.3、と順位が入れ替わりました。gooの評価が下がりましたが、goo独自のデータ管理、gooとfresheyeとの相乗効果、がなくなったためと分析しています。
.

 2003年9月5日
 Infoseekの検索、楽天の「旅の窓口」買収

先週からの検索数増減は、google 44.9%増、goo 10.2%増、Naver 7.8%増、Alltheweb 15.6%減、でした。海外は、Google 41.5%増、Alltheweb 7.4%減、Lycos 7.7%減、です。Googleは日米とも大幅に増加しています。Googleのトップページにあるウェブページ数が3,307,998,701へと増加し、Alltheweb(Overture)との競争が激化しています。なお、検索数調査でGoogleがトップになったのは初めてです。
.
先週末に検索評価をする予定でしたが、9月1日にInfoseekとLycosとの統合があり、その際に検索エンジンも更新されるのではと思い、1週遅らせました。今回は、goo、Google、Naver、Allthewebの再評価を行いました。結果は、FresheyeとTOCCが大幅に増加し、順位を上げています。総合の検索力は、トップ Google、僅差で2位 goo、3位 Fresheye、でした。
.
9月1日に新装したInfoseekの検索エンジンは、メインにGoogleを採用し、従来のInfoseek検索エンジンはサブのサーチプラスになっています。Infoseekは新しい検索エンジンを開発中といわれていましたので、その発表があるのではと期待していたのですが、あてがはずれました。それから、Lycosが採用していたWiseNutが復活するのではと思ったりしましたが、それも空振りでした。Infoseek独自の検索エンジンが一歩後退したのは残念ですが、コンテンツは充実し、使いやすくなっています。
.
8月末で、LycosJapanはInfoseekに統合されましたが、1998年7月から検索調査などで大変お世話になり名残り惜しいです。長い間、有難うございました。なお、ライコス犬は"Girls plus"で「ぼくがすすめるInfoseek」で元気に活躍しています。多くの検索サイトが誕生し、活躍し、終了しましたが、それらをまとめたいと思っています。
.
9月4日に楽天が「旅の窓口」を買収しました。2000年12月のInfoseek買収は約85億円、2002年12月のLycos買収は12億円、そして今回の「旅の窓口」買収は323億円、です。景気変動を考慮しても、検索サイトは過小評価され、ECサイトは過大評価されてるように思えます。これをみても楽天の検索サイトの取り組みが理解できます。買収金額の323億円を会員数の283万人で割ると、会員1人あたり1万1,400円です。会員を10万人集めれば10億の価値になります。3年前のITバブルが再始動し始めたのかも知れません。
.

 2003年8月23日
 米国検索エンジンの動向

検索数調査の2ヶ月間の増減は、goo 33.0%増、Fresheye 14.0%増、Google 9.7%増、TOCC 8.5%増、Naver 20.0%減、でした。海外の2ヶ月間の増減は、Teoma 84.7%増、HotBot 18.8%増、Google 17.5%増、Lycos 14.3%増、Alltheweb 13.3%増、Yahoo! 21.3%減。20%以上増減した、日goo、日Naver、米Teoma、米Yahoo!、などの増減した理由を知りたいものです。
.
米国の検索エンジンが、Google、Yahoo!、MSに集約されるとのことです。その中のGoogleは膨大なWeb情報の検索技術をすでに確立しています。Yahoo!はInktomiやOvertureを買収して、現在構築中です。MSは陣容を整え、ロボットを動かしてデータを収集し始めた段階です。超後発ですが、ソフトの実績があるため注目されています。
.
米Yahoo!はInktomi系の検索エンジンのテストをしているとのことです。Web検索はGoogleと提携していますが、検索結果の50件に1件位にテスト用の結果を返してるとのことです。Inktomi系のHotBot、Overture系のAllthewebとAltaVista、の3種類の特徴のある検索エンジンがありますので、どれを採用するか米Yahoo!も悩むところです。
.
検索力調査では日本語検索エンジンの調査をしていますが、この中にInktomi系、AltaVista、Allthewebの日本語版の評価をしています。8月1日時点の検索評価では、goo(Inktomi) 100.0、AltaVista 86.8、Fresheye(Inktomi) 80.2、Alltheweb 71.6、の順になっています。これは日本語検索結果のランキングだけの評価ですから、他の要因を加え総合したら異なる結果になります。現在使用している検索評価法を英語検索エンジンに適用したいのですがまだ実施していません。
.
以前にGoogleキラーと言われた、AskJeevesの買収したTeoma、Looksmartの買収したWiseNut、は英語検索サービスをしています。今年の2月まで日Lycosが検索サービスしていたWiseNutの日本語検索は、当時の検索評価で3位という代物でした。後発のMSがTeomaかWiseNutを買収するのではとのうわさがあり、これも目を離せないものです。
.
米国の動きはいずれ日本の検索サービスに影響します。特に、買収などで検索エンジンやディレクトリの提携関係は複雑になっています。9月1日にLycosがInfoseekに統合されますが、重複したコンテンツがどのように統廃合されるか、これも大変興味をもたれるところです。
.

 2003年8月2日
 Naver回復、最新情報は掲示板から?

検索数調査による今週1週間の増減は、Google 6.6%増、goo 1.9%増、Alltheweb 2.5%減、で変化の少ない週でした。半年前との増減を調べると、増加したのは、goo 41%増、Google 20%増、現状維持は、Fresheye、TOCC、AAA!Cafe、一方減少したのは、Alltheweb 29%減、AltaVista 26%減、Infoseek 17%減、でした。なお海外の更新は活発で、Teoma 14.1%増、HotBot 11.0%増、Google 3.8%増、Lycos 3.2%減、Yahoo! 3.1%減、Alltheweb 3.0%減、でした。
.
今回は検索評価を行いました。前回から大きく変化した、goo、Google、Naver、Alltheweb、のデータを更新しました。その結果は、1位 goo、2位 Google、3位 AltaVista、です。Googleは100.0から93.1と6.9減です。昨年の7月末に90.7をつけましたがすぐ回復してますので、定期的なものか、一時的なものか分かりません。
.
50種類の評価キーを用いて検索評価をしています。評価キーごとにトップの得点を示す検索サイトを調べ、その総数を求めました。前回→今回を示しますと、goo 22→26、Google 19→13、AltaVista 4→4、TOCC 0→2、Alltheweb 0→2、Fresheye 4→1、AAA!Cafe 1→1、Naver 0→1、です。AltaVistaは4月か5月にシステムを更新し、Naverは前々回の状態に戻っています。
.
今回はWebに入っている最新情報について調べました。検索キーを「宮城地震」として、サイトごとの検索数の大きい順にリストしました。宮城地震は5月26日と7月26日にあり、後者から1週間経っています。
.
1)検索サイト Google 3,600、Fresheye 1,377、MSN 578、TOCC 292、Alltheweb 54、Naver 46、AltaVista 39、goo 26、Infoseek 22、AAA!Cafe 10。
.
2)ニュースサイト goo最速ニュース 94、Yahoo!ニュース 85、Lycosニュース 70、毎日 30、Exciteニュース 23、読売 22、Infoseekニュース 8、朝日 6、産経 3、日経 2。
.
3)掲示板サイト 2ch 150、Yahoo!掲示板 111、Naver掲示板 46。
.
検索数調査において最小の指数はInfoseekの41.9、最大の指数はFresheyeの100.0ですから、最小と最大との差は2.5倍位です。しかし、今回の例では、最小を24として最大のGoogleの3,600との差は150倍位になります。なぜ、差がついたのでしょうか。
.
a)更新頻度 宮城地震は比較的新しいキーワードであるため、まだロボット収集してないことも考えられます。しかし、Googleは3,600、Fresheyeは1,377、MSNは578も収集しています。Googleの秘密はランキングや紹介文だけでないようですね。
.
b)収集分野 Webにはいろいろなタイプの情報が流通しています。Webホームページ、ニュース記事、掲示板、ショッピング情報、企業・官庁情報などです。検索サイトによっては掲示板のような質の悪いページをあつかわないところがあります。しかし、収集対象を規制してるところよりも規制してないところが伸びるような気がします。
.
c)ニュース記事 ニュースは信頼のおけるソースです。新聞社では、毎日新聞 30が最大です。ニュース記事を集積したポータル系のgoo最速ニュースで94です。全国紙だけでなく地方紙もあつかうかどうかで収集量は異なってきます。Googleの英語版にはNews検索がありますが、日本語版にはありません。しかし、Web検索で検索可能になっています。質をとるか量をとるかですが、ニュース以外に数十倍の情報源があることだけは事実です。
.
d)掲示板記事 GoogleやFresheyeの膨大な検索数は掲示板記事を収集しているからです。Fresheyeはデータ数に較べて評判がよかったのですが、それは当時どこも収集してなかった掲示板記事をデータベース化したからです。メールシステムの掲示板である News Groups と同様に、データは1ヶ月しか所有しないこと、従って、Not Foundのない新鮮な情報を提供することを売りにしていました。その後、TOCCの検索エンジンを採用しましたが、掲示板記事を追加してることは明白です。
.
GoogleにはNews Gropusを検索できる「グループ」があります。最近はBlogへ進出しており、News GroupsのWeb版である掲示板にも力を注いでいます。掲示板情報は玉石混合ですが、容量は小さく、テキストだけですので、通常のコンテンツよりは索引化は容易です。ニュース記事収集と同様な方法で迅速で重点的に掲示板記事を収集しているものと思われます。
.

 2003年7月26日
 言語オプション、ネット企業の時価総額

検索数調査は、goo 8.4%増、Naver 33.8%減、でした。調査キーの「楽器、グルメ、コミック、時計」のNaverの検索数は他に較べて多かったのですが、索引システムが改善して不具合なケースはなくなりました。総合の検索力は僅差で、1位 goo、2位 Google、と入れ替わりました。海外の更新は、Teoma 26.8%増、Google 4.5%増、Yahoo 6.5%減、WiseNut 9.8%減、とやや活発な週でした。
.
検索数を調整してるところはFresheyeだけになりました。調査キー「生物、文学、vrml」が該当するのですが、これは「日本語ページ」ではなく、「Web全体」から検索してるためです。「生物、文学」の検索結果に中国語ページが、「vrml」に英語ページが含まれます。TOCCと同じように、「日本語ページだけ検索」と「Web全体から検索」の選択肢があれば解決します。
.
「日本語からの検索」と「Web全体からの検索」のできるのはデータベースを複数の言語で構成している検索エンジンです。多言語は、Google、AltaVista、Alltheweb、日本語と英語は、goo、Fresheye、TOCC、日本語と韓国語はNaverです。ほとんどの検索サイトは検索設定やオプション選択を用意しています。なお、AAA!Cafe、Infoseek、は日本語だけのデータベースです。
.
今週は日米のネット企業の時価総額(株価×発行株数)を調べました。1ドルを119円で換算しました。Googleはまだ未上場です。
.
コード会社名検索時価総額
億円
9432NTTgoo79,503
4689ヤフーYahoo20,162
6701NECBiglobe12,969
6702富士通@nifty11,031
6503三菱電機TOCC9,190
4755楽天Infoseek2,366

コード会社名時価総額
億円
MSFTMicrosoft344,600
AOLAOL TimeW82,200
EBAYeBAY42,400
YHOOYahoo!23,600
AMZNAmazon19,600
OVEROverture1,900
ASKJAskJeeves952
LOOKLookSmart476

日米Yahoo!の時価総額は接近しており、日Yahoo!の健闘が目立ちます。日Yahoo!は月間 150億PVですので、時価総額/月間PVは134円です。2000年のITバブル絶頂期には190円位ありました。なお、楽天は月間25億PVと推定すると95円です。
.

 2003年7月19日
 広告検索の発展とその危惧

検索数の更新は、Alltheweb 6.6%減、Google 3.0%減、海外は、Google 2.6%増、Alltheweb 2.1%増、Yahoo! 3.1%減、WiseNut 10.5%減、変化の少ない週でした。
.
今週は米Yahooが広告検索サービスのOvertureを買収するという大きなニュースがありました。今までは提携でコンテンツをそろえましたが、今回はM&Aで独自のコンテンツをもちました。Overtureと提携しているところがあるためこの余震は続きます。特に、MSNはどうするか、今後の動きに目が離せません。
.
Web検索は短い期間に急成長した分野です。検索エンジンをいくら改善し高性能化しても、検索結果を利用するユーザーから直接収入を得れません。そこで検索サイトは検索結果の欄外にバナー広告を載せて収入を得ました。有料で検索結果の上位にコンテンツを載せる試みもありましたが、検索結果表示の質が悪くなることやユーザーの拒絶反応などで実施できないどころか、検索結果と広告を分離し、広告は広告であることを明示しなければならなくなりました。
.
最近の検索サイトの広告はインプレッションで収入の入るバナー広告から、検索キーに関連した広告をテキスト表示する広告検索に変化してきました。この広告検索は1998年にOvertureが始めたものです。その特徴は、少額の広告もあつかうこと、クリックに応じて課金すること、テキストの紹介文を表示すること、検索キーと登録キーが一致したものを表示すること、クリック単価の大きい順に表示すること、など広告主に分かりやすいものでした。ここで、Web検索と広告検索との仕組みを対比してみます。
.
1)データ収集−−Web検索はWeb上に存在する数十億ページをソフトで収集するのに対して、広告検索はネット募集や対人営業で広告主を得ます。前者のデータ量に較べて後者は小規模です。コストは人件費のいる後者の方が多くかかります。
.
2)索引化−−Web検索は膨大なページ内の全文を索引するため処理量は膨大なのに対して、広告検索は広告主が指定する複数のキーワードから索引をつくります。
.
3)検索結果−−Web検索は複雑なアルゴリズムでランキングしページから作成した紹介文を表示するのに対して、広告検索は広告主の設定したクリック単価の大きい順に紹介文を表示します。
.
4)ソフト技術−−Web検索の開発は広告検索よりも数年早く始まりました。Web検索の検索エンジンはWeb以降に開発され、Web以前のデータベース技術とは雲泥の差があるのに対して、広告検索は汎用のデータベース技術で処理可能です。
.
Overture買収でYahoo!は広告検索の特許と1)の広告部門を得たことになります。Overtureとの契約がYahoo!に替わるため、広告利用でトラフィック状況を知られたくない所は契約を解除するかも知れません。またYahoo!にバナー広告などを提供していた広告代理店も影響を受けます。検索サイトが直接広告部門をもつのはGoogleのAdWordsが最初です。利益を与えてスペースを得る観点からすればAmazonのアフィリエイトも広告部門とみなせます。
.
処理の簡単な広告検索は利益が大きく、処理が複雑なWeb検索は利益が少ないことから、広告検索結果は前方にWeb検索結果は下方に表示されます。そして広告検索はだんだん大きな場所を占め、やがてスクロールしなければWeb検索結果を見れなくなるかも知れません。何より危惧することは、1)検索サイトが検索エンジンの開発に力を入れなくなること、2)検索サイトもユーザーもWeb検索よりも広告検索を主にすること、です。これは私の考えすぎであることを願っています。
.

 2003年7月12日
 コンテンツの一部を検索するピンポイント検索

検索数の更新は、Google 13.3%増、goo 3.0%増、infoseek 2.1%増、で海外はすべて2%以内でした。総合の検索力は、Googleの検索数が大幅に増加したため、1位 Google、僅差で2位 goo、と先週の逆になりました。
.
9日のPCWebの記事に「サムネイル表示は著作権侵害に該当せず、リンク表示は今後の課題に」とありました。ここでの問題点を整理すると、
.
1)検索結果の紹介文の代わりにサムネイルを表示
写真家や芸術家は自分の作品がリダクションされてサムネイル表示されるのを受け入れないかも知れません。一方、画像検索サイトは画像データを収集し索引をつけて検索サービスします。画像の場合、テキストデータは少なく紹介文の作成は不可能です。そのため紹介文の代わりに画像のサムネイルで代替しています。利用者にとってはサムネイル表示は探しやすく便利です。このサムネイル表示は判決で合法となりました。質の高いサムネイル表示をすればこの問題は解決します。
.
2)検索結果のリンクが画像を表示
日本語の画像検索サイトで検索結果のサムネイルをクリックしたときの表示内容とコメントを調べました。
2−1) Googleはリンク元の画像と画像の元ページとを表示します。コメントとして、「この画像は縮小してあります。イメージを最大化。この画像は著作権が存在する可能性があります。」
2−2) gooはリンク元の画像を表示します。コメントなし。
2−3) AltaVistaは画像の元ページを表示します。コメントなし。
2−4) Naverは収集し蓄積した画像を表示しているようです。コメントして、「表示される画像は著作権で保護されている可能性があります。表示される画像をWeb上での閲覧以外にご使用になる場合は、著作権者に問い合わせて承諾を得てください。」
.
サムネイルをクリックしたときの表示内容は、1)画像の元ページを表示、2)リンク元にアクセスして画像を表示、3)コピーした画像を表示、の3種類あります。Googleは1)と2)、gooは2)、AltaVistaは1)、Naverは3)、です。3)は著作権法上大いに問題があります。判決では2)が未解決です。直リンクはトップページ以下のページですが、画像は直ページの中の一部分ですので複雑かも知れません。。
.
従来の検索サービスは、1)サイト検索: サイトのトップページをディレクトリなどで探す、2)ページ検索: サイト内のページをキーワード検索で探す、ところまできています。次の段階として、3)ピンポイント検索: ページ内の特定のコンテンツを探す、が考えられます。ページを分割し、特定の文章、テーブル、画像などが検索できる世界です。これが実現すると、画像検索のようにリンクを拒否する人が出てこないとも限りません。このピンポイント検索はページをキャッシュすれば簡単に実現します。この場合、前の3)は蓄積したコピーページの一部を表示、になります。これが違法となればWebページがXMLで作成されるまでピンポイント検索はお預けになります。
.

 2003年7月5日
 ツールバーはブラウザの一部?、検索ボタン調査

主な検索数の更新は Google 4.6%減だけで2週続きの減少です。海外は米Yahooが8.0%増加しましたが、前週 6.0%減でしたので、変化してないとみなせます。今月初めにAllthewebのカタカナ検索は2週間ぶりに復活しました。個々の調査キーの増減を調べましたが増減幅は少なく、日本語索引システムの変更はなかったとみなせます。
.
ブラウザMosaicの誕生は1993年、すでに10年経過したことになります。1995年からNetscapeが使えるようになり、バージョンアップを繰り返して成長し、その後MSのIEが台頭してきました。1998年4月に行った検索デスク利用者のブラウザ調査では、IE 57%、NN 43%、と逆転し、現在はIEが90%以上です。NNはFTP配布、IEは無料のCD-ROM配布、この相違が初心者の多いネットでの決め手になったようです。
.
1995年3月からNetscapeを使い始め、1995年6月に「あらゆる情報はブラウザを通過する」と話しましたが、この認識は今でも通用すると思っています。MSがブラウザはOSの一部とみなして、OSのディレクトリ表示、Word、Excelなどのアプリケーション表示、そしてWebの表示をブラウザに統一しました。操作が共通になり、ますます使いやすくなっています。
.
ユーザーはブラウザの表示画面にある検索窓に検索キーを入力し検索ボタンを押して検索します。メニュー画面にあるアドレス欄を利用する検索も普及してきました。通常はMSNの検索ですが、ツールバーを設定することにより独自の検索が可能です。これは表示画面の検索窓からメニュー画面のアドレス欄へと検索操作方法を変更することであり、検索処理の統一化の試みです。検索窓はWebの一部ですが、アドレス欄はブラウザの一部です。そのブラウザがMSの手にあることを考えると、検索サイトのツールバー移行は便利ですがあまり好ましくないのではと思います。
.
今回は検索サイトの検索ボタンを調べました。
検索サイト検索ボタン
gooWeb、最新ニュース、英和、和英、国語、教えて、企業
Googleウェブ、イメージ、グループ、ディレクトリ
freshEYEサイト、新着、ニュース、カテゴリ、サウンド、動画、ショッピング
AltaVistaWeb、Image、MP3/Audio、Video、Directory、News
AllthewebWeb、News、Picture、Video、Audio、FTPfile
InfoseekWeb、英和、和英、国語、お買い物、オークション、メルマガ、ドメイン
NaverQ&A、ウェブ、韓国Web、BBS、イメージ、動画、サウンド、文章
Yahoo!ダイジェスト、カテゴリ、サイト、ページ、ニュース、辞書、電話帳

これらの検索サイトはWeb以外にも複数のデータベースを維持管理していることがわかります。なお、Googleは検索ボタンではなくリンクを示し、1回検索すると検索ボタンになります。同様にYahoo!も1回検索すると検索ボタンが現われます。最近、Googleは「大半のブラウザでは、検索ボタンをクリックしなくてもEnterキーを押して、サーチできます。」との表示を中止しました。そして、日本語トップページでツールバーのPRをしてます。上記の理由で少し心配ですね。2・3年後のWeb検索がどうなるか誰にもわかりません。
.
.

◆リンク

◆検索力調査

◆2003年7-12月

2003年のWeb検索のまとめ 12/30
gooの検索エンジンがInktomiからGoogleへ 12/01
Googleの検索結果、IPO、買収、デスクバー 11/09
日本語だけの検索、検索オプションの設定 10/26
関連語を付加したGoogleの検索は広告対策 10/12
Googleの検索数増加、データベースの自給率 10/05
goo検索は"Powered By TOCC"へ? 09/14
Infoseekの検索、楽天の「旅の窓口」買収 09/05
米国検索エンジンの動向 08/23
Naver回復、最新情報は掲示板から? 08/02
言語オプション、ネット企業の時価総額 07/26
広告検索の発展とその危惧 07/19
コンテンツの一部を検索するピンポイント検索 07/12
ツールバーはブラウザの一部?、検索ボタン調査 07/05