1996年11月21日
調査、資料、報告、統計、経済統計

経済統計は探せるかな 日曜日も結構込み合ってきました。それにシステムの方が保守をしてるらしく検索できない場合があります。今回は統計に関することを調べようと思ったのですが、どうも上手く行かなくて途中で関連したキーに変更しました。
.
Windows95でJISコードは送れますか 検索サービスをしているサーバーはほとんどがUNIXマシンで、日本語コードはEUC、あるいはJISが使われています。一方、ユーザー側のマシンはWindowsが多く、コードはShift-JISです。従って、Windowsマシンを使っている人が検索するとShift-JISの検索キーが送られ、それを検索サービス側でEUCやJISに変換します。理由が分かりませんが、Hole-in-Oneの日本のWWW、TITAN、WAVE Searchなどは土日に変換が行われず、検索ができない時があります。Windows95では、「オプション/文書の文字コードセット」の中にある日本語のところには「自動判別/シフトJIS/EUC」の3種類しかなくなくJISはありません。?
.

1996年10月27日
子供、子育て、受験、育児、いじめ

データのみ
.

1996年10月17日
相場、五輪、薬害、フィットネス、ActiveX

今回のねらい Infoseekの日本版が仮オープンしました。20万件のスタートです。早速調査しましたが、ODINと同様に600前後のところに検索数の上限が設定されています。従って、大きな概念のキーでは相互比較できないため、今回は変則的ですが、過去の検索調査で用いたキーで検索数の少ないものを調べました。
.
ロボット系 仮オープンしたInfoseekの日本版が検索調査に仲間入りしてロボット系の総数は10になりました。現段階では各サービス間にあまり差がないため、検索数をベースにしたランクは使用するキーにより変動します。今回はテーブルのような結果になりました。トップはInfoseek Japanで、ラストはTITANです。
.
索引系 索引系も順位がよく入れ替わります。特に中位の移動は激しいようです。さて今回のトップはNTT DIRECTORYです。画面の改装は頻繁に行われていますし、たいへん意欲的です。どうゆう理由なのかわかりませんが、ゼロがいくつも続いた長〜いファイル名です。URL入力はお手上げです。米国の検索エンジンの検索結果の中にあらわれても即座にわかります。さて、検索結果で注目すべきところはActiveXの結果です。半分近くがゼロです。
.
ユニーク係数 新着情報でInfoseekがトップとのニュースで、「重複データが含まれているのでは?」とのメールを越桐さんからいただきました。早速、日曜日に調査したキーを使ってロボット系全部の再調査を行いました。その結果はテーブルのユニーク係数という欄に示しました。この係数は重複データが全然含まれていなければ1.000でたくさん含めば含むほど1より小さくなっていきます。例えば、ユニーク係数が0.7の場合は、ユニークが70%、重複が30%をあらわします。Infoseekは0.607、InfoNavigatorは0.928、Open Text Japanは0.988で、残りは1.000、すなわち重複がなかった検索サービスです。なお、合計は各検索数の合計にユニーク係数を掛けた数値です。
.
Infoseek Japan Infoseek Japanの場合、新たなことがわかりました。それは出力制限がユニークな検索数200までということです。例えば、「相場」を検索すると検索総数は381と表示されますが、その中のユニークなページ数は200で残りの181(=381-200)は重複ページを表しています。五輪では238(=438-200)、薬害では52(=252-200)、フィットネスでは108(=308-200)など重複数は簡単に計算できます。この多さにびっくりしました。重複データがあると使いにくく、イメージ的にはマイナスですが、なぜ、このような仕組みにしたのかわかりません。ユニークなページを正確に200までカウントしているわけですから、重複を除くことはソフトで即座にできます。まだテスト期間中であり、今後もシステムの変更があるかも知れません。12月には最新の検索エンジンUltraが登場します。恐らく現在の検索エンジンへのデータ追加はないかも知れません。それにしても、各キーが200まで達しておりトップですが、20万件の割には検索数が多く、何か秘密?が解消していません。
.
InfoNavigator InfoNavigatorの出力制限は200です。検索数の総数が519とでても、結果の出力は200までです。「相場」の重複を調べましたが、200のうち、ユニークが190、重複が10ありました。Infoseek Japanと同じ200ですが、処理が異なります。それにしても他のサービスのほとんどが重複ゼロですから、14に1の重複があるのは重複が多いとみなせます。
.
TITAN 15日にビッグなニュースが飛び込んできました。日本のトップレベルの検索技術をもつTITANをサービスしているNTTがHotBotの母体であるInktomiと提携したことです。日本のトップレベルの検索技術と米国のトップレベルの検索エンジンとの提携で、来年3月には新しい検索サービスが開始されます。相当強力なサービスになり、ユーザーにとっては歓迎すべきことです。ボランティアから企業への離陸にしてもドラスティックな変化です。今回の検索調査からみてTITANは上位の索引系より悪く、数ヶ月間データの更新がなく? これからも期待できない? となればTITANの運命は如何? 1〜2週間前からNTT DIRECTORY検索画面からもTITANの紹介が消えており不思議に思っていたのですが、これで納得!。日本独自の検索エンジンの開発を期待していただけにガッカリというのがasaisanの心境です。
.

1996年9月29日
東京、大阪、名古屋、横浜、福岡

今回のねらい 今回は地名の検索をおこないました。ポピュラーすぎてあまり役立つとは思えませんが、検索キーとして、東京、大阪、名古屋、横浜、福岡を調査しました。東京や大阪は登録系の分類カテゴリーにある場合もあります。それにNTTの新着情報で扱っている所在地なども検索に影響します。そのあたりを明らかにします。
.
データベースの特徴を調べる指標 データベースの内容がバランスのとれたものかどうかを判断することは必要です。今回の調査ではおもに分類カテゴリーや所在地情報を検索するかどうか調べれるようなものを選びました。そこで、次のような指標を求め、指標=(東京と大阪の検索数計)/(名古屋と横浜と福岡の検索数計)検索数の結果を示すテーブルの最後に示しました。
.
ロボット系 指標が2.0〜2.5に収まってるのが5つ(タイプA)、それを超えるのが2つ(タイプB)、1以下が2つ(タイプC)となりまりました。以下、タイプ別のコメントを示しますと、
.
  • タイプA 日本語Opentext、Hole-in-One、Mondou、NipponSE全文、千里眼合計欄を見ますと、日本語OpenTextが4万4千で他より3倍ほど多いのが目立ちます。実際にどれ位のデータを収集しているかは不明ですが、現時点ではトップです。Hole-in-One、Mondou、NipponSEは1万2千から1万6千で、同列とみなせます。最後の千里眼は半分位になりますが、最近システムを変更したのが響いているのかも知れません。
  • タイプB InfoNavigatorPage、NetplazaPage指標が6.45と3.28と異常に高いことから、他の地域に比べて東京や大阪のデータが多いのだと判断することもできます。しかし、索引化の際に、所在地情報やカテゴリー情報などが付加されてるとみられますが、ブラックボックスです。Web情報の検索は使いにくいという人がいますが、それはデータの収集範囲や索引化の方法が明かされてないため、検索結果を鵜呑みにできないからだと思います。検索数が多くなるように索引化すると、逆に冗長なデータが入ることになります。ますます拡大するWeb情報の検索の世界では通用しない仕組みといえます。
  • タイプC ODIN、TITANどうしたことかODINが600前後に上限を設定したのではないかと思われる結果になりました。もちろん結果はスコア順ですので利用に関しては問題ありませんが、検索調査時に保守中だったのかも知れません。TITANはもともと上限が100に制限されており、それがよいことかどうかはユーザーが判断することです。優れた検索システムをもっているのに何か宝の持ち腐れのような感じがしないわけでもありません。

.
登録系 指標をエクセルを使ってグラフに表すとほとんどが1.5〜3.0位に入ります。Wave SearchとInfoNavigatorWebとが高く、この2つをタイプB、それ以外をタイプAとみなしてコメントします。
.
  • タイプA トップのYahoo! Japanと2位のNTT DIRECTORYとは3倍位の差がついてしまいました。Yahoo!の非公式のデータ総数は約16.5万件、NTT DIRECTORYの公式のデータ総数は5.5万ですから、索引化の方法が同じであれば納得のいく数字です。4月に登場したYahoo!は長い間8〜10位のところにいましたが、最近めきめきとあがってきて、丁度6ヶ月でトップになりました。ただ、Yahoo!の指標が3.61、3位のNipponSEが3.49と高いのが少し気になります。中位のところはトップの5分の1から6分の1ですが、この差は時間がたてばますます拡大します。登録だけに頼る検索サービスはもう勝負にはなりません。
  • タイプB Wave Search、InfoNavigatorWebWAVE Searchの指標は5.31、InfoNavigatorWebの指標は8.62ということで、別格にあつかいました。WAVEの方は所在地に関する情報を検索しています。よく似たNTT DIRECTORYと比べても、東京の検索数が大きいことでわかります。InfoNavigatorWebは所在地とカテゴリー情報も検索しているように思われます。ここでいろいろなことを書いていますが、一つのシグナルとして受け取ってほしいものです。

.
京都は検索できるか 日本語の漢字処理は難しいですね。語と語の区別ができないからです。地名の京都はほとんどの検索システムで使えません。というのは、京都にあるホテルを検索すると、東京都にあるホテルを検索するからです。しかも所在地まで検索するシステムでは一層増幅します。漢字処理が正しくできるかどうかは、旅と旅行を使って調べていますが、これにパスする検索システムは約3分の1です。Mondou、InfoNavigatorPage、NetplazaPage、ODIN、TITAN、NTT DIRECTORY、InfoNavigatorWeb京都と東京都の場合は、前方一致ができればクリアできます。Yahoo! Japanではオプション検索で選択できますが、そこまで使い分ける人はいますか?
.
海外の検索サービスの動向 9月23日〜29日までの1週間で気がついたことですが、検索力が減少したところがあります。HotBotは8.3%、Exciteは42.0%、OpenTextは1.1%などです。その詳しい事情は分かりませんが、第1に考えられるのは重複ページの削除です。従来、検索結果を返すときに、重複をチェックして出力していますが、応答時間を速くするためには、重複のないデータベースにしていた方が効率的です。それに最初100といっていたのが、出てくるときに80であれば最初の100は不当表示になります。少しずつよいシステムに変わっていくのが感じられますし、検索力も妥当なところに落ち着いてきました。また、この1週間の増加ですが、AltaVistaは1.4%、Ultraは0.1%、Yahoo!は0.4%です。Web情報は1週間あたり推定3〜4%増加しているとみなせば、毎日更新していてもデータ収集が追いついていないことを示しており、安心しておれない気がします。
.

1996年9月22日
ActiveX, JavaScript, RealAudio, Shockwave, VRML

今回のねらい 第9回の検索調査(3月17日)で最新のマルチメディア関連のキーとして、Java, VRML, Shockwave, RealAudioを調べましたが、6ヶ月後にどう変化しているかを調べてみました。それに今回は英単語ばかりということで、海外の検索サービスも調査し日米間の相異も調べました。なお、調査キーにはActiveXを追加し、JavaをJavaScriptに変更しています。
.
マルチメディア情報の半年間の増加
●ロボット系は半年前はODIN、Mondou、千里眼、TITANの4つでしたが、Open Text Japan、InfoNavigator(Page)、Netplaza(Page)、Nippon Search Engine、Hole-in-One(Page)が加わり9サービスになりました。データのあるODINとMondouの検索数合計を示しますと、    前回 + 増加分 → 今回RealAudio 274 +  530 →  804Shockwave 306 + 1,187 → 1,493VRML   637 +  447 → 1,084合計   1,217 + 2,164 → 3,381
.
●登録系に新たに加わったのはYahoo!とWebdeWの2つで、トータルは14です。現在、お休み中のCSJを除く11サービスの検索数合計を示しますと、RealAudio 105 +  352 →  457Shockwave 110 + 1,149 → 1,259VRML   122 +  315 →  437合計    337 + 1,816 → 2,153 重複データを含んでいますので、正確な数値はわかりませんが、大体の傾向は判断できます。前回のと今回の増加分とを比較しますと、Shockwaveは27%から59%になり人気が高く、RealAudioは24%から22%で横ばい、そしてVRMLは49%から19%へと逆に人気が少ないことがわかります。
.
マルチメディア情報の日米間の相異 使用したキーが英単語ということで、海外の検索サービスにも適用してみました。Excite、HotBot、AltaVistaの検索数を下の2つめのテーブルに示します。まったくボリュームが違います。日本の約200倍です。前にも書いたのですが、日本の情報は5%で20倍の差が妥当と思っていたのに、ショックです。その理由として、日本の検索サービスはまだすべてのWeb情報を集めてないのと、速報的な情報収集というか更新の間隔が長いことなどが考えられます。
.
マルチメディア間の日米相異 RealAudio、Shockwave、VRMLについて、日米間の差異がはっきり浮かび上がってきました。データとして、日本は7つのロボット系のトータル、米国はHotBotとAltaVistaの合計を用いました。そして、各メディア間の割合を求め、それぞれのグラフを以下に示します。日本 realaudio(20%),shockwave(53%),VRML(27%)米国 realaudio(34%),shockwave(26%),VRML(40%)
.
日本のケース
.
説明するまでもありませんね。もちろん、世の中にでるのが早ければ多くのデータが集まっていることも考えられます。
.
海外検索サービスから日本サイトの検索 海外の検索サービスには日本語の情報が入っています。今回のような英単語に利用できます。簡単に調べれたのはHotBotとAltaVistaです。さすが、検索力も大きいだけでなく、木目細かな検索ができます。日本のドメインは最後にjpがつきます。それを手がかりに任意のキーワードと日本のドメインとをAND検索します。検索方法を以下に示しますので、大いにご活用下さい。
.
  • HotBotの場合 検索画面の左にオプションがあります。その中のExpertをクリックすると、隠れていたオプション群があらわれます。その中のLOCATIONのところにあるCyberplaceの前にあるラジオボタンをクリックし、その後にあるキー入力部分に日本のドメインをあらわすjpを入力します。LOCATION Cyberplace.jp.domein(.edu)これだけ準備して、あとはいつものキーワード検索を行います。
  • AltaVistaの場合 AND検索は各キーの前に+記号をつけ、日本のドメインは少し乱暴ですがurl:jpを使います。したがって、日本のサイトにあるrealaudioに関する検索は+realaudio +url:jpで行います。この場合、入力するキーワードは小文字だけにしてくださいね。

.
英単語とカタカナのどちらで検索しますか 外来語はカタカナであらわす場合があります。たとえば、realaudioですがリアルオーディオとデータベースに入っていることが考えられます。実際にOpenTextJapanで調べますと、realaudioの1011件に対してリアルオーディオは169件あります。したがって、realaudioとリアルオーディオとのOR検索をするのが正しい検索です。今回は英単語の結果の方が多かったので問題にならなかったのですが、場合によってはカタカナの方が多い場合があり、さらには漢字の方が多い場合があります。TITANは日本語と翻訳した英語の両者の検索を行い、そのOR検索結果を出力します。少なくとも、英単語の検索はそのカタカナを含む検索を行い、カタカナの検索はその英単語を含む検索ができればと願うのはasaisanだけですか。ボツ!
.

1996年9月8日
地震、災害、防災、救急、レスキュー

今回のねらい 9月1日は防災の日ということで1週遅れですが防災に関連したキーを使って検索しました。インターネットに入っている情報は本当になんでもあります。その混沌としているのが好きな人がいれば、秩序がないということで好きになれない人もいます。Web情報の増加はまだ続いています。
.

1996年8月25日
アート、芸術家、画廊、陶芸

今回のねらい 朝夕涼しくなり、秋の気配が感じられるようになりました。芸術の秋というわけでもないのですが、芸術関係のキーを用いました。前から出力結果の重複調査をと思っていたのが実現しました。
.
漢字、カタカナ、英語 外来語が多いですね。同じ事なのですが、漢字、カタカナ、そして英単語を使います。例えば、今回使ったアートは美術ともartとも言います。検索する場合には、それらをOR検索するのがベターです。ロボット系のOR検索結果を示しますと、Hole-in-One(11,726)、Open Text Japan(11,481)、InfoNavigatorPage(7,411)、NetplazaRobo(3,592)、NipponSE(3,048)、ODIN(1,657)。 上記のOR検索(美術 OR アート OR art)数は美術、アート、artの検索数合計の約90%です。従って、OR検索できないMONDOUと千里眼を推定しますと、MONDOU(3,335)、千里眼(2,990)となります。ちなみに、AltaVistaで、(art AND url:".jp")を検索すると、19,087の検索数を得ました。ExciteやHotBotはそれぞれ倍の4万位の日本語情報を持っています。まだ、日本語では検索できませんが、検索によっては海外の検索サービスも十分使えます。
.
重複のチェック ロボット系は重複のチェックが行われています。それをしないと、ゴミがたまり、効率が悪くなるばかりか、ユーザーにもよい印象を与えないからです。今回は芸術家についてチェックしましたがほぼ合格です。重複ページはなかなか退治できないので、出力時に改めてチェックする検索システムがあります。そのようなシステムでは出力した検索数が最初に表示される総数より少なくなります。 次に、登録系ですが、キーの陶芸について、NTT Directoriyを除く13のサービスについて調べました。延べ数は307ありましたが、7つのサービスで合計41の重複が見つかりました。その数値をテーブルに載せておきます。ただし、Yahoo! Japanや類似のシステムのように、一つのホームページが複数のカテゴリーに振られている場合も、この重複の数字に含まれています。
.
登録系の網羅性 以前に検索の視点で新着情報の網羅性を調べましたが、今回は検索キーの陶芸で調べました。総数は307で、各サービスの中にある重複分は41です。偶然ですが、307から41を引いた266の丁度半分の133(43%)が陶芸に関するユニークなデータです。 1個所だけの登録は75で、多いところは、NipponSE(19)、Yahoo! Japan(18)、WebdeW(13)などです。次に、2個所への登録は22、3個所へは12などとなっています。 もうお分かりですね。陶芸に関するデータは全部で133あり、多くの検索サービスは30前後しか検索しません。したがって、情報を探す場合は1個所でなく複数のサービスにあたってみるのが原則です。
.
Hole-in-Oneの検索数はトップレベル 8月15日の検索ニュースでお知らせしましたが、Hole-in-Oneはロボットによる検索サービスを開始しました。検索調査の結果は非常に良くデータ量はトップレベルです。アートという基本的でポピュラーなキーでの検索結果を示しますと、Hole-in-One 美術(2,419)、アート( 834)、art(9,982)、OR検索(11,726)OpenTextJ  美術(3,447)、アート(1,239)、art(8,206)、OR検索(11,481)です。OR検索で3,000台の他の検索サービスより多く、AltaVistaの60%位です。データの最終更新時期は7月末位のようです。これでデータベースは従来のと含めて2本あり、検索画面のメニューで選択できます。検索画面もカラフルですっきりしたものになり、回線もT1と速くなりました。新URL http://207.82.104.200(いずれ、従来のが使えます)。
.

1996年8月4日
治療、食中毒、大腸菌、O157

今回のねらい パソコンのハードデスク、熱くなっていませんか。タワー型のパソコンですが、ケースの両横をはずして風通しをよくしました。さて、今回のテーマですが、先週に続いて、特集ものです。社会問題になっているO157です。治療、食中毒、大腸菌、O157、O-157を調べました。さて、どんな結果が得られるのでしょうか。
.
O157に関する情報の登録 今回のO157は、NTT新着情報の登録情報を検索するWave Searchによれば、7/26,28,29,30,30,8/2の6件で、ほんとうにホットな情報であることがわかります。堺市のO157感染は9日の給食が原因で、11日に患者が発見され、14日頃から新聞で大々的に報道され始めました。この14日からみても約2週間たって登録されたことになります。
.
特集コーナーの新設 登録系14のうち、O157の特集コーナーを新設しているのは、Yahoo! Japan、Yahho、Japan SEの3サービスです。それらを詳しく記しますと、
.
  • Yahoo! Japan: ニュース:トピックス:病原性大腸菌O-157今週、Yahoo! Japanのデータ総数は10万件を超えました。子供の日、七夕、海の日、オリンピックなど以前からトピックスをあつかっていますが、今回のO-157問題への対応ははやく、関連情報を収集しています。特集はリンクを含めて31、O157の検索で59、O-157の検索で61でした。内容はいつものヤフースタイルの1〜2行のコメントつきです。
  • Yahho: Event/Case/O_157 特別につくられたコーナーであつかっています。特集では38、O157の検索は21、O-157の検索は13です。タイトルとリンクサイトが簡潔にリストされいます。
  • Japan SE: 病原性大腸菌O-157に関する緊急情報  特集は2種類に分かれており、1)関連ニュース・新聞記事では各社に記事が抄録つきで紹介されており、2)O−157関連ホームページリンク集では14のリンク先と数行の見出しが紹介されています。O157とO-157の検索はできませんでした。
  • NTT新着情報: 病原性大腸菌『O157』 NTT新着情報に最新基礎データ、分類ページがページのトップで紹介されています。

.
ニュース情報は新聞(朝日新聞社、産経新聞社)や雑誌(日経NetN@vi、医師向け専門情報)にまかせておけばよいかも知れませんが、必要な情報を提供する立場からは垣根にこだわらなくてもよいのではと思います。心配なのは受動的な登録情報だけを提供するところと必要な情報を能動的に収集し提供するところとに差がでてこないかということです。
.
登録系は速報性で有利 前回でもとりあげましたが、更新の頻度が検索に影響することは明らかです。ロボット系がこの時期に収集したデータを即データベース化しておれば問題ないのですが、現状では望めません。検査面で不利な登録系も速報性では勝負ができます。しかし、これも風向きがかわりつつあります。米国のロボット系検索サービスの更新はスピードアップしています。Opentextは2日に1回の更新をしますし、InfoseekやExciteは2週間です。それに日本のMondouは毎日のように更新しています。
.
新しい用語について O157とかO-157とか表記されますが、さてどちらが使われているのでしょうか。
.
  • O157とO-157のどちらも検索できないものMondou、ODIN −− システム的につかえません
  • O-157の検索を英字Oで検索するものInfoNavigator、TITAN、NTT DIRECTORY −− O-157の検索ができません
  • 更新時期の関係で情報が入っていないもの日本語Opentext、NETPLAZA Robo、Nippon SE全文、千里眼 人間に見やすいハイフンですが、検索システムが対応していないようです。その他に全角のOをつかうものなどがありました。

.
海外の検索サービスの結果(8/5追加) O157とO-157について、海外の検索サービスで調べました。カッコ内は(0157数:O-157数)です。HotBot(1331:791),Excite(954:0),Altavista(560:95),Lycos(149:0),Opentext(83:21),Infoseek(29:54),Webcrawler(12:0),Magellan(0:0)両方とも検索できるのはHotBot、Altavista、Opentext、Infoseekです。ハイフンのあるのは米国以外の日本などで使われているようです。
.

1996年7月28日
オリンピック、Olympic、五輪、アトランタ

今回のねらい オリンピックが始まりました。TVですか、新聞ですか、それともインターネットですか。今回はオリンピックに関連したキーとして、オリンピック、Olympic、五輪、アトランタを調べました。調査は1週間前の21日に行いました。夏休みでもないのですが、結局1回休んでしまいました。オリンピックも始まり、オリンピックに関連した新着情報が次々と登録されています。データベースの更新状況を調べる絶好の機会です。そこで、28日に調べたオリンピックの検索数を7/28の欄に示しました。7/28と隣の7/21のオリンピックの数字が異なっていればこの1週間に更新があったことを示します。
.
ロボット系の更新について 一般に、ロボット系は大量に情報をあつかうため更新の間隔は長いといわれています。そのあたりはどうなっているのでしょうか。このカテゴリーに入るロボット系もロボットから出発したものと索引系から出発したものと2種類に分かれます。
.
  1. ロボットから出発 −− Open Text Japan、ODIN、Mondou、TITAN、千里眼ほとんどの場合、収集した頁を蓄積しておき一括してデータベース化します。しかしMondouだけは例外で、202から209と少しですが増加しています。Mondouは収集したデータをこまめにデータベース化していることがうかがえます。千里眼は21日は少し検索できたのですが、22日以降は保守に入り、検索はストップしてしまいました。1月にも長期間休みましたが、今度は新しいシステムに移行しているものと思われ、どんなシステムになるのか楽しみにしています。
  2. 索引系から出発 −− InfoNavigator Page、NETPLAZA Robo、Nippon SE全文索引系は毎日登録情報が入り、少なくとも1週間に1度はデータベース化しています。それをベースにロボット収集を始めたわけですから、更新は早く行われています。InfoNavigatorは100から137へ、NETPLAZAは194から203へ、Nippon SEは27から105へと、いずれも増加しています。NETPLAZA Roboは五輪が検索できなかったため、ランクが下がってしまいました。オリンピックの情報がオリンピックが終わってからでないと得られないとしたらデータベースの価値が半減してしまいます。更新に関しては、すべて合格といえます。

索引系の更新について 索引系は全部で14あります。多いか少ないかと言えば、多いといえます。市場が少ないのに提供側が多く、少々の模倣したものでも許されるという日本的な風土がインターネットの世界で通用するのが不思議といえば不思議です。そういうことはともかくとして、索引系を上位グループと下位グループに分けました。
.
  • 上位グループ −− WAVE Search、NTT DIRECTORY、InfoNavigator、Yahho、CSJインデックス、Yahoo! Japan、NETPLAZAいずれも7/21から7/28の1週間にオリンピックに関する情報は増加しています。平均で39%の増加です。登録データが如何に速く処理されているかが示され、更新に関しては合格です。特に、WAVE Searchの更新は毎朝4時30分に行われ、前日までのNTT新着情報を利用できます。これは安心して使えます。
  • 下位グループ −− Japan SE、WWWナビゲーター、Hole-in-One、Nippon SE、WebdeW、URL広場、日本ネットWebdeWが14から15へ、URL広場が4から6へと更新されていますが、それ以外はオリンピックに関しては更新されていません。もちろん、Japan SEはジャンル別の大改装中でデータベース化がストップしており、Hole-in-OneはNetWorld+Interop 96へ出展のため更新作業は行われていません。その他にも事情があるものと思われますが、上位グループに比べると明らかに差がついてしまいました。

.
スコアの表示について ロボット系に関しては、スコア順の出力を重視し、スコア順の出力があるかないかで分けて表示していましたが、InfoNavigatorは以前からスコア順の出力をしているとの指摘を受けました。確かにHELPのところに記述されています。結果の出力にスコア表示がないため見落としてしまい長い間大変ご迷惑をかけてしまいました。しかし、検索サービスを利用する人がHELPをみているかと言えば疑問ですし、紹介文を表示するのと同様にスコア表示も重要な機能の一つです。この機会にぜひスコア表示をお願いします。
.
検索サービスの保守 オンラインで動いているデータベースの更新を何時行うかはシステムごとに異なっています。最近、土日に利用しにくいサービスとして、NTT系のTITANやNTT DIRECTORY、それにWAVE Searchがあります。WAVE Searchの場合は、時間帯によりサービスファイルを変えているのか、異なった検索数になります。オリンピックで調べた時も、4、44、71などの結果になりました。調査のランキングしている時に、どうもおかしいと気が付き調べ直すと、前と異なった結果になっています。その他、大掛かりな改装は大体土日に行われます。これから夏休みに入りますが、新着情報の提供が不規則になります。新年、ゴールデンウィーク、夏休みと登録数の統計も不規則になります。そう、ハードデスクは熱くなっていますよ。
.

1996年7月14日
金融、証券、相場、為替

今回のねらい 今回は経済に関するもので、金融関係を選びました。円が安くなってきましたが、これは夏休みの期間、日本向けの現象ですか? 夏休みに海外に出かける人には痛手になりそうです。為替や株価の値動きを示すグラフもインターネットで見れるようになってきました。
.
数字の検索 土日は日本の検索システムの作成で忙しかったのですが、調査してみるとあいまいな所や理解できていない所がはっきりしてきます。数字なんてなぜ検索するのだと叱られそうですが、日常生活ではいろいろな場面で数字がでてきます。もう数年で21世紀ということで、2桁の数字の21を使いました。半角の21と全角の21です。次のような結果を得ました。
.
  1. 半角21も全角21も検索できない(4) ODIN、Mondou、NetPlaza Robo、NTT DIRECTORY
  2. 半角21は検索できるが、全角21は検索できない(1) TITAN
  3. 全角21は検索できるが、半角21は検索できない(1) Nippon SE
  4. 半角21と全角21が検索できるが検索結果が異なる(7) Open Text Japan、WAVE Search、Japan SE、Yahho、CSJ、Hole-in-One、日本ネット
  5. 半角21と全角21が検索でき、検索結果はおなじ(同一)(7) 千里眼、InfoNavigator、NetPlaza、WWWナビゲータ、Yahoo! Japan、WebdeW、URL広場 大雑把な感じでは、ロボット系はデータ量が多いため細かいデータまで処理してないと言えます。システムの中には3桁以上であれば処理できる所もありますが、目標は高い所におきました。最後の半角と全角を同一視するところが数字の処理を完璧に行っているところです。

英字の検索 検索調査でも何回か取り上げたことのある話題ですが、改めて調べてみました。英字の場合は半角と全角以外に大文字と小文字の問題があります。キーとしてjavaを使い、4つのケースを調べてみました。
.
  1. 一部の英字を検索しない(2) TITANは全角のjavaとJAVA、Netplaza Roboはjava
  2. 半角の大文字と小文字を区別している(2) NTT DIRECTORY、Japan SE
  3. 大文字と小文字を半角で同一視するが、全角で区別する(11) Open Text Japan、ODIN、TITAN、Netplaza Robo、NSE、WAVE Search、Yahho、CSJ、WWWナビ、Hole-in-One、日本ネット
  4. 大文字、小文字、半角、全角の検索数が同じ(7) Mondou、千里眼、InfoNavigator、Netplaza、Yahoo! Japan、WebdeW、URL広場 まだ、半角の大文字と小文字を同一視できないシステムもありますが、最後のケースが一番よいシステムです。

ランクを乱すもの 検索調査では、キーワードを入力して各サービスの検索数を調査しています。それから、検索数をもとに、ある程度の調整をして、各サービスのランクづけをしています。勿論、表計算のExcelにデータを打ち込んでの作業です。今回の例でも突出した結果を示すところがあります。その原因は分類項目まで検索する仕組みになっているからです。しかし、分類項目を含めるメリット以上にデメリットがあるように思われます。キーに関連のない情報が入ってきますし、Web情報が多くなればむしろ絞り込む方が必要になってくるからです。 多くのシステムでは重複した結果を表示しないよう努力しています。しかし、残念なことに、検索結果の中に重複した情報が含まれるケースがあります。とくに2〜3のサービスで目立ちます。重複した結果が含まれると情報の信頼性までも疑わしくなります。いずれ重複に関する調査をする予定です。Webデータベースは情報系の蓄積型ではなく、むしろ勘定系のフロー型です。いずれにしてもユーザーに使いやすい結果を返すところが評価されるのでは思っています。
.
今週のポイント 今週はExciteが5,000万件のサービスを開始するというビッグなニュースが入っています。アクセスでき次第、検索調査をし公表したいと思います。それから6月に発表予定だったUltraseekですが、several weeks遅れるとのことです。日本のJapan SEが7月11日に分類の大編成をするとのことでしたが、少しおくれており、ここに載せることができませんでした。すでに検索結果の表示は変更しており、使い易く、すっきりしています。
.

1996年7月7日
Radio, 3D, Intranet, ActiveX

今回のねらい 世界中のWeb情報をあつかう検索サービスはまだ全体像が分からないのが現状です。ボランティアの頃には、いろいろと内部情報が伝えられましたが、最近は宣伝用の(自社に有利な)情報しか流されなくなり、こちらが推測しなければならなくなりました。今回は検索サービスの重要な要因である速報性と網羅性を調べました。
.
検索キーについて 最近はインターネット上でラジオが聞けるようになりました。空中の電波によるのではなく、電話線でデジタルでやってきます。Webの情報量は少ないかと思っていましたが、調べてみたら結構入っています。それから3Dですが、これも2Dから3Dへと移行しつつあります。ただ、LycosとMazellanはデータベース化の際に2文字以下の単語を無視する仕組みになっているため検索できませんでした。そこで推定値としてRadioの40%を使いました。IntranetとActiveXは比較的新しい言葉ですので採用しました。
.
速報性によるランク データベースの中に新しいキーワードがどれ位含まれているかその比率を求めてみました。各データベースの総数が分からないので、新しいキーのIntranetとActiveXの検索数を調査した総数で割った比率を結果の最後の欄に示しました。その結果から、各サービスの速報性を5段階のAからEでランクしました。A:LinkStar、Yahoo! B:Lycos、AltaVista C:infoSeek、HotBot D:WebCrawler、Magellan、Pathfinder E:OpenText、NlightN
.
各サービスの速報性について 索引系はデータベースも小さく小回りが効くため登録データは1週間以内にデータベースに組み込まれます。それがよい評価につながっています。検索系ではLycosとAltaVistaが健闘しています。先日、Lycosは5,100万件のWebページを収集したと発表しましたが、現在データベース化している最中で、まだサービスされていません。やはりきめこまかにガンバッテいるのがわかります。 それからAltaVistaですが、タイミングよく7月5日頃新しいデータベースに更新されました。前回は4月26日頃でしたから10週間目の更新ということになります。ちなみに、数日前のActiveXの検索数は1,707で、今回はHotBotより多く、4,929です。新語の検索数は更新時期に依存することが分かります。なお、一番新しいデータは7月2日の収集ページです。まいった、まいった。 OpenTextの更新が遅れているようです。PathfinderやNlightNなどはWeb以外の情報も含んでおり、より一般的な情報を扱っています。Web情報はまだ特定の分野の情報しか扱っていないためかも知れません。
.
網羅性によるランク 単純に総数を使えばよいのですが、IntranetとActiveXの検索数の合計をベースに大きい順にランクしてみました。A:AltaVista、HotBot B:Lycos、infoSeek C:Magellan、OpenText D:NlightN、WebCrawler E:Pathfinder、Yahoo!、LinkStar
.
各サービスの網羅性について この1ヶ月間にデータの更新がなかったのは、HotBot、Opentext、WebCrawlerです。HotBotは1週間で更新するとアナウンスしていましたが、オープンの5月20日から1回少々増えましたが、大掛かりな更新はされてないようです。網羅性はデータの収集数と索引化技術によりますので、いつも述べているような結果になりました。これから時間が経てば差が開いていくことが考えられます。 MagellanがExciteに併合されますが、Magellanが所有す4万件の評価データがExciteの評価データにマージされ10万になるのであり、Magellanがロボットで収集した膨大なデータはマージできず破棄されるようです。それにしても4万件のデータを約10億円で購入したことになるわけで、評価データ1件あたり1万円、四つ星評価の買い取りが5億円、その他1億円と予想したのですがみなさんは如何ですか。
.

1996年6月30日
料理、グルメ、レシピ、食べ物

今回のねらい 今回は、料理関係のキーワードを選んでみました。日本語処理で「食べ物」を識別するのは難しく、「食」と「物」をAND検索しなければと思ったのですが、NSEを除くすべての検索サービスでサポートしているのには驚きました。
.
ロボット系の分離 この3ヶ月間で、Nippon SE、NETPLAZA Robo、InfoNavigator(ページ)がロボットによる検索サービスを始めました。ロボット系と索引系とは検索力に差があるため分離してあつかうことにしました。それから、スコア順出力の有り無しでも分けました。やはり、ロボット系は検索数が多いため、スコア順出力は必須であると考えたからです。1)スコア順出力あり 日本語OpenText、ODIN、Mondou、TITAN2)スコア順出力なし 千里眼、InfoNavigator、NETPLAZA Robo、Nippon SE全文
.
分類項目名を検索対象にしない 索引系は各々の文書に分類項目が付加されています。検索のときにその分類項目名まで検索の対象にするものがあります。このような場合には、検索数は大きくなり、当ランクもよくなります。しかし、情報量は増加しており、過剰気味になってきました。すると、非常に冗長な結果に思えてきます。できれば、分類項目名の検索は中止し、オプションで選択できるようにして欲しいと思います。この点、Yahoo! Japanは上手く処理しています。分類項目名から何件、テキストから何件と分けて出力しています。また、Hole-in-Oneは検索に分類項目名を含む含まないかは検索オプションで指定できます。
.
Excelを使って検索結果を分析 検索対象に分類項目名を含めていると思われる所をExcelを使って探して見ました。1)4種類のキーによる検索数の合計を求め、各検索キーの割合を求めます。2)索引系14種類の平均をキーごとに求めます。3)各サービスごとに平均との差を求めます。4)15%以上差のある所をピックアップすれば求まります。みなさんも、ぜひ挑戦して下さい。
.
NETPLAZAの分類大編成
.
●新しいジャンル(14) コンピュータ・インターネット 企業情報・ビジネス 通販・ショッピング メディア スポーツ ホビー・レジャー アート エンターテイメント 生活情報・健康 文化・社会 環境・自然科学 政府官公庁・地方自治体 教育・学校 個人・団体ページ 番外(まる得ページ まる楽ページ)
●従来のジャンル(20) イベント 政府・官公庁・地方自治体 インターネット 生活関連情報 芸術・アート・文化・芸能 通信販売・ショッピング 子供 本・雑誌・出版 娯楽・エンターテイメント スポーツ関連情報 コンピュータ関連 旅行・観光情報 人材募集・採用・求人・代理店募集 学術・研究・学会 新聞・TV・マスコミ 医療関連 学校・教育 企業情報 地域の情報 その他
.
今週のポイント Infoseek社のUltarseekのサービス開始が遅れています。全世界のWeb情報を短時間にロボットで収集することは難しいと思います。あるいは目標としていたAltaVistaの他にHotBotが出現したためかも知れません。米国では従来よりも優れたものをださなければ評価されないようで非常に厳しい世界です。それが、技術革新の原動力になっているのかも知れません。
.

1996年6月23日
小説、アニメ、漫画、ミステリ

今回のねらい 今回、エンターテイメントから身近なものを選択しました。小説、アニメ、(漫画 OR マンガ)、(ミステリー OR ミステリ)ですが、その他に(雑誌 OR マガジン)も調べました。
.
OR検索機能は必要です 複合語の場合はAND検索をしますが、今回は3種類の検索でOR検索をしました。検索時にOR検索ができないサービスは以下の6つがあります。 Mondou、WWWナビゲーター、Yahho、CSJインデックス、URL広場、日本ネットAND/OR検索ができない場合は、2つの検索キーを別々に検索し、結果の大きい方を採用しました。従って、ランクは少々不利になっています。AND検索とOR検索は検索技術の基本ですから、ぜひ備えて欲しいと思います。なお、ロボット収集ではスコア順出力を行いますが、AND/OR検索でスコアに乱れが生じるため、どちらかを犠牲にしなければならないようです。
.
ロボット系(ODIN、Mondou、OpenTJ、TITAN、千里眼) 更新作業は大変です。ODINはこの1週間で約5万頁増加させました。日本語のWeb頁がどれくらいあるかは誰にもわかりません。世界には5,000万頁あると言われていますが、日本語が2%で100万頁、3%で150万頁です。集めているのがせいぜい40万頁ですから、ロボット系の網羅性はないものとみなせます。それにしても困った事態になってきました。
.
ロボットと登録系(NSE、InfoNavigator、Netplaza) 登録だけをベースにしたデータ収集からロボットへ移行したNSE、InfoNavi、NetPlazaが実力を発揮してきました。登録系の上位グループと比べて検索数で2倍の開きがでてきました。これからますます差は開き、1年くらいで30倍以上の差になることが予想されます。なお、InfoNavigatorの検索結果出力制限の200が撤廃されました。Thanks。
.
登録系(WaveSearch、NTTdir、Yahho、JSE、Yahoo!J、WWWナビゲータ、Hole-in-One、CSJ、WebdeW、URL広場、日本ネット)   検索よりは分類に重きを置いていますので、検索数だけで比較するのはナンセンスかも知れませんが、グループ内の相互比較には役立ちます。Yahhoはエンターテイメントに強く、第17回の時も上位でした。ランクの入れ替わりが激しいのですが、だんだん収まってきています。紹介文は1〜2行よりも3〜4行の方がユーザーにはわかり易いと思います。ほとんどがボランティアですので、人を投入することもできず、今後1年位で10倍以上のデータをあつかうとなると、網羅性から遠ざかって行くことが危惧されます。
.
今週のポイント 月曜日にNetplazaが分類のジャンルを再編成するとのことですが、どのような編成になるのか楽しみです。昨年の8月末に総数260で開始したのが現在8,400まで増加しています。10ヶ月で30倍以上です。1年後には10万位になりますが、新しい分類は何時まで絶えられるのでしょうか。それから、Infoseek社のUltarseekが6月にサービスされるとのことですが、6月の最終週ですので、今週中に発表されるかも。AltaVistaを追い越すのか、これも楽しみの一つです。
.

1996年6月16日
企業、ビジネス、経営、ベンチャー

今回のねらい ビジネス関連の話題ということで調べてみました。その他に「リストラ」や「メーカー」なども調べました。検索しても必要な情報が得られないという人も多いようですが、情報量はまだ驚異的に増加しています。ロボット系のデータ入力が少し遅れ気味です。前々回に指摘しましたように、各索引サービスがもつ情報の網羅性は1〜2割です。当分の間は巡回検索を使って複数のサービスを検索することをお薦めします。
.
カタカナによる検索例 検索キーがカタカナの場合、サービスにより結果が少々異なります。その辺を調べるために、2種類の検索を行いました。(A)「ベンチャー」と入力すると、「アドベンチャー」も一緒に検索(B)「ベンチャー」と入力しても、「ベンチャ」と入力しても結果は同じ(1)両方に該当しないもの ODIN、Mondou、日本語Opentext、TITAN、NTT DIRECTORY InfoNavigator、Netplaza(2)Aに該当しないが、Bに該当するもの NipponSE、Wave Search(3)A,B共に該当するもの 千里眼、WWWナビゲータ、Japan SE、Yahoo! Japan、Hole-in-One Yahho、CSJインデックス、WebdeW、URL広場、日本ネット
.
カタカナによる検索の注意点 両方に該当しない7サービスは、カタカナの日本語処理が正しく行われおり、よいシステムとみなせます。(A)の場合、NOT演算があれば「アドベンチャー」を除くことができます。下の表はアドベンチャーを除いた結果です。(B)の場合、「ー」がいらないからといって使用しないのは間違いです。現在のシステムが現実と異なってるからです。「−(マイナス)」を使った「ベンチャ−」も調べました。ほとんどの検索結果はゼロでしたが、一部のサービスで見つかりました。登録者が「ー」を「−」と入力ミスしたためです。カタカナは日本語の文章の中によく表れます。カタカナが続き、複数の単語がある場合にその区切りをソフトで見つけることは難しい問題です。その点、英語の場合は、単語と単語の区切りが空白やハイフンなどではっきりしています。
.
今週のポイント InfoNavigatorがロボット収集によるサービスを開始するとのこと、検索画面が改装されそうです。従来のデータベースは厳密に言えば索引系でなかったため、ロボット収集とのマッチングは比較的容易にできそうです。まだ収集データ数が少ないと思われますが、楽しみです。
.
InfoNavigator ぺージ検索開始(6月17日追加) 従来のサーバ検索に加え、ページ検索が追加されました。早速、検索結果を追加し、再計算し直し、ランクの移動を行いました。ページ検索結果は、企業(877)、ビジネス(866)、経営(26)、ベンチャー(3)でまだデータ量は少ないようです。
.

1996年6月11日
Football, Basketball, Baseball, Soccer

今回のねらい インターネットでスポーツ中継し、全世界の人が即時にその結果を知ることができるようになりました。今回は、アメリカで盛んに行われているフットボール、バスケットボール、野球、そしてサッカーについて調べて見ました。
.
Web上の人気スポーツ 検索数の多い順に、1位:フットボール、2位:バスケットボール、3位:野球、4位:サッカー、になります。サッカーがアメリカではあまり盛んでないことがわかります。各サービスごとの順位を見てみますと、大体同じ傾向が見れますので、収集しているデータが偏ったものでないと考えられます。前回の最新の情報技術の時に比べて、AltaVistaとLycosの差が10倍から3倍になりましたが、恐らくLycosの方が古いデータを蓄積しているからとみなせます。
.
検索サービス(フルテキスト系) Web上にあるすべての頁を対象にし、頁の中にあるすべての情報を取り込んだデータベースを作っているものです。HotBot、AltaVista、Ultraseek(6月にオープン)があり、少し系統が異なりますが、NlightNも含めました。HotBotは多彩なオプションがあり、いろいろと試してみることをおすすめします。5月20日から3週間たっていますが、まだデータベースの更新がなされていません。スコア順の出力に大きなミスがあるように思われます。やはり、軌道にのるまでの2ヶ月間位の微調整期間が必要のようです。AltaVistaはイントラネット用ソフト販売で収入を得ることを目的としていましたが、今度Yahoo!と提携関係ができ、両社にとっても、ユーザーにとっても良いニュースでした。オープンして半年たち、検索の機能面も充実しており、3,000万頁のボリュームからすれば現時点での総合評価は世界一です。機能がたくさんありますので、使い込んで欲しいものです。Ultraseekはまもなくオープンする予定です。会社のPR文も流されています。11日にInfoseek社は店頭公開し、14ドルの345万株で約50億円の資金を得ました。それに最近、日本で合弁予定の兼松の株が急上昇しています。NlightNはあまり使っていないのでわかりませんが、結果だけから判断しますと相当実力を持っています。Web以外のデータベースを含めれば、図書館系のも考慮しなければならなくなり、大変なことになります。
.
検索サービス(ロボット系) ロボットを使って情報を収集しないと、とても検索に応じられません。最初からロボットに頼るもの、索引系とロボット収集の2本立てのところなどがあります。Lycos、Opentext、Magellan、Infoseek、Webcrawler、Exciteなどです。ただ、AltaVista系とは明らかに差が開いてしまいました。Lycosは3,923万頁も収集しています。AltaVistaの出現で、いろいろ改善が図られているようです。例えば、検索結果の出力などは、従来のブツブツと途切れる紹介文に比べて、洗練された文章が出力されます。テキストの一部をデータベース化している関係でAltaVistaに比べて検索力は5分の1位になります。現在、AltaVista以上の新しいシステムを開発中とのことです。OpenTextは最近メインの画面をシンプルなものにしました。今までは複数のキー入力を3行にわけ、AND/ORを選択していたのですが、他のサービスと同様に1行の入力になりました。やはり初心者が多いインターネットの世界ではシンプルなものが好まれるようです。Yahoo!との提携は続いているようですが、時間の問題です。テキストを正しく処理しているのですがスピードとボリュームでAltaVistaと差ができてしまいました。Magellanは本来、従来のデータベース作りと同様に、Web情報の抄録を作成していました。それが4つ星評価です。しかし、ロボット収集に移行し、検索すればわかりますが評価した情報はわずかになってしまいました。Web情報の陳腐化が激しいのと、情報の増加量が多いので、最初のねらいはうまく機能していません。Infoseekは現在の10倍以上の頁数をもつUltraseekの準備中で、更新作業は止まってるようです。
.
索引サービス 初心者や、あるいは新しい分野の情報を探す場合の手がかりを与えるものとして、今でも重宝なのが索引サービスです。1年くらい前は、検索系と索引系の利用の比率が1対1でしたが、現在では6:1くらいにまで低下しており、ウエィトは下がる一方です。まだ、日本では索引系の利用が多く、1年半位の差があるように思われます。Yahoo!は索引系でトップです。検索結果をみればあきらかなように、ロボット収集をベースの検索とは大きな差ができてしまいました。今度AltaVistaと提携し、検索面での遅れをカバーすることになりました。従来の索引とAltaVistaの検索とをどう調和させるかが最大のポイントです。
.

◆検索力調査

◆1996年7-12月

調査、資料、報告、統計、経済統計 11/21
子供、子育て、受験、育児、いじめ 10/27
相場、五輪、薬害、フィットネス、ActiveX 10/17
東京、大阪、名古屋、横浜、福岡 09/29
ActiveX, JavaScript, RealAudio, Shockwave, VRML 09/22
地震、災害、防災、救急、レスキュー 09/08
アート、芸術家、画廊、陶芸 08/25
治療、食中毒、大腸菌、O157 08/04
オリンピック、Olympic、五輪、アトランタ 07/28
金融、証券、相場、為替 07/14
Radio, 3D, Intranet, ActiveX 07/07
料理、グルメ、レシピ、食べ物 06/30
小説、アニメ、漫画、ミステリ 06/23
企業、ビジネス、経営、ベンチャー 06/16
Football, Basketball, Baseball, Soccer 06/11