検索デスク 調査 1996年

1996年

調査、資料、報告、統計、経済統計 1996年11月21日

  経済統計は探せるかな 日曜日も結構込み合ってきました。それにシステムの方が保守をしてるらしく検索できない場合があります。今回は統計に関することを調べようと思ったのですが、どうも上手く行かなくて途中で関連したキーに変更しました。

  Windows95でJISコードは送れますか 検索サービスをしているサーバーはほとんどがUNIXマシンで、日本語コードはEUC、あるいはJISが使われています。一方、ユーザー側のマシンはWindowsが多く、コードはShift-JISです。従って、Windowsマシンを使っている人が検索するとShift-JISの検索キーが送られ、それを検索サービス側でEUCやJISに変換します。理由が分かりませんが、Hole-in-Oneの日本のWWW、TITAN、WAVE Searchなどは土日に変換が行われず、検索ができない時があります。Windows95では、「オプション/文書の文字コードセット」の中にある日本語のところには「自動判別/シフトJIS/EUC」の3種類しかなくなくJISはありません。?

第33回 1996.11.21 調査、資料、報告、統計、経済統計

Noロボット系調査資料報告経済経済統計合計
1InfoNavi Page852013750646316895530477
2日本語OpenText47706465534721823018794
3NETPLAZA Page272040192769956010464
4Mondou25343288275514345210063
5千里眼185325941554668136682
6Hole-in-One148621571563916236145
7Nippon SE 全文11032605161172706046
8Infoseek JAPAN655758708584122717
9ODIN59472676159592685
10TITAN9995989769458
No平 均243336462363985269453
--CRN76977421675422194024131

No登録系調査資料報告統計経済統計合計
1NTT Directory4642562246891021
2Yahoo! JAPAN313252353570975
3WAVE Search338249268601916
4WWWナビゲータ247201196471692
5Nippon SE227187135520601
6InfoNavigator233187132393594
7WebdeW170236146280580
8NETPLAZA178147109371472
9Hole-in-One108113124251371
10DRAGON12780107292345
11Yahho717534280208
12URL広場466634130159
13日本ネット453320130111
No平 均233189171452640
--SS52653370157

子供、子育て、受験、育児、いじめ 1996年10月27日

第32回 1996.10.27 子供、子育て、受験、育児、いじめ

Noロボット系子供子育て受験育児いじめ合計
1InfoNavi Page623348714634866082557
2Infoseek JAPAN651795595434801582
3日本語OpenText29133158442762981418
4ODIN654435353252931153
5Hole-in-One45681766321672561055
6Nippon SE 全文74903408176491
7Mondou871206375960471
8千里眼321401753249256
9NETPLAZA Page1076577206490255
10TITAN9978100680168
No平 均+1,814+200+523+212+206+314
--CRNナビゲータ481566515477988883233

No登録系子供子育て受験育児いじめ合計
1InfoNavigator286701066729202
2NTT Directory359288826928179
3NETPLAZA43948665022138
4WWWナビゲータ23945823322137
5Yahoo! JAPAN16840594430133
6DRAGON21654585217127
7WAVE Search28294632622111
8Nippon SE172046261587
9Hole-in-One1392237231171
10WebdeW85173020757
11Yahho6891314936
12URL広場5481612827
No平 均2095855361836

相場、五輪、薬害、フィットネス、ActiveX 1996年10月17日

  今回のねらい Infoseekの日本版が仮オープンしました。20万件のスタートです。早速調査しましたが、ODINと同様に600前後のところに検索数の上限が設定されています。従って、大きな概念のキーでは相互比較できないため、今回は変則的ですが、過去の検索調査で用いたキーで検索数の少ないものを調べました。

  ロボット系 仮オープンしたInfoseekの日本版が検索調査に仲間入りしてロボット系の総数は10になりました。現段階では各サービス間にあまり差がないため、検索数をベースにしたランクは使用するキーにより変動します。今回はテーブルのような結果になりました。トップはInfoseek Japanで、ラストはTITANです。

  索引系 索引系も順位がよく入れ替わります。特に中位の移動は激しいようです。さて今回のトップはNTT DIRECTORYです。画面の改装は頻繁に行われていますし、たいへん意欲的です。どうゆう理由なのかわかりませんが、ゼロがいくつも続いた長~いファイル名です。URL入力はお手上げです。米国の検索エンジンの検索結果の中にあらわれても即座にわかります。さて、検索結果で注目すべきところはActiveXの結果です。半分近くがゼロです。

  ユニーク係数 新着情報でInfoseekがトップとのニュースで、「重複データが含まれているのでは?」とのメールを越桐さんからいただきました。早速、日曜日に調査したキーを使ってロボット系全部の再調査を行いました。その結果はテーブルのユニーク係数という欄に示しました。この係数は重複データが全然含まれていなければ1.000でたくさん含めば含むほど1より小さくなっていきます。例えば、ユニーク係数が0.7の場合は、ユニークが70%、重複が30%をあらわします。Infoseekは0.607、InfoNavigatorは0.928、Open Text Japanは0.988で、残りは1.000、すなわち重複がなかった検索サービスです。なお、合計は各検索数の合計にユニーク係数を掛けた数値です。

  Infoseek Japan Infoseek Japanの場合、新たなことがわかりました。それは出力制限がユニークな検索数200までということです。例えば、「相場」を検索すると検索総数は381と表示されますが、その中のユニークなページ数は200で残りの181(=381-200)は重複ページを表しています。五輪では238(=438-200)、薬害では52(=252-200)、フィットネスでは108(=308-200)など重複数は簡単に計算できます。この多さにびっくりしました。重複データがあると使いにくく、イメージ的にはマイナスですが、なぜ、このような仕組みにしたのかわかりません。ユニークなページを正確に200までカウントしているわけですから、重複を除くことはソフトで即座にできます。まだテスト期間中であり、今後もシステムの変更があるかも知れません。12月には最新の検索エンジンUltraが登場します。恐らく現在の検索エンジンへのデータ追加はないかも知れません。それにしても、各キーが200まで達しておりトップですが、20万件の割には検索数が多く、何か秘密?が解消していません。

  InfoNavigator InfoNavigatorの出力制限は200です。検索数の総数が519とでても、結果の出力は200までです。「相場」の重複を調べましたが、200のうち、ユニークが190、重複が10ありました。Infoseek Japanと同じ200ですが、処理が異なります。それにしても他のサービスのほとんどが重複ゼロですから、14に1の重複があるのは重複が多いとみなせます。

  TITAN 15日にビッグなニュースが飛び込んできました。日本のトップレベルの検索技術をもつTITANをサービスしているNTTがHotBotの母体であるInktomiと提携したことです。日本のトップレベルの検索技術と米国のトップレベルの検索エンジンとの提携で、来年3月には新しい検索サービスが開始されます。相当強力なサービスになり、ユーザーにとっては歓迎すべきことです。ボランティアから企業への離陸にしてもドラスティックな変化です。今回の検索調査からみてTITANは上位の索引系より悪く、数ヶ月間データの更新がなく? これからも期待できない? となればTITANの運命は如何? 1~2週間前からNTT DIRECTORY検索画面からもTITANの紹介が消えており不思議に思っていたのですが、これで納得!。日本独自の検索エンジンの開発を期待していただけにガッカリというのがasaisanの心境です。

第31回 1996.10.17 相場、五輪、薬害、フィットネス、ActiveX

Noロボット系相場五輪薬害フィットネスActiveXユニーク係数合計
1Infoseek JAPAN3814382523082690.6071000
2InfoNavi Page519350140105680.9281097
3ODIN2812951391461021.000963
4日本語OpenText32319712066510.988748
5Hole-in-One1821845581341.000536
6Mondou861126430301.000322
7Nippon SE 全文911015531351.000313
8NETPLAZA Page115013232261.000305
9千里眼44271827201.000136
10TITAN2720121661.00081
No平 均206.0172.298.884.561.2--622.7

No登録系相場五輪薬害フィットネスActiveX合計
1NTT Directory311211261292
2InfoNavigator4271119988
3WAVE Search3421126082
4NETPLAZA307618465
5Yahoo! JAPAN2611716464
6Nippon SE356711362
7DRAGON224617049
8WWWナビゲータ25647547
9Hole-in-One131158037
10Yahho61844032
11WebdeW17155129
12日本ネット13003016
13URL広場5123011
No平 均23.08.16.211.02.951.2

東京、大阪、名古屋、横浜、福岡 1996年9月29日

  今回のねらい 今回は地名の検索をおこないました。ポピュラーすぎてあまり役立つとは思えませんが、検索キーとして、東京、大阪、名古屋、横浜、福岡を調査しました。東京や大阪は登録系の分類カテゴリーにある場合もあります。それにNTTの新着情報で扱っている所在地なども検索に影響します。そのあたりを明らかにします。

  データベースの特徴を調べる指標 データベースの内容がバランスのとれたものかどうかを判断することは必要です。今回の調査ではおもに分類カテゴリーや所在地情報を検索するかどうか調べれるようなものを選びました。そこで、次のような指標を求め、指標=(東京と大阪の検索数計)/(名古屋と横浜と福岡の検索数計)検索数の結果を示すテーブルの最後に示しました。

  ロボット系 指標が2.0~2.5に収まってるのが5つ(タイプA)、それを超えるのが2つ(タイプB)、1以下が2つ(タイプC)となりまりました。以下、タイプ別のコメントを示しますと、==u ==v タイプA 日本語Opentext、Hole-in-One、Mondou、NipponSE全文、千里眼合計欄を見ますと、日本語OpenTextが4万4千で他より3倍ほど多いのが目立ちます。実際にどれ位のデータを収集しているかは不明ですが、現時点ではトップです。Hole-in-One、Mondou、NipponSEは1万2千から1万6千で、同列とみなせます。最後の千里眼は半分位になりますが、最近システムを変更したのが響いているのかも知れません。 ==v タイプB InfoNavigatorPage、NetplazaPage指標が6.45と3.28と異常に高いことから、他の地域に比べて東京や大阪のデータが多いのだと判断することもできます。しかし、索引化の際に、所在地情報やカテゴリー情報などが付加されてるとみられますが、ブラックボックスです。Web情報の検索は使いにくいという人がいますが、それはデータの収集範囲や索引化の方法が明かされてないため、検索結果を鵜呑みにできないからだと思います。検索数が多くなるように索引化すると、逆に冗長なデータが入ることになります。ますます拡大するWeb情報の検索の世界では通用しない仕組みといえます。

  • タイプC ODIN、TITANどうしたことかODINが600前後に上限を設定したのではないかと思われる結果になりました。もちろん結果はスコア順ですので利用に関しては問題ありませんが、検索調査時に保守中だったのかも知れません。TITANはもともと上限が100に制限されており、それがよいことかどうかはユーザーが判断することです。優れた検索システムをもっているのに何か宝の持ち腐れのような感じがしないわけでもありません。 ==eu

      登録系 指標をエクセルを使ってグラフに表すとほとんどが1.5~3.0位に入ります。Wave SearchとInfoNavigatorWebとが高く、この2つをタイプB、それ以外をタイプAとみなしてコメントします。

     

    • タイプA トップのYahoo! Japanと2位のNTT DIRECTORYとは3倍位の差がついてしまいました。Yahoo!の非公式のデータ総数は約16.5万件、NTT DIRECTORYの公式のデータ総数は5.5万ですから、索引化の方法が同じであれば納得のいく数字です。4月に登場したYahoo!は長い間8~10位のところにいましたが、最近めきめきとあがってきて、丁度6ヶ月でトップになりました。ただ、Yahoo!の指標が3.61、3位のNipponSEが3.49と高いのが少し気になります。中位のところはトップの5分の1から6分の1ですが、この差は時間がたてばますます拡大します。登録だけに頼る検索サービスはもう勝負にはなりません。
    • タイプB Wave Search、InfoNavigatorWebWAVE Searchの指標は5.31、InfoNavigatorWebの指標は8.62ということで、別格にあつかいました。WAVEの方は所在地に関する情報を検索しています。よく似たNTT DIRECTORYと比べても、東京の検索数が大きいことでわかります。InfoNavigatorWebは所在地とカテゴリー情報も検索しているように思われます。ここでいろいろなことを書いていますが、一つのシグナルとして受け取ってほしいものです。

      京都は検索できるか 日本語の漢字処理は難しいですね。語と語の区別ができないからです。地名の京都はほとんどの検索システムで使えません。というのは、京都にあるホテルを検索すると、東京都にあるホテルを検索するからです。しかも所在地まで検索するシステムでは一層増幅します。漢字処理が正しくできるかどうかは、旅と旅行を使って調べていますが、これにパスする検索システムは約3分の1です。Mondou、InfoNavigatorPage、NetplazaPage、ODIN、TITAN、NTT DIRECTORY、InfoNavigatorWeb京都と東京都の場合は、前方一致ができればクリアできます。Yahoo! Japanではオプション検索で選択できますが、そこまで使い分ける人はいますか?

      海外の検索サービスの動向 9月23日~29日までの1週間で気がついたことですが、検索力が減少したところがあります。HotBotは8.3%、Exciteは42.0%、OpenTextは1.1%などです。その詳しい事情は分かりませんが、第1に考えられるのは重複ページの削除です。従来、検索結果を返すときに、重複をチェックして出力していますが、応答時間を速くするためには、重複のないデータベースにしていた方が効率的です。それに最初100といっていたのが、出てくるときに80であれば最初の100は不当表示になります。少しずつよいシステムに変わっていくのが感じられますし、検索力も妥当なところに落ち着いてきました。また、この1週間の増加ですが、AltaVistaは1.4%、Ultraは0.1%、Yahoo!は0.4%です。Web情報は1週間あたり推定3~4%増加しているとみなせば、毎日更新していてもデータ収集が追いついていないことを示しており、安心しておれない気がします。

    第30回 1996.9.29 東京、大阪、名古屋、横浜、福岡

    Noロボット系東京大阪名古屋横浜福岡合計指標
    1日本語OpenText222469172489743293599442432.45
    2Hole-in-One72903404194514361273153482.30
    3Mondou66423305200615901248147912.05
    4Nippon SE 全文58332800172410881041124862.24
    5千里眼3156152795160758268232.19
    No平 均65883170189213711187142082.19
    *InfoNavi Page72109182984354420554521044186.45
    *NETPLAZA Page87653626125512701256160823.25
    *ODIN66061857458762230610.72
    *TITAN100899690974720.67

    No登録系東京大阪名古屋横浜福岡合計指標
    1Yahoo! JAPAN62611781720919589102703.61
    2NTT Directory150865026025231129812.62
    3Nippon SE155441719720216525353.49
    4WWWナビゲータ86638426522217819151.88
    5Yahho104734014716415818562.96
    6NETPLAZA80634816715815416332.41
    7WebdeW*785314137138124*14982.75
    8Japan SE43424316315814411421.46
    9Hole-in-One4552101181051009882.06
    10URL広場3941898159507733.07
    11日本ネット662162051182.81
    No平 均87234417116115417022.12
    *WAVE Search1033322136811101581149095.31
    *InfoNavigator5001129719919034270298.62

    ActiveX, RealAudio, JavaScript,

      今回のねらい 第9回の検索調査(3月17日)で最新のマルチメディア関連のキーとして、Java, VRML, Shockwave, RealAudioを調べましたが、6ヶ月後にどう変化しているかを調べてみました。それに今回は英単語ばかりということで、海外の検索サービスも調査し日米間の相異も調べました。なお、調査キーにはActiveXを追加し、JavaをJavaScriptに変更しています。

      マルチメディア情報の半年間の増加
    ●ロボット系は半年前はODIN、Mondou、千里眼、TITANの4つでしたが、Open Text Japan、InfoNavigator(Page)、Netplaza(Page)、Nippon Search Engine、Hole-in-One(Page)が加わり9サービスになりました。データのあるODINとMondouの検索数合計を示しますと、    前回 + 増加分 → 今回RealAudio 274 +  530 →  804Shockwave 306 + 1,187 → 1,493VRML   637 +  447 → 1,084合計   1,217 + 2,164 → 3,381

      ●登録系に新たに加わったのはYahoo!とWebdeWの2つで、トータルは14です。現在、お休み中のCSJを除く11サービスの検索数合計を示しますと、RealAudio 105 +  352 →  457Shockwave 110 + 1,149 → 1,259VRML   122 +  315 →  437合計    337 + 1,816 → 2,153 重複データを含んでいますので、正確な数値はわかりませんが、大体の傾向は判断できます。前回のと今回の増加分とを比較しますと、Shockwaveは27%から59%になり人気が高く、RealAudioは24%から22%で横ばい、そしてVRMLは49%から19%へと逆に人気が少ないことがわかります。

      マルチメディア情報の日米間の相異 使用したキーが英単語ということで、海外の検索サービスにも適用してみました。Excite、HotBot、AltaVistaの検索数を下の2つめのテーブルに示します。まったくボリュームが違います。日本の約200倍です。前にも書いたのですが、日本の情報は5%で20倍の差が妥当と思っていたのに、ショックです。その理由として、日本の検索サービスはまだすべてのWeb情報を集めてないのと、速報的な情報収集というか更新の間隔が長いことなどが考えられます。

      マルチメディア間の日米相異 RealAudio、Shockwave、VRMLについて、日米間の差異がはっきり浮かび上がってきました。データとして、日本は7つのロボット系のトータル、米国はHotBotとAltaVistaの合計を用いました。そして、各メディア間の割合を求め、それぞれのグラフを以下に示します。日本 realaudio(20%),shockwave(53%),VRML(27%)米国 realaudio(34%),shockwave(26%),VRML(40%)

      日本のケース

      説明するまでもありませんね。もちろん、世の中にでるのが早ければ多くのデータが集まっていることも考えられます。

      海外検索サービスから日本サイトの検索 海外の検索サービスには日本語の情報が入っています。今回のような英単語に利用できます。簡単に調べれたのはHotBotとAltaVistaです。さすが、検索力も大きいだけでなく、木目細かな検索ができます。日本のドメインは最後にjpがつきます。それを手がかりに任意のキーワードと日本のドメインとをAND検索します。検索方法を以下に示しますので、大いにご活用下さい。

     

    • HotBotの場合 検索画面の左にオプションがあります。その中のExpertをクリックすると、隠れていたオプション群があらわれます。その中のLOCATIONのところにあるCyberplaceの前にあるラジオボタンをクリックし、その後にあるキー入力部分に日本のドメインをあらわすjpを入力します。LOCATION Cyberplace.jp.domein(.edu)これだけ準備して、あとはいつものキーワード検索を行います。
    • AltaVistaの場合 AND検索は各キーの前に+記号をつけ、日本のドメインは少し乱暴ですがurl:jpを使います。したがって、日本のサイトにあるrealaudioに関する検索は+realaudio +url:jpで行います。この場合、入力するキーワードは小文字だけにしてくださいね。

      英単語とカタカナのどちらで検索しますか 外来語はカタカナであらわす場合があります。たとえば、realaudioですがリアルオーディオとデータベースに入っていることが考えられます。実際にOpenTextJapanで調べますと、realaudioの1011件に対してリアルオーディオは169件あります。したがって、realaudioとリアルオーディオとのOR検索をするのが正しい検索です。今回は英単語の結果の方が多かったので問題にならなかったのですが、場合によってはカタカナの方が多い場合があり、さらには漢字の方が多い場合があります。TITANは日本語と翻訳した英語の両者の検索を行い、そのOR検索結果を出力します。少なくとも、英単語の検索はそのカタカナを含む検索を行い、カタカナの検索はその英単語を含む検索ができればと願うのはasaisanだけですか。ボツ!

    第29回 1996.9.22 ActiveX, JavaScript, RealAudio, Shockwave, VRML

    Noロボット系ActiveXJava ScriptReal AudioShock waveVRML合計
    1日本語OpenText5142651011205212118590
    2InfoNavigatorページ5133039416122982685
    3ODIN1024446098004592414
    4NETPLAZA Robo261021888685991783
    5Mondou231641956936251700
    6Nippon SE 全文352292388043431649
    7Hole-in-One211251804782151019
    8千里眼-------
    9TITAN-------
    No平 均4480840210445362834

    No海外ロボット系ActiveXJava ScriptReal AudioShock waveVRML合計
    -Excite2802420154512521698709137539591033
    -HotBot161572312789427272997118180532884
    -AltaVista601829856568773458466708194043
    -HotBot-jp22711352638149033666835312
    -AltaV-jp386142915863635491211948

    No25262728登録系ActiveXJava ScriptReal AudioShock waveVRML合計
    13311NTT Directory9529226186500
    21472WAVE Search0749424469481
    35533InfoNavigator6386519270371
    42144Yahoo! JAPAN2315613648273
    58685WWWナビゲータ3375213539266
    6131366Nippon SE334479939222
    77827NETPLAZA3283111145218
    842138Yahho018317525149
    91211109WebdeW115147520125
    101171110Hole-in-One08195918104
    111391311URL広場0919322585
    12912512Japan SE0128281462
    1314141413日本ネット01223733
    No25262728平 均2.127.540.8113.138.8222.2

    地震、災害、防災、救急、レスキュー 1996年9月8日

      今回のねらい 9月1日は防災の日ということで1週遅れですが防災に関連したキーを使って検索しました。インターネットに入っている情報は本当になんでもあります。その混沌としているのが好きな人がいれば、秩序がないということで好きになれない人もいます。Web情報の増加はまだ続いています。

    第28回 1996.9.08 地震、災害、防災、救急、レスキュー

    Noロボット系地震災害防災救急レスキュー合計
    1日本語OpenText15871210855499584209
    2Hole-in-One9259007736451513394
    3Mondou1091479413195162194
    4ODIN4134474772671301734
    5NETPLAZA Robo736299258114351442
    6Nippon SE 全文442289309148211209
    7千里眼4892031908432998
    8InfoNavigatorページ23325517514950862
    9TITAN979895869385
    No平 均668464394243561825

    No25262728登録系地震災害防災救急レスキュー合計
    13311NTT Directory8652422510215
    22143Yahoo! JAPAN3542291611133
    31472WAVE Search 435574277206
    45537InfoNavigator3422281311108
    5421310Yahho2221138670
    67828NETPLAZA362825119109
    78684WWWナビゲーター 2034261515110
    861096CSJインデックス39*2929*14*8119
    9117119Hole-in-One4215177586
    10131365Nippon SE6123191210125
    11912512Japan SE2218206369
    1212111011WebdeW2220157670
    131391313URL広場1481210246
    1414141414日本ネット------
    No25262728平 均36.628.226.813.27.9112.8

    アート、芸術家、画廊、陶芸 1996年8月25日

      今回のねらい 朝夕涼しくなり、秋の気配が感じられるようになりました。芸術の秋というわけでもないのですが、芸術関係のキーを用いました。前から出力結果の重複調査をと思っていたのが実現しました。

      漢字、カタカナ、英語 外来語が多いですね。同じ事なのですが、漢字、カタカナ、そして英単語を使います。例えば、今回使ったアートは美術ともartとも言います。検索する場合には、それらをOR検索するのがベターです。ロボット系のOR検索結果を示しますと、Hole-in-One(11,726)、Open Text Japan(11,481)、InfoNavigatorPage(7,411)、NetplazaRobo(3,592)、NipponSE(3,048)、ODIN(1,657)。 上記のOR検索(美術 OR アート OR art)数は美術、アート、artの検索数合計の約90%です。従って、OR検索できないMONDOUと千里眼を推定しますと、MONDOU(3,335)、千里眼(2,990)となります。ちなみに、AltaVistaで、(art AND url:".jp")を検索すると、19,087の検索数を得ました。ExciteやHotBotはそれぞれ倍の4万位の日本語情報を持っています。まだ、日本語では検索できませんが、検索によっては海外の検索サービスも十分使えます。

      重複のチェック ロボット系は重複のチェックが行われています。それをしないと、ゴミがたまり、効率が悪くなるばかりか、ユーザーにもよい印象を与えないからです。今回は芸術家についてチェックしましたがほぼ合格です。重複ページはなかなか退治できないので、出力時に改めてチェックする検索システムがあります。そのようなシステムでは出力した検索数が最初に表示される総数より少なくなります。 次に、登録系ですが、キーの陶芸について、NTT Directoriyを除く13のサービスについて調べました。延べ数は307ありましたが、7つのサービスで合計41の重複が見つかりました。その数値をテーブルに載せておきます。ただし、Yahoo! Japanや類似のシステムのように、一つのホームページが複数のカテゴリーに振られている場合も、この重複の数字に含まれています。

      登録系の網羅性 以前に検索の視点で新着情報の網羅性を調べましたが、今回は検索キーの陶芸で調べました。総数は307で、各サービスの中にある重複分は41です。偶然ですが、307から41を引いた266の丁度半分の133(43%)が陶芸に関するユニークなデータです。 1個所だけの登録は75で、多いところは、NipponSE(19)、Yahoo! Japan(18)、WebdeW(13)などです。次に、2個所への登録は22、3個所へは12などとなっています。 もうお分かりですね。陶芸に関するデータは全部で133あり、多くの検索サービスは30前後しか検索しません。したがって、情報を探す場合は1個所でなく複数のサービスにあたってみるのが原則です。

      Hole-in-Oneの検索数はトップレベル 8月15日の検索ニュースでお知らせしましたが、Hole-in-Oneはロボットによる検索サービスを開始しました。検索調査の結果は非常に良くデータ量はトップレベルです。アートという基本的でポピュラーなキーでの検索結果を示しますと、Hole-in-One 美術(2,419)、アート( 834)、art(9,982)、OR検索(11,726)OpenTextJ  美術(3,447)、アート(1,239)、art(8,206)、OR検索(11,481)です。OR検索で3,000台の他の検索サービスより多く、AltaVistaの60%位です。データの最終更新時期は7月末位のようです。これでデータベースは従来のと含めて2本あり、検索画面のメニューで選択できます。検索画面もカラフルですっきりしたものになり、回線もT1と速くなりました。新URL http://207.82.104.200(いずれ、従来のが使えます)。

    第27回 1996.8.25 アート、芸術家、画廊、陶芸

    Noロボット系アート芸術家*画廊陶芸重複合計
    1日本語OpenText1239211398309-2157
    2Hole-in-One834103130112112190
    3ODIN601104191226-1122
    4NETPLAZA Robo8334316710701150
    5Mondou7464615110401047
    6Nippon SE 全文3751616177-674
    7InfoNavigatorページ304601051053574
    8千里眼5971789710774
    9TITAN----------
    No平 均6919316226501211

    No24252627登録系アート芸術家*画廊陶芸重複合計
    14331NTT Directory4001935149603
    21147WAVE Search5249364110610
    310214Yahoo! JAPAN2841242354373
    42553InfoNavigator2871934330373
    53782NETPLAZA5731136280648
    6124213Yahho10646162111189
    756109CSJ Index420748329507
    87868WWWナビゲータ2891031284358
    9611711Hole-in-One12051890152
    1099125Japan SE2661424190323
    11813136Nippon SE1551537282225
    121313913URL広場138514101167
    1311121110WebdeW137519160177
    1414141414日本ネット21027030
    No24252627平 均265.712.628.032.63.2339

    治療、食中毒、大腸菌、O157 1996年8月4日

      今回のねらい パソコンのハードデスク、熱くなっていませんか。タワー型のパソコンですが、ケースの両横をはずして風通しをよくしました。さて、今回のテーマですが、先週に続いて、特集ものです。社会問題になっているO157です。治療、食中毒、大腸菌、O157、O-157を調べました。さて、どんな結果が得られるのでしょうか。

      O157に関する情報の登録 今回のO157は、NTT新着情報の登録情報を検索するWave Searchによれば、7/26,28,29,30,30,8/2の6件で、ほんとうにホットな情報であることがわかります。堺市のO157感染は9日の給食が原因で、11日に患者が発見され、14日頃から新聞で大々的に報道され始めました。この14日からみても約2週間たって登録されたことになります。

      特集コーナーの新設 登録系14のうち、O157の特集コーナーを新設しているのは、Yahoo! Japan、Yahho、Japan SEの3サービスです。それらを詳しく記しますと、

     

    • Yahoo! Japan: ニュース:トピックス:病原性大腸菌O-157今週、Yahoo! Japanのデータ総数は10万件を超えました。子供の日、七夕、海の日、オリンピックなど以前からトピックスをあつかっていますが、今回のO-157問題への対応ははやく、関連情報を収集しています。特集はリンクを含めて31、O157の検索で59、O-157の検索で61でした。内容はいつものヤフースタイルの1~2行のコメントつきです。
    • Yahho: Event/Case/O_157 特別につくられたコーナーであつかっています。特集では38、O157の検索は21、O-157の検索は13です。タイトルとリンクサイトが簡潔にリストされいます。
    • Japan SE: 病原性大腸菌O-157に関する緊急情報  特集は2種類に分かれており、1)関連ニュース・新聞記事では各社に記事が抄録つきで紹介されており、2)O-157関連ホームページリンク集では14のリンク先と数行の見出しが紹介されています。O157とO-157の検索はできませんでした。
    • NTT新着情報: 病原性大腸菌『O157』 NTT新着情報に最新基礎データ、分類ページがページのトップで紹介されています。

      ニュース情報は新聞(朝日新聞社、産経新聞社)や雑誌(日経NetN@vi、医師向け専門情報)にまかせておけばよいかも知れませんが、必要な情報を提供する立場からは垣根にこだわらなくてもよいのではと思います。心配なのは受動的な登録情報だけを提供するところと必要な情報を能動的に収集し提供するところとに差がでてこないかということです。

      登録系は速報性で有利 前回でもとりあげましたが、更新の頻度が検索に影響することは明らかです。ロボット系がこの時期に収集したデータを即データベース化しておれば問題ないのですが、現状では望めません。検査面で不利な登録系も速報性では勝負ができます。しかし、これも風向きがかわりつつあります。米国のロボット系検索サービスの更新はスピードアップしています。Opentextは2日に1回の更新をしますし、InfoseekやExciteは2週間です。それに日本のMondouは毎日のように更新しています。

      新しい用語について O157とかO-157とか表記されますが、さてどちらが使われているのでしょうか。

     

    • O157とO-157のどちらも検索できないものMondou、ODIN -- システム的につかえません
    • O-157の検索を英字Oで検索するものInfoNavigator、TITAN、NTT DIRECTORY -- O-157の検索ができません
    • 更新時期の関係で情報が入っていないもの日本語Opentext、NETPLAZA Robo、Nippon SE全文、千里眼 人間に見やすいハイフンですが、検索システムが対応していないようです。その他に全角のOをつかうものなどがありました。

      海外の検索サービスの結果(8/5追加) O157とO-157について、海外の検索サービスで調べました。カッコ内は(0157数:O-157数)です。HotBot(1331:791),Excite(954:0),Altavista(560:95),Lycos(149:0),Opentext(83:21),Infoseek(29:54),Webcrawler(12:0),Magellan(0:0)両方とも検索できるのはHotBot、Altavista、Opentext、Infoseekです。ハイフンのあるのは米国以外の日本などで使われているようです。

    第26回 1996.8.04 治療、食中毒、大腸菌、O157

    Noロボット系治療食中毒大腸菌O157O-157合計
    1Mondou#518#46#113#0#0677
    2ODIN#398#9#34#0#0441
    3InfoNavigatorページ#372#26#23#17#1710438
    4日本語OpenText#404#9#8#1#1422
    5千里眼28641500305
    6NETPLAZA Robo28710000297
    7TITAN#94#3#11#6#39114
    8Nippon SE 全文37100038
    No平 均301.414.927.03.48.1346.7

    No22242526登録系治療食中毒大腸菌O157O-157合計
    11114WAVE Search59666377
    22433NTT Directory#74#4#9#162#16296
    33255InfoNavigator#54#6#3#4#6567
    491021Yahoo! JAPAN624105961135
    581242Yahho31421211377
    645610CSJ Index37100038
    75378NETPLAZA50022054
    86786WWWナビゲータ46221051
    9106117Hole-in-One27121031
    1079912Japan SE31000031
    111181313Nippon SE22000022
    1212111211WebdeW#28#0#0#1#029
    131313139URL広場16032221
    1414141414日本ネット400004
    No22242526平 均37.92.04.17.510.951.6

    オリンピック、Olympic、五輪、アトランタ 1996年7月28日

      今回のねらい オリンピックが始まりました。TVですか、新聞ですか、それともインターネットですか。今回はオリンピックに関連したキーとして、オリンピック、Olympic、五輪、アトランタを調べました。調査は1週間前の21日に行いました。夏休みでもないのですが、結局1回休んでしまいました。オリンピックも始まり、オリンピックに関連した新着情報が次々と登録されています。データベースの更新状況を調べる絶好の機会です。そこで、28日に調べたオリンピックの検索数を7/28の欄に示しました。7/28と隣の7/21のオリンピックの数字が異なっていればこの1週間に更新があったことを示します。

      ロボット系の更新について 一般に、ロボット系は大量に情報をあつかうため更新の間隔は長いといわれています。そのあたりはどうなっているのでしょうか。このカテゴリーに入るロボット系もロボットから出発したものと索引系から出発したものと2種類に分かれます。

     

    1. ロボットから出発 -- Open Text Japan、ODIN、Mondou、TITAN、千里眼ほとんどの場合、収集した頁を蓄積しておき一括してデータベース化します。しかしMondouだけは例外で、202から209と少しですが増加しています。Mondouは収集したデータをこまめにデータベース化していることがうかがえます。千里眼は21日は少し検索できたのですが、22日以降は保守に入り、検索はストップしてしまいました。1月にも長期間休みましたが、今度は新しいシステムに移行しているものと思われ、どんなシステムになるのか楽しみにしています。
    2. 索引系から出発 -- InfoNavigator Page、NETPLAZA Robo、Nippon SE全文索引系は毎日登録情報が入り、少なくとも1週間に1度はデータベース化しています。それをベースにロボット収集を始めたわけですから、更新は早く行われています。InfoNavigatorは100から137へ、NETPLAZAは194から203へ、Nippon SEは27から105へと、いずれも増加しています。NETPLAZA Roboは五輪が検索できなかったため、ランクが下がってしまいました。オリンピックの情報がオリンピックが終わってからでないと得られないとしたらデータベースの価値が半減してしまいます。更新に関しては、すべて合格といえます。

      索引系の更新について 索引系は全部で14あります。多いか少ないかと言えば、多いといえます。市場が少ないのに提供側が多く、少々の模倣したものでも許されるという日本的な風土がインターネットの世界で通用するのが不思議といえば不思議です。そういうことはともかくとして、索引系を上位グループと下位グループに分けました。

     

    • 上位グループ -- WAVE Search、NTT DIRECTORY、InfoNavigator、Yahho、CSJインデックス、Yahoo! Japan、NETPLAZAいずれも7/21から7/28の1週間にオリンピックに関する情報は増加しています。平均で39%の増加です。登録データが如何に速く処理されているかが示され、更新に関しては合格です。特に、WAVE Searchの更新は毎朝4時30分に行われ、前日までのNTT新着情報を利用できます。これは安心して使えます。
    • 下位グループ -- Japan SE、WWWナビゲーター、Hole-in-One、Nippon SE、WebdeW、URL広場、日本ネットWebdeWが14から15へ、URL広場が4から6へと更新されていますが、それ以外はオリンピックに関しては更新されていません。もちろん、Japan SEはジャンル別の大改装中でデータベース化がストップしており、Hole-in-OneはNetWorld+Interop 96へ出展のため更新作業は行われていません。その他にも事情があるものと思われますが、上位グループに比べると明らかに差がついてしまいました。

      スコアの表示について ロボット系に関しては、スコア順の出力を重視し、スコア順の出力があるかないかで分けて表示していましたが、InfoNavigatorは以前からスコア順の出力をしているとの指摘を受けました。確かにHELPのところに記述されています。結果の出力にスコア表示がないため見落としてしまい長い間大変ご迷惑をかけてしまいました。しかし、検索サービスを利用する人がHELPをみているかと言えば疑問ですし、紹介文を表示するのと同様にスコア表示も重要な機能の一つです。この機会にぜひスコア表示をお願いします。

      検索サービスの保守 オンラインで動いているデータベースの更新を何時行うかはシステムごとに異なっています。最近、土日に利用しにくいサービスとして、NTT系のTITANやNTT DIRECTORY、それにWAVE Searchがあります。WAVE Searchの場合は、時間帯によりサービスファイルを変えているのか、異なった検索数になります。オリンピックで調べた時も、4、44、71などの結果になりました。調査のランキングしている時に、どうもおかしいと気が付き調べ直すと、前と異なった結果になっています。その他、大掛かりな改装は大体土日に行われます。これから夏休みに入りますが、新着情報の提供が不規則になります。新年、ゴールデンウィーク、夏休みと登録数の統計も不規則になります。そう、ハードデスクは熱くなっていますよ。

    第25回 1996.7.28 オリンピック、Olympic、五輪、アトランタ

    Noロボット系7/28オリンピックOlym pic五輪アトランタ合計
    1日本語OpenText#257#257#298#72#105732
    2ODIN#238#238#103#48#85474
    3Mondou#209#202#121#67#104494
    4InfoNavigatorページ#137#100#22#31#55208
    5TITAN#94#94#32#23#44193
    6NETPLAZA Robo20319448092334
    7Nippon SE 全文10527183250
    7千里眼**309*22**
    No平 均177.6158.991.734.969.6355.0

    No21222425登録系7/28オリンピックOlym pic五輪アトランタ合計
    12111WAVE Search714319122498
    26243NTT Directory#88#61#22#3#37123
    37325InfoNavigator#40#34#7#5#1965
    418124Yahho451923121872
    54456CSJ Index3834931561
    689102Yahoo! JAPAN5246484098
    79537NETPLAZA2622241139
    83799Japan SE191912628
    911678WWWナビゲータ2828001748
    101010611Hole-in-One191920930
    11511813Nippon SE121210215
    1212121112WebdeW#15#14#0#1#419
    1313131310URL広場6472215
    1414141414日本ネット000202
    No21222425平 均32.825.46.94.014.650.9

    金融、証券、相場、為替 1996年7月14日

      今回のねらい 今回は経済に関するもので、金融関係を選びました。円が安くなってきましたが、これは夏休みの期間、日本向けの現象ですか? 夏休みに海外に出かける人には痛手になりそうです。為替や株価の値動きを示すグラフもインターネットで見れるようになってきました。

      数字の検索 土日は日本の検索システムの作成で忙しかったのですが、調査してみるとあいまいな所や理解できていない所がはっきりしてきます。数字なんてなぜ検索するのだと叱られそうですが、日常生活ではいろいろな場面で数字がでてきます。もう数年で21世紀ということで、2桁の数字の21を使いました。半角の21と全角の21です。次のような結果を得ました。

     

    1. 半角21も全角21も検索できない(4) ODIN、Mondou、NetPlaza Robo、NTT DIRECTORY
    2. 半角21は検索できるが、全角21は検索できない(1) TITAN
    3. 全角21は検索できるが、半角21は検索できない(1) Nippon SE
    4. 半角21と全角21が検索できるが検索結果が異なる(7) Open Text Japan、WAVE Search、Japan SE、Yahho、CSJ、Hole-in-One、日本ネット
    5. 半角21と全角21が検索でき、検索結果はおなじ(同一)(7) 千里眼、InfoNavigator、NetPlaza、WWWナビゲータ、Yahoo! Japan、WebdeW、URL広場 大雑把な感じでは、ロボット系はデータ量が多いため細かいデータまで処理してないと言えます。システムの中には3桁以上であれば処理できる所もありますが、目標は高い所におきました。最後の半角と全角を同一視するところが数字の処理を完璧に行っているところです。

      英字の検索 検索調査でも何回か取り上げたことのある話題ですが、改めて調べてみました。英字の場合は半角と全角以外に大文字と小文字の問題があります。キーとしてjavaを使い、4つのケースを調べてみました。

     

    1. 一部の英字を検索しない(2) TITANは全角のjavaとJAVA、Netplaza Roboはjava
    2. 半角の大文字と小文字を区別している(2) NTT DIRECTORY、Japan SE
    3. 大文字と小文字を半角で同一視するが、全角で区別する(11) Open Text Japan、ODIN、TITAN、Netplaza Robo、NSE、WAVE Search、Yahho、CSJ、WWWナビ、Hole-in-One、日本ネット
    4. 大文字、小文字、半角、全角の検索数が同じ(7) Mondou、千里眼、InfoNavigator、Netplaza、Yahoo! Japan、WebdeW、URL広場 まだ、半角の大文字と小文字を同一視できないシステムもありますが、最後のケースが一番よいシステムです。

      ランクを乱すもの 検索調査では、キーワードを入力して各サービスの検索数を調査しています。それから、検索数をもとに、ある程度の調整をして、各サービスのランクづけをしています。勿論、表計算のExcelにデータを打ち込んでの作業です。今回の例でも突出した結果を示すところがあります。その原因は分類項目まで検索する仕組みになっているからです。しかし、分類項目を含めるメリット以上にデメリットがあるように思われます。キーに関連のない情報が入ってきますし、Web情報が多くなればむしろ絞り込む方が必要になってくるからです。 多くのシステムでは重複した結果を表示しないよう努力しています。しかし、残念なことに、検索結果の中に重複した情報が含まれるケースがあります。とくに2~3のサービスで目立ちます。重複した結果が含まれると情報の信頼性までも疑わしくなります。いずれ重複に関する調査をする予定です。Webデータベースは情報系の蓄積型ではなく、むしろ勘定系のフロー型です。いずれにしてもユーザーに使いやすい結果を返すところが評価されるのでは思っています。

      今週のポイント 今週はExciteが5,000万件のサービスを開始するというビッグなニュースが入っています。アクセスでき次第、検索調査をし公表したいと思います。それから6月に発表予定だったUltraseekですが、several weeks遅れるとのことです。日本のJapan SEが7月11日に分類の大編成をするとのことでしたが、少しおくれており、ここに載せることができませんでした。すでに検索結果の表示は変更しており、使い易く、すっきりしています。

    第24回 1996.7.14 金融、証券、相場、為替

    No20212224ロボット系総数金融証券相場為替合計
    12111日本語OpenText(?)#594#425#164#2161,399
    33322ODIN145,365#405#265#52#121843
    21233Mondou(200,000)#272#243#55#76646
    44444TITAN(300,000)#96#97#60#81334
    55555NETPLAZA Robo305,0002171768228503
    66666千里眼(97,000)27242852123875
    76778InfoNavigatorページ1,02151760431,634
    88888Nippon SE 全文-61341314122

    No20212224登録系総数金融証券相場為替合計
    12211WAVE Search100582120199
    21732InfoNavigator583221217832
    33624NTT Directory(5200)#161#50#21#7239
    411445CSJ Index(9765)8153158157
    57953NETPLAZA1010811858196201
    691812Yahho1523137196264
    78379Japan SE(5000)442415487
    841167WWWナビゲータ21390383514693
    965118Nippon SE-292723483
    1058910Yahoo! JAPAN36414234511281
    111010106Hole-in-One1830410735114155
    1212121212WebdeW5200#33#36#8#279
    1313131313URL広場396824316162
    1414141414日本ネット248317

    Radio, Intranet, 3D,

      今回のねらい 世界中のWeb情報をあつかう検索サービスはまだ全体像が分からないのが現状です。ボランティアの頃には、いろいろと内部情報が伝えられましたが、最近は宣伝用の(自社に有利な)情報しか流されなくなり、こちらが推測しなければならなくなりました。今回は検索サービスの重要な要因である速報性と網羅性を調べました。

      検索キーについて 最近はインターネット上でラジオが聞けるようになりました。空中の電波によるのではなく、電話線でデジタルでやってきます。Webの情報量は少ないかと思っていましたが、調べてみたら結構入っています。それから3Dですが、これも2Dから3Dへと移行しつつあります。ただ、LycosとMazellanはデータベース化の際に2文字以下の単語を無視する仕組みになっているため検索できませんでした。そこで推定値としてRadioの40%を使いました。IntranetとActiveXは比較的新しい言葉ですので採用しました。

      速報性によるランク データベースの中に新しいキーワードがどれ位含まれているかその比率を求めてみました。各データベースの総数が分からないので、新しいキーのIntranetとActiveXの検索数を調査した総数で割った比率を結果の最後の欄に示しました。その結果から、各サービスの速報性を5段階のAからEでランクしました。A:LinkStar、Yahoo! B:Lycos、AltaVista C:infoSeek、HotBot D:WebCrawler、Magellan、Pathfinder E:OpenText、NlightN

      各サービスの速報性について 索引系はデータベースも小さく小回りが効くため登録データは1週間以内にデータベースに組み込まれます。それがよい評価につながっています。検索系ではLycosとAltaVistaが健闘しています。先日、Lycosは5,100万件のWebページを収集したと発表しましたが、現在データベース化している最中で、まだサービスされていません。やはりきめこまかにガンバッテいるのがわかります。 それからAltaVistaですが、タイミングよく7月5日頃新しいデータベースに更新されました。前回は4月26日頃でしたから10週間目の更新ということになります。ちなみに、数日前のActiveXの検索数は1,707で、今回はHotBotより多く、4,929です。新語の検索数は更新時期に依存することが分かります。なお、一番新しいデータは7月2日の収集ページです。まいった、まいった。 OpenTextの更新が遅れているようです。PathfinderやNlightNなどはWeb以外の情報も含んでおり、より一般的な情報を扱っています。Web情報はまだ特定の分野の情報しか扱っていないためかも知れません。

      網羅性によるランク 単純に総数を使えばよいのですが、IntranetとActiveXの検索数の合計をベースに大きい順にランクしてみました。A:AltaVista、HotBot B:Lycos、infoSeek C:Magellan、OpenText D:NlightN、WebCrawler E:Pathfinder、Yahoo!、LinkStar

      各サービスの網羅性について この1ヶ月間にデータの更新がなかったのは、HotBot、Opentext、WebCrawlerです。HotBotは1週間で更新するとアナウンスしていましたが、オープンの5月20日から1回少々増えましたが、大掛かりな更新はされてないようです。網羅性はデータの収集数と索引化技術によりますので、いつも述べているような結果になりました。これから時間が経てば差が開いていくことが考えられます。 MagellanがExciteに併合されますが、Magellanが所有す4万件の評価データがExciteの評価データにマージされ10万になるのであり、Magellanがロボットで収集した膨大なデータはマージできず破棄されるようです。それにしても4万件のデータを約10億円で購入したことになるわけで、評価データ1件あたり1万円、四つ星評価の買い取りが5億円、その他1億円と予想したのですがみなさんは如何ですか。

    第23回 1996.7.07 Radio, 3D, Intranet, ActiveX

    NoSearch ServicesTotalRadio3DIntranetActiveXRate
    1AltaVista879,175594,150238,98541,1114,9295.24%
    2HotBot1,156,822773,138347,52532,7883,3713.13%
    3NlightN371,760314,25256,4261,017650.29%

    NoSearch ServicesTotalRadio3DIntranetActiveXRate
    1Lycosamp;0,95160,255amp;24,1025,813781amp;7.25%
    2infoSeek81,72957,78720,3243,1474714.43%
    3Magellanamp;118,56782,873amp;33,1492,414131amp;2.15%
    4Opentext219,178136,21281,1591,6621450.82%
    5WebCrawler43,54930,96211,5189601092.45%
    6Pathfinder21,57816,7274,474326511.75%
    -Excite==========--%

    NoIndexTotalRadio3DIntranetActiveXRate
    1Yahoo!1,8511,0005123261318.31%
    2LinkStar1,2864924882941223.79%
    3CMP TechSearch*969*300*300*30069--%
    4NR Yellow Pages*729*240*24021435--%
    5ZdNet Search*400*100*100*100*100--%
    6Galaxy1,7371,198419101196.91%
    7Harvest Broker253828085636.00%
    8Net-happenings4623011174229.52%

    NoNetNewsTotalRadio3DIntranetActiveXRate
    1DejaNews292,699158,894124,5917,0142,2000.75%
    2AltaVistaNews144,97391,52446,1224,9502,3771.64%
    3InfoseekNews13,1367,9854,4016041461.11%
    --Total-----2,328,472995,032103,26815,0324.01%

    料理、グルメ、レシピ、食べ物 1996年6月30日

      今回のねらい 今回は、料理関係のキーワードを選んでみました。日本語処理で「食べ物」を識別するのは難しく、「食」と「物」をAND検索しなければと思ったのですが、NSEを除くすべての検索サービスでサポートしているのには驚きました。

      ロボット系の分離 この3ヶ月間で、Nippon SE、NETPLAZA Robo、InfoNavigator(ページ)がロボットによる検索サービスを始めました。ロボット系と索引系とは検索力に差があるため分離してあつかうことにしました。それから、スコア順出力の有り無しでも分けました。やはり、ロボット系は検索数が多いため、スコア順出力は必須であると考えたからです。1)スコア順出力あり 日本語OpenText、ODIN、Mondou、TITAN2)スコア順出力なし 千里眼、InfoNavigator、NETPLAZA Robo、Nippon SE全文

      分類項目名を検索対象にしない 索引系は各々の文書に分類項目が付加されています。検索のときにその分類項目名まで検索の対象にするものがあります。このような場合には、検索数は大きくなり、当ランクもよくなります。しかし、情報量は増加しており、過剰気味になってきました。すると、非常に冗長な結果に思えてきます。できれば、分類項目名の検索は中止し、オプションで選択できるようにして欲しいと思います。この点、Yahoo! Japanは上手く処理しています。分類項目名から何件、テキストから何件と分けて出力しています。また、Hole-in-Oneは検索に分類項目名を含む含まないかは検索オプションで指定できます。

      Excelを使って検索結果を分析 検索対象に分類項目名を含めていると思われる所をExcelを使って探して見ました。1)4種類のキーによる検索数の合計を求め、各検索キーの割合を求めます。2)索引系14種類の平均をキーごとに求めます。3)各サービスごとに平均との差を求めます。4)15%以上差のある所をピックアップすれば求まります。みなさんも、ぜひ挑戦して下さい。

      NETPLAZAの分類大編成

      ●新しいジャンル(14) コンピュータ・インターネット 企業情報・ビジネス 通販・ショッピング メディア スポーツ ホビー・レジャー アート エンターテイメント 生活情報・健康 文化・社会 環境・自然科学 政府官公庁・地方自治体 教育・学校 個人・団体ページ 番外(まる得ページ まる楽ページ)
    ●従来のジャンル(20) イベント 政府・官公庁・地方自治体 インターネット 生活関連情報 芸術・アート・文化・芸能 通信販売・ショッピング 子供 本・雑誌・出版 娯楽・エンターテイメント スポーツ関連情報 コンピュータ関連 旅行・観光情報 人材募集・採用・求人・代理店募集 学術・研究・学会 新聞・TV・マスコミ 医療関連 学校・教育 企業情報 地域の情報 その他

      今週のポイント Infoseek社のUltarseekのサービス開始が遅れています。全世界のWeb情報を短時間にロボットで収集することは難しいと思います。あるいは目標としていたAltaVistaの他にHotBotが出現したためかも知れません。米国では従来よりも優れたものをださなければ評価されないようで非常に厳しい世界です。それが、技術革新の原動力になっているのかも知れません。

    第22回 1996.6.30 料理、グルメ、レシピ、食べ物

    No18202122検索サービス名総数料理グルメレシビ食べ物合計
    11211日本語OpenText(?)#1161#242#191#3281,922
    22332ODIN145,365#617#229#122#2511,219
    33123Mondou(200,000)#758#167#73#2751,273
    44444TITAN(300,000)#*100#*100#90#*100390
    56555千里眼(97,000)10621521291621,505
    65667InfoNavigatorページ4087322152655
    77776NETPLAZA Robo305,0006624570107884
    88888Nippon SE 全文-1432022106291

    No18202122検索サービス名総数料理グルメレシビ食べ物合計
    13221WAVE Search260873927413
    21173InfoNavigator136762134267
    35362NTT Directory(5200)#290#58#21#25394
    42795NETPLAZA8936113651722217
    54837Japan SE(5000)87471234180
    611918Yahho14410110281337188
    781144CSJ Index(9765)129582129237
    864116WWWナビゲータ19153143492415231
    99589Yahoo! JAPAN36414125323013200
    1076511Nippon SE-105221513155
    1110101010Hole-in-One16304104412811184
    1212121212WebdeW5200#72#27#18#12129
    1313131313URL広場367034129762
    1414141414日本ネット1628127

    小説、アニメ、漫画、ミステリ 1996年6月23日

      今回のねらい 今回、エンターテイメントから身近なものを選択しました。小説、アニメ、(漫画 OR マンガ)、(ミステリー OR ミステリ)ですが、その他に(雑誌 OR マガジン)も調べました。

      OR検索機能は必要です 複合語の場合はAND検索をしますが、今回は3種類の検索でOR検索をしました。検索時にOR検索ができないサービスは以下の6つがあります。 Mondou、WWWナビゲーター、Yahho、CSJインデックス、URL広場、日本ネットAND/OR検索ができない場合は、2つの検索キーを別々に検索し、結果の大きい方を採用しました。従って、ランクは少々不利になっています。AND検索とOR検索は検索技術の基本ですから、ぜひ備えて欲しいと思います。なお、ロボット収集ではスコア順出力を行いますが、AND/OR検索でスコアに乱れが生じるため、どちらかを犠牲にしなければならないようです。

      ロボット系(ODIN、Mondou、OpenTJ、TITAN、千里眼) 更新作業は大変です。ODINはこの1週間で約5万頁増加させました。日本語のWeb頁がどれくらいあるかは誰にもわかりません。世界には5,000万頁あると言われていますが、日本語が2%で100万頁、3%で150万頁です。集めているのがせいぜい40万頁ですから、ロボット系の網羅性はないものとみなせます。それにしても困った事態になってきました。

      ロボットと登録系(NSE、InfoNavigator、Netplaza) 登録だけをベースにしたデータ収集からロボットへ移行したNSE、InfoNavi、NetPlazaが実力を発揮してきました。登録系の上位グループと比べて検索数で2倍の開きがでてきました。これからますます差は開き、1年くらいで30倍以上の差になることが予想されます。なお、InfoNavigatorの検索結果出力制限の200が撤廃されました。Thanks。

      登録系(WaveSearch、NTTdir、Yahho、JSE、Yahoo!J、WWWナビゲータ、Hole-in-One、CSJ、WebdeW、URL広場、日本ネット)   検索よりは分類に重きを置いていますので、検索数だけで比較するのはナンセンスかも知れませんが、グループ内の相互比較には役立ちます。Yahhoはエンターテイメントに強く、第17回の時も上位でした。ランクの入れ替わりが激しいのですが、だんだん収まってきています。紹介文は1~2行よりも3~4行の方がユーザーにはわかり易いと思います。ほとんどがボランティアですので、人を投入することもできず、今後1年位で10倍以上のデータをあつかうとなると、網羅性から遠ざかって行くことが危惧されます。

      今週のポイント 月曜日にNetplazaが分類のジャンルを再編成するとのことですが、どのような編成になるのか楽しみです。昨年の8月末に総数260で開始したのが現在8,400まで増加しています。10ヶ月で30倍以上です。1年後には10万位になりますが、新しい分類は何時まで絶えられるのでしょうか。それから、Infoseek社のUltarseekが6月にサービスされるとのことですが、6月の最終週ですので、今週中に発表されるかも。AltaVistaを追い越すのか、これも楽しみの一つです。

    第21回 1996.6.23 小説、アニメ、漫画、ミステリ

    No17182021検索サービス名総数小説アニメ漫画ミステリ合計
    13121日本語OpenText(?)#823#680#808#1032,414
    21232ODIN145,365#416#553#593#1021,664
    32313Mondou(200,000)#335#687#461#661,549
    44444TITAN(300,000)#*100#*100#*100#*37337
    -----千里眼(97,000)4141290519722,295

    No17182021検索サービス名総数小説アニメ漫画ミステリ合計
    11251Nippon SE-21018717047614
    25113NETPLAZA839914423816041583
    33335WAVE Search9713613411378
    42549NTT Directory(5200)#74#68#138#10290
    511722InfoNavigator16220822634630
    641194Yahho1410515120117425551
    76486Japan SE(5000)811179820316
    87878Yahoo! JAPAN3641471123967297
    996611WWWナビゲータ184445099526207
    108101010Hole-in-One163046189837240
    11129117CSJ Index(9765)1061137415308
    1210121212WebdeW52001656361109
    1313131313URL広場3556182720267
    1414141414日本ネット3163022

    企業、ビジネス、経営、ベンチャー 1996年6月16日

      今回のねらい ビジネス関連の話題ということで調べてみました。その他に「リストラ」や「メーカー」なども調べました。検索しても必要な情報が得られないという人も多いようですが、情報量はまだ驚異的に増加しています。ロボット系のデータ入力が少し遅れ気味です。前々回に指摘しましたように、各索引サービスがもつ情報の網羅性は1~2割です。当分の間は巡回検索を使って複数のサービスを検索することをお薦めします。

      カタカナによる検索例 検索キーがカタカナの場合、サービスにより結果が少々異なります。その辺を調べるために、2種類の検索を行いました。(A)「ベンチャー」と入力すると、「アドベンチャー」も一緒に検索(B)「ベンチャー」と入力しても、「ベンチャ」と入力しても結果は同じ(1)両方に該当しないもの ODIN、Mondou、日本語Opentext、TITAN、NTT DIRECTORY InfoNavigator、Netplaza(2)Aに該当しないが、Bに該当するもの NipponSE、Wave Search(3)A,B共に該当するもの 千里眼、WWWナビゲータ、Japan SE、Yahoo! Japan、Hole-in-One Yahho、CSJインデックス、WebdeW、URL広場、日本ネット

      カタカナによる検索の注意点 両方に該当しない7サービスは、カタカナの日本語処理が正しく行われおり、よいシステムとみなせます。(A)の場合、NOT演算があれば「アドベンチャー」を除くことができます。下の表はアドベンチャーを除いた結果です。(B)の場合、「ー」がいらないからといって使用しないのは間違いです。現在のシステムが現実と異なってるからです。「-(マイナス)」を使った「ベンチャ-」も調べました。ほとんどの検索結果はゼロでしたが、一部のサービスで見つかりました。登録者が「ー」を「-」と入力ミスしたためです。カタカナは日本語の文章の中によく表れます。カタカナが続き、複数の単語がある場合にその区切りをソフトで見つけることは難しい問題です。その点、英語の場合は、単語と単語の区切りが空白やハイフンなどではっきりしています。

      今週のポイント InfoNavigatorがロボット収集によるサービスを開始するとのこと、検索画面が改装されそうです。従来のデータベースは厳密に言えば索引系でなかったため、ロボット収集とのマッチングは比較的容易にできそうです。まだ収集データ数が少ないと思われますが、楽しみです。

      InfoNavigator ぺージ検索開始(6月17日追加) 従来のサーバ検索に加え、ページ検索が追加されました。早速、検索結果を追加し、再計算し直し、ランクの移動を行いました。ページ検索結果は、企業(877)、ビジネス(866)、経営(26)、ベンチャー(3)でまだデータ量は少ないようです。

    第20回 1996.6.16 企業,ビジネス,経営,ベンチャー

    No16171820検索サービス名総数企業ビジネス経営ベンチャー合計
    11123ODIN189,160#687#682#638#3172,324
    22231Mondou(200,000)#2896#1407#1255#1315,689
    33312日本語OpenText(?)#2409#814#997#884,308
    44444TITAN(300,000)#*100#*100#*100#*93393
    -----千里眼(97,000)2568160912992055,681

    No16171820検索サービス名総数企業ビジネス経営ベンチャー合計
    12125Nippon SE-779392372411,584
    23333WAVE Search1041630213831,967
    311172InfoNavigator*200*2007538513
    44254NTT Directory(5200)#2437#446#117#443,044
    513511NETPLAZA828320001128516963,740
    65966WWWナビゲータ1743358932299481,058
    710648Japan SE(5000)2972297334633
    89787Yahoo! JAPAN3641476021598351,108
    9581010Hole-in-One15904*200*20010021521
    10114119Yahho136311951468630457
    11712911CSJ Index(9765)1701684929416
    1212101212WebdeW5200*2001689310471
    138131313URL広場34311801443222378
    1414141414日本ネット791581103

    Football, Baseball, Basketball,

      今回のねらい インターネットでスポーツ中継し、全世界の人が即時にその結果を知ることができるようになりました。今回は、アメリカで盛んに行われているフットボール、バスケットボール、野球、そしてサッカーについて調べて見ました。

      Web上の人気スポーツ 検索数の多い順に、1位:フットボール、2位:バスケットボール、3位:野球、4位:サッカー、になります。サッカーがアメリカではあまり盛んでないことがわかります。各サービスごとの順位を見てみますと、大体同じ傾向が見れますので、収集しているデータが偏ったものでないと考えられます。前回の最新の情報技術の時に比べて、AltaVistaとLycosの差が10倍から3倍になりましたが、恐らくLycosの方が古いデータを蓄積しているからとみなせます。

      検索サービス(フルテキスト系) Web上にあるすべての頁を対象にし、頁の中にあるすべての情報を取り込んだデータベースを作っているものです。HotBot、AltaVista、Ultraseek(6月にオープン)があり、少し系統が異なりますが、NlightNも含めました。HotBotは多彩なオプションがあり、いろいろと試してみることをおすすめします。5月20日から3週間たっていますが、まだデータベースの更新がなされていません。スコア順の出力に大きなミスがあるように思われます。やはり、軌道にのるまでの2ヶ月間位の微調整期間が必要のようです。AltaVistaはイントラネット用ソフト販売で収入を得ることを目的としていましたが、今度Yahoo!と提携関係ができ、両社にとっても、ユーザーにとっても良いニュースでした。オープンして半年たち、検索の機能面も充実しており、3,000万頁のボリュームからすれば現時点での総合評価は世界一です。機能がたくさんありますので、使い込んで欲しいものです。Ultraseekはまもなくオープンする予定です。会社のPR文も流されています。11日にInfoseek社は店頭公開し、14ドルの345万株で約50億円の資金を得ました。それに最近、日本で合弁予定の兼松の株が急上昇しています。NlightNはあまり使っていないのでわかりませんが、結果だけから判断しますと相当実力を持っています。Web以外のデータベースを含めれば、図書館系のも考慮しなければならなくなり、大変なことになります。

      検索サービス(ロボット系) ロボットを使って情報を収集しないと、とても検索に応じられません。最初からロボットに頼るもの、索引系とロボット収集の2本立てのところなどがあります。Lycos、Opentext、Magellan、Infoseek、Webcrawler、Exciteなどです。ただ、AltaVista系とは明らかに差が開いてしまいました。Lycosは3,923万頁も収集しています。AltaVistaの出現で、いろいろ改善が図られているようです。例えば、検索結果の出力などは、従来のブツブツと途切れる紹介文に比べて、洗練された文章が出力されます。テキストの一部をデータベース化している関係でAltaVistaに比べて検索力は5分の1位になります。現在、AltaVista以上の新しいシステムを開発中とのことです。OpenTextは最近メインの画面をシンプルなものにしました。今までは複数のキー入力を3行にわけ、AND/ORを選択していたのですが、他のサービスと同様に1行の入力になりました。やはり初心者が多いインターネットの世界ではシンプルなものが好まれるようです。Yahoo!との提携は続いているようですが、時間の問題です。テキストを正しく処理しているのですがスピードとボリュームでAltaVistaと差ができてしまいました。Magellanは本来、従来のデータベース作りと同様に、Web情報の抄録を作成していました。それが4つ星評価です。しかし、ロボット収集に移行し、検索すればわかりますが評価した情報はわずかになってしまいました。Web情報の陳腐化が激しいのと、情報の増加量が多いので、最初のねらいはうまく機能していません。Infoseekは現在の10倍以上の頁数をもつUltraseekの準備中で、更新作業は止まってるようです。

      索引サービス 初心者や、あるいは新しい分野の情報を探す場合の手がかりを与えるものとして、今でも重宝なのが索引サービスです。1年くらい前は、検索系と索引系の利用の比率が1対1でしたが、現在では6:1くらいにまで低下しており、ウエィトは下がる一方です。まだ、日本では索引系の利用が多く、1年半位の差があるように思われます。Yahoo!は索引系でトップです。検索結果をみればあきらかなように、ロボット収集をベースの検索とは大きな差ができてしまいました。今度AltaVistaと提携し、検索面での遅れをカバーすることになりました。従来の索引とAltaVistaの検索とをどう調和させるかが最大のポイントです。

    第19回 1996.6.11 Football,Basketball,Baseball,Soccer

    NoSearch ServicesTotalFootBBasketBBaseBSoccer
    1HotBot735,254228,734196,404191,272118,844
    2AltaVista626,409195,055166,508162,941101,905
    3NlightN519,862160,004152,598158,71648,544

    NoSearch ServicesTotalFootBBasketBBaseBSoccer
    1Lycos218,13673,79964,64452,02027,673
    2Opentext81,44427,52521,45021,24311,226
    3Magellan65,86619,52517,67018,19710,474
    4infoSeek53,31115,97913,75315,7097,870
    5WebCrawler30,2739,4287,7487,8875,210
    6Excite----------

    NoIndexTotalFootBBasketBBaseBSoccer
    1Yahoo!2,222607539541535
    2LinkStar1,273358277368270
    3NR Yellow Pages*960*240*240*240*240
    4Galaxy68325117518374
    5CMP TechSearch*480*120*120*120*120
    6ZdNet Search*400*100*100*100*100
    7Net-happenings25075587146
    8Pathfinder*240*60*60*60*60
    9Harvest Broker23366565853

    NoNetNewsTotalFootBBasketBBaseBSoccer
    1AltaVistaNews175,76648,50446,58058,29622,386
    2DejaNews89,48727,95620,08230,21811,231
    3InfoseekNews14,3914,2783,4914,7811,841

    健康、ダイエット、療法、フィットネス 1996年6月2日

      今回のねらい 健康でなくてはインターネットはできません。若い女性は美容とダイエットにお金を使います。うらやましい限りです。ダイエットは食べる量を減らせば良いわけで、ここ3日ほど風邪で痩せることを経験しました。というわけでもないのですが、今回は健康に関するキーを選びました。

      変化してるのを感じませんか 検索数だけを見ていても変化が感じられます。ロボット系に日本語OpenTextが加わりました。InfoNavigatorは索引系でいつもトップをマークしていたのですが、システムのテスト中なのか検索数が急減しています。それに比べて索引系からロボット系へ変身をはたしつつあるNippon Search Engineは1ヶ月位でトップになりました。それから、いつもブービーメーカーだったNETPLAZAは1ヶ月程前にロボット宣言をし、索引系とロボット系の2本立でサービスを開始し、今回の結果は良好です。

      フィットネス情報の分析 フィットネスで得られた検索結果を分析しました。Nippon SEよりあとの、リンクがはっきりしないNTT DIRECTORYと英語分を除く11種のサービスから総計59の検索結果を得ました。重複分の20(重複2が5種、3が2、4が1、5が2)を除くとフィットネス情報は39になります。9つのサービスは検索数が8以下ですから、全体の2割も満たしません。1~2割の情報を示されて情報があったとかなかったとか? 自衛手段としては複数のサービスを利用したり(当巡回検索はグー)、ロボット系の検索をすることです。ああ、まだ一杯することがありますね。

      日本語OpenText もう利用しましたか。まだ、検索結果の表示が100%でないですが、1ヶ月前よりはるかによくなっています。カタカナの処理も大部よくなっています。ときどき検索結果数が大きく示されるのがあるため、まだテスト中かなとも思います。最近、本家のホームページが改装し、シンプルになりました。ただ、残念なことは、当検索デスクから入力して検索する巡回検索が使えません。いろいろテストしているのですがうまくいきません。もう、しばらくお待ち下さい。

      NETPLAZA Robo ホヤホヤのロボットによるサービスです。まだ、データ数は少ないようです。新聞社・出版社の検索サービスやHotBotなどにある期限オプションがあります。Roboでは手頃な2週間に設定されています。速報性を重視するというか、最新の情報を収集することを意味しますから、データが集まり本格化すれば有用な検索サービスになります。これからの成長が楽しみになってきました。

      地域発見の追加 6月1日から地方自治体のWeb情報を1個所に集め検索サービスする「地域発見」がオープンしました。ホームページ217件から、約11万頁をキーワード検索できます。検索キーは限定されてるようです。従来の抄録型データベースがWebで利用でき、それに自治体のリンクが張られており、これからこのタイプのものがでてきそうです。巡回検索ができるよう試みていますが、まだOpenTextと同様、上手く動きません。

      WebdeWの追加(6/11) リクルートのディレクトリサービスがオープンしました。フレームとカラーを使ったデザインになっています。米国のExciteのような感じです。早速、検索数の調査を行い、その結果を追加しました。「マラソン」の検索は「マラン」1件となりました。たくさんの頁がありますが、連絡先がどこにも見あたりません?

    第18回 1996.6.02 健康,ダイエット,療法,フィットネス

    No14161718検索サービス名総数健康ダイエット療法フィットネス合計
    11112ODIN189,160#697#220#240#701227
    22223Mondou(200,000)#833#99#109#991140
    34331日本語OpenText(?)#1329#158#1627#353149
    43444TITAN(300,000)#*99#*70#*89#*19257
    -----千里眼(97,000)72890432182079

    No14161718検索サービス名総数健康ダイエット療法フィットネス合計
    12212Nippon SE-249583310350
    23333WAVE Search40458353500
    37425NTT Directory(5200)#266#30#11#13320
    411117InfoNavigator*20040145259
    54596WWWナビゲータ1537218742175251
    6121351NETPLAZA7241350912013474
    765810Hole-in-One151699737123252
    85978Yahoo! JAPAN3641414620147187
    9111064Japan SE(5000)23147188304
    10811411Yahho12865831853109
    1197129CSJ Index(9765)2274384282
    1210121012WebdeW520059125177
    131381313URL広場32097057283
    1414141414日本ネット1522320

    新聞、雑誌、TV、ラジオ 1996年5月26日

      今回のねらい Web情報という新しいメディアが登場しても,従来のメディアである新聞,雑誌,TV,ラジオの役割は変わらない。インターネットという新しい流通システムが既存のメディアにどのように影響していくか誰にも分からない。

      試行錯誤の世界 新聞を例にとっても,試行錯誤の連続であり,絶えず変化している。よいニュースを流しているサイトで毎日見に行っているところも突如閉鎖されたり,つまらない所でもいつしか新しいものよいニュースに変わっている。このようなことはネット上では日常茶飯事なことである。

      更新の必要性 最高のブックマークをつくっても,3ヶ月もたてば役に立たないことは誰でも経験していることである。そのような点を考えると,3ケ月以上維持管理されていない「リンク情報」は流すべきでなく,ネット上からはずすべきである。特に,アクセスの多いサイトの場合はその責任は重い。何も知らないビギナーが古い情報をベースに検索・索引・リンクの世界をみるとしたらマイナスにしかならない。

      日本語 OpenText の登場 27日朝に突然発表になり,検索調査のためアクセスを試みたが,全然検索できない状態が続いている。アクセスの予想がはずれたのか,回線が細いのか分からない。昨年6月頃からサービスを始めた OpenText は検索ソフトの優れていることを宣伝するために無料の検索サービスをするカナダのソフト会社である。昨年9月に米国Yahoo!は検索面の遅れを OpenText でカバーすべく提携し,数週間でサービスを始めるとしていたのが,まだはっきりとした形に現れていない。4月に日本ヤフーがサービスを開始し,日本語OpenTextの総販売代理店である日商岩井がサービスを開始した。この4社の関係が今後どう展開するのか興味のある話題である。

      日本語 OpenText ビギナーには少し取っつきにくい検索画面であるが,その機能は多彩なものを持っている。対象はWeb,URLなどあり,AND/OR/NOTなどの検索オプションも備わっている。3週間ほど前にテスト中の日本語OpenTextの検索調査を試みた。9~14回までの検索キーについての調査では,比較的収集数も多く,良好な結果を得ている。ロボットによる全文系ということで,ODIN,Mondou,TITAN,千里眼の範疇に入り,検索数だけのランクも試みた。カタカナの検索が極端に悪かったがどの程度改善されているだろうか?

      その他 InfoNavigatorの検索結果が悪く,毎回ランク1位が10位である。何かシステムの変更をしているからかも知れない。それから,NTT DIRECTORY の検索数の上限がなくなり,検索総数が表示され良くなりました。Thanks。

    第17回 1996.5.26 新聞,雑誌,TV,ラジオ

    No13141617検索サービス名総数新聞雑誌TVラジオ合計
    12112ODIN189,160#531#655#657#6022445
    23221Mondou(200,000)#1230#988#***#4002618
    31333TITAN(300,000)#*100#*100#*100#*100400
    -----千里眼(97,000)4380105121284438002

    No13141617検索サービス名総数新聞雑誌TVラジオ合計
    111110InfoNavigator681146529276
    26221Nippon SE-4083834351451371
    32333WAVE Search32034513979883
    43742NTT Directory(5200)#425#406#227#1911249
    54459WWWナビゲータ143571491586252421
    67658Hole-in-One147621141618570430
    7510106Japan SE(5000)882289160467
    810597Yahoo! JAPAN349571611368860445
    9138114Yahho1230011335735779906
    1089711CSJ Index(9765)67895227235
    111111125NETPLAZA674710426614625541
    12912812URL広場311971544213180
    1312131313日本ネット184410678

    自治体、振興、地域振興、商工会議所 1996年5月19日

      今回のねらい 自治体のインターネット利用がアツクなってきました。今回は自治体、振興、地域振興、商工会議所をとりあげました。自治体関連の情報が400、500と言われています。組織が流す公式の情報と個人が流す非公式な情報がありますので、情報の把握はますます難しくなってきました。

      複合語の処理 Webページの中に地域振興を見出した時の処理法は主に2種類あります。(1)地域振興と1単語として処理、(2)地域と振興に分けて2単語として処理。これらの区別は検索してみればわかります。地域振興の検索数と地域と振興をANDで結んだ検索数が異なっていれば前者、同じであれば後者とみなせます。

      地域振興を調べるには 実際の調査では、地域、振興、地域AND振興、地域OR振興などの検索数を求めました。AND検索の方が単独の地域振興よりも検索数が多いため、AND検索ができる場合にはAND検索の検索数を地域振興の検索数に採用しました。17の検索システムのうち、AND検索ができるのは11、OR検索ができるのは10です。今回はANDができないシステムは幾分不利になっています。

      情報の中身 商工会議所の検索結果を見ていると、結構重複データが入っています。古くなった広報的な紹介をどう扱うか、ゴミの山を築いているのか宝の山を築いているのか難しい問題を含んでいます。

      今週は2つの楽しみが Nippon Search Engine と米国の Inktomi が20日(月)に新装開店します。Nippon SE のシステムは3月頃からテスト中で、この5月7日から引越しのため停止していたのものです。Inktomi はサービスしていましたが、データの入力が昨年11月頃から止まっており、新しい情報が入っていなかったので紹介からはずしていました。Alta Vista に匹敵する検索エンジンであることと、大学からベンチャー企業へと転身します。

      Nippon Search Engine 5月23日追加引っ越しのためサービスを中止していたのですが,再開しました。しかし,現在のサーバーは仮のもので,正式に移行するのは今月末です。当検索デスクのNSEへのリンクは即対応しました。検索数の調査ですが,ロボット収集が全体の4分の3を占めるほどになり,InfoNavigatorに次ぐ実力を持つものに成長しています。検索で気がついた点は複合語は分けてAND検索する事です。「地域振興」は「地域」「振興」とスペースで分けて入力しAND検索を,「商工会議所」は「商工」「会議」「所」と分けてAND検索です。

    第16回 1996.5.19 自治体、振興、地域振興、商工会議所

    No1112131416検索サービス名総数自治体振興地域振興商工会議所合計
    122221ODIN189,160#349#577#7#2671200
    211412千里眼(97,000)17947022155826
    343333Mondou(200,000)#122#380#87#126715
    434144TITAN(300,000)#100#95#96#95386

    No1112131416検索サービス名総数自治体振興地域振興商工会議所合計
    132111InfoNavigator*19816710145511
    213233WAVE Search75731928195
    325445WWWナビゲータ136543838621103
    446374NTT Directory(5200)#45#44#9#14112
    5510622Nippon SE-59983029216
    679765Hole-in-One145348715412118
    79151010Japan SE(5000)45189577
    8681059Yahoo! JAPAN33587192551362
    9107897CSJ Index902637209874
    108413811Yahho1173560191686
    1111119128URL広場3058114851175
    121212111112NETPLAZA6150101011233
    131313121313日本ネット31004

    Java, RealAudio, VRML,

      今回のねらい 今まで日本語のサービスを対象の調査をしてきましたが、今回は米国を中心とした英語のWebサービスを始めて調査しました。検索キーは第9回の調査と同じで、最新の技術情報に関するものです。従って、この調査が各データベースの全体像を表すものでないことをお断りしておきます。今後、1ヶ月に1回位Web調査をする予定です。

      Web検索サービス(1) いろいろな検索エンジンが紹介されていますが、その実力はあまり知られていません。ナンバー・ワンの Alta Vista は2位 Lycos の約10倍の検索数があります。改めて Alta Vista の実力が浮かび上がりました。2位の Lycos は検索結果が充実し、利用しやすいデータベース作りがなされています。3位のMagellanは一部のサイトを従来のデータベース作りと同じようにレーティングするなどして結構面倒なことをしていますが、最近のように量の競争から質の競争へ移ってきたときに威力を発揮します。それに着実にデータ数を伸ばしています。

      Web検索サービス(2) 4位のinfoseekは索引系から出発していますが、ロボット収集にも力を入れており、この6月から Alta Vista と互角に争える Ultaraseek が稼動しますので面白くなってきました。5位の NlightN はほとんど取り上げられていないのですが、やはり相当な実力を持っています。単にWeb情報だけでなくニュースや雑誌の情報も検索できますので重宝です。ただ、ShockwaveとJavaScriptの検索数が少ないのは、データの最終更新が昨年末で、今年のデータが入っていないからと思われます。Exciteだけ検索総数の表示がなく、ランクできませんでしたが、実力があるわけですから公開しないと不利になります

      Webと日本を比較 ついでに日本のロボット系の検索数も調べテーブルに載せました。日本語のデータがWebの総量に対してどれくらいかわかりませんが、Webの3.3%で30分の1、5%で20分の1になります。Lycosを基準にすれば、総数で3,100~4,600となります。ODINやMondouはまだ誕生して間がないので、日本語のデータの半分位しか集めてないように思われます。千里眼の最終更新日は1月5日ですが、ShckwaveやJavaScriptの検索数が極端に少ないことからもわかります。

      Web索引サービス 索引系はロボットによる検索系に比べると、検索数は約50分の1となり、完全に差がついてしまいました。日本では、検索系も索引系も一緒に扱っていますが、やはり区別して扱うことが必要です。索引系は逆に50倍の価値のある情報を伝えなければ生き残っていけないかも知れません。その中でもYahoo!は頑張っています。新顔として、New Rider's Yellow Pages や LinkStar が上位に入ってきました。各サービスは互いに抜きつ抜かれつのデットヒートを繰りひろげています。現時点の新鮮な情報を伝えることが必要であることを痛感しました。

    第15回 1996.5.12 Java,VRML,RealAudio,Shockwave,JavaScript

    NoSearch ServicesJavaVRMLRealAudioShockwaveJavaScriptTotal
    1Alta Vista481,316193,019165,37145,33039,262924,298
    2Lycos48,29821,43512,3926,0954,35092,570
    3Magellan28,7607,9816,7343,2372,38149,093
    4infoSeek16,1404,4144,6652,3642,33729,920
    5NlightN11,08937,4827,49682215957,048
    6Opentext7,5585,0162,8999772,87819,328
    7WebCrawler11,4933,3103,5572,1391,57822,077
    -Excite------------
    J1ODIN4664483844541371,889
    J2Mondou1,524427125239642,379
    J3千里眼3,10085336980264,428

    NoSearch ServicesJavaVRMLRealAudioShockwaveJavaScriptTotal
    1Yahoo!5083491511411251,274
    2Galaxy39985183494621,178
    3NR Yellow Pages*240233214*240230*1,157
    4LinkStar291223133156105908
    5ZdNet Search*100*100*100*100*100*500
    6Harvest Broker8376768994418
    7CMP TechSearch*101*101794051*372
    8Pathfinder*60*60*60*60*60*300
    9Net-happenings12259672116285

    野球、サッカー、相撲、マラソン 1996年4月21日

      今回のねらい あなたはスポーツして楽しむ方ですか、それともスポーツを観る方ですか。今回は集団競技の野球とサッカー、個人競技の相撲とマラソンをとりあげました。個人主義が横行する欧米で少しは集団で行動をと考え出されたのが野球やサッカーなどの集団で行うスポーツ。一方、集団主義が横行する日本で少しは個人で行動をと日本古来の相撲や武道などがあります。昔は剣道が好きで2段の腕前です。今は週に2~3Km泳いでいます。

      2種類の検索画面 検索サービスの利用状況を調査する必要があります。ビギナーが続々参入してますから検索サービスの利用法を啓蒙することは必要です。カメラでも素人用とプロ用があるように、検索画面もビギナー用とプロ用が必要です。ビギナー用はキーワードを入力するだけで検索でき、プロ用はいろいろな検索オプションを使った検索ができます。サービス側がいくら良いシステムを提供しても、その使い方を教える場がなく、優れていますが複雑な方法の利用は少ないのが現状です。また、キーワード1つだけの検索とオプション付きの検索の2系統で処理した方がシステムの負荷は少ないため、索引サービスでは2種類の検索画面があります。

      データ総数について 今年の1月から各サービスの毎週末のデータ総数を調べ、「日本の検索」画面や各サービスのデータ総数を新しいのに更新しています。データ総数を公表している所はその数値を、索引などで概数が求まる所は電卓でカウントしたりと、最新のデータを維持するのに結構時間がかかっています。そこで昨日、電卓でカウントする所のソフトを作りました。来週から少しは楽になりそうです。以下に、データ総数に関する各サービスの現況をまとめました。

     

    • データ総数をホームページで公表するところ(8) ODIN、WWWナビゲーター、CSJインデックス、Yahho、NETPLAZA、JOY、日本企業URLディレクトリ、WWWホームサーバーガイド。--Thanks。
    • 索引の分類項目にある数をカウントして得られるところ(5) Hole-in-One、Yahoo! JAPAN、URL広場、URLの広場、日本のインターネット一覧。
    • 公表されたままでデータが古いところ(5) 千里眼、TITAN、NTT DIRECTORY、Nippon SE、Japan SE。
    • 公表がなく手がかりがないところ(5) Mondou、InfoNavigator、WAVE Search、日本ネット、WWWファインダー。

      ロボットと登録の併用型 Nippon Search Engineは併用型の新システムに移行しており、データベースも整理されつつあります。今回の検索数調査でそれがはっきりしてきました。今までの情報収集はロボットか登録かということで2つに分かれていましたが、今後は第3の併用型へ移行するものが多くなってきそうです。InfoNavigatorはデータベースの構築が他の所と異なっていると思っていましたが、やはりロボットとの併用型のようです。Yohoo! JAPANも併用型を打ち出してきましたので、もうこの流れは止めれません。

      Yohoo! JAPAN、今度は少々減少 見切り発車したせいか先週データが倍増しました。この1週間はデータを見直したのか、珍しいことですが、少々減少しました。情報を提供する以上、古い情報やリンクのない所を紹介しないよう気を付けるのは当然といえば当然ですが、情報の信頼性を保つ努力をしていることがうかがえます。今回の検索数調査からランクが上がってきました。

    第14回 1996.4.21 野球、サッカー、相撲、マラソン

    No1011121314検索サービス名総数野球サッカー相撲マラソン合計
    111141千里眼(97000)16328704151592286
    222222ODIN189160#577#635#250#2331695
    334333Mondou#413#392#132#941031
    443414TITAN(300000)#98#98#67#89352

    No1011121314検索サービス名総数野球サッカー相撲マラソン合計
    123211InfoNavigator761153125247
    211323WAVE Search4998217175
    342544WWWナビゲータ11534255117295
    434637NTT Directory(5200)#21#34#4#665
    51151062Nippon SE(17000)861213112260
    6991510Japan SE(5000)8332245
    767976Hole-in-One12792244710586
    81068105Yahoo! JAPAN28865253271175
    9710789CSJ Index902611297148
    10884138Yahho10351182412054
    11512121111NETPLAZA48719243238
    12121111912URL広場27945101218
    131313131213日本ネット21003

    セキュリティ、認証、電子決済、電子キャッシュ 1996年4月14日

      今回のねらい 今話題の電子マネーに関するキーを調べてみました。紙媒体の新聞や雑誌などでは情報の伝達は速いのですが、Webの世界はどうなっているのでしょうか。また、今回は電子決済、電子キャッシュ(電子マネー、電子商取引も調査)など先頭に電子がくる複合語を使いました。あまり良い結果が得られませんでしたが、定点観測ということで採用しました。

      日本語Webの処理 日本語Webは漢字、カタカナ、ひらがな、英文字、数字やカンマなどの特殊文字、全角と半角文字、HTMLのタグ、リンク情報、画像情報などから構成されています。この中から重要なキーを探し出し、データベースを作成しています。英語処理とは異なる日本語処理技術と、Web処理技術の両方が必要になります。これから急速に発展する分野で、楽しみです。

      「電子決済」を調べるには 電子決済を検索する場合、システムにより次のような異なった方法が存在します。

     

    • 自動分割しAND検索
        TITAN、Mondou -- 「電子決済」を入力すると、「電子」and「決済」と自動的に変換し検索する優れものです。
    • AND検索
        千里眼、InfoNavigator、WAVE Search、Nippon SE、NTT DIRECTORY、Japan SE、Hole-in-One、Yahoo! JAPAN、URL広場、NETPLAZA -- 電子と決済をスペースで区切って入力し、検索条件のANDを選択し検索します。この場合でも、1単語の電子決済で検索した結果と2単語に分けAND検索した結果が同じになるのとならないのとに分かれます。
    • AND/OR検索がない
        ODIN(OR検索)、WWWナビゲーター、CSJインデックス、Yahho、日本ネット -- 電子決済だけしか使えませんので、検索数が少なめです。

      カタカナの処理 英語は漢字で表せる場合は漢字で、そうでない場合はカタカナで表します。今回の電子キャッシュはエレクトロニック・キャッシュとかデジタル・キャッシュとも言いますので前回にも少し触れましたが、電子の入力でエレクトロニックやデジタルも検索できればユーザーには便利になります。すべての単語を翻訳できなくても、よく使用するものだけでも十分ですから、これもお願いします。

      Yohoo! JAPAN のデータが1週間で倍増 検索サービスを利用する場合、データの構成を知ることはユーザーにとって必要なことです。他の所もそうですが、Yahoo! JAPANもデータを良心的に公開しています。驚くべきことに、この1週間でデータは倍増(13,500→29,000=2.15倍)しました。主なものを列挙しますと、ビジネスの人名録(0→3,645)、企業(3,106→4,719)、製品およびサービス(466→1,689)、インターネット(546→577)、大学(0→842)、個人(1,849→1,914)、リファレンス一覧(2→3,647)、世界の国々(2,124→2,281)などです。まだ流動的ですが、従来とは異なった新しいタイプのデータベースを構築しているようです。

    第13回 1996.4.14 セキュリティ、認証、電子決済、電子キャッシュ

    No910111213検索サービス名総数セキュリティ認証電子決済電子キャッシュ合計
    111114千里眼9700028471121368
    222222ODIN134665#555#153#6#2716
    344341TITAN300000#*100#70#42#24236
    433433Mondou#180#57#12#20269

    No910111213検索サービス名総数セキュリティ認証電子決済電子キャッシュ合計
    112321InfoNavigator6477651713499
    2101132WAVE Search69653443142
    324254WWWナビゲータ108141932024
    443463NTT Directory5200#20#3#0#124
    536797Hole-in-One1129641016
    6119915Japan SE5000603110
    75106810Yahoo! JAPAN290521200012
    8688413Yahho989700000
    98115106Nippon SE170001212015
    10971078CSJ Index8006902011
    1171211119URL広場269471008
    12135121211NETPLAZA454840004
    131213131312日本ネット00000

    音楽、ミュージック、music、サウンド 1996年4月7日

      今回のねらい 音楽情報の集まっている所を調べるために、音楽に関連したキーワードを用いて検索を試みました。まだ、いろいろと分からないこと不明瞭なところがでてきます。検索サービスごとに検索の仕組みが微妙に異なっていることを知るだけでも一歩前進です。

      分類項目に音楽を含む場合の処理 分類項目の中に「音楽」が含まれる場合があります。そのような時に音楽をキーに検索すると、分類項目にあるものを検索する/しないにより検索数が異なってきます。検索に分類項目を含めるべきか/べきでないかは一概に言えませんが、含める方が広範囲の結果が得られます。オプションで含む/含まないが選択できればよいのですが、一般ユーザーには複雑なものと感じられるかも知れません。その判断は難しい所です。

      アーチストとCD 検索数を表すデータから、サウンドの検索数に比べてmusicの検索数が多いものとしてJapan SE、Yahho、CSJインデックスがあります。これらの検索結果を見ますとアーチストごとの紹介や音楽CDのレーベルごとの紹介が含まれています。これらの検索サービスは音楽情報に強いところとみなせます。

      海外のWeb情報の処理 Japan SEの検索数が非常に多いのは海外のWeb情報を含んでいるからです。こちら側でカウントし直すことができないためそのまま載せました。検索は日本語だけに限定するのか日本語と英語のハイブリッド型にするのかも大きな問題です。少なくとも海外のWeb情報を含む場合、TITANやNippon SEのようにオプションで選択できるのが望ましい形です。

      日本語翻訳処理について 前回の英字の処理で大文字・小文字だけでなく全角の英字も同時に検索できたら使いやすいということを記しましたが、ここでは翻訳検索についての提案をまとめてみました。今回は「音楽」、「ミュージック」、「music」を調べましたが、この中のどれか1つを指定すればその他の2つが同時に検索されORした結果が返ってくるのが理想的です。すなわち、「music」を検索すると「音楽」も「ミュージック」も検索され、そのORしたものが表示されるということです。もちろん、「ミュージック」とすれば、「音楽」と「music」が検索されます。現在、TITANとNippon SE(準備中)は翻訳検索では一歩先んじており、「music」で検索すると「音楽」を、「音楽」で検索すると「music」を自動的に検索します。これをさらに推し進め「ミュージック」までできないかと無理な難題ですがお願いします。

      新設Yohoo! JAPAN の索引について 分類の構成は米国と同じです。ここでは、ヤフー的なところを紹介します。日本ヤフーは13,400ページの情報量でスタートしました。しかし、カテゴリーの中のビジネスと経済/企業(3106)、エンターテインメント/個人(1849)、地域情報/世界の国々(2125)の合計7080が未分類?の状態で入っています。従って、分類済みの情報は13400-7080=6320となり、中規模からのスタートとみなせます。登録用のフォームからも分かりますが、企業のホームページはビジネスと経済へ、個人のホームページはエンターテインメント/個人へ、政府や地方公共団体などの特定地域に関するホームページは地域情報へと、新着情報は主体により、3種類のカテゴリーに分けて登録します。それを専門家が分類整理して提供するようです。分類は6320ですが、検索は13400のデータを対象にしますので、やはり大きなデータベースからの出発です。

    第12回 1996.4.07 音楽、ミュージック、music、サウンド

    No検索サービス名対象/内容総数音楽ミュージックmusicサウンド合計
    1ODIN主要文書/主要文章134665#703#619#727#5502599
    2Mondou主要文書/主要文章#1279#147#1649#1343209
    3TITAN全文書/全文章300000#*100#*99#*98#*99*322
    4千里眼全文書/
    タイトル・アンカー
    97000258945749175448507

    No検索サービス名対象/内容総数音楽ミュージックmusicサウンド合計
    1Japan SE投稿/紹介文5000461108521501140
    2InfoNavigator投稿+α/
    紹介文+α
    5906*19986*199107*591
    3WAVE Search投稿/紹介文6965466879650699
    4Yahho投稿/紹介文93511873052012749
    5WWWナビゲータ投稿/紹介文10363225555249381
    6NTT Directory投稿/紹介文5200#317#33#116#30#496
    7CSJ Index投稿/紹介文80062553819212497
    8Yahoo! JAPAN投稿/紹介文13494166346138299
    9Hole-in-One投稿/紹介文11162*200438314*340
    10Nippon SE投稿/紹介文17000259137737386
    11URL広場投稿/紹介文26851002712616269
    12NETPLAZA投稿/紹介文42522548364302
    13日本ネット投稿/紹介文1061219

    花、フラワー、桜、ガーデン 1996年3月31日

      今回のねらい 春です。桜の季節です。桜の名所の近くに住んでいます。昨日の雨で桜のつぼみも膨らんできました。これからの1~2週間はとても陽気な時期です。というわけで、花、フラワー、桜、ガーデンというポピュラーなキーを選びました。その他に、庭園や花見なども調べました。

      行事のインターネット化 初日の出、桜の名所、花火大会、お祭り、クリスマスなどの行事がスポーツ中継と共にインターネットで流されるようになってきました。そのような何かを探したい場合には検索サービスを使いなさいと自信を持って人に進めれたらと思います。そのためには、新しい情報をできるだけ速くデータベース化することが大事なように思います。

      英文字のあつかい 日本語のWeb情報は英語の単語も含んでいます。英単語を検索するときに問題になるのが大文字と小文字の区別です。検索サービスごとに微妙に異なっています。第9回の検索調査では英単語だけをあつかいましたが、その時に気付いたことも含めてまとめてみました。

     

    • 大文字は大文字、小文字は小文字としてあつかう
        検索サービス(1) -- Japan SE -- コメント -- 少数派になりました。例えば、Javaを調べるには、Java、java、JAVAなどのOR検索が必要で、ユーザーには使い難いと思います。ほとんどの検索サービスが次の2へ引っ越しました。
    • 半角の大文字と小文字を同じとみなす
        検索サービス(10) -- ODIN、TITAN、千里眼、WAVE Search、WWWナビゲーター、Nippon SE、NTT DIRECTORY、Hole-in-One、CSJインデックス、日本ネット -- コメント -- Javaで検索すると、javaもJAVAも検索されますので、ユーザーには大変便利です。
    • 上記の1と2がオプション選択できるもの
        検索サービス(1) -- Yahho -- コメント -- 英語のWeb検索では case sensitive と case insensitive のオプションがあります。それと同じように上記の1と2はオプションで選択できるのが望ましい形です。
    • 半角の大文字と小文字、全角の大文字と小文字をすべて同じとみなす
        検索サービス(4) -- Mondou、InfoNavigator、URL広場、NETPLAZA -- コメント -- 上記2が全角の場合に拡張したものです。JavaやJava(全角)で検索すると、半角のJava、java、JAVAや全角のJava、java、JAVAを検索します。日本語をあつかう以上、この全角の処理は必要です。半角の英字だけからなる検索にはその全角も調べ、結果をORして出力すればよいわけですから上記2からの移行は容易だと思います。
    • 上記の1と4がオプションで選択できるもの
        検索サービス(0) -- なし -- コメント -- 一番良い形です。これから情報量も増えてきますので、このような方法も必要になってきます。

      NTT DIRECTORY の海外サイト検索 日本語版と同じスタイルのメニューです。まだ、情報量は少ないようです。今後重要になるアジアの情報が一覧できるのは有用です。メニューの下部は、アジアの国別にサイトが選択できるようになっています。表示は日本語で、内容は英語です。

      新設Yohoo! JAPAN の追加 3日の午後から検索サービスを開始しました。早速、従来通りの方法で検索数を調べてランキングしました。今回は「花」関連のテーマで全体の評価を示すものではありません。データはロボットでも収集しますので、今後データ数の急増が見込まれます。(4月3日)

    第11回 1996.3.31 花、フラワー、桜、ガーデン

    No検索サービス名対象/内容総数フラワーガーデン合計
    1ODIN主要文書/主要文章121823#628#212#440#2841564
    2Mondou主要文書/主要文章#559#61#187#55862
    3TITAN全文書/全文章300000#100#86#*97#*99*322
    4千里眼全文書/
    タイトル・アンカー
    9700025571626702483637

    No検索サービス名対象/内容総数フラワーガーデン合計
    1WAVE Search投稿/紹介文6965165302941265
    2WWWナビゲータ投稿/紹介文1005898211425158
    3Nippon SE投稿/紹介文1700010115811135
    4NTT Directory投稿/紹介文5200#47#23#11#17#98
    5InfoNavigator投稿+α/
    紹介文+α
    48791955496255
    6Yahoo! JAPAN投稿/紹介文133978810810116
    7Yahho投稿/紹介文8981534111078
    8Hole-in-One投稿/紹介文1086265115788
    9CSJ Index投稿/紹介文800648541774
    10Japan SE投稿/紹介文500051931174
    11URL広場投稿/紹介文26481918432
    12NETPLAZA投稿/紹介文39191912224
    13日本ネット投稿/紹介文52108

    ショッピング、通信販売、商店街、モール 1996年3月24日

      今回のねらい インターネットを使って商売を始めようとしている人が多いようです。そのような場合に、まずショッピングに関する情報が必要ということで、ショッピング、通信販売、商店街、モールなどをキーにした検索を試みました。

      全体からみた得意・不得意分野の調査の必要性 みなさんも気付いておられると思いますが、収集しているWeb情報は各検索サービスごとに異なっています。すなわち、データベース化しているものに得意・不得手があるということです。先週のブラウザ周辺の技術と今回のショッピングではランキングが大きく変化しています。その意味でこのような検索調査を積み重ね、全体から見た各検索サービスごとの得意・不得意分野を明らかにしていくことは必要なことです。

      ランキングのルール 毎週、検索結果をベースにリストの順番を変えることにしました。そこで次のようなルールをつくりました。

      各キーごとに、検索数の大きい順に順位を求める。4種類のキーによる順位の和を基にした順位を求める。上記5種類の和を基に順位を求める。同順位の場合は検索数合計が多い順とする。

      このような操作はExcelなどが得意とするものです。データを入れたらすぐに順番がわかります。あなたもマクロで作ってみませんか。

      Nippon Search Engine 2.0β版 検索本体のみで、登録やその他については順次リリースしていくとのことです。カラフルな画面です。検索画面もすっきりし、検索語入力と検索オプション指定(OR,AND,NOT)だけで、従来行っていた和英翻訳機能は準備中です。内部処理の問題かと思いますが、データベースが3系統あります。国内(マジックマウス社による紹介文)、国外DB、登録紹介文です。それぞれ#M、#W、#Uと検索結果は別々に表示されます。例えば、db#M/11: [1] / db#U/1: [1] / などと表示しますので、[1]の所をクリックすると該当するDBの結果が得られます。検索数の全部を一度に出力しますが、最近の出力傾向の10から20単位での出力表示(本来はスコア順の出力に使用するのですがスコア順でなくても有効)の方が負荷が少ないのでは思います。

      ショッピング情報 ショッピングは製品の宣伝や広告の場です。NTTの新着情報などにも、XX製品を特売中というようなチラシのようなものまで入っています。そのようなデータは扱わないという所もありますが、広告データは期限つきで、期限が過ぎたらはずさなければゴミが蓄積されます。今後、この種のWeb情報は急増しますので、それを扱うガイドラインを作成することが必要です。

    第10回 1996.3.24 ショッピング、通信販売、商店街、モール

    No検索サービス名対象/内容総数ショッピング通信販売商店街モール合計
    1ODIN主要文書/主要文章92899#617#96#273#3521338
    2Mondou主要文書/主要文章#431#223#124#125903
    3TITAN全文書/全文章300000#*100#*100#*96#*92*388
    4千里眼全文書/
    タイトル・アンカー
    970008532962383191706

    No検索サービス名対象/
    内容
    総数ショッ
    ピング
    通信販売商店街モール合計
    1WAVE Search投稿/紹介文696539826057104819
    2InfoNavigator投稿+α/
    紹介文+α
    4269*199*1996381*542
    3WWWナビゲータ投稿/紹介文96102541703573532
    4NTT Directory投稿/紹介文5200#754#159#17#50#980
    9Hole-in-One投稿/紹介文9986*2001642096580
    5CSJ Index投稿/紹介文70313631931839613
    6NETPLAZA投稿/紹介文36816186069101243
    7Yahho投稿/紹介文8649250613241384
    8Japan Search Engine投稿/紹介文5000199831342337
    10Nippon Search Engine投稿/紹介文17000121116255267
    11URL広場投稿/紹介文248358421013123
    12日本ネット投稿/紹介文36150859

    Java, Shockwave, VRML,

      今回のねらい 日本語のWeb情報を集めた検索や索引には日本語しか使えないと思っている人が多いようです。日本語の文章、特にWeb情報は漢字、カタカナ、英単語から構成されています。そこで今回は英単語だけを使いました。インターネットの最先端技術を表すキーワードばかりです。しかし、このような調査からでも新しいことが発見できます。

      最新の情報は入っているのか 15日発売の日経マルチメディアの特集「進化するWeb」で、Java、VRML、Shockwaveが話題になっています。最新の技術を表すこれらのキーワードにRealAudioを追加して調査しました。最近、JavaScriptに興味をもっていますが、注目をあびているのはJavaのFAQをあつかうサイトです。このFAQの紹介がなされていたのは15のうち4つでした。

      Java用FAQ情報を持っているか これから考えられることはデータベースには新しいデータがまだ入っていないのではないかという疑問です。もし新しいデータが入っていれば、たとえスコア順の表示でも検索されます。Java用FAQの情報をもっていたのは、全文検索系ではデータベースの新しいODINとMondouに、また紹介文索引系ではHole-in-OneとYahhoでした。

      1~2ケ月の遅れは致命傷 この2ケ月でWeb情報は4割増加しています。従って、2ケ月前までのデータしか持っていないとすると、71%(1/1.4)からの検索になります。陳腐化のことを考えると、新しいものを含まない50%位からの検索ということになります。これはWeb情報が急拡大しているためであり、1~2ヶ月の空白は検索結果に重大な影響を与えます。Webデータベースは情報を蓄積するのではなく、如何に新しい情報に更新するかが価値を決めるポイントになります。

      Alta Vistaの検索 今日、Alta Vistaで "asaisan"を検索したところ72件検索できました。今度のODINと同じ出力表示で、入力した年月日が一緒に出力されます。大体1月後半から3月始め迄の日付のものが多く、私のホームページには2月25日に訪れています。Thanksが多数見つかりました。また、Alta Vistaの訪問アルゴリズムを推測しましたが、ホームページ作りには欠かせない情報です。正確な情報が分かればお知らせします。

      技術情報からみたランキング 今回調査した技術情報だけからのランキングを試みました。第1の基準はJavaのFAQ情報を含むかどうかです。第2の基準は新しいShockwaveのウエイトを2倍にした検索数の合計です。全文検索系、紹介文系の上位グループ、同じく下位グループと3グループに分けて見ました。

    第9回 1996.3.17 Java,VRML,Shockwave,RealAudio

    No検索サービス名対象/内容総数JavaVRMLShock waveReal Audio合計
    1ODIN主要文書/主要文章92899#377#341#225#201$1375
    2Mondou主要文書/主要文章7542968173$1285
    3TITAN全文書/全文章300000#88#*100#80#39#387
    4千里眼全文書/タイトル・アンカー970003100853803694482

    No検索サービス名対象/内容総数JavaVRMLShock waveReal Audio合計
    1Hole-in-One投稿/紹介文9925256197$76
    2Yahho投稿/紹介文8320176144$55
    3InfoNavigator投稿+α/紹介文+α374086472640225
    4WWWナビゲータ投稿/紹介文908732142018104
    5NTT Directory投稿/紹介文5200#16#15#11#6#59
    6Nippon Search Engine投稿/紹介文17000121501744
    7URL広場投稿/紹介文24021288642
    8CSJインデックス投稿/紹介文29009310436
    9WAVE Search投稿/紹介文69651215528
    10Japan Search Engine投稿/紹介文5000472116
    11日本ネット投稿/紹介文722114
    12NETPLAZA投稿/紹介文3470313010

    美術館、博物館、水族館、旅館 1996年3月10日

      今回のねらい 「館」が付く漢字ということで、美術館、博物館、水族館、そして旅館を調べました。美術館や博物館の案内だけでなく、インターネットとマルチメディア技術を通して、遠くに離れた人に情報を伝えることができるようになりました。今日のTV番組に「いま博物館が面白い!」がありました。

      検索サービス別の得意分野と不得意分野 美術館と旅館というちょっと異分野のキーワードからデータベースの特徴が浮かんでくるかも知れません。そこで、美術館の検索数を旅館の検索数で割り、その値の小さい順に並べて見ました。

      Yahho(1.2) NETPLAZA(1.6) CSJインデックス(1.9) InfoNavigator(1.9) ODIN(3.1) WAVE Search(3.4) NTT DIRECTORY(4.0) WWWナビゲーター(4.7) Mondou(6.8) JapanSE(8.7) URL広場(10.5) 千里眼(10.5) NipponSE(11.2) Hole-in-One(13.0)

      この結果から次の3つのグループに分けることができます。

     

    1. Yahho、NETPLAZA、CSJインデックス、InfoNavigator -- 美術館の数と旅館の数が接近。美術館が少ないか、旅館が多い。
    2. ODIN、WAVE Search、NTT DIRECTORY、WWWナビゲーター、Mondou、JapanSE -- バランスがとれているとみなす。
    3. Hole-in-One、NipponSE、千里眼、URL広場 -- 美術館の数が旅館の数よりも極端に多い。美術館が多いか旅館が少ない。

      本来は、美術館/総数を求めるのですが、みなさんも、机の引き出しから電卓を取り出して(そうそう、Windowsの電卓が使えますよ)計算してみませんか。きっと、何か発見できますよ。

      新装開店のODIN 順調な滑り出しです。検索結果の出力は前のも気に入っていましたが、スコア順表示には勝てません。出力は洗練されていてとても見やすいです。

    第8回 1996.3.10 美術館、博物館、水族館、旅館

    検索サービス名対象/内容総数上限美術館博物館水族館旅館
    TITAN全文書/全文章300000100#*97#*97#*96#74
    ODIN主要文書/主要文章90000全部#529#582#119#168
    千里眼全文書/タイトル・アンカー97000全部14951369225143
    Mondou主要文書/主要文章2004735099070
    InfoNavigator投稿+α/紹介文+α324520019017148100
    NTT Directory投稿/紹介文5200100#48#50#6#12
    WWWナビゲータ投稿/紹介文8901全部5249711
    WAVE Search投稿/紹介文?全部5551616
    Nippon Search Engine投稿/紹介文170001006752116
    Hole-in-One投稿/紹介文9185200392833
    Yahho投稿/紹介文8010全部58641348
    Japan Search Engine投稿/紹介文5000全部782459
    NETPLAZA投稿/紹介文3283全部111327
    CSJインデックス投稿/紹介文2900全部2723714
    URL広場投稿/紹介文2356全部212152
    JOY投稿/紹介文262530--------

    医学、薬害、競馬、占い 1996年3月3日

      今回のねらい 「東洋医学」で AND の調査をと思ったのですが、検索数が少なくあきらめました。失敗することを考慮して6種類のキーを調査しています。今回はバラバラになってしまいました。毎週の調査も大部慣れてきましたが、それでも15カ所を調査するのに2時間半以上かかります。それを整理して、HTMLのファイルを作成しなければなりません。それにしても大変な調査を始めたものです。

      あなたは"AND"派、それとも"OR"派 検索の80%位は一つのキーワード入力で行われています。しかし、検索によっては複数キーの検索がほしいときがあります。このため、ラジオボタンで「AND」や「OR」のどちらかが選択できるようになっており、どちらかがデフォルト(黒丸)になっています。以下に示しますが、いろいろなパターンがあって困りませんか。「AND」の方が多いようです。

     

    • TITAN ●通常モード(OR) ○絞り込みモード(AND)。 自動分割処理する。
    • ODIN 自動分割:●ON ○OFF。 AND/ORは直接指定する。
    • 千里眼 英文の 'A B'は A and B。日本語はなし。
    • Mondou 複数単語はAND条件とみなす。関連語が示されるので後で絞り込める。
    • InfoNavigator ●すべての言葉を含む(AND) ○いずれかの言葉を含む(OR)
    • NTT DIRECTORY ●AND条件 ○OR条件
    • WWWナビゲーター なし
    • Wave Search ●AND条件 ○OR条件
    • Nippon SE ●Or検索 ○And検索
    • Hole-in-One ●いずれかの言葉を含む ○全ての言葉を含む
    • Yahho なし
    • Japan SE ○少なくともひとつ(OR検索) ●全てのキーワード(AND検索)
    • NETPLAZA ●全てのキーワードを含む(AND) ○いずれかのキーワードを含む(OR)
    • CSJインデックス なし
    • URL広場 なし
    • JOY なし

      TITAN 複雑な日本語処理のため「占い」では検索できず「占」で検索しました。

      JOY 個人のWeb情報を収集する JOY の Searcher の方が休憩中で検索調査はお休みです。なお、活動開始予定は未定とのことです。

      Wave Searchの追加 これまで検索デスクから Wave Search をはずしていた理由は3つあります。第1はNTTの新着情報をデータベース化している所がNTT DIRECTORY, WWWナビゲーター, そしてWave Searchと3ケ所あり、前2者が新着情報以外の情報も扱っており、同じものはいらないと思ったこと、第2は現在は行っていませんが新着情報をgrepで検索していたため必要なかったこと、第3はデータの陳腐化を考えると93年12月からの蓄積はマイナスにしか写らなかったこと、などがあります。しかし、Wave Searchの検索調査結果はすばらしく、データベースの最も重要な要因である更新が毎日行われ最新の情報が得られます。

    第7回 1996.3.03 医学、薬害、競馬、占い

    検索サービス名対象総数上限医学薬害競馬占い
    TITAN全文300000100#*98#75#*95#68
    ODIN全文3000001000*2779118*1278876
    千里眼全文97000全部2411287931086
    Mondou全文20057312393283
    InfoNavigator全文216820010843554
    NTT Directory紹介文5200100#34#2#11#15
    WWWナビゲータ紹介文8477全部5822520
    Wave Search紹介文?全部7621737
    Nippon Search Engine紹介文170001006335126
    Hole-in-One紹介文87702002611924
    Yahho紹介文7625全部5512832
    Japan Search Engine紹介文5000全部310216
    NETPLAZA紹介文3130全部27166
    CSJインデックス紹介文2900全部4831916
    URL広場紹介文2271全部38133
    JOY紹介文249430========

    旅、旅行、トラベル、ペット 1996年2月25日

      今回のねらい もうすぐ春です。旅行を計画している人にホットな情報がどれだけ探せるかということで、旅を中心に調査しました。観光や温泉などをキーにしたほうがよい結果が得られます。実はここでは、「旅」と「旅行」を中心に検索システムのクセを調べることがねらいです。

      「旅」と「旅行」の区別 「旅行」の中に「旅」という文字が含まれています。テーブルから15の中の10のサービスが「旅」の方が「旅行」よりもヒット数が多いことがわかります。しかし、それとは反対に「旅行」の方が「旅」よりも多いのがあります。ODIN、Mondou、InfoNavigator、それからランク順の表示をするTITANやNTT DIRECTORYなどです。これはどう解釈すればよいのでしょうか。「旅」と「旅行」を区別できる日本語処理システムを採用しているからです。特に、全文タイプのものに多いのですが、情報量が多いため、しっかりした構文解析が必要のようです。

      MondouとNETPLAZAの追加 前回の18日の調査でM?で登場した全文タイプの検索エンジンMondouと20日に索引サービスから検索を開始したNETPLAZAを新たに加えました。MondouはODINにあるサーバー紹介や19日付きのInternet Watchに紹介されましたので、正式に採用しました。テスト中ということですが、他のサービスも全部テスト中とみなせますし、インターネットは試行錯誤の世界ですから刺激がある方が楽しいですよ。

      リストの配置替え 第1回から第6回までの検索数をベースにしました。検索結果に重複のあるものや、検索エンジンや検索結果の質などは今回とりあげませんでした。最新の情報を提供する立場から、配置替えを頻繁に行う予定です。

    第6回 1996.2.25 旅、旅行、トラベル、ペット

    検索サービス名対象総数上限旅行トラベルペット
    TITAN全文300000100#*100#*98#88#*96
    ODIN全文3000001000*2137*3648217532
    千里眼全文97000全部2452134995198
    Mondou全文2003955614148
    InfoNavigator全文2168200166*1992771
    NTT Directory紹介文5200100#40#56#5#16
    WWWナビゲータ紹介文8169全部1591071016
    Nippon Search Engine紹介文1700010050397617
    Hole-in-One紹介文83642005847216
    Yahho紹介文7218全部306107612
    Japan Search Engine紹介文5000全部533095
    NETPLAZA紹介文3030全部20119865
    CSJインデックス紹介文2900全部136101616
    URL広場紹介文2187全部533926
    JOY紹介文2409305131215

    求人、就職、新卒、人材 1996年2月18日

      今回のねらい インターネットを使った求人・求職活動が盛んになってきました。企業の人事部の人、大学の就職担当の人、就職希望の学生が検索サービスを利用できるかどうか調べました。すでに多数の情報が入っていることが分かります。検索を出発点にすれば幅の広い情報が得られ、それだけ出会いが多くなることになります。

      キーワード入力 フォーム内の日本語入力問題は解決しました。ナビゲーター利用者は、2.0日本語b6a(Win用)へのVupを薦めます。しかし、実際問題として、Vupへの対応ができる人は少ないのではと危惧しています。よいブラウザを使わなければ、日本語の入力が難しく検索はできません。検索サービスの普及にはブラウザの向上とともにユーザー側の対応能力(DLとセットアップ)が必要です。

      M?(準備中) まだ正式に公開されていませんが、全文タイプの検索エンジンがテスト中です。参考にするために、ヒット数を調べて最後の欄に載せました。まだデータ量は少ないですが、比較的新しいデータが入っています。相当実力を持っており、発展性の高いデータベースが構築されています。できるだけ早い公開が待たれます。

      NETPLAZA(新設) 索引サービスだけでしたが、新たに検索コーナーができましたので、早速検索数を調べ、追加しました(2/20)。週末に移動の予定です。さて、どこかな???

    第5回 1996.2.18 求人、就職、新卒、人材

    検索サービス名対象総数上限求人就職新卒人材
    TITAN全文300000100#*99#*100#*99#*99
    ODIN全文3000001000773*19132161861
    千里眼全文97000なし731344198285
    InfoNavigator全文2168200*20011536191
    NTT Directory紹介文5200?#605#40#22#43
    Nippon Search Engine紹介文170001007421630
    WWWナビゲータ紹介文7791なし102673679
    Hole-in-One紹介文819220032311818
    Japan Search Engine紹介文50002002910210
    URL広場紹介文2153なし2312312
    Yahho紹介文6814?6117517
    CSJインデックス紹介文2900?2725411
    JOY紹介文23753031001
    M?(準備中)全文20031938384259
    NETPLAZA(新設)紹介文2943なし197250171

    著作権、特許、知的所有権、intellectual 1996年2月11日

      今回のねらい ビジネスでどの程度使えるのかという問い合わせが多いため、特許情報にしぼりました。数が少ないかも知れませんが、全文検索はもう処理出来ないほどの情報量です。

      キーワード入力 「ブラウザ」のところで取り上げたEmigrantを使用したため、日本語の問題はすべての検索で正常になりました。(Win95、Netscape2.0(英語版)を使用)

      紹介文の長さ URL広場の総数は1800、Yahhoの総数は6400。その差は3.5倍。だからといって、検索数は3.5倍の開きになっていない。検索するのは紹介文やキーワードであるから、単純に(総数×紹介文の平均文字数)が影響する。このことから1文書あたりURL広場はYahhoの数倍の紹介文を処理しているといえる。

      インターネットに情報があるのかないのか 検索数が少ないため、インターネットは使えないと判断するのは間違いですよ。1年後には2~4倍に、2年後には6~12倍(?)になります。2~3年後の世界を頭に描いて判断して欲しいですね。

    第4回 1996.2.11 著作権、特許、知的所有権、intellectual

    検索サービス名対象総数上限著作権特許知的
    所有権
    inte
    llectual
    TITAN全文30000040#39#40#39#40
    ODIN全文3000001000*2315599151396
    千里眼全文97000なし4861782670
    InfoNavigator全文216820015920523
    NTT Directory紹介文5200?#9#9#1#0
    Nippon Search Engine紹介文1700010019421
    WWWナビゲーター 紹介文7539なし111030
    Hole-in-One紹介文7499200111621
    Japan Search Engine紹介文50002005560
    URL広場紹介文1796なし4522
    Yahho紹介文6408?7000
    CSJインデックス紹介文2900?2321
    JOY紹介文2243302200

    インターネット、商用インターネット、internet 1996年2月4日

      キーワード入力 千里眼の日本語の入力文字表示も出力表示も正常になりました。

      検索結果の総数表示 出力の最初の所に欲しいものです。出力数の上限が設定されてない場合は特に問題です。CGIで1~2行つけ加えれば解決しませんか。

      商用インターネット 「商用インターネット」か、「商用」and「インターネット」か。一つのキーワードしかあつかえないものもあります。

      Japan Search Engine 出力数を制限なしにすると検索できず、200にしたら検索できました。

      NTT DIRECTORY "internet"は5件、"Internet"は40件。大文字と小文字を区別しています。

      WWWナビゲーター 「インターネット」と「商用インターネット」の結果は得られませんでした。使えないキーワード?

    ータ:インターネット、商用インターネット、internet、ジャズ

     

    検索サービス名対象上限インターネット商用インターネットinternetジャズ備考
    TITAN全文40#40#30#40#39スコア
    ODIN全文1000*12151727*13113439--
    千里眼全文なし*6726?25*10422118--
    InfoNavigator全文2001984119657--
    NTT Directory紹介文?#336#2#40#2スコア
    Nippon Search Engine紹介文100501630532--
    WWWナビゲータ紹介文なし??????18315--
    Hole-in-One紹介文2001016568--
    Japan Search Engine紹介文200*200411611--
    URL広場紹介文なし23642374--
    Yahho紹介文?27823192--
    CSJインデックス紹介文?1270587--
    JOY紹介文30460378--

    プロバイダー、プロバイダ、provider、福祉 1996年1月28日

      ODIN 自動分割OFFは使用できない。従って、プロバイダーは"プロ"and"バイ"and"ダー"で検索し、プロバイダは"プロ"and"バイ"and"ダ"で検索する。

      NTT DIRECTORY 「プロバイダー」は「プロバイダ-」で検索する。最後の文字「ー」が「-」に注意。キーボードの[P]右上の「ー」ではなく、数字キーの[+]上の「-」を使用する。

      Yahho "provider"は0件、"Provider"は61件。要するに大文字と小文字を区別する。→[更新] 大文字と小文字の区別ができるようになりました(2/2)。

    第2回 1996.1.28 プロバイダー、プロバイダ、provider、福祉

     

    検索サービス名対象上限プロバイダープロバイダprovider福祉備考
    TITAN全文4036*403239スコア
    ODIN全文1000517247522*1794--
    千里眼全文なし151314185172--
    InfoNavigator全文200565913210--
    NTT Directory紹介文?55135スコア
    Nippon Search Engine紹介文1006251115--
    WWWナビゲータ紹介文なし70111325--
    Hole-in-One紹介文50213025--
    Japan Search Engine紹介文10039219439--
    URL広場紹介文なし1219225--
    Yahho紹介文?6365610--
    CSJインデックス紹介文?213364--
    JOY紹介文3091814--

    第1回 1996年1月21日

     

    検索サービス名対象上限検索search姫路備考
    TITAN全文40#*40#*40#35スコア順
    ODIN全文1000*7239*5855657上限
    千里眼全文なし46915339273---
    InfoNavigator全文200*200*20026上限
    NTT Directory紹介文?#35#3#1スコア順
    Nippon Search Engine紹介文100*133*1184上限
    WWWナビゲータ紹介文なし110219---
    Hole-in-One紹介文50*50160上限
    Japan Search Engine紹介文10046*1003上限
    URL広場紹介文なし29234---
    Yahho紹介文?16552---
    CSJインデックス紹介文?25226---
    JOY紹介文30842---