検索デスク 視点(8) 1996年8月24日

Web情報量の日米比較
   視点(8) 1996年8月24日

1. 一体どうなってるの!

  インターネットの実体はなかなか把握できません。サーバー数、利用者数、それにWeb情報量などなど。ここでは、検索を使ってWeb情報量の日米比較に挑戦しました。

2. AltaVistaの検索コマンド

  検索といえば、人間の目に見えるテキスト部分しかないと思っている人が多いのですが、Web情報はご存知のようにHTMLのルールに基づいたタグ付きの文章から構成されています。そのタグの部分も結構重要な情報が潜んでいます。それらを利用しない手はないのですが、そこまで準備できないのが現状です。先進のAltaVistaはタグの部分もデータベースに取り込み、それを検索するために独自の検索コマンドを提供しています。

  ここでそれらの検索コマンドを説明しますと、
(1) title: タイトルを表すタグ<title>~</title>の~部分の検索
(2) text:  タグ以外のテキスト部分からの検索
(3) image: イメージを表すタグ<IMG src="URL"...>のURL部分の検索
(4) applet: アプレットを表すタグ<APPLET src="URL"...>のURL部分の検索
(5) anchor: アンカーを表すタグ<A HREF="URL"...>~</A>の~部分の検索
(6) link:  アンカーを表すタグ<A HREF="URL"...>~</A>のURL部分の検索(逆リンク)
(7) url:  Webページを表すURL部分の検索
(8) host:  Webページを表すURLのホスト部分に限定した検索

  例えば、日本の教育関係の逆リンクlink:を調べるには次のように入力します。
  

3. 日米のドメイン別link:、url:、host:の検索数

  URLの命名は規則的に行われます。その代表的なものがドメイン部分です。ac.jpは日本の教育関係、ad.jpは日本のネット関係、co.jpは日本の営利企業関係、go.jpは日本の政府関係、そしてor.jpは日本の非営利組織関係を表し、それが米国ではそれぞれedu、net、com、gov、そしてorgなどです。これらについて以下のテーブルのような検索を試み、検索数を求めました(単位は1,000)。

  なお、Rateの計算はlink:とurl:との和を用いました。例えば、ac.jpの46.0%は(ac.jpのlink:+ac.jpのurl:)/(JapanSumのlink:+JapanSumのurl:)です。

Japanlink:url:host:rate %
ac.jp16056356246.0
ad.jp2319192.7
co.jp11730933227.1
go.jp3170696.4
or.jp9818121017.8
Sum4291,1421,192100.0

USAlink:url:host:rate %USA/Japan
edu3,7844,9575,03729.912.1
net1,7711,2911,21410.572.9
com6,1566,9016,63344.730.7
gov9377968305.917.2
org1,4771,1721,1159.19.5
Sum14,12515,11714,829100.018.6

4. ドメイン別の比較

  日米のドメイン別の割合を図に示しました。左側が日本、右側が米国です。

  日本のドメイン別の割合 米国のドメイン別の割合

  (1) ac.jpとedu ac.jpの46%に対してeduは30%ということで、まだ日本は大学関係の情報が多いことを示しています。単に、先発組のac.jpの情報が相対的に多いだけなのかも知れません。
(2) ad.jpとnet ad.jpの3%に対してnetは10%です。ドメインを取得していても、ネットに関する情報を流していないのが明らかになりました。組織に関する日米の考え方が異なるからかも知れませんが、もっと活動してほしいものです。
(3) co.jpとcom co.jpの27%に対してcomは45%です。インターネットの商業化が実現している米国に比べて、日本はこれからです。資金や人的資源を投入できますので、ac.jpを抜くのは時間の問題です。
(4) go.jpとgov go.jpの6%に対してgovは6%です。日本の政府関連の情報公開が遅れているかどうかはインターネットに関しては五分五分と判断していいでしょうか?こういう資料も役立つかも知れません。
(5) or.jpとorg or.jpの18%に対してorgは9%です。ベッコアメもor.jpです。米国では非営利であればorgが取れます。やむを得ないことかも知れませんが、ドメインの振り分けが日米間で異なっているようです。

5. 日米の情報量の比較

 

  (1) url:ば日本の114万に対して米国は1,512万です。日本は米国の7.5%、米国は日本の約13倍です。
(2) インターネットは米国だけでなく世界中のWeb情報が入っています。検索結果は22,371,750でした。これから見ると米国は約3分の2の67.6%、日本は5.1%です。各国の情報量については後で行う予定です。
(3) AltaVistaは3,000万収集したと言っていますが、httpでみると2,240万です。http以外のNetNewsなども含んでいるのかも知れません。現在、HotBotがNetNewsを含まずに5,400万集めています。現在の世界のWeb情報量は少なく見積もってもAltaVistaの1.8倍です。すると、世界では4,000万、米国は2,720万、日本は205万になります。

6. asaisanのコメント

  (1) AltaVistaの検索コマンドを使った簡単な調査で、今までぼんやりしていたものがはっきりしてきました。Alta Vista さん。Many Thanks。
(2) ドメイン別の分類にはmilなどがありますが日本に比較対象がないため除外しました。そして、日本でもレンタルサーバーでcomやorgを借りるケースがでてきましたが、それらも除外しました。
(3) 日本の場合、link:とurl:に差があり過ぎます。隣人へ気兼ねをするのか、他人へリンクを張ることはどうも苦手のようです。その点、米国の場合は、大企業であろうが個人であろうが、率直に良いものは良いと評価し、リンクを張ります。日本のWeb情報がいくら増加しても、この比率が改善しなければ情報の後進国とみなされます。閥やグループの垣根を取り除いて、もっと気軽にリンクを張り合いませんか。
(4) 日本のWeb情報をHotBotは200万位、AltaVistaは114万位集めています。さてさて、日本の検索サービスはどれくらい集めているのでしょうか。また心配の種が増えました。検索の問題を真剣に考えてもっともっと資金や人材を投入しなければ本当に手遅れになります。線が細いの太いのということだけがインターネットの問題ではないのでは。