今でこそ、たいていのことは「ググればわかる」時代だけど...。
1997年、最近お気に入りの映画『オースティン・パワーズ』のことを友達にアツ〜く語るあなた。すると友達は「ランディ・クエイドが最高だった」と一言。あなたの頭のなかでは「あれ? 」と戸惑いつつ、話を聞いていたら友達がクリント・ハワードのことを言っていることに気づく。友達にそう伝えてみるも、お互い納得しあえず...。一日モヤモヤしつつ、家に帰ってパソコンを立ち上げてから40分ほど経過...「やっぱり、ランディ・クエイドは出演してないよ!」
2020年、Google(グーグル)が広く使われる前の時代、人々はどのようにして日常の疑問を解決したり、情報収集したりしていたのでしょうか? 専門家の意見を聞いてみましょう。
ウェブ・ディレクトリってのがあったんです
Amelia Ackerさん
テキサス大学オースティン校インフォメーション准教授、モバイル・ソーシャルメディアプラットフォームにおける新たな情報オブジェクトの出現・標準化・保存に関する研究に従事。
Google Searchは、Yahoo、Bing、それからプライバシー主導のDuckDuckGoなどの検索エンジンを含む市場で90%以上を占有しています。しかし、Googleのパーソナライズされた広告主導の検索アルゴリズム以前には、トピックごとにウェブリソースを集めたウェブサイトディレクトリやインデックス付き検索エンジンがありました。
最も古いウェブ検索エンジンは、人々によってキュレーションされたウェブサイトのディレクトリでした。ウェブオントロジスト(Yahooでは「サーファー」と呼ぶ)は、特定のトピックに関するすべてのウェブページを読み、ランク付けをしていました。こうした人間主導の分類モデルは最終的に、ボット(スパイダーと呼ばれることもある)を使用してウェブサイトを廻るようになり、信憑性や関連性によりランク付けされるようになりました。
1990年代初頭には、WebCrawler、Lycos、AltaVista、Yandexなど約20種類の検索エンジンがありました。図書館のカタログと同様に検索エンジンのインデックスも、トピック、コンテンツ、構造、主題ごとにまとめられ、整理されていたものです。初期の検索エンジンは、ユーザーが「ニュース」、「旅行」、「スポーツ」、「ビジネス」などのさまざまな上位レベルのカテゴリにわたるハイパーリンクされたリソースのバンドルに移動できるように設計されていました。ユーザーは、青色のハイパーリンクに詰め込まれた幅広いカテゴリから選択できました。
1990年代のウェブ検索を振り返るうえで重要なのは、当時の「ウェブをサーフィンする」人々に向けられた目標やインセンティブがあったことです。初期のオンライン文化では、事実情報や製品を見つけることが検索の目標であるとは限りませんでした。その代わりに、検索エンジンは、人々がデジタルリソースを発見・探索し、ワールドワイドウェブを体験するのに役立ちました。1990年代のウェブ検索では、広告ターゲティングが少なく、ユーザーが探索しやすい環境でした。検索結果は初歩的で、ポルノも除外しきれていなかったんですけどね。
今日の検索体験と比較して、初期のウェブ検索はより探求的だったといえるでしょう。探求的というのは、GoogleやFacebookなどのプラットフォームからのパーソナライズされた検索結果が、ターゲット広告で利用されないかたちでコンテンツのナビゲートや発見が可能だったからです。このことの例を挙げると、たとえば「Small Town Boy」の歌詞を検索すると、当時ならJimmy Somervilleの最初のドイツのファンページが見つかったかもしれません。最近では、歌詞検索となると、LyricFind.comなどのウェブサイトから歌詞が抜粋されるようになっています。こうした探究的な体験から正確なアルゴリズム体験に移行すると、検索は日常的で比較的規範的なものになります。 Google検索では、思い通りの結果が得られるかもしれませんが、偶発的な機能の多くは失われ、初期のウェブ探索のように変なコンテンツに出会うというエキサイティングな経験は得られなくなってきました。
今日、「検索」というとインデックスの閲覧やウェブページへのアクセスというよりも、さまざまなコンテンツやユーザープロファイルを1つのストリームにまとめたフィードやアプリの情報をスクロールしたりスワイプしたりすることのほうを意味することが多くあります。あるいは、オンラインリソースから抽出された情報の断片として正確な回答が提供されることを期待しているかもしれません。FacebookやAmazon、App Storeなどのプラットフォームは、検索用語や閲覧習慣などからユーザーデータを収集することでプロセスをさらに収益化しようとしています。初期の検索エンジンと比べて、私たちは何を失ったのか自問するとしたら、Googleのような1つの会社に全世界のオンラインデジタル情報の検索を独占させなかった場合どうなっていたかをについて考えるべきかもしれません。
カリフォルニア大学ロサンゼルス校情報研究特別研究教授、「Big Data, Little Data, No Data: Scholarship in the Networked World」著者。
90年代には、YahooとAltavistaが好調でした。ただ、コンピュータ化された情報検索というのは、古くは1950年代まで遡るほど歴史のある分野です。最初の商業用オンラインリモートアクセスシステムに関しては、1970年代初頭からあります。情報検索を発明したのはGoogleではありません。1930年代に国際十進分類法(Universal Decimal Classification)を発明したPaul Otletの手法など、非常に古いドキュメント手法の上に成り立っています。
オンライン情報検索の歴史は、医学、金属学、材質科学、化学、工学、教育、社会科学など分野ごとに異なります。1970年代初頭には、オンラインで非常に優れたデータベースが市販されていて、接続時間(分)ごとに支払うことになっていました。
Googleの最も基本的な原則は「td-idf」というKaren Spärck Jonesのケンブリッジ博士論文(1958年)から生まれた概念から来ています。これは、一連の作業における用語の頻度を探し出したものをドキュメントの出現頻度の逆数で割るといったメソッドです。彼女は真のパイオニアとして、後に多くの著名な情報学者とともにGoogleのコンサルタントも務めました。
Googleは「Digital Libraries Initiative」から生まれました。National Science Foundation主催で、連邦政府の8〜10もの機関が関与したプロジェクトです。ラリー・ペイジ、セルゲイ・ブリンがグーグルを提案するポスターを掲げていた全社会議の場で、私はこう思ったのを覚えています。これは本当にすごいことだ、彼らはウェブのビブリオメトリクスを再発明したのだから、と。
ビブリオメトリクスというのは、ドキュメント間のリンクを作成し、ネットワークをたどる手段です。この手法は、時間の経過とともに用語が変化するような題材を深掘りするときなどには特に役立ちます。たとえば、現代でいう中絶の議論について、過去に何があったか知りたい場合、1970年代中頃のRoe v. Wade(ロー対ウェイド事件)をたどり、引用されているものすべてを紐解きくことで双方向的に進むことができます。1950年代に始まったScience Citation Indexもまた、図書館学の古い原則を現代のテクノロジーに取り入れたものです。ビブリオメトリクスや引用索引は、聖書の注釈の発展など、何世紀にもわたって遡ることができるアイデアです。
初期は人力で整頓されていた
Safiya Umoja Nobleさん
UCLA Center for Critical Internet Inquiry共同ディレクター、情報研究准教授。「Algorithms of Oppression: How Search Engines Reinforce Racism」著者。
初期のインターネット情報共有において、もっとも重要な側面のひとつは、司書、学者、専門家から趣味に熱中する人までが、知識の育成や整理に利用したことです。これにより、AIや検索ツールが開発されても、こうしたプラクティスに関与した人々が可視化されることになりました。私たちは、人々の力こそがオンラインで起きるシェアリングを生み出すことを理解し、組織や特に大学、研究機関が管理するウェブサイトから信頼できるものを見つけようとしてきました。
実際、初期の検索エンジンは仮想図書館であり、多くの人々が図書館の価値を公共財として理解していたものです。自動化が進み、司書や専門家がAIに置き換えられると、私たちは多くのものを失いました。公共財として実現できたはずのものは、Yahoo! や Googleなど、大規模な広告プラットフォームに置き換えられることになりました。
現在、専門知識はアウトソースされ、しばしば最適化されたコンテンツとしてAdWordsの最高入札者によって支払いが行なわれています。このことは、特に複雑な問題を理解しようとするときには、知識と検索エンジンの広告との間に大きなギャップをもたらしています。ある意味、検索というのは、事実や調査によって裏付けられた専門知識や批判的思考への信頼を弱体化させ、プロパガンダによって私たちを操っています。検索エンジンは、ありきたりの情報を見つけるのには役立つかもしれませんが、より情報に富んだ民主主義を生み出す調査の価値に対する私たちの感覚を鈍くさせています。
Google以前の検索システムたちあれこれ
Ian Milliganさん
ウォータールー大学歴史准教授、「History in the Age of Abundance: How the Web is Transforming Historical Research」著者。
グーグルは当然ながら、最初の検索エンジンではありませんでした。1993年にさかのぼるとWandex(またはWorld Wide Web Wanderer)という、ウェブを測定して検索可能なインデックスにリードしてくれるものがあり、1994年にはLycosやInfoseek、1995年にはYahoo!といったディレクトリが登場しました。
ただし、こうした初期の検索エンジンやディレクトリのほとんどは、かなり扱いにくいものでした。ウェブサイトクリエイターであれば、ディレクトリに追加されるようにフォームを記入したり、かなり面倒なメタタグをHTMLに挿入する必要があったのです。1990年代半ばになると、より多くの人たちがウェブサイトを作成し、サードパーティのプラットフォームを使用するようになると、必ずしもサイトを登録することはなくなってきました。これには、初期のWebサイトが(現代よりもはるかに)ハイパーリンクに依存していたことがが関係しています。それも、ユーザーを引き寄せるために。WebRingが良い例です。
WebRingは1995年にSage Weilという若いソフトウェア開発者によって開発されました。トピックによりまとめられたWebサイトのグループとして、古い車に興味のある人は自動車愛好家のWebRingに、猫愛好家は猫にフォーカスしたWebRingに参加するというものでした。ページ下部にはWebRingインターフェイスがあり、ユーザーに「次の」サイトや「前の」サイト、または総合インデックスに移動するようにできています。誰もがWebRingを開始することができ、管理者がコミュニティに適合すると判断した場合には誰でも参加できるようになっています。重要なことに、人々をつなげる新しい方法となっていました。WebRingsの全盛期は、テクノロジーがYahoo!の手に渡った2000年頃まで続きました。
過度にノスタルジックになる必要はないと考えています。主にハイパーリンクを介してコンテンツを発見していたような世界には戻りたくないですし、わたしも他の誰かと同様にGoogleを日常的に利用しています。しかしGoogleの検索結果ページの上位に移動する仕組みは、少数のビッグウィナーたちにトラフィックを集中させています。「猫」と検索したとき、約40億件ある結果のうち上位数十件ほどしか目にすることはありません。数十億のページのどこかに、猫を本当に愛する人々による、ものすごく素敵なホームページがあるかもしれないんですけどね。1998年には、WebRingを開いて魅力的なコンテンツを偶然発見したり、志を同じくする人々のコミュニティを見つけたりしていたかもしれません。Googleでは、そんなこともできなくなりました。
人間 v.s. AI
Ethan Zuckermanさん
MITメディアラボMedia Arts and Sciences准教授、MIT Center for Civic Mediaディレクター、「Digital Cosmopolitans: Why We Think the Internet Connects Us, Why It Doesn’t, and How to Rewire It」著者。
そうですね、こうした暗黒時代の検索エンジンはTF-IDFか、人間のキュレーションか、という2つの哲学に分かれました。TF-IDFは「Term Frequency Inverse Document Frequency」の略で、検索エンジンがクエリを取得し、その用語を含むドキュメントを探すというものです。しかし、非常に一般的な用語の重複を避けるために、コーパス全体でその用語がどれほど一般的であるか考慮されていました。そのため「ミュール パワー」と検索すると、「ミュール」よりも「パワー」の方が一般的な単語であるため、TF-IDFエンジンでは「ミュール」の方のドキュメントが優先されたりします。
TF-IDFは、特定の種類のハッキングに対して脆弱です。"ミュールパワードな"ウェブサイトを売りたいとしたら、何度も「ミュール パワー」と書いたウェブページを投稿します。するとクエリと一致するドキュメントがウェブ上にないため、トップの座を得られるようになっています。そしてこうした弱点こそが、ラリー・ペイジやセルゲイ・ブリンがページランクを始めるきっかけにもなりました。そのアイデアは、前述のミュールパワーのようなスパムページがリンクされる可能性が低く、役立つページにはたくさんの外部リンクがあるというもの。
Googleは基本的に、最初の検索エンジンを立ち上げるためのTF-IDFとページランクを組み合わせたものです。ページランクでもゲームする方法を解き明かした人たちは、「ミュール パワー」とだけ書いてあるようなページを互いにリンクしているようなウェブページを作ることもしているはずです。Googleはその代わり、より複雑なアルゴリズムを作りました。人々は"ミュールパワードな"ブラウザを使うのを諦め、その後は他のブラウザが人気を得ました。
わたしが立ち上げに携わったTripodを買収したLycosでしばらく働いていたときは、Excite、HotWire、TF-IDFを使っていました。なかでもTF-IDFは一度もうまく動いてくれませんでした。しばらくして、スマート検索エンジンはクエリの30%〜50%を手書きの検索ページにすると解決できることがわかりました。たとえば「ラバ レース 結果」と検索すると、そのフレーズが含まれるページを見つけたとしてもおそらく役に立たないのがわかります。AMF (the American Muleracing Federation)のページにたどり着けたら、もっと良い結果が得られるかもしれません。Lycosは、わたしが1999年に退職したときには少なくとも30%手作りの検索結果ページを提供していました。
対照的なのが、Yahoo! です。完全に、人間によるキュレーションをベースにした方法で運営されていたのです。それは検索エンジンではなく、ディレクトリでした。 「ラバ レーシング」で検索すると、スポーツ->スポーツ リーグ->レーシング->ラバ レーシングといった具合に、さまざまな階層を表示し、AMF、OOM (Only Ornery Mules) 、ESPN (Entertainment and Livestock Programming Network)にリンクすると今度は、法律->動物虐待->ミュール レーシングと出てきて、PET’eM (People for the Ethical Treatment of Mules)に辿り着きます。
このやり方で素晴らしかったのは、1つのエンティティ(AMF)がラバレーシングという世界のどこに適合するかが示されたことです。企業を調査するときは、潜在的な競合他社やさまざまなサプライヤーをすばやく見つけることができたのが特に便利でした。とはいえ、分類学者がサイトを見て、階層内のどこに着地するか把握する必要があったのは、構築上かなり面倒でした。
Yahoo!はウェブの最初の数年間は非常にうまく機能していましたが、1997年頃には扱いにくくなり、最初はExcite、今はBingと、他の企業に検索をアウトソーシングするようになりました。人々が知識を整理しようとした方法として捉えると、Yahoo!が恋しく感じることはあります。ただ、Yahoo!の再来はなかなか想像できません。
Googleの検索結果ページの多くはTF-IDFタイプのウェブ検索ではなく、さまざまなデータベースクエリから構築されたページです。天気を検索すると、Googleは地理位置情報を使用して現在地を特定し、データベースから地域の天気ニュースを見つけます。個人的には、人間がキュレーションしたページ(たとえば、図書館員がウィキペディアのように共同作業をしているページ)は、政治的過激派や商業者にハイジャックされる傾向にある急上昇トピックの処理にうってつけの解決策になるはずだと考えています。