« Firefox「応答のないスクリプト」対策 | トップページ | 男は社会の中で自己実現を満たすことで救われる生き物 »

2008年5月 5日 (月)

Googleのつくり方

Google検索には
one検索
twoページランクによる評価
threeデータベース
の3点が主なポイントではないでしょうか。

one検索技術
連載:検索エンジンを作る|gihyo.jp … 技術評論社参照

■京都 NOT 東京都
N-gramの方式では「京都」という言葉で検索を行うと「東京都という文字列を含む文書も検索されてしまいます。
>>検索エンジンを作る:第6回 N-gramと形態素解析との比較

「京都 NOT 東京都」みたいなのをデータベース化していくことで検索の精度が上がっていくわけですね。

twoページランクによる評価
Googleは各ページごとに数値化しており、一定値ごと10段階評価をしています。

この数値は主に被リンクを元に計算されております。さらには

「http://4ki4.cocolog-nifty.com」
→×1倍
「http://4ki4.cocolog-nifty.com/blog」
→×0.5倍(※)
※倍率は適当

ディレクトリの深さは4階層以内にした方が良いようにページランクの計算には様々なアルゴリズムが組み込まれております。

他にはブラッシュアップ(自浄作用)システムとして下記も考えられます。中の人ではないので想像ですけど。

  • 一定時間(3ヶ月ぐらい?)ごと数値に1以下(0.5倍とか)掛けていきページの数値を落していく
  • Google検索結果で表示されて、クリックされたら数値を足していく

threeデータベース

Googleのあの巨大な検索システムなどを支えるデータベース「BigTable」は書き込みが毎秒700MB、読み込みが毎秒18GBという化け物システム
>>Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」

世界4位のデータベースを処理するには想像を超える技術なんでしょうね。

■結論

『Googleは一日にして成らず』

Google Inc.(Public, NASDAQ:GOOG)○
特色
世界検索シェア一位
時価総額(2008/5/4)
$182.38Billion = 18.23兆円(1$=100\)
株価
$581.29

マイクロソフトがYahoo買収を断念しましたが、果たして吉とでるか凶とでるか数年後が楽しみです。

|

« Firefox「応答のないスクリプト」対策 | トップページ | 男は社会の中で自己実現を満たすことで救われる生き物 »

コメント

コメントを書く



(ウェブ上には掲載しません)




« Firefox「応答のないスクリプト」対策 | トップページ | 男は社会の中で自己実現を満たすことで救われる生き物 »