Googleのつくり方
Google検索には
検索
ページランクによる評価
データベース
の3点が主なポイントではないでしょうか。
検索技術
→連載:検索エンジンを作る|gihyo.jp … 技術評論社参照
■京都 NOT 東京都
N-gramの方式では「京都」という言葉で検索を行うと「東京都」という文字列を含む文書も検索されてしまいます。
>>検索エンジンを作る:第6回 N-gramと形態素解析との比較
「京都 NOT 東京都」みたいなのをデータベース化していくことで検索の精度が上がっていくわけですね。
ページランクによる評価
Googleは各ページごとに数値化しており、一定値ごと10段階評価をしています。
この数値は主に被リンクを元に計算されております。さらには
「http://4ki4.cocolog-nifty.com」
→×1倍
「http://4ki4.cocolog-nifty.com/blog」
→×0.5倍(※)
※倍率は適当
ディレクトリの深さは4階層以内にした方が良いようにページランクの計算には様々なアルゴリズムが組み込まれております。
他にはブラッシュアップ(自浄作用)システムとして下記も考えられます。中の人ではないので想像ですけど。
- 一定時間(3ヶ月ぐらい?)ごと数値に1以下(0.5倍とか)掛けていきページの数値を落していく
- Google検索結果で表示されて、クリックされたら数値を足していく
データベース
Googleのあの巨大な検索システムなどを支えるデータベース「BigTable」は書き込みが毎秒700MB、読み込みが毎秒18GBという化け物システム
>>Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」
世界4位のデータベースを処理するには想像を超える技術なんでしょうね。
■結論
『Googleは一日にして成らず』
○Google Inc.(Public, NASDAQ:GOOG)○
■特色
世界検索シェア一位
■時価総額(2008/5/4)
$182.38Billion = 18.23兆円(1$=100\)
■株価
$581.29
マイクロソフトがYahoo買収を断念しましたが、果たして吉とでるか凶とでるか数年後が楽しみです。
| 固定リンク



コメント