k4200’s notes and thoughts

Programmer side of k4200

HBase

検索エンジンを作る(予定)その4 〜 NutchをHBase分散モードで動かす

過去の記事 第1回: Nutch + HBaseを動かすまで 第2回: Nutchの動作を解説 第3回: HBaseをスタンドアローンから分散モードに移行 NutchがHBaseのクラスターを使うようにする 前回、HBaseを分散モードに移行したので、NutchがそのHBaseのクラスターを使うよう…

検索エンジンを作る(予定)その3 〜 HBaseを分散モードに移行

過去の記事 第1回: Nutch + HBaseを動かすまで 第2回: Nutchの動作を解説 背景・前提 HBaseじゃなくてMySQLを使えば? Nutch + HBaseのクローラーが動作するようになったが、正直1台で動かすならMySQLを使ったほうが色々楽だし、データの抽出も楽。HBaseを使…

検索エンジンを作る(予定)その1 〜 Nutch + HBaseのクローラーを動かす

その2はこちら。 目的 個人的に興味があって、ある領域に特化した検索エンジンみたいなのを作ろうとしている。当面の目的としては、以下のような事をやる。 対象のサイト(ある領域に関連するサイト)をクロールして保存 クロールしたページから必要なデータ…