k4200’s notes and thoughts

Programmer side of k4200

Nutch

検索エンジンを作る(予定)その4 〜 NutchをHBase分散モードで動かす

過去の記事 第1回: Nutch + HBaseを動かすまで 第2回: Nutchの動作を解説 第3回: HBaseをスタンドアローンから分散モードに移行 NutchがHBaseのクラスターを使うようにする 前回、HBaseを分散モードに移行したので、NutchがそのHBaseのクラスターを使うよう…

検索エンジンを作る(予定)その2 〜 Nutchについて少し解説

その3はこちら。 概要 前回はNutch + HBaseでクローラーを動かすところまでを書いた。今回はNutchの動作の仕組み、起動オプション、設定項目をちょっと解説。(理解が浅い or 間違っている箇所も多いと思うので、何かあれば指摘して頂けると助かります) Nut…

検索エンジンを作る(予定)その1 〜 Nutch + HBaseのクローラーを動かす

その2はこちら。 目的 個人的に興味があって、ある領域に特化した検索エンジンみたいなのを作ろうとしている。当面の目的としては、以下のような事をやる。 対象のサイト(ある領域に関連するサイト)をクロールして保存 クロールしたページから必要なデータ…