Nutch
過去の記事 第1回: Nutch + HBaseを動かすまで 第2回: Nutchの動作を解説 第3回: HBaseをスタンドアローンから分散モードに移行 NutchがHBaseのクラスターを使うようにする 前回、HBaseを分散モードに移行したので、NutchがそのHBaseのクラスターを使うよう…
その3はこちら。 概要 前回はNutch + HBaseでクローラーを動かすところまでを書いた。今回はNutchの動作の仕組み、起動オプション、設定項目をちょっと解説。(理解が浅い or 間違っている箇所も多いと思うので、何かあれば指摘して頂けると助かります) Nut…
その2はこちら。 目的 個人的に興味があって、ある領域に特化した検索エンジンみたいなのを作ろうとしている。当面の目的としては、以下のような事をやる。 対象のサイト(ある領域に関連するサイト)をクロールして保存 クロールしたページから必要なデータ…