HBase
過去の記事 第1回: Nutch + HBaseを動かすまで 第2回: Nutchの動作を解説 第3回: HBaseをスタンドアローンから分散モードに移行 NutchがHBaseのクラスターを使うようにする 前回、HBaseを分散モードに移行したので、NutchがそのHBaseのクラスターを使うよう…
過去の記事 第1回: Nutch + HBaseを動かすまで 第2回: Nutchの動作を解説 背景・前提 HBaseじゃなくてMySQLを使えば? Nutch + HBaseのクローラーが動作するようになったが、正直1台で動かすならMySQLを使ったほうが色々楽だし、データの抽出も楽。HBaseを使…
その2はこちら。 目的 個人的に興味があって、ある領域に特化した検索エンジンみたいなのを作ろうとしている。当面の目的としては、以下のような事をやる。 対象のサイト(ある領域に関連するサイト)をクロールして保存 クロールしたページから必要なデータ…