第2回初心者向け分散処理勉強会
第1回に続き、第2回も無事終了。今回は体調不良や急用でキャンセルした方が数名、遅れて来られた方も数名いたため、懇親会でのピザは無し。
発表内容
LTSVをPigで処理する話(みやかわさん)
資料はこちら。
数週間前、突如Twitterで大流行した人気ワードLTSV。それをPigで処理できるようにするプラグインを書きましたよ、というお話。
標準で読めるのは、PigStorageを使ってのTSV, CSV、その他、JsonLoader、TextLoaderなど。それ以外に、PiggyBankというPig用プラグインのレポジトリに、Apache Logやその他有名なフォーマット用のプラグインがあるとの事。
自分はそもそもPig自体も名前程度しか知らなかったので、この発表を聞いた後、Pigでどんなことが出来るかとかも少しイメージがついて良かった。
分散DBノード用軽量ハードウェアについ(かわのさん)
資料は未公開?
ARMベースの自作ボードを作って、SATA経由でHDDをつないで、分散ストレージみたいなのを作りたい、という話。内容はなかなか夢があって面白い。
アーキテクチャとしては、HDFSみたいな感じ。ネームノードのみPCを使う事を想定。データノードに、今回発表の安価で軽量なHW+市販のHDDを使用。ノード間はネットワークで接続。
HDDも通常は電源をオフにしておき、データの読み書きに対する要求があった時のみ、ボードがHDDを起こして処理をする、という流れ。ボード自体も省電力で、HDDも通常はオフなので省電力。
当然、レイテンシーは高めなので、アーカイブ用途とかを想定しているとの事。
次回
第3回は4/8(月)開催予定。
何人かが、時間があれば軽く発表するかも、と言ってくれたので期待。その他も、発表したい事がある人は是非!