k4200’s notes and thoughts

Programmer side of k4200

第2回初心者向け分散処理勉強会

第1回に続き、第2回も無事終了。今回は体調不良や急用でキャンセルした方が数名、遅れて来られた方も数名いたため、懇親会でのピザは無し。

発表内容

LTSVをPigで処理する話(みやかわさん)

資料はこちら

数週間前、突如Twitterで大流行した人気ワードLTSV。それをPigで処理できるようにするプラグインを書きましたよ、というお話。

標準で読めるのは、PigStorageを使ってのTSV, CSV、その他、JsonLoader、TextLoaderなど。それ以外に、PiggyBankというPig用プラグインレポジトリに、Apache Logやその他有名なフォーマット用のプラグインがあるとの事。

自分はそもそもPig自体も名前程度しか知らなかったので、この発表を聞いた後、Pigでどんなことが出来るかとかも少しイメージがついて良かった。

分散DBノード用軽量ハードウェアについ(かわのさん)

資料は未公開?

ARMベースの自作ボードを作って、SATA経由でHDDをつないで、分散ストレージみたいなのを作りたい、という話。内容はなかなか夢があって面白い。

アーキテクチャとしては、HDFSみたいな感じ。ネームノードのみPCを使う事を想定。データノードに、今回発表の安価で軽量なHW+市販のHDDを使用。ノード間はネットワークで接続。

HDDも通常は電源をオフにしておき、データの読み書きに対する要求があった時のみ、ボードがHDDを起こして処理をする、という流れ。ボード自体も省電力で、HDDも通常はオフなので省電力。

当然、レイテンシーは高めなので、アーカイブ用途とかを想定しているとの事。

Dremelの論文を読んだんでその説明(鹿島)

ClouderaのImpalaの中身を調べようと思ってたんだけど、その前段階として、Impalaのアーキテクチャに影響を与えたGoogleのDremelというシステムの論文を読んだので、それについての発表。基本は以前書いたブログの内容通り。

なぜMRよりDremelの方が高速なのかという疑問(上のブログ記事参照)に関して、みやかわさんが以下が理由ではないか?と指摘してくれた。

  • MRの場合、Mapが終わるまでReduceが始まらない
  • Mapの結果を中間ディスクに書き込む

それ以外にも、色々な話が出た。

次回

第3回は4/8(月)開催予定。

何人かが、時間があれば軽く発表するかも、と言ってくれたので期待。その他も、発表したい事がある人は是非!