Hadoop / Spark Conference 2016 参加報告


Warning: Trying to access array offset on false in /var/www/adtech-blog/wp-content/plugins/slideshare/slideshare.php on line 162

Warning: Trying to access array offset on false in /var/www/adtech-blog/wp-content/plugins/slideshare/slideshare.php on line 165

こんにちは。データサイエンスチームの西岡です。

先週月曜におこなわれたHadoop/Spark Conference Japan 2016に参加しましたので、 参加報告をさせていただきます。

聴講した発表は以下です。

  • 午前- 基調講演
  • 13:00- 次世代アーキテクチャから見たHadoop/Sparkの位置づけ (D会場)
  • 13:45- KuduによるHadoopのトランザクションアクセスと分析パフォーマンスのトレードオフ解消 (B会場)
  • 14:30- さくらインターネットが構築した、Apache Sparkによる原価計算システムの仕組みとその背景 (C会場)
  • 15:15- SparkによるGISデータを題材とした時系列データ処理 (D会場)
  • 16:00- Hive On Sparkを活用した高速データ分析 (D会場)

内容を簡単にまとめたスライドも公開しています。

全体を通して受けた印象を一言で言うと、「ますます進化・浸透していくHadoop」です。

開発開始当時(2004年頃)に一般的な構成だったCPU・メモリ・HDDを前提とした作りとなっていましたが、 今やストレージとして普及したSSDや、深層学習などの計算インテンシブなタスクに用いられるGPU・FPGAなど、 新しいハードウェアに対応できるようHadoopの開発を進めていくということでした。

しかしその一方、少数ノードで事足りる環境にはHadoopは不向きであるという指摘もあり、 Hadoopではカバーできない環境を補完するようなプロダクトの登場を予感させる発表もありました。

これからの分散データ処理がどうなっていくのか、1エンジニアとして注目していきたいと思います。