「AWS」カテゴリーアーカイブ

HadoopからSparkへの移行

こんにちは。配信/インフラチームの佐々木です。今回は、adstirの集計システムをHadoopからSparkに移行したお話をしたいと思います。

以前の構成

adstirでは以前はAWS上のEMRでHadoopを使って集計していました。一つの集計のフローとしては以下のようになります。

Mapper(UNIQ集計)
↓
SQSにメッセージを送信
↓
Reducer(UNIQ集計)
↓
SQSにメッセージを送信
↓
Mapper(通常集計)
↓
SQSにメッセージを送信
↓
Reducer(通常集計)

このシステムでは以下のような問題点があり、それを解消するために移行を計画しました。

・Hadoopのパフォーマンスがあまり良くなく、集計に時間がかかり、かつ料金的なコストもかかる。

・MapperとReducerでアプリケーションがを分ける必要があり、UNIQ集計も別で必要になるため、煩雑な仕組みになる。

・かなり昔に開発したシステムの為、利用しているサービスや構成が古く、パフォーマンス・安定性等お世辞にも良いと言えない為、最新のアーキテクチャに刷新したい。

Sparkに移行すれば、UNIQ集計を分ける必要もなく、SQSでの通知も不要になります。つまり上記のフローが一つの処理で完結するわけで、システムが大幅に簡素化し、かつ時間短縮・コスト削減するのを見込み開発をしました。

移行する集計用のソフトウェアの検討

当初はAthenaに移行する想定でしたが、Athenaは分析用のサービスで、今回のようなバッチでの集計処理には向いていないことがわかり、Hadoopから移行しやすくかつパフォーマンスの良いSparkを採用することにしました。ですが手動での分析ではAthenaを使いたいとの要望があり、バッチ集計をSpark、分析用にAthenaを使い分けをするようにしました。

Sparkについて

Sparkとは一言で言えば「オンメモリで動くHadoop」の事で、AWSではEMRでのマネージドサービスを使うことが出来ます。利用できる言語はScala、Python、R、Java等ですが一般的にはScalaとPythonを使うことが多いようです。Spark自体はScalaで実装されています。

採用した言語とAPI

当初はPythonで実装したのですが、テストしてみたところHadoopとあまりパフォーマンスが変わりませんでした。原因はRDDでの処理がボトルネックになっている事でした。 Sparkで使える用意されているAPIはRDD、Dataframe、Datasetの3種類があります。APIの特徴は以下のページに詳しく書かれています。

https://yubessy.hatenablog.com/entry/2016/12/11/095915 https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html

一見PythonでDataframeを使うのが良さそうなのですが、Dataframeは色々制限がある為、複雑なデータ構造を扱う場合はRDDの方が向いています。そこで全てScalaに書き換え、APIにRDDとDataframeを併用する実装にしました。またSparkはExecuter（分散）とDriver（非分散）で処理が分かれており、できる限りExecuter側で処理をすればパフォーマンスが向上しますので、そこを意識して実装する事が大事でした。

結果

集計時間とコストが1/3程度になり、期待する結果を得る事が出来ました。 AWSでは集計用のマネージドサービスが他にも多々あり、これからも追加されていくと思われますので、今後もキャッチアップして行きたいと思います。

今回は以上となります。

EC2上のMySQLからRDSへの移行

こんにちは。配信/インフラチームの佐々木です。

少し前の話になりますが、Bypass(DSP)のRDBをEC2上のMySQLからからRDS(Aurora)に移行しました。データ容量が膨大なためmysqldumpを利用した移行は出来ず、色々苦労しましたのでそう言った点を記載します。

移行時のレプリケーション構成

移行するにあたり、事前に本番のデータをRDSに移しレプリケーションさせておく必要があるのですが、移行対象のMySQLはステートメントベースのレプリケーションのため、構成としては以下のようになります。

本番のMySQL(EC2)
↓ステートメントベースでレプリケーション
レプリケーション用のMySQL(EC2)
↓行ベースでレプリケーション
Aurora

AMIイメージを利用したMySQLのレプリケーション

前述の通りEC2 to EC2のレプリケーションをmysqldumpでは出来ないため、AMIイメージでMySQLをインスタンス丸ごとコピーしレプリケーションすることで実現しました。あまり一般的なやり方では無いのですが、イメージを取得する直前（バイナリログの最後のポジション）のポジションを探し出し、レプリケーション開始時にそのポジションを指定することで実現しました。

RDSへのレプリケーション

EC2からRDSにレプリケーションする際はDMS(Database Migration Service)を利用するのが一般的と思います。
ですがDMSを利用してのレプリケーションが上手くいかなかったため、XtraBackupというMySQL用のバックアップツールを利用してS3上にデータをバックアップし、そのデータをRDSにリストア後、レプリケーションを開始することで実現しました。このツールはバックアップ時にバイナリログのポジションもinfoとして残るため、バイナリログの差分を探す必要もありません。XtraBackup はDMSと違いCLIでの設定になりますが、使ってみた感じでは特に難しいところはなく、バックアップ時間もmysqldumpに比べると大幅に削減できますので、大容量のDBのバックアップ時にはオススメ出来るツールです。

Auroraの設定

RDSの仕様として文字コードが一部変更されてしまっていたので、クラスターのパラメータグループで設定し直しました。
参考:https://qiita.com/reoy/items/e355debf1e2b2abd703b
またユーザ関連の設定も一部差分が出ましたが、大きな問題はありませんでした。

今回は以上となります。

DynamoDBストリームの利用

こんにちは。技術開発部・配信/インフラチームの二階堂です。弊社DSP「Bypass」ではDynamoDBを利用しております。今回はその機能の一つであるDynamoDBストリームを紹介したいと思います。

DynamoDBストリームとは

DynamoDBストリームはDynamoDBへの書き込み・更新・削除処理(ttlによる自動削除を含む)を最大24時間保存する機能です。テーブル設定で「ストリーム有効」にすると保存されるようになります。保存内容は「キーのみ」「新しいイメージ」「古いイメージ」「新旧イメージ」の4種類から選択可能で、必要な情報のみを保存することで使用料を抑えることが可能です。

ストリームレコードの保存形式

DynamoDBストリームに保存されたデータを扱うにあたり、まずはデータがどのような形式で保存されるかを説明したいと思います。低レベルAPIを利用する場合はこの知識が必須です。

DynamoDBストリームのデータは下図のように複数のシャードから構成され、シャードは複数のストリームレコードから構成されます。ストリームレコードはDynamoDBへの書き込み処理などリクエスト一つ一つに対応します。シャードには順番が存在し各シャードには次のシャードのidが保存されています。

(図は公式ページより引用)

ストリームレコードの取得方法

低レベルAPIを利用してデータを取得する際には次の手順で取得します。

DynamoDBのテーブル名からdescribe-tableでLatestStreamArnを取得する
DynamoDBStreamsのdescribe-streamで取得したLatestStreamArnからシャードのリストを取得する
リストの一番最初のシャードのシャードidとLatestStreamArnを使ってget-shard-iteratorでイテレータを取得する
取得したイテレータを使ってget-recordsでストリームレコードのリストを取得する
ストリームレコードを各々処理する
2で取得したシャードそれぞれに対して3~5を行う

この手順の注意点は2,4でリストを取得する時に対象が多すぎると一度に全て取得することができない点です。手順2ではLastEvaluatedShardIdが入っていた場合、手順4ではNextShardIteratorが入っていた場合にはその値を使って再度取得する必要があります。

また、手順4ではシャードが閉じていない場合には次のストリームレコードが存在しなくてもNextShardIteratorが入っています。そのため常時実行するタイプの処理ではない場合には、数回連続でget-recordsの結果が空だった場合にはNextShardIteratorが入っていても中断するなどの処理が必要になります。

まとめ

DynamoDBストリームはttlによる削除検知など痒いところに手が届く便利な機能ですが取得方法が複雑で躓きやすい部分でもあります。この記事にがその一助となれば幸いです。

今回は以上となります。

ClassicLinkを使用してVPCとEC2-Classic間の相互通信を行う

こんにちは。技術開発部部長の川住です。

弊社DSP「Bypass」はシステムをAWSに移行してから5年以上が経過しました。近年ではEC2インスタンスをVPC (Virtual Private Cloud) 内に作成し運用していますが、AWSへの移行当初にVPC外（EC2-Classic）に作成したサーバがいくつか現在も稼働しており、「VPC内で稼働しているインスタンス」と、「VPC外で稼働しているインスタンス」が混在している環境となっています。今回はこのような環境で使用すると便利な「ClassicLink」という機能を紹介します。

ClassicLinkを使うとできること

VPC外のインスタンスと特定のVPCの相互接続

ClassicLinkを使用すると、VPC内（外）のサーバがあたかも同一のLAN上に存在するかのように、VPC外（内）のインスタンスからアクセスできるようになります。これによって、VPC外インスタンスのVPC内への移行を段階的に行えますし、移行の際のダウンタイムを減らせます。

ClassicLinkではできないこと

異なるVPC間の相互接続

ClassicLinkでは、「VPC外 (EC2-Classic) 」のインスタンスと特定のVPCとの相互接続を行う機能であり、VPC間の相互接続には使用できません。このような場合には、「VPC peering」機能を使用して相互接続の設定を行う必要があります。

VPC外のインスタンスと、複数のVPCとの相互接続

ClassicLinkはサーバごとに相互接続を行うVPCを設定できますが、ClassicLinkで接続できるVPCは1インスタンスに対して1つだけです。複数のVPCへのアクセスを実現にするには「VPC peering」機能と、VPCのルーティング設定を組み合わせる必要があります。

ClassicLinkの使い方

ClassicLinkの設定はAWSのコンソール画面上、またはaws-cliで行えます。設定したいインスタンスを選択し、接続したいVPC名と、VPC外からの通信の際にVPC側で適用するセキュリティグループを選択します。VPC内のセキュリティグループからはVPC外のセキュリティグループは参照できないので、EC2-ClassicのIP帯などを指定したインバウンドルールを設定したセキュリティグループを作成しておく必要があります。

ClassicLink使用時の注意点

ClassicLinkは起動中のインスタンス対してのみ設定でき、停止すると設定が失われてしまうので注意が必要です。

まとめ

使用できる場面は少ないですが、ClassicLinkを使用することで、VPC内外の相互接続を簡単に行えて、それによってVPC内への移行作業の手間やダウンタイムの削減が可能です。

今回は以上となります。

SQS + Lambdaでs2sの基盤を作った話

こんにちは。技術開発部・配信/インフラチームの二階堂です。

弊社のプロダクトでは連携している効果測定ツールに対して、S2Sで通知を行う場合があります。この通知処理を以前まではEC2上に配置したデーモンプログラムで行っていたのですが、処理の共通化・高速化・インフラ費用削減などの目的でSQS+Lambdaに移行しました。この経験を踏まえて移行時のポイントを紹介したいと思います。

移行前のフローと問題点

通知先のURLの入ったログを通知用インスタンス(複数ある内のどれか一つ)に書き出す
EC2上に配置したデーモンプログラムがログを読み込み通知を行う
同じくデーモンプログラムが通知結果のログを書き出す

問題点

常時起動のインスタンスが高価
時間帯によって通知量が変化するため通知量が多い時に時々遅延が発生する
通知漏れが発生した際にどの通知用インスタンスが原因か調査するコストが高い

SQS + Lambda のフロー

通知先のURLの入ったログをSQSに送信
定期実行されるLambda(図中a)がSQSに送られたメッセージ数(NumberOfMessageSent)に比例した数の通知用Lambda(図中b)をキック
通知用LambdaがSQSからメッセージを取得→通知→結果をS3に保存を5分間繰り返す

特徴・改善点

常時起動EC2よりLambdaの方が圧倒的に安価 (問題点1)
全てのログを一度SQSに送る事でそれ以降のフローを共通化し調査コストを下げた (問題点3)
Lambdaを2段構成にする事で通知量の変化に柔軟に対応できるようになった (問題点2)
通知用Lambdaはログのパースと通知しかしていないので他の通知にも容易に対応できる

効果

インフラコストが約10分の1に減った
リリース以前には定期的に発生していた調査や再通知などの対応もほぼ無くなり安定して動作している

移行した感想

Lambdaの料金は実行時間*メモリ使用量なのでその辺を意識したコードになっていないと高い効果が得られません。今回の処理内容はただの通知なのでメモリはあまり使わないので速度を上げる工夫として通知部分を並列化しました。最初は並列化していなかったのですがその時は移行前とあまり費用が変わらなかったことを考えるとコスト意識の重要性が判りやすいのではないかと思います。

今回の基盤開発は並列化対応も含めて何かと初めての経験が多い開発だったので効果にしても経験にしてもとても有意義なものだったと思います。

今回は以上となります。

Lambda@Edgeを利用した画像のリサイズを試してみた

こんにちは。技術開発部部長の川住です。

弊社プロダクトにて、「オリジナル画像を適切な大きさに縮小してから読み込む仕組み」を作る必要が生じたので、遅ればせながらLambda@Edgeを使ってみたので、利用時のポイントを紹介したいと思います。

Lambda@Edgeとは？

Lambda@Edgeは、Amazon CloudFrontのエッジサーバで、AWS Lambdaの関数を実行できる仕組みです。リクエスト-レスポンス間の以下4つのタイミングに対してLambda関数を設定できます。

CloudFrontのエッジサーバがユーザからのリクエストを受け取る時 (Viewer Request)
(エッジサーバにキャッシュがなく)、オリジンサーバへリクエストを転送する前 (Origin Request)
オリジンサーバからレスポンスを受信した後 (Origin Response)
エッジサーバからユーザへレスポンスを転送する前 (Viewer Response)

Lambda関数に機能を実装することで、例えば以下のような仕組みを実現できます。

ユーザ認証やリダイレクトを行う
HTTPヘッダを操作する (追加, 削除, 変更)
コンテンツを必要に応じて加工してレスポンスする

Lambda@Edgeを使用した画像のリサイズ

Lambda@Edgeを利用した画像のリサイズの仕組みの構築方法に関しては、こちらにて詳しく紹介されていますので、実装の詳細については割愛します。大雑把に言いますと、2つのLambda関数を実装しそれらをCloudFrontに設定することで実現しています。

Viewer Requestとして、リサイズ後の幅や高さなどのパラメータを受け取り、パスに組み込む関数をCloudFrontに登録する
- エッジにリサイズ後の画像のキャッシュがあれば、オリジンへリクエストは転送されず、キャッシュデータがレスポンスされる
Origin Responseとして、必要に応じてオリジンから受け取った画像をリサイズし、レスポンスとして返す関数をCloudFrontに登録する
- オリジンにリサイズ後の画像がすでに保管されている場合は、保管されている画像をレスポンスする
- オリジンにリサイズ後の画像が保管されていない場合は、画像を取得してリサイズした後、オリジンにデータを格納し、画像をレスポンスする

Lambda@Edge利用時のポイント

Lambda@EdgeはAWS Lambdaと同様の制約を受けるほかに、Lambda@Edge特有の制約や注意点があったので紹介します。

スペック面での制約

AWS Lambdaでは実行時のメモリ量やタイムアウト時間を設定できますが、Lambda@Edgeでの実行時にはこれらの設定上限が通常よりも厳しくなります。

メモリ量の上限: 128MB
タイムアウトの上限: 5秒

その他制約に関してはこちらが詳しいです。また、AWS Lambdaでは複数の言語をサポートしていますが、Lambda@Edgeで使用できるのは「 node.js 6.10, node.js 8.10 」のみとなっています。

Lambda関数はus-east-1 (バージニア北部) に登録する必要がある

CloudFrontに設定できるLambda@Edge関数はバージニア北部に登録されているものだけです。

バージョンつきのarnを紐つける必要がある

CloudFrontには $LATEST や $ALIAS のarnを設定できないので、バージョンを発行したLambda関数をCloudFrontに設定する必要があります。

実行時のCloudWatch Logはエッジサーバのリージョンに排出される

Lambda関数の登録自体はus-east-1 (バージニア北部) ですが、実行はCloudFrontのエッジサーバであるため、実行時のCloudWatch Logの排出先はエッジサーバのロケーションに依存します。 (日本からアクセスした場合には、東京、ソウル、シンガポールリージョンあたりにログが排出されていました。大半は東京。)

使ってみた感想

今回の用途以外にも、A/Bテストなどにも利用できそう
大量アクセスのある場面には注意が必要
- リクエスト数とLambdaのコード実行時間に比例して利用料金が発生。キャッシュヒット率を高める工夫が必要になってきそう。

今回は以上となります。

AWS ストレージサービス「S3」

今週もまた台風が近づいておりますね。初めまして、今年新卒で入社した技術開発部の程です。週末は同僚と登山に行く予定なのに台風直撃の知らせを聞いて下がり気分です。自然ばかりはITの技術だけではどうにもならないので仕方ないですね。

さて、私、現在は自社DSP、Bypassの開発に携わっているのですが弊社広告配信システムはAWSを利用して構築されております。今回は、AWSの中でも特に弊社広告配信システムにおいても実際に活用している S3というストレージサービスについて簡単に概要や特徴などについてまとめたいと思います。

S3

S3では、バケットと呼ばれる仮想的なオブジェクト置き場に様々なファイルやメディアコンテンツ（＝オブジェクト）を格納し AWSクラウドサーバ上に保存することができます。保存したオブジェクトはいつでもどこからでも参照したり新規オブジェクトを追加することができます。

S3の特徴

容量無制限
スケーラブル
容量は無制限となっており、大量のデータを扱う場合にも、上限を心配することなく使用できます。
冗長化されている
保存したオブジェクトは異なるアベイラビリティゾーン（AWSによる場所の区分け）にある複数のサーバーに複製保存されるので障害発生時にデータロストの危険性が低く安心です。また、自前で冗長化する手間が省けるという利点もあります。
高い堅牢性
99.999999999%（イレブンナイン）の堅牢性（aws公式サイトより）

S3の操作

S3上でオブジェクトは次のような形式で表現され、管理されます。

s3://{バケット名}/{オブジェクトを保管しておく場所を表すパス}

1	s3://{バケット名}/{オブジェクトを保管しておく場所を表すパス}

調べたところ、S3内部ではフォルダという概念はなく、S3上では単純にKey-Value方式でオブジェクトが格納されているのだそうです。とはいえ、実際に使ってる時はあんまり意識する必要はなく、通常のファイルと同じような感覚で操作できるのがいいですね。

AWSではS3を操作するための方法をいくつか用意しており、目的に応じて使い分けも可能です。具体的には以下のようなものが挙げられます。

ブラウザ上のコンソールから操作
コマンドラインから操作
AWS提供のSDKより各種アプリケーションから操作
3rd party製のツールで操作

コマンドラインから操作できるのは便利ですね。以下のように、基本的なバケットやファイルの作成、削除、コピーなどの操作は一通りCLIで実行可能です。

$ aws s3 mb s3://{バケット名}                          #バケットの作成(おそらくmb=make bucket)
$ aws s3 rb s3://{バケット名}                          #バケットの削除(おそらくrb=remove bucket)
$ aws s3 sync {フォルダパス} s3://{バケット名}/{パス}　     #バケットの内容をローカルフォルダと同期
$ aws s3 cp {ファイルパス} s3://{バケット名}/{パス}        #ローカルのファイルをバケットにコピー
$ aws s3 rm s3://{バケット名}/{ファイルパス}              #バケットのファイルを削除

$ aws s3 mb s3://{バケット名} #バケットの作成(おそらくmb=make bucket)

$ aws s3 rb s3://{バケット名} #バケットの削除(おそらくrb=remove bucket)

$ aws s3 sync {フォルダパス} s3://{バケット名}/{パス}　 #バケットの内容をローカルフォルダと同期

$ aws s3 cp {ファイルパス} s3://{バケット名}/{パス} #ローカルのファイルをバケットにコピー

$ aws s3 rm s3://{バケット名}/{ファイルパス} #バケットのファイルを削除

S3操作用のコマンドとしては上記のものの他に、aws s3apiというものがあり、前者はAPIとコマンドが１：１で対応する形の低レベルなコマンド群であるのに対し、後者は複数のリクエストにまたがる様な処理などが実装された高レベルなコマンド群である、という違いがあります。

もちろん、ローカル->S3だけではなく, S3->ローカルやS3->S3間のファイル移動を行うこともできます。

コンソールから操作する場合は以下のような画面上で、バケット作成やファイルのアップロードを行います。

ログインしたら最初に表示されるバケット管理画面のイメージです。

バケット新規作成の後は、そのバケット内に格納されるファイルを管理する画面に遷移します。この画面上では、バケットへのファイルのアップロードや、フォルダの作成などができます。

適当に１個ファイルをアップロードしてみるとこのようにファイルが追加されます。

コンソール上で操作する場合は、クリック操作だけで非常に簡単に、バケットの作成からファイルのアップロードまで実行することができました。

S3のユースケース

AWS公式サイトやWebサイト上の記事を調べると、次の３つが主なユースケースとしてよく取り上げられています。

データのバックアップ
前述の通り、高い堅牢性を備えていることから、消失すると困る様々なデータを保管する。
コンテンツ配信
S3上に保存したコンテンツを配信する。
ログデータなどの保存先
EC２で収集されたログの退避先、ビッグデータ分析で使用する生データの保存先として利用する。

弊社広告配信システムにおいては特に動画広告の場合に、S3上に動画素材をアップロードした上で AWS CloudFrontとS3を連携させることで、容量の大きい動画系広告でも高速かつ安定した広告配信を実現しています。

バージョン管理

S3で保存されるオブジェクトは、バージョンで管理することも可能です。例えば、誤削除などのミス発生時などにこの機能が適用されていれば、すぐに以前のバージョンに復旧することができます。この機能を有効化すると、オブジェクトを更新した時などに前の世代のオブジェクトが自動的に保管される様になります。何世代分保存するかを指定することもできます。

Notification(通知)機能

バケットにファイルが追加されたことをイベントとして検知したい時はこの機能が有用です。この機能ではバケット単位で、以下のイベントが発生した際に Amazon SNS, SQS, LambdaといったAWSサービスに通知を飛ばすことができます。

新しいオブジェクトの作成イベント(Put, Post, Copy, CompleteMultiPartUpload)
オブジェクト削除イベント(Delete, DeleteMarkerCreated)
低冗長化ストレージのオブジェクト消失イベント(RRSObjectLost)

その他の機能

クロスリージョンレプリケーション
別リージョンへの複製保存を行う。
S3へのアクセスログ
S3上でバケットに対してどんな操作を行ったかの記録ログを出力させる。
Tag管理
バケットに対してタグを指定する。
メタデータ
オブジェクトに対してメタデータを設定する。

私自身、入社して初めてクラウドサービスを触ったのですが実際に使ってみるとその操作の簡単さと便利さに驚きました。個人利用も可能なので、個人の自主アプリ制作などにも活用できそうですね。

それでは以上となります。

AWS Glue + Athena構成を試す

こんにちは。技術開発部の赤井橋です。

弊社では現在adstirログ基盤のリプレイスを計画しており、その一貫としてAWS Glueでのデータ変換（json → parquet）、及び変換データのAthenaでの検索を試しました。

Glueとは

https://aws.amazon.com/jp/glue/

2017-08-15から利用出来るようになった抽出、変換、ロード (ETL) を行う完全マネージド型のAWSサービスです。使い所としてはファイルのカラムナフォーマットへの変換、及びパーティションが有効なディレクトリへの配置、データカタログ(テーブル定義のメタデータ)の更新・・など、ビッグデータを使いやすく成型する場面が多いかと思います。

Glueが提供する機能

大きく分けて2つ存在します。(2018-07-31時点)

1. データカタログの更新

クローラという機能を用いてデータカタログの自動更新を行うことが出来ます。クローラは指定されたデータソース（特定のS3ディレクトリなど）内をスキャンし、該当ディレクトリにあるファイルフォーマットに合わせたテーブル定義（パーティショニング含む）を自動で行ってくれます。定義されたデータカタログはAthena、EMR、Redshift Spectrumでも使用(2018-07-31時点)でき、実行スケジュールの登録も可能です。

2. ETL

ジョブという機能を用いてデータ抽出、変換を行うことが出来ます。ジョブ追加時のセットアップガイダンスに従って進めていくと最終的にPythonのスクリプトが自動生成されます。シンプルな処理であればスクリプトの修正は不要ですが、手の込んだ処理の場合修正する必要があります。ジョブを定期実行するトリガーという機能もあります。

使用にあたり

上記2つの機能はどちらかだけ使用してもよく、どちらとも使用したい場合も使用順序に制約はありません。そのため、クローラでテーブル定義を更新し、更新されたテーブル定義を元にジョブでのデータ変換を行う、という流れ以外にもジョブで変換されたファイルに対してクローラでテーブル定義を更新する、という用途でも使用出来ます。

ジョブのスクリプト

セットアップガイダンスを終えるとPythonスクリプトが生成されますが、例えば特定の引数を受け取って処理を行いたい場合は別途実装が必要です。スクリプトではGlueで独自定義されたDynamicFrameというデータ構造を操作することで独自の変換処理を行えます。

例）AWS CLIからyear引数を指定してGlueを実行し、受け取ったyear引数をS3のデータソースのパスとして設定したい場合

AWS CLI

aws glue start-job-run --job-name TestJob --arguments '{"--year":"2018"}'

1	aws glue start-job-run --job-name TestJob --arguments '{"--year":"2018"}'

スクリプト

from awsglue.utils import getResolvedOptions

# 引数からパスを生成
args = getResolvedOptions(sys.argv, ['year'])
basepath = "s3://mybucket/Glue/year="
s3path = basepath + args['year']

sc = SparkContext()
glueContext = GlueContext(sc)

# 作成したパスのデータを指定して、DynamicFrameを作成
datasource0 = glueContext.create_dynamic_frame.from_options(connection_type="s3", connection_options={"paths": [s3path]}, format="csv", format_options={}, transformation_ctx="datasource0")

...
#以後、DataFrameに対する処理を記述

from awsglue.utils import getResolvedOptions

# 引数からパスを生成

args = getResolvedOptions(sys.argv, ['year'])

basepath = "s3://mybucket/Glue/year="

s3path = basepath + args['year']

sc = SparkContext()

glueContext = GlueContext(sc)

# 作成したパスのデータを指定して、DynamicFrameを作成

datasource0 = glueContext.create_dynamic_frame.from_options(connection_type="s3", connection_options={"paths": [s3path]}, format="csv", format_options={}, transformation_ctx="datasource0")

...

#以後、DataFrameに対する処理を記述

変換対象のフォーマットが複雑な場合も別途実装が必要です。

例）tsvフォーマットの1列にjson文字列があり、json文字列の部分をstructの配列として変換したい場合

元データ（tsv）

"2018-07-31 00:00:00"   "type1" "{column3:[{sub_column1: xxxx, sub_column2: yyyy}, {sub_column1: xxxx, sub_column2: yyyy}]}"
"2018-07-31 00:00:00"   "type2" "{column3:[{sub_column1: xxxx, sub_column2: yyyy}, {sub_column1: xxxx, sub_column2: yyyy}]}"

1 2	"2018-07-31 00:00:00" "type1" "{column3:[{sub_column1: xxxx, sub_column2: yyyy}, {sub_column1: xxxx, sub_column2: yyyy}]}" "2018-07-31 00:00:00" "type2" "{column3:[{sub_column1: xxxx, sub_column2: yyyy}, {sub_column1: xxxx, sub_column2: yyyy}]}"

スクリプト

# マッピング
applymapping1 = ApplyMapping.apply(frame = datasource0, mappings = [("col0", "string", "col0", "string"), ("col1", "string", "col1", "string"), ("col2", "string", "json", "string")], transformation_ctx = "applymapping1")

default_df = applymapping1.toDF()

# スキーマ定義
fields = [
    StructField("column1",StringType()),
    StructField("column2",StringType()),
    StructField("column3",ArrayType(
        StructType([
            StructField("sub_column1", StringType()),
            StructField("sub_column2", IntegerType()),
        ]))),
]
schema = StructType(fields)

# データ成型
def format(col0, col1, json):
    json_data = json.loads(json)
    ret = {}
    ret["column1"] = col0
    ret["column2"] = col1
    json_list = []
    for sub_column in json_data["column3"]:
        sample_dict = {}
        sample_dict["sub_column1"] = str(sub_column["sub_column1"])
        sample_dict["sub_column2"] = int(sub_column["sub_column2"])
        # append
        json_list.append(sample_dict)
    ret["column3"] = json_list
    return ret

# データ成型してDynamicFrameにする
rdd = default_df.select("col0", "col1", "json").rdd.map(lambda x: format(x.col0, x.col1, x.json))
sqlContext = SQLContext(sc)
parsedDF = sqlContext.createDataFrame(rdd, schema)
dyf = DynamicFrame.fromDF(parsedDF, glueContext, "sample_format")

# マッピング

applymapping1 = ApplyMapping.apply(frame = datasource0, mappings = [("col0", "string", "col0", "string"), ("col1", "string", "col1", "string"), ("col2", "string", "json", "string")], transformation_ctx = "applymapping1")

default_df = applymapping1.toDF()

# スキーマ定義

fields = [

StructField("column1",StringType()),

StructField("column2",StringType()),

StructField("column3",ArrayType(

StructType([

StructField("sub_column1", StringType()),

StructField("sub_column2", IntegerType()),

]))),

]

schema = StructType(fields)

# データ成型

def format(col0, col1, json):

json_data = json.loads(json)

ret = {}

ret["column1"] = col0

ret["column2"] = col1

json_list = []

for sub_column in json_data["column3"]:

sample_dict = {}

sample_dict["sub_column1"] = str(sub_column["sub_column1"])

sample_dict["sub_column2"] = int(sub_column["sub_column2"])

# append

json_list.append(sample_dict)

ret["column3"] = json_list

return ret

# データ成型してDynamicFrameにする

rdd = default_df.select("col0", "col1", "json").rdd.map(lambda x: format(x.col0, x.col1, x.json))

sqlContext = SQLContext(sc)

parsedDF = sqlContext.createDataFrame(rdd, schema)

dyf = DynamicFrame.fromDF(parsedDF, glueContext, "sample_format")

GlueとAthena、使ってみて不自由だった点

Glueでデータソースとして読み込めるのは文字コードがUTF-8のみ

UTF-8以外の文字列が変換対象のデータソースに含まれているとGlueでの変換処理が失敗します。

[AWS Black Belt Onine Seminar] AWS Glue

根本的な解決ではないですが、AWS Lambdaを用い対象となるログファイルをUTF-8に変換する、という前処理を行うことで対処しました。

DPUを上げても劇的な処理速度向上は見込めない

GlueではDPU(データ処理ユニット)の数を指定出来るのですが、2倍にすれば2倍処理が早くなる、という挙動ではありませんでした。 7.7G分のファイルでそれぞれ検証したところ、

DPU 10 → 14 mins
DPU 50 → 9 mins
DPU 100 → 9 mins

DPU 10 → 14 mins

DPU 50 → 9 mins

DPU 100 → 9 mins

という結果でした。

Athenaでのstruct型の使い勝手が悪い

struct型のスキーマ定義に値を追加すると、スキーマと同様の構造で格納されているパーティションでは問題なく検索出来ますが、値が存在しない(スキーマ変更前の構造の)ファイルが格納されているパーティションでは「HIVE_CANNOT_OPEN_SPLIT」エラーが発生し検索できませんでした。

この定義から 
 CREATE EXTERNAL TABLE `test_tbl`(
  `id` int, 
  `column` array&lt;struct&lt;aaa:int, bbb:int, ccc:int>>,
 〜〜

この定義に変更すると、定義変更前のファイルを読み込もうとした際にHIVE_CANNOT_OPEN_SPLITエラーが発生
CREATE EXTERNAL TABLE `test_tbl`(
  `id` int, 
  `column` array&lt;struct&lt;aaa:int, bbb:int, ccc:int, new_column:int>>,
 〜〜

この定義から

CREATE EXTERNAL TABLE `test_tbl`(

`id` int,

`column` array<struct<aaa:int, bbb:int, ccc:int>>,

〜〜

この定義に変更すると、定義変更前のファイルを読み込もうとした際にHIVE_CANNOT_OPEN_SPLITエラーが発生

CREATE EXTERNAL TABLE `test_tbl`(

`id` int,

`column` array<struct<aaa:int, bbb:int, ccc:int, new_column:int>>,

〜〜

こちら根本的な解決法はないようで、暫定対応としてstruct型をstring型に変更し検索の際にstring文字列をjsonと扱うように対処しました。

まとめ

検証の結果、コストや処理時間なども考慮するとまだGlue + Athenaを導入する判断に至っていません。ただ、比較的新しく提供されたサービスのため今後も機能が追加され使い勝手も改善されていくはずです。ビッグデータがますます全盛となる時代、このようなサービスの重要性は増していくのではないでしょうか。

今回は以上です。

APIを利用したCloudWatchの設定

こんにちは。配信/インフラチームの佐々木です。

弊社ではAWS上にシステムを構築していますが、前回お話しした通り監視ツールはCloudWatchを利用するケースが増えております。今回はAPIを利用してCloudWatchを設定する手順をご説明します。

Alarmの設定

CloudWatchの用途としてインスタンスの監視に使うケースは多いと思います。そこでインスタンスのAlarmを設定するスクリプトを作ってみました。aws-cliとbotoどちらかを利用するのですが、今回はaws-cliで実装しています。

#!/usr/bin/env python
import subprocess
import sys

instance_list = sys.argv[1:]

for i in instance_list:
    instance_id = subprocess.check_output("aws ec2 describe-instances --filters Name=tag-key,Values=Name,Name=tag-value,Values=" + i + " --query 'Reservations[].Instances[].InstanceId' --output text", shell=True)
    instance_id = instance_id.strip()
    put_metric_alarm = 'aws cloudwatch put-metric-alarm --alarm-name awsec2-' + i + '-Status --comparison-operator GreaterThanOrEqualToThreshold \
    --threshold 1 \
    --metric-name StatusCheckFailed \
    --evaluation-periods 1 \
    --period 60 \
    --namespace "AWS/EC2" \
    --statistic Maximum \
    --dimensions Name=InstanceId,Value=' + instance_id + ' \
    --alarm-actions XXXXXXXXXX'
    subprocess.check_output(put_metric_alarm , shell=True)

#!/usr/bin/env python

import subprocess

import sys

instance_list = sys.argv[1:]

for i in instance_list:

instance_id = subprocess.check_output("aws ec2 describe-instances --filters Name=tag-key,Values=Name,Name=tag-value,Values=" + i + " --query 'Reservations[].Instances[].InstanceId' --output text", shell=True)

instance_id = instance_id.strip()

put_metric_alarm = 'aws cloudwatch put-metric-alarm --alarm-name awsec2-' + i + '-Status --comparison-operator GreaterThanOrEqualToThreshold \

--threshold 1 \

--metric-name StatusCheckFailed \

--evaluation-periods 1 \

--period 60 \

--namespace "AWS/EC2" \

--statistic Maximum \

--dimensions Name=InstanceId,Value=' + instance_id + ' \

--alarm-actions XXXXXXXXXX'

subprocess.check_output(put_metric_alarm , shell=True)

このように引数にNameタグを指定して利用します。

$ python cloudwatch.py WEB-01 WEB-02 ...

1	$ python cloudwatch.py WEB-01 WEB-02 ...

インスタンスIDで指定する方がシンプルな実装になるのですが、インスタンスIDはコピーペーストする必要がありますし、Nameタグの方がワイルドカード指定も出来て便利です。またアラーム名にもNameタグが入っていた方わかりやすくて良いと思います。ただNameタグが一意である必要がありますのでその点は注意が必要です。

Dashboardの設定

CloudWatchのDashboardもAPIを利用して設定することが可能です。その手順を記載します。

APIの仕様は以下になるのですが、元になる設定が無いと難しいと思いますので、適当なDashboardから定義をコピーします。ここでは2台のインスタンスのCPU使用率とNetworkInのメトリックを登録しています。

https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_PutDashboard.html

[アクション]の[ダッシュボードの編集]を選択すると、Jsonの定義を取得できます。ここから直接変更することも可能です。

コピーしたJsonを元に編集します。インスタンスを1台増やしてサイズも倍にしてみました。

{
    "widgets": [
        {
            "type": "metric",
            "x": 0,
            "y": 0,
            "width": 12,
            "height": 12,
            "properties": {
                "view": "timeSeries",
                "stacked": false,
                "metrics": [
                    [ "AWS/EC2", "CPUUtilization", "InstanceId", "XXXXXXXXXX" ],
                    [ "...", "XXXXXXXXXX" ],
                    [ "...", "XXXXXXXXXX" ]
                ],
                "region": "ap-northeast-1",
                "period": 300
            }
        },
        {
            "type": "metric",
            "x": 12,
            "y": 0,
            "width": 12,
            "height": 12,
            "styles": "undefined",
            "properties": {
                "view": "timeSeries",
                "stacked": false,
                "region": "ap-northeast-1",
                "metrics": [
                    [ "AWS/EC2", "NetworkIn", "InstanceId", "XXXXXXXXXX" ],
                    [ "...", "XXXXXXXXXX" ],
                    [ "...", "XXXXXXXXXX" ]
                ]
            }
        }
    ]
}

{

"widgets": [

{

"type": "metric",

"x": 0,

"y": 0,

"width": 12,

"height": 12,

"properties": {

"view": "timeSeries",

"stacked": false,

"metrics": [

[ "AWS/EC2", "CPUUtilization", "InstanceId", "XXXXXXXXXX" ],

[ "...", "XXXXXXXXXX" ],

[ "...", "XXXXXXXXXX" ]

"region": "ap-northeast-1",

"period": 300

}

{

"type": "metric",

"x": 12,

"y": 0,

"width": 12,

"height": 12,

"styles": "undefined",

"properties": {

"view": "timeSeries",

"stacked": false,

"region": "ap-northeast-1",

"metrics": [

[ "AWS/EC2", "NetworkIn", "InstanceId", "XXXXXXXXXX" ],

[ "...", "XXXXXXXXXX" ],

[ "...", "XXXXXXXXXX" ]

]

}

]

}

作成したJsonファイルを以下のコマンドで適用します。

$ aws cloudwatch put-dashboard --dashboard-name TEST2 --dashboard-body file://dashbord.json

1	$ aws cloudwatch put-dashboard --dashboard-name TEST2 --dashboard-body file://dashbord.json

完成しました。

またこちらのページに、複数インスタンスを自動で登録するスクリプトが載っております。台数や取得するパラメータが多い場合などにはかなり有用かと思います。

https://aws.amazon.com/jp/blogs/news/new-api-cloudformation-support-for-amazon-cloudwatch-dashboards/

今回は以上になります。

Amazon Elasticsearch ServiceでKibanaを利用する

みなさんこんにちは。配信/インフラチームの佐々木と申します。adstirの配信サーバの開発とインフラを担当しております。

今回はAmazon Elasticsearch ServiceとKibanaを利用したデータの可視化について書きたいと思います。

ElasticsearchとKibanaについて

両方とも有名なミドルウェアなので詳細な説明は省きますが、端的に言うとElasticsearchは全文検索エンジンでKibanaがそれを可視化するためのWEB-GUI（中身はNode.js）になります。

ポイントとしてはElasticsearchもKibanaもオープンソースで公開されているのですが、両方ともAWSのマネージドサービスとしても提供されているため、構築と運用の負担が非常に軽いという点があります。（もちろんEC2を利用する事もできますし、AWS以外の環境でも利用は可能です。）開発元が同一なため親和性が高く、今後はバージョンも統一されていくようです（現在は5.x） Kibanaは以前のバージョンではダッシュボードは黒をベースとしたUIでしたが、このバージョンは非常にカラフルなデザインになっております。

ちなみに余談ですが正しくは"ElasticSearch"ではなく"Elasticsearch"となります。ですがちょっと長いのでこのブログではESと略させていただきます。

データのフロー

ESはWEB-APIとして動作するのですが、Fluentdでプラグインが用意されているためそれを利用するケースが多いです。直接POSTしても良いのですが、Fluentdを利用した方が簡単かつフレキシブルに使えます。流れとしては

Fluentd -> ES -> Kibana

となりますが、データをS3に保存する場合は以下のような流れが良さそうです。

Fluentd -> S3 -> Lambda -> ES -> Kibana

今回は前者の手順を記載いたします。

構築手順

1. AmazonESとKibanaのセットアップ

セットアップ自体は非常に簡単で、ものの数分で終わります。（作成の待ち時間がそれなりにありますが）AWSさまさまと言ったところです。

ESのダッシュボードでCreate a new domainをクリックします。

Domain名とバージョンを指定しNextをクリックします。

インスタンス数やスペックなどを指定しNextをクリックします。

最後にアクセスポリシーを設定し、Confirm and createをクリックします。

10分程度待てば作成が完了します。同時にKibanaも使える状態になっています。

2. Fluentd設定

下準備としてはFluentdとfluent-plugin-aws-elasticsearch-serviceをインストールしている必要があります。送信先にESのURLを指定します。

  ### 略
  type "aws-elasticsearch-service"
  ### 略
  <endpoint> 
    url #(設定したESのURL) 
    region #(ESが存在するリージョン) 
  </endpoint>

### 略

type "aws-elasticsearch-service"

### 略

url #(設定したESのURL)

region #(ESが存在するリージョン)

</endpoint>

3. ES設定

簡単な使い方をするのであれば設定は特に必要ありません。データがインサートされればそのまま使えるようになります。

4.Kibana設定

まずIndexの設定をする必要があります。ManagementでIndex Patternsをクリックします。

Add Newをクリックします。

作成したインデックスのパターンを入力し、Createをクリックします。

登録したインデックスのデータは、Discoverから確認できます。この例ではscore_Xというランダム数値のデータを使用しています。

次にインデックスからグラフを作成します。今回は折れ線グラフを作成しますので、VisualizeでLine chartを選択します。

対象のインデックスを選択します。

Y-Axisに対象のデータを登録し、X-AxisでDate Histogramを選択すれば時系列の折れ線グラフが出来ます。設定したらSaveをクリックします。

あとはDashboardで作成したグラフを貼り付けます。KibanaはDashboardが自由にカスタマイズ出来、例えばWEBサーバのレイテンシを確認しながら生のログを見るといった使い方が出来ます。

以上が構築手順になります。

最後に

弊社ではアドテクエンジニアを募集しております。広告技術に興味がある方・経験がある方のご応募をお待ちしております。また広告以外の部署やエンジニア以外の職種でも募集しておりますので、興味がある方はぜひご応募くだされば幸いです。

弊社コーポレートサイト
http://united.jp/recruit/information/

Wantedly
https://www.wantedly.com/companies/united/projects/