AWS

AWS Data Pipeline – Pipeline Templates

よくある処理パターンがテンプレート化されていて、そこから作り始めれば設定がだいぶ省ける。初心者でも典型的なバッチ処理を迷わず始められるし、使い回しも楽になるんだ。
AWS

AWS Data Pipeline – IAM Roles

パイプラインがS3やRedshiftにアクセスするときの権限を設定する仕組み。必要最小限だけ許すことで、誤って他のバケットをいじらないようにできる。セキュリティを保ちつつ自動化も実現できるんだ。
AWS

AWS Data Pipeline – Pipeline Versioning

パイプライン定義をバージョン管理できる。以前の設定に戻したいとか、新しい定義を試す前にバックアップしたいときに助かる。大規模運用で複雑なJSONを書き換えるときに特に重要。
AWS

AWS Data Pipeline – ShellCommandActivity

シェルコマンドを自由に書いて実行させる作業。独自のスクリプトや外部ツールを呼び出すときに便利。例えばEC2上で一括処理をしたいときなどに使えるんだ。
AWS

AWS Data Pipeline – EMRActivity

EMRクラスターを立ち上げてHadoopやSpark処理を走らせる。終わったらクラスターを片付けるなども自動化できる。大きなバッチ分析を定期的に回すのに最適だけど、今はGlueの方が簡単な場合もあるね。
AWS

AWS Data Pipeline – CopyActivity

S3とRedshift間でデータを大量にコピーする定番の作業。パイプライン上で予定を組んでおけば、毎晩自動で転送できる。バッチ処理によるデータ更新に向いてるんだ。
AWS

AWS Data Pipeline – SqlActivity

RDSやRedshift上でSQL文を実行する作業だよ。大量データの集計や変換をSQLでまとめてやって、結果を別の場所にコピーする流れを簡単に作れる。
AWS

AWS Data Pipeline – DynamoDBDataNode

DynamoDBテーブルを扱うときの“データの置き場定義”。ここに読み書きするActivityと組み合わせれば、DynamoDBと他のサービスを繋ぐETLが可能になる。
AWS

AWS Data Pipeline – S3DataNode

S3上のデータを扱う時に使う“データの置き場定義”みたいなもの。これをパイプラインのSourceやDestinationに指定して、S3から読み書きできる。
AWS

AWS Data Pipeline – Rerun

パイプライン全体じゃなく、一部のステップだけやり直すことも可能。例えば途中でコピーが失敗したなら、その部分から再実行して完了させられる。時間とリソースの無駄を減らせるんだ。