AWS AWS Data Pipeline – Pipeline Templates よくある処理パターンがテンプレート化されていて、そこから作り始めれば設定がだいぶ省ける。初心者でも典型的なバッチ処理を迷わず始められるし、使い回しも楽になるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – IAM Roles パイプラインがS3やRedshiftにアクセスするときの権限を設定する仕組み。必要最小限だけ許すことで、誤って他のバケットをいじらないようにできる。セキュリティを保ちつつ自動化も実現できるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – Pipeline Versioning パイプライン定義をバージョン管理できる。以前の設定に戻したいとか、新しい定義を試す前にバックアップしたいときに助かる。大規模運用で複雑なJSONを書き換えるときに特に重要。 2025.02.22 AWS
AWS AWS Data Pipeline – ShellCommandActivity シェルコマンドを自由に書いて実行させる作業。独自のスクリプトや外部ツールを呼び出すときに便利。例えばEC2上で一括処理をしたいときなどに使えるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – EMRActivity EMRクラスターを立ち上げてHadoopやSpark処理を走らせる。終わったらクラスターを片付けるなども自動化できる。大きなバッチ分析を定期的に回すのに最適だけど、今はGlueの方が簡単な場合もあるね。 2025.02.22 AWS
AWS AWS Data Pipeline – CopyActivity S3とRedshift間でデータを大量にコピーする定番の作業。パイプライン上で予定を組んでおけば、毎晩自動で転送できる。バッチ処理によるデータ更新に向いてるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – SqlActivity RDSやRedshift上でSQL文を実行する作業だよ。大量データの集計や変換をSQLでまとめてやって、結果を別の場所にコピーする流れを簡単に作れる。 2025.02.22 AWS
AWS AWS Data Pipeline – DynamoDBDataNode DynamoDBテーブルを扱うときの“データの置き場定義”。ここに読み書きするActivityと組み合わせれば、DynamoDBと他のサービスを繋ぐETLが可能になる。 2025.02.22 AWS
AWS AWS Data Pipeline – S3DataNode S3上のデータを扱う時に使う“データの置き場定義”みたいなもの。これをパイプラインのSourceやDestinationに指定して、S3から読み書きできる。 2025.02.22 AWS
AWS AWS Data Pipeline – Rerun パイプライン全体じゃなく、一部のステップだけやり直すことも可能。例えば途中でコピーが失敗したなら、その部分から再実行して完了させられる。時間とリソースの無駄を減らせるんだ。 2025.02.22 AWS