AWS AWS Data Pipeline – Retry on Failures 処理が失敗したら自動で再挑戦する回数を決められる。ネットワークが一時的に落ちただけなら、何度かやり直せば成功するかもしれないし、人が起きてない時間帯でも対処されるのがありがたい。 2025.02.22 AWS
AWS AWS Data Pipeline – SNS Notifications パイプラインの処理が終わったり失敗したりしたときにSNSでお知らせを出せる。夜中にジョブが止まっていても早めに気づけるし、完了通知を受けて次の作業を始めるなど連動もできるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – Task Runner パイプラインの指示を受け取り、実際にコピーやSQL実行などを行う小さな“働き手”だよ。EC2やオンプレサーバーにインストールして、Data Pipelineと通信する。これで処理が自動化される。 2025.02.22 AWS
AWS AWS Data Pipeline – Resources 処理に使うコンピュータ(EC2)やEMRクラスターなどを指定する。どんなスペックのマシンが必要か、スポットインスタンスを使うかなどを設定して、最小コストで動かす工夫もできる。 2025.02.22 AWS
AWS AWS Data Pipeline – Preconditions Activityを実行する前に“ちゃんと元ファイルがあるか?”“テーブルが空いてるか?”などの条件を確かめられる。準備ができていなければ動かさないから、エラーや無駄なリソース消費を減らせるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – Schedule パイプラインをどのタイミング、どの頻度で走らせるか決める。毎日や週1回、あるいはすぐ実行など自由に設定できる。長期にわたるデータ加工を定期運用するのにぴったり。 2025.02.22 AWS
AWS AWS Data Pipeline – Activities 実際の“やること”を定義する部分。例えばS3からRedshiftにコピーする“CopyActivity”や、RDSに対してSQLを実行する“SqlActivity”などがある。組み合わせれば複雑な処理もできるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – Pipeline Definition どんな処理をどの順番で、どこにデータを送るかなどをJSON形式で書いた設計図。これを登録すると、その通りにパイプラインが動く。直感的にはワークフローをテキストで説明しているイメージ。 2025.02.22 AWS
AWS AWS Data Pipeline 古めのサービスだけど、データ移動や加工を“スケジュール管理”できる仕組み。たとえば毎日夜12時にS3からデータを取り出してRDSにコピー、といった定期的処理を自動化できる。今はGlueやStep Functionsが代替することも多いね。 2025.02.22 AWS
AWS AWS Glue – Data Quality (プレビュー) データの中にヘンな値が混ざっていないかチェックする新機能。型が合わないとか必須カラムが空っぽ、などを検査してレポートを作る。おかしいところを自動発見してくれれば修正がはかどるんだ。 2025.02.22 AWS