proxmox.blog

AWS

AWS Data Pipeline – DynamoDBDataNode

DynamoDBテーブルを扱うときの“データの置き場定義”。ここに読み書きするActivityと組み合わせれば、DynamoDBと他のサービスを繋ぐETLが可能になる。

2025.02.22

AWS

S3上のデータを扱う時に使う“データの置き場定義”みたいなもの。これをパイプラインのSourceやDestinationに指定して、S3から読み書きできる。

2025.02.22

AWS

パイプライン全体じゃなく、一部のステップだけやり直すことも可能。例えば途中でコピーが失敗したなら、その部分から再実行して完了させられる。時間とリソースの無駄を減らせるんだ。

2025.02.22

AWS

処理が失敗したら自動で再挑戦する回数を決められる。ネットワークが一時的に落ちただけなら、何度かやり直せば成功するかもしれないし、人が起きてない時間帯でも対処されるのがありがたい。

2025.02.22

AWS

パイプラインの処理が終わったり失敗したりしたときにSNSでお知らせを出せる。夜中にジョブが止まっていても早めに気づけるし、完了通知を受けて次の作業を始めるなど連動もできるんだ。

2025.02.22

AWS

パイプラインの指示を受け取り、実際にコピーやSQL実行などを行う小さな“働き手”だよ。EC2やオンプレサーバーにインストールして、Data Pipelineと通信する。これで処理が自動化される。

2025.02.22

AWS

処理に使うコンピュータ(EC2)やEMRクラスターなどを指定する。どんなスペックのマシンが必要か、スポットインスタンスを使うかなどを設定して、最小コストで動かす工夫もできる。

2025.02.22

AWS

Activityを実行する前に“ちゃんと元ファイルがあるか？”“テーブルが空いてるか？”などの条件を確かめられる。準備ができていなければ動かさないから、エラーや無駄なリソース消費を減らせるんだ。

2025.02.22

AWS

パイプラインをどのタイミング、どの頻度で走らせるか決める。毎日や週1回、あるいはすぐ実行など自由に設定できる。長期にわたるデータ加工を定期運用するのにぴったり。

2025.02.22

AWS

実際の“やること”を定義する部分。例えばS3からRedshiftにコピーする“CopyActivity”や、RDSに対してSQLを実行する“SqlActivity”などがある。組み合わせれば複雑な処理もできるんだ。

2025.02.22

AWS