AWS AWS Glue – Job Bookmark ジョブが前回どこまで処理したかを覚えていて、次回は続きから処理する機能。毎回全部を再変換しなくていいし、差分だけやるから速く終わる。ログの更新分だけ取り込むなどのシナリオで助かるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – Resources 処理に使うコンピュータ(EC2)やEMRクラスターなどを指定する。どんなスペックのマシンが必要か、スポットインスタンスを使うかなどを設定して、最小コストで動かす工夫もできる。 2025.02.22 AWS
AWS AWS Glue – Glue Studio Webブラウザ上の画面でドラッグ&ドロップしながらETLジョブを作れるツール。プログラミングが苦手でも流れを簡単に組めるし、裏ではPySparkのコードを自動生成してくれるから学習しやすい。 2025.02.22 AWS
AWS AWS Data Pipeline – Task Runner パイプラインの指示を受け取り、実際にコピーやSQL実行などを行う小さな“働き手”だよ。EC2やオンプレサーバーにインストールして、Data Pipelineと通信する。これで処理が自動化される。 2025.02.22 AWS
AWS AWS Glue – Glue DataBrew ノーコードでデータの前処理や可視化ができるサービス。列をマージしたり不要な値を消したりをマウス操作だけでできる。大規模なクリーニング作業を専門的スキルなしでもすすめられるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – SNS Notifications パイプラインの処理が終わったり失敗したりしたときにSNSでお知らせを出せる。夜中にジョブが止まっていても早めに気づけるし、完了通知を受けて次の作業を始めるなど連動もできるんだ。 2025.02.22 AWS
AWS AWS Glue – Integration with Athena Glueのカタログ情報を使って、AthenaでSQL検索が可能に。どこにどんなデータがあるかGlueが教えてくれるから、Athenaはすぐにクエリを実行できる。S3にあるファイルを表みたいに扱えるんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – Retry on Failures 処理が失敗したら自動で再挑戦する回数を決められる。ネットワークが一時的に落ちただけなら、何度かやり直せば成功するかもしれないし、人が起きてない時間帯でも対処されるのがありがたい。 2025.02.22 AWS
AWS AWS Glue – Integration with Redshift 変換したデータを直接Redshiftに取り込んだり、また逆にRedshiftのデータをS3に出したりETLできる。大規模分析用データをしっかり下ごしらえして、分析をスムーズにするのにピッタリ。 2025.02.22 AWS
AWS AWS Data Pipeline – Rerun パイプライン全体じゃなく、一部のステップだけやり直すことも可能。例えば途中でコピーが失敗したなら、その部分から再実行して完了させられる。時間とリソースの無駄を減らせるんだ。 2025.02.22 AWS