AWS

AWS

AWS Glue – Workflows

ジョブやトリガーを複数つなげて、1→2→3…という一連の流れを組む機能。大規模なETL処理ではステップが多いから、ワークフローで管理すれば可視化しやすく、どこまで終わったかも追いやすいんだ。
AWS

AWS Data Pipeline – Schedule

パイプラインをどのタイミング、どの頻度で走らせるか決める。毎日や週1回、あるいはすぐ実行など自由に設定できる。長期にわたるデータ加工を定期運用するのにぴったり。
AWS

AWS Glue – Dynamic Frames

データを行や列に厳密に当てはめる前に、“柔らかい形”で扱う仕組み。多少フォーマットが違っていても読み込めたり、カラムを推定してくれたりするから、複雑なデータでもエラーになりにくい。
AWS

AWS Data Pipeline – Preconditions

Activityを実行する前に“ちゃんと元ファイルがあるか?”“テーブルが空いてるか?”などの条件を確かめられる。準備ができていなければ動かさないから、エラーや無駄なリソース消費を減らせるんだ。
AWS

AWS Glue – Job Bookmark

ジョブが前回どこまで処理したかを覚えていて、次回は続きから処理する機能。毎回全部を再変換しなくていいし、差分だけやるから速く終わる。ログの更新分だけ取り込むなどのシナリオで助かるんだ。
AWS

AWS Data Pipeline – Resources

処理に使うコンピュータ(EC2)やEMRクラスターなどを指定する。どんなスペックのマシンが必要か、スポットインスタンスを使うかなどを設定して、最小コストで動かす工夫もできる。
AWS

AWS Glue – Glue Studio

Webブラウザ上の画面でドラッグ&ドロップしながらETLジョブを作れるツール。プログラミングが苦手でも流れを簡単に組めるし、裏ではPySparkのコードを自動生成してくれるから学習しやすい。
AWS

AWS Data Pipeline – Task Runner

パイプラインの指示を受け取り、実際にコピーやSQL実行などを行う小さな“働き手”だよ。EC2やオンプレサーバーにインストールして、Data Pipelineと通信する。これで処理が自動化される。
AWS

AWS Glue – Glue DataBrew

ノーコードでデータの前処理や可視化ができるサービス。列をマージしたり不要な値を消したりをマウス操作だけでできる。大規模なクリーニング作業を専門的スキルなしでもすすめられるんだ。
AWS

AWS Data Pipeline – SNS Notifications

パイプラインの処理が終わったり失敗したりしたときにSNSでお知らせを出せる。夜中にジョブが止まっていても早めに気づけるし、完了通知を受けて次の作業を始めるなど連動もできるんだ。