AWS | ページ 107 | proxmox.blog

AWS

AWS Glue – Workflows

ジョブやトリガーを複数つなげて、1→2→3…という一連の流れを組む機能。大規模なETL処理ではステップが多いから、ワークフローで管理すれば可視化しやすく、どこまで終わったかも追いやすいんだ。

2025.02.22

AWS

パイプラインをどのタイミング、どの頻度で走らせるか決める。毎日や週1回、あるいはすぐ実行など自由に設定できる。長期にわたるデータ加工を定期運用するのにぴったり。

2025.02.22

AWS

データを行や列に厳密に当てはめる前に、“柔らかい形”で扱う仕組み。多少フォーマットが違っていても読み込めたり、カラムを推定してくれたりするから、複雑なデータでもエラーになりにくい。

2025.02.22

AWS

Activityを実行する前に“ちゃんと元ファイルがあるか？”“テーブルが空いてるか？”などの条件を確かめられる。準備ができていなければ動かさないから、エラーや無駄なリソース消費を減らせるんだ。

2025.02.22

AWS

ジョブが前回どこまで処理したかを覚えていて、次回は続きから処理する機能。毎回全部を再変換しなくていいし、差分だけやるから速く終わる。ログの更新分だけ取り込むなどのシナリオで助かるんだ。

2025.02.22

AWS

処理に使うコンピュータ(EC2)やEMRクラスターなどを指定する。どんなスペックのマシンが必要か、スポットインスタンスを使うかなどを設定して、最小コストで動かす工夫もできる。

2025.02.22

AWS

Webブラウザ上の画面でドラッグ&ドロップしながらETLジョブを作れるツール。プログラミングが苦手でも流れを簡単に組めるし、裏ではPySparkのコードを自動生成してくれるから学習しやすい。

2025.02.22

AWS

パイプラインの指示を受け取り、実際にコピーやSQL実行などを行う小さな“働き手”だよ。EC2やオンプレサーバーにインストールして、Data Pipelineと通信する。これで処理が自動化される。

2025.02.22

AWS

ノーコードでデータの前処理や可視化ができるサービス。列をマージしたり不要な値を消したりをマウス操作だけでできる。大規模なクリーニング作業を専門的スキルなしでもすすめられるんだ。

2025.02.22

AWS

パイプラインの処理が終わったり失敗したりしたときにSNSでお知らせを出せる。夜中にジョブが止まっていても早めに気づけるし、完了通知を受けて次の作業を始めるなど連動もできるんだ。

2025.02.22

AWS