AWS AWS Glue – Dynamic Frames データを行や列に厳密に当てはめる前に、“柔らかい形”で扱う仕組み。多少フォーマットが違っていても読み込めたり、カラムを推定してくれたりするから、複雑なデータでもエラーになりにくい。 2025.02.22 AWS
AWS AWS Glue – Workflows ジョブやトリガーを複数つなげて、1→2→3…という一連の流れを組む機能。大規模なETL処理ではステップが多いから、ワークフローで管理すれば可視化しやすく、どこまで終わったかも追いやすいんだ。 2025.02.22 AWS
AWS AWS Glue – Triggers 時間になったら毎日ジョブを回す、あるいはファイルが来たら起動するなど、自動で動かす“きっかけ”を設定できる仕組み。人間が手動でやらなくても、新しいデータが来れば即座に変換処理できるから便利なんだ。 2025.02.22 AWS
AWS AWS Glue – Development Endpoints 自分でスクリプトを書いたりデバッグしたりするとき、Glueのジョブをいきなり動かすと大変だから、専用の“開発用接続口”を用意できる。ここでIDEと連携してテストし、完成したら本番ジョブにするんだ。 2025.02.22 AWS
AWS AWS Glue – Scripts PySparkやScalaで書くETLのプログラム。テーブルを読み込み、不要な列を削除し、別の形式に変換して、最終的にS3やRedshiftなどに保存…という手順をまとめる。Glueジョブがこれを実行してくれる。 2025.02.22 AWS
AWS AWS Glue – Jobs 実際にETLを走らせる“お仕事”の単位。スクリプトを使ってデータの変換やコピーを行う。ジョブを起動すると決められたステップで作業して、完了したらレポートを残すんだ。 2025.02.22 AWS
AWS AWS Glue – Crawlers S3やデータベースを自動でスキャンして、スキーマ(列名や型)を探し出して、Data Catalogに登録してくれる“探検ロボ”だね。新しいファイルが増えても勝手に追いかけてくれるから、手動登録の手間がいらないんだ。 2025.02.22 AWS
AWS AWS Glue – Data Catalog 各データがどこにあって、どんな形式をしているかの“目次”をまとめる辞書のようなもの。Athenaなど他のサービスでもこのカタログを使うことで、データの場所や列名を知り、すぐ検索できるんだ。 2025.02.22 AWS
AWS AWS Glue データを集めて整理し、別の場所に変換して運ぶ“ETL(データのお引越し)”を自動化するサービス。大量のファイルやテーブルを見に行って、どんな形か調べて、まとめてきれいにしてくれる“データのお掃除屋さん”みたいな存在。 2025.02.22 AWS
AWS AWS Step Functions – Cost Estimation ステップ数やトランジション回数で課金が変わる。StandardとExpressで料金体系が違うから、どのくらいの回数や継続時間になるか見積もりを立てて選ぶといいんだ。無駄なく使うとお得だね。 2025.02.22 AWS