AWS AWS Glue – Glue DataBrew ノーコードでデータの前処理や可視化ができるサービス。列をマージしたり不要な値を消したりをマウス操作だけでできる。大規模なクリーニング作業を専門的スキルなしでもすすめられるんだ。 2025.02.22 AWS
AWS AWS Glue – Glue Studio Webブラウザ上の画面でドラッグ&ドロップしながらETLジョブを作れるツール。プログラミングが苦手でも流れを簡単に組めるし、裏ではPySparkのコードを自動生成してくれるから学習しやすい。 2025.02.22 AWS
AWS AWS Glue – Job Bookmark ジョブが前回どこまで処理したかを覚えていて、次回は続きから処理する機能。毎回全部を再変換しなくていいし、差分だけやるから速く終わる。ログの更新分だけ取り込むなどのシナリオで助かるんだ。 2025.02.22 AWS
AWS AWS Glue – Dynamic Frames データを行や列に厳密に当てはめる前に、“柔らかい形”で扱う仕組み。多少フォーマットが違っていても読み込めたり、カラムを推定してくれたりするから、複雑なデータでもエラーになりにくい。 2025.02.22 AWS
AWS AWS Glue – Workflows ジョブやトリガーを複数つなげて、1→2→3…という一連の流れを組む機能。大規模なETL処理ではステップが多いから、ワークフローで管理すれば可視化しやすく、どこまで終わったかも追いやすいんだ。 2025.02.22 AWS
AWS AWS Glue – Triggers 時間になったら毎日ジョブを回す、あるいはファイルが来たら起動するなど、自動で動かす“きっかけ”を設定できる仕組み。人間が手動でやらなくても、新しいデータが来れば即座に変換処理できるから便利なんだ。 2025.02.22 AWS
AWS AWS Glue – Development Endpoints 自分でスクリプトを書いたりデバッグしたりするとき、Glueのジョブをいきなり動かすと大変だから、専用の“開発用接続口”を用意できる。ここでIDEと連携してテストし、完成したら本番ジョブにするんだ。 2025.02.22 AWS
AWS AWS Glue – Scripts PySparkやScalaで書くETLのプログラム。テーブルを読み込み、不要な列を削除し、別の形式に変換して、最終的にS3やRedshiftなどに保存…という手順をまとめる。Glueジョブがこれを実行してくれる。 2025.02.22 AWS
AWS AWS Glue – Jobs 実際にETLを走らせる“お仕事”の単位。スクリプトを使ってデータの変換やコピーを行う。ジョブを起動すると決められたステップで作業して、完了したらレポートを残すんだ。 2025.02.22 AWS
AWS AWS Glue – Crawlers S3やデータベースを自動でスキャンして、スキーマ(列名や型)を探し出して、Data Catalogに登録してくれる“探検ロボ”だね。新しいファイルが増えても勝手に追いかけてくれるから、手動登録の手間がいらないんだ。 2025.02.22 AWS