proxmox.blog

AWS

AWS Glue – Glue DataBrew

ノーコードでデータの前処理や可視化ができるサービス。列をマージしたり不要な値を消したりをマウス操作だけでできる。大規模なクリーニング作業を専門的スキルなしでもすすめられるんだ。

2025.02.22

AWS

Webブラウザ上の画面でドラッグ&ドロップしながらETLジョブを作れるツール。プログラミングが苦手でも流れを簡単に組めるし、裏ではPySparkのコードを自動生成してくれるから学習しやすい。

2025.02.22

AWS

ジョブが前回どこまで処理したかを覚えていて、次回は続きから処理する機能。毎回全部を再変換しなくていいし、差分だけやるから速く終わる。ログの更新分だけ取り込むなどのシナリオで助かるんだ。

2025.02.22

AWS

データを行や列に厳密に当てはめる前に、“柔らかい形”で扱う仕組み。多少フォーマットが違っていても読み込めたり、カラムを推定してくれたりするから、複雑なデータでもエラーになりにくい。

2025.02.22

AWS

ジョブやトリガーを複数つなげて、1→2→3…という一連の流れを組む機能。大規模なETL処理ではステップが多いから、ワークフローで管理すれば可視化しやすく、どこまで終わったかも追いやすいんだ。

2025.02.22

AWS

時間になったら毎日ジョブを回す、あるいはファイルが来たら起動するなど、自動で動かす“きっかけ”を設定できる仕組み。人間が手動でやらなくても、新しいデータが来れば即座に変換処理できるから便利なんだ。

2025.02.22

AWS

自分でスクリプトを書いたりデバッグしたりするとき、Glueのジョブをいきなり動かすと大変だから、専用の“開発用接続口”を用意できる。ここでIDEと連携してテストし、完成したら本番ジョブにするんだ。

2025.02.22

AWS

PySparkやScalaで書くETLのプログラム。テーブルを読み込み、不要な列を削除し、別の形式に変換して、最終的にS3やRedshiftなどに保存…という手順をまとめる。Glueジョブがこれを実行してくれる。

2025.02.22

AWS

実際にETLを走らせる“お仕事”の単位。スクリプトを使ってデータの変換やコピーを行う。ジョブを起動すると決められたステップで作業して、完了したらレポートを残すんだ。

2025.02.22

AWS

S3やデータベースを自動でスキャンして、スキーマ(列名や型)を探し出して、Data Catalogに登録してくれる“探検ロボ”だね。新しいファイルが増えても勝手に追いかけてくれるから、手動登録の手間がいらないんだ。

2025.02.22

AWS