AWS | ページ 106 | proxmox.blog

AWS

AWS Glue – Partition Indexes

S3にパーティション分割されたデータを素早く探して読み込むための仕組み。通常よりも検索時間を大幅に減らせることがある。大きなデータを抱えるときでも必要な部分だけサッとアクセスできる。

2025.02.22

AWS

RDSやRedshift上でSQL文を実行する作業だよ。大量データの集計や変換をSQLでまとめてやって、結果を別の場所にコピーする流れを簡単に作れる。

2025.02.22

AWS

ジョブがどれくらい時間かかったか、処理したデータ量などをログやメトリクスで可視化できる。失敗したステップがあればわかりやすいし、改善ポイントも掴みやすいんだ。

2025.02.22

AWS

S3とRedshift間でデータを大量にコピーする定番の作業。パイプライン上で予定を組んでおけば、毎晩自動で転送できる。バッチ処理によるデータ更新に向いてるんだ。

2025.02.22

AWS

データを暗号化して送受信し、保管時も安全を保つ仕組み。AWSのキーマネジメントサービスとも連携するから、機密情報を扱うETLでも安心。誤って漏れても解読は難しいんだ。

2025.02.22

AWS

EMRクラスターを立ち上げてHadoopやSpark処理を走らせる。終わったらクラスターを片付けるなども自動化できる。大きなバッチ分析を定期的に回すのに最適だけど、今はGlueの方が簡単な場合もあるね。

2025.02.22

AWS

実際にETLを走らせる“お仕事”の単位。スクリプトを使ってデータの変換やコピーを行う。ジョブを起動すると決められたステップで作業して、完了したらレポートを残すんだ。

2025.02.22

AWS

データの中にヘンな値が混ざっていないかチェックする新機能。型が合わないとか必須カラムが空っぽ、などを検査してレポートを作る。おかしいところを自動発見してくれれば修正がはかどるんだ。

2025.02.22

AWS

PySparkやScalaで書くETLのプログラム。テーブルを読み込み、不要な列を削除し、別の形式に変換して、最終的にS3やRedshiftなどに保存…という手順をまとめる。Glueジョブがこれを実行してくれる。

2025.02.22

AWS

古めのサービスだけど、データ移動や加工を“スケジュール管理”できる仕組み。たとえば毎日夜12時にS3からデータを取り出してRDSにコピー、といった定期的処理を自動化できる。今はGlueやStep Functionsが代替することも多いね。

2025.02.22

AWS