AWS AWS Glue – Partition Indexes S3にパーティション分割されたデータを素早く探して読み込むための仕組み。通常よりも検索時間を大幅に減らせることがある。大きなデータを抱えるときでも必要な部分だけサッとアクセスできる。 2025.02.22 AWS
AWS AWS Data Pipeline – SqlActivity RDSやRedshift上でSQL文を実行する作業だよ。大量データの集計や変換をSQLでまとめてやって、結果を別の場所にコピーする流れを簡単に作れる。 2025.02.22 AWS
AWS AWS Glue – Job Monitoring ジョブがどれくらい時間かかったか、処理したデータ量などをログやメトリクスで可視化できる。失敗したステップがあればわかりやすいし、改善ポイントも掴みやすいんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – CopyActivity S3とRedshift間でデータを大量にコピーする定番の作業。パイプライン上で予定を組んでおけば、毎晩自動で転送できる。バッチ処理によるデータ更新に向いてるんだ。 2025.02.22 AWS
AWS AWS Glue – Security & Encryption データを暗号化して送受信し、保管時も安全を保つ仕組み。AWSのキーマネジメントサービスとも連携するから、機密情報を扱うETLでも安心。誤って漏れても解読は難しいんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – EMRActivity EMRクラスターを立ち上げてHadoopやSpark処理を走らせる。終わったらクラスターを片付けるなども自動化できる。大きなバッチ分析を定期的に回すのに最適だけど、今はGlueの方が簡単な場合もあるね。 2025.02.22 AWS
AWS AWS Glue – Jobs 実際にETLを走らせる“お仕事”の単位。スクリプトを使ってデータの変換やコピーを行う。ジョブを起動すると決められたステップで作業して、完了したらレポートを残すんだ。 2025.02.22 AWS
AWS AWS Glue – Data Quality (プレビュー) データの中にヘンな値が混ざっていないかチェックする新機能。型が合わないとか必須カラムが空っぽ、などを検査してレポートを作る。おかしいところを自動発見してくれれば修正がはかどるんだ。 2025.02.22 AWS
AWS AWS Glue – Scripts PySparkやScalaで書くETLのプログラム。テーブルを読み込み、不要な列を削除し、別の形式に変換して、最終的にS3やRedshiftなどに保存…という手順をまとめる。Glueジョブがこれを実行してくれる。 2025.02.22 AWS
AWS AWS Data Pipeline 古めのサービスだけど、データ移動や加工を“スケジュール管理”できる仕組み。たとえば毎日夜12時にS3からデータを取り出してRDSにコピー、といった定期的処理を自動化できる。今はGlueやStep Functionsが代替することも多いね。 2025.02.22 AWS