AWS AWS Data Pipeline – CopyActivity S3とRedshift間でデータを大量にコピーする定番の作業。パイプライン上で予定を組んでおけば、毎晩自動で転送できる。バッチ処理によるデータ更新に向いてるんだ。 2025.02.22 AWS
AWS AWS Glue – Security & Encryption データを暗号化して送受信し、保管時も安全を保つ仕組み。AWSのキーマネジメントサービスとも連携するから、機密情報を扱うETLでも安心。誤って漏れても解読は難しいんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – EMRActivity EMRクラスターを立ち上げてHadoopやSpark処理を走らせる。終わったらクラスターを片付けるなども自動化できる。大きなバッチ分析を定期的に回すのに最適だけど、今はGlueの方が簡単な場合もあるね。 2025.02.22 AWS
AWS AWS Glue – Jobs 実際にETLを走らせる“お仕事”の単位。スクリプトを使ってデータの変換やコピーを行う。ジョブを起動すると決められたステップで作業して、完了したらレポートを残すんだ。 2025.02.22 AWS
AWS AWS Glue – Data Quality (プレビュー) データの中にヘンな値が混ざっていないかチェックする新機能。型が合わないとか必須カラムが空っぽ、などを検査してレポートを作る。おかしいところを自動発見してくれれば修正がはかどるんだ。 2025.02.22 AWS
AWS AWS Glue – Scripts PySparkやScalaで書くETLのプログラム。テーブルを読み込み、不要な列を削除し、別の形式に変換して、最終的にS3やRedshiftなどに保存…という手順をまとめる。Glueジョブがこれを実行してくれる。 2025.02.22 AWS
AWS AWS Data Pipeline 古めのサービスだけど、データ移動や加工を“スケジュール管理”できる仕組み。たとえば毎日夜12時にS3からデータを取り出してRDSにコピー、といった定期的処理を自動化できる。今はGlueやStep Functionsが代替することも多いね。 2025.02.22 AWS
AWS AWS Glue – Development Endpoints 自分でスクリプトを書いたりデバッグしたりするとき、Glueのジョブをいきなり動かすと大変だから、専用の“開発用接続口”を用意できる。ここでIDEと連携してテストし、完成したら本番ジョブにするんだ。 2025.02.22 AWS
AWS AWS Data Pipeline – Pipeline Definition どんな処理をどの順番で、どこにデータを送るかなどをJSON形式で書いた設計図。これを登録すると、その通りにパイプラインが動く。直感的にはワークフローをテキストで説明しているイメージ。 2025.02.22 AWS
AWS Amazon QuickSight – Visual Types 棒グラフ、折れ線、円グラフ、ヒートマップなど多彩な可視化方法が選べる。データの特徴にあった見せ方を簡単に切り替えできるから、いろんな角度で分析すると新しい発見があるかもしれない。 2025.02.22 AWS