AWS

AWS Data Pipeline – Pipeline Definition

どんな処理をどの順番で、どこにデータを送るかなどをJSON形式で書いた設計図。これを登録すると、その通りにパイプラインが動く。直感的にはワークフローをテキストで説明しているイメージ。
AWS

AWS Data Pipeline

古めのサービスだけど、データ移動や加工を“スケジュール管理”できる仕組み。たとえば毎日夜12時にS3からデータを取り出してRDSにコピー、といった定期的処理を自動化できる。今はGlueやStep Functionsが代替することも多いね。
AWS

AWS Glue – Data Quality (プレビュー)

データの中にヘンな値が混ざっていないかチェックする新機能。型が合わないとか必須カラムが空っぽ、などを検査してレポートを作る。おかしいところを自動発見してくれれば修正がはかどるんだ。
AWS

AWS Glue – Security & Encryption

データを暗号化して送受信し、保管時も安全を保つ仕組み。AWSのキーマネジメントサービスとも連携するから、機密情報を扱うETLでも安心。誤って漏れても解読は難しいんだ。
AWS

AWS Glue – Job Monitoring

ジョブがどれくらい時間かかったか、処理したデータ量などをログやメトリクスで可視化できる。失敗したステップがあればわかりやすいし、改善ポイントも掴みやすいんだ。
AWS

AWS Glue – Partition Indexes

S3にパーティション分割されたデータを素早く探して読み込むための仕組み。通常よりも検索時間を大幅に減らせることがある。大きなデータを抱えるときでも必要な部分だけサッとアクセスできる。
AWS

AWS Glue – Machine Learning Transforms

重複データを自動判別したり、欠損値を補完したりなど、機械学習を使った賢い“データお掃除”ができる。単純ルールでは難しいパターンもAIが見分けて補正してくれるから、品質がぐんと上がるんだ。
AWS

AWS Glue – Streaming ETL

Kinesisなどのストリーミングデータをリアルタイムに取り込み、その場で整形・変換してから保存できる。随時更新されるログやセンサー情報も滞りなく処理できるから、即時分析に向いてる。
AWS

AWS Glue – Integration with Redshift

変換したデータを直接Redshiftに取り込んだり、また逆にRedshiftのデータをS3に出したりETLできる。大規模分析用データをしっかり下ごしらえして、分析をスムーズにするのにピッタリ。
AWS

AWS Glue – Integration with Athena

Glueのカタログ情報を使って、AthenaでSQL検索が可能に。どこにどんなデータがあるかGlueが教えてくれるから、Athenaはすぐにクエリを実行できる。S3にあるファイルを表みたいに扱えるんだ。