AWS

AWS

AWS Data Pipeline – Task Runner

パイプラインの指示を受け取り、実際にコピーやSQL実行などを行う小さな“働き手”だよ。EC2やオンプレサーバーにインストールして、Data Pipelineと通信する。これで処理が自動化される。
AWS

AWS Glue – Glue DataBrew

ノーコードでデータの前処理や可視化ができるサービス。列をマージしたり不要な値を消したりをマウス操作だけでできる。大規模なクリーニング作業を専門的スキルなしでもすすめられるんだ。
AWS

AWS Data Pipeline – SNS Notifications

パイプラインの処理が終わったり失敗したりしたときにSNSでお知らせを出せる。夜中にジョブが止まっていても早めに気づけるし、完了通知を受けて次の作業を始めるなど連動もできるんだ。
AWS

AWS Glue – Integration with Athena

Glueのカタログ情報を使って、AthenaでSQL検索が可能に。どこにどんなデータがあるかGlueが教えてくれるから、Athenaはすぐにクエリを実行できる。S3にあるファイルを表みたいに扱えるんだ。
AWS

AWS Data Pipeline – Retry on Failures

処理が失敗したら自動で再挑戦する回数を決められる。ネットワークが一時的に落ちただけなら、何度かやり直せば成功するかもしれないし、人が起きてない時間帯でも対処されるのがありがたい。
AWS

AWS Glue – Integration with Redshift

変換したデータを直接Redshiftに取り込んだり、また逆にRedshiftのデータをS3に出したりETLできる。大規模分析用データをしっかり下ごしらえして、分析をスムーズにするのにピッタリ。
AWS

AWS Data Pipeline – Rerun

パイプライン全体じゃなく、一部のステップだけやり直すことも可能。例えば途中でコピーが失敗したなら、その部分から再実行して完了させられる。時間とリソースの無駄を減らせるんだ。
AWS

AWS Glue – Streaming ETL

Kinesisなどのストリーミングデータをリアルタイムに取り込み、その場で整形・変換してから保存できる。随時更新されるログやセンサー情報も滞りなく処理できるから、即時分析に向いてる。
AWS

AWS Data Pipeline – S3DataNode

S3上のデータを扱う時に使う“データの置き場定義”みたいなもの。これをパイプラインのSourceやDestinationに指定して、S3から読み書きできる。
AWS

AWS Glue – Machine Learning Transforms

重複データを自動判別したり、欠損値を補完したりなど、機械学習を使った賢い“データお掃除”ができる。単純ルールでは難しいパターンもAIが見分けて補正してくれるから、品質がぐんと上がるんだ。