AWS AWS Lake Formation Blueprint 定型的なデータ取り込み処理(S3のCSVをパーティション化など)をテンプレ化して一瞬でジョブ化する。企業内で繰り返し使うパターンを登録して、エンジニアの負担を減らすんだ。 2025.02.22 AWS
AWS AWS Lake Formation Data Catalog データレイクの場所やスキーマをまとめる“目次”。AthenaやGlueがこれを参照し、テーブルの列情報やファイル形式を把握するんだ。大規模でも整理しやすくなるよ。 2025.02.22 AWS
AWS AWS Glue for Ray Spark以外にもRayというPython向け分散フレームワークをGlueで実行できる機能。機械学習や並列処理をサーバーレスで回せるので、好きなフレームワークを使いたい人に助かる。 2025.02.22 AWS
AWS AWS Glue Databrew Recipe データクリーニングで行った操作をレシピとして保存し、他のファイルや繰り返し処理にも使える。欠損値補完や列分割といった前処理をボタン操作だけで自動化できるんだ。 2025.02.22 AWS
AWS AWS Glue Streaming ETL KinesisやMSKなどのストリームから即座にデータを取り込み、ETLを実行してS3やRedshiftに連続書き込み。リアルタイム性が必要な場面でもGlueを使えるからバッチ以外もいけるんだ。 2025.02.22 AWS
AWS AWS Glue Catalog Partition Index S3のフォルダ構造をパーティションとして管理するとき、大量のパーティションを検索すると遅くなりがち。ここで索引を作っておけばクエリが速くなるんだ。 2025.02.22 AWS
AWS AWS Glue Data Quality Glueがデータをチェックし、異常値やフォーマット崩れを検知しレポートする機能。データパイプラインが壊れていないか早期に気付けるので、信頼できる分析をしやすくなるんだ。 2025.02.22 AWS
AWS AWS Glue Blueprints “このデータをS3からParquetに変換してRedshiftに保存”など、よくあるパターンをテンプレ化したもの。パラメータを入れるだけでETLジョブを自動生成してくれるから開発が速いんだ。 2025.02.22 AWS
AWS AWS Glue Studio Notebooks GlueでETLを書くとき、ノートブック形式でPySparkコードを対話的に試せる機能。ちょっと実行して結果を見ながらジョブに落とし込むから、データ変換をスムーズに調整できるんだ。 2025.02.22 AWS
AWS Amazon Kinesis Data Streams – Enhanced Fan-Out 1つのストリームを複数のコンシューマが同時に高速で読み取れる仕組み。大量のメッセージでも遅延が少なく、複数アプリが同じデータを並行して処理したいときに便利だよ。 2025.02.22 AWS