AWS

AWS

Amazon Redshift – Spectrum

S3にしまってあるデータを、わざわざRedshiftに全部コピーしなくても“直接SQLで読める”機能だよ。必要な部分だけS3から取り出して分析できるから、膨大なファイルでもコストや時間を節約できるんだ。
AWS

Amazon Redshift – Dedicated Admin Queries

ユーザーの重いクエリでいっぱいでも、管理用のコマンドは別枠で動かせる仕組み。クラスタが詰まっていても管理者が状態をチェックしたりテーブルの変更をしたりできるから、トラブル対応がスムーズになるんだ。
AWS

Amazon Redshift – Concurrency Scaling

同時にアクセスが殺到したら“追加のスピンオフサーバー”を用意して処理を分担してくれる機能。例えば多くの人が同時にクエリを投げても、メインの処理を圧迫せずスムーズに結果を返せるんだ。
AWS

Amazon Redshift – RA3 Nodes

“計算する頭(コンピュート)”と“データをしまう場所(ストレージ)”を切り離して効率よく使える新しいノードタイプだよ。必要なときは計算力だけ増やすなど柔軟に拡張でき、データも安めに保管できるメリットがあるんだ。
AWS

Amazon EMR – Auto Scaling

データ処理が増えたら“まとめて手伝いに来る人”を増やし、減ったら帰ってもらうみたいにクラスターのノード数を自動で調整する機能。これで処理が必要なときだけサーバーを増やし、コストを抑えられるんだ。
AWS

Amazon Redshift – Columnar Storage

データを列ごとにまとめて保存するから、大量データを分析するときに速くなるのが強みだよ。必要な列だけ読み込めばいいので無駄が減り、集計やフィルタが得意。これがRedshiftの高速性の大きな要因なんだ。
AWS

Amazon EMR – Kerberos

クラスター内のユーザーをきちんと認証するセキュリティ仕組みだよ。たとえば勝手に分析ジョブを動かされないように、本当に本人かどうかしっかり確認する。大規模クラスターでも安全性を保ちたいなら大事なんだ。
AWS

Amazon Redshift – Automatic Table Optimization

テーブルの並べ方やソートキーを賢く調整して、より速く検索できるように自動で最適化してくれる。いちいち人が設定しなくても、Redshiftがアクセスパターンを見て判断してくれるから、管理が楽ちんになるんだ。
AWS

Amazon EMR – Encryption

HadoopやSparkが使うデータを暗号化して、安全に保管したり通信できるようにする機能。こっそり盗み見られても鍵がないと中身がわからない。ログや一時データも含めて守れるから、センシティブな情報を扱うときに必須だね。
AWS

Amazon Redshift – AQUA

S3からデータを読み取るとき、追加の専用ハードウェアで“キャッシュやフィルタ”をしてさらに高速化する仕組み。Redshift SpectrumでS3を参照するときのスピードをアップさせる新しい取り組みなんだ。