AWS

AWS

Amazon EMR – Step Execution

分析や処理を“ステップ”に分けて順番に実行する仕組みだよ。一つのステップが終わったら次へ進むから、複雑なワークフローも管理しやすい。実行結果に応じてステップを追加したり飛ばしたりできるんだ。
AWS

Amazon Redshift – Query Monitoring Rules

特定のクエリが長すぎたり、リソースを使いすぎる場合に自動で対処する仕組み。例えば“5分以上かかるクエリはキャンセルする”などのルールを作っておくと、意図せずシステムが重くなり続けるのを防げるんだ。
AWS

Amazon EMR – Clusters

EMRが作る“HadoopやSparkの集まり”そのものだよ。マスターノードとワーカーノードで構成され、大量のデータを分割して並列で処理する。終わったらクラスターを消せるから、使い捨てでも大規模分析が気軽にできるんだ。
AWS

Amazon Redshift – WLM (Workload Management)

同時に来るクエリをグループ分けして、“速く返すグループ”と“重い集計向けグループ”などを設定できる機能。これでみんなが一斉に大きなクエリを投げても、優先度をコントロールして遅延を減らせるんだ。
AWS

Amazon EMR – Release Version

EMRで利用するソフトウェア群のバージョンセットだよ。たとえば“Hadoop 3.3 + Spark 3.1”など、どの組み合わせを使うかを選べる。同じEMRでもバージョンごとに機能が違うから、プロジェクトに合わせて決めるんだ。
AWS

Amazon Redshift – Encryption

データをディスクに書くときも暗号化しておけば、もしディスクが盗まれても中身が読めない。転送中も暗号化できるから、社外に通信が漏れてしまっても安全。機密情報を扱う大企業にとって必須級の仕組みだよ。
AWS

Amazon EMR – Reconfiguration on Running Cluster

走っている途中でも、クラスターの設定を変更できる機能。たとえばメモリ割り当てやジョブの優先度を再調整したいときに役立つ。一度停止しなくてもいいから、処理を止めずに柔軟な対応ができるんだ。
AWS

Amazon Redshift – Federated Query

RDSやAuroraなどのデータベースにあるテーブルを、Redshiftから直接SQLで読める機能。いちいちコピーしなくても、まとめて分析できるから、データがバラバラでも統合して簡単にクエリできて便利なんだ。
AWS

Amazon EMR – Spot Instances

使われていないEC2を格安で借りられる“スポット枠”をEMRでも利用して、コスト削減できるよ。ただし途中で“返して!”と奪われることもあるから、再実行が効く処理や一時的な計算にうまく活用する感じなんだ。
AWS

Amazon Redshift – Data Sharing

別のRedshiftクラスターとデータをリアルタイムで共有できる仕組みだよ。コピーを作らずに直接テーブルを見せ合うから、最新情報をすぐ参照できてストレージの無駄も少ない。チーム間で連携がしやすくなるんだ。