AWS Amazon EMR – Step Execution 分析や処理を“ステップ”に分けて順番に実行する仕組みだよ。一つのステップが終わったら次へ進むから、複雑なワークフローも管理しやすい。実行結果に応じてステップを追加したり飛ばしたりできるんだ。 2025.02.22 AWS
AWS Amazon Redshift – Query Monitoring Rules 特定のクエリが長すぎたり、リソースを使いすぎる場合に自動で対処する仕組み。例えば“5分以上かかるクエリはキャンセルする”などのルールを作っておくと、意図せずシステムが重くなり続けるのを防げるんだ。 2025.02.22 AWS
AWS Amazon EMR – Clusters EMRが作る“HadoopやSparkの集まり”そのものだよ。マスターノードとワーカーノードで構成され、大量のデータを分割して並列で処理する。終わったらクラスターを消せるから、使い捨てでも大規模分析が気軽にできるんだ。 2025.02.22 AWS
AWS Amazon Redshift – WLM (Workload Management) 同時に来るクエリをグループ分けして、“速く返すグループ”と“重い集計向けグループ”などを設定できる機能。これでみんなが一斉に大きなクエリを投げても、優先度をコントロールして遅延を減らせるんだ。 2025.02.22 AWS
AWS Amazon EMR – Release Version EMRで利用するソフトウェア群のバージョンセットだよ。たとえば“Hadoop 3.3 + Spark 3.1”など、どの組み合わせを使うかを選べる。同じEMRでもバージョンごとに機能が違うから、プロジェクトに合わせて決めるんだ。 2025.02.22 AWS
AWS Amazon Redshift – Encryption データをディスクに書くときも暗号化しておけば、もしディスクが盗まれても中身が読めない。転送中も暗号化できるから、社外に通信が漏れてしまっても安全。機密情報を扱う大企業にとって必須級の仕組みだよ。 2025.02.22 AWS
AWS Amazon EMR – Reconfiguration on Running Cluster 走っている途中でも、クラスターの設定を変更できる機能。たとえばメモリ割り当てやジョブの優先度を再調整したいときに役立つ。一度停止しなくてもいいから、処理を止めずに柔軟な対応ができるんだ。 2025.02.22 AWS
AWS Amazon Redshift – Federated Query RDSやAuroraなどのデータベースにあるテーブルを、Redshiftから直接SQLで読める機能。いちいちコピーしなくても、まとめて分析できるから、データがバラバラでも統合して簡単にクエリできて便利なんだ。 2025.02.22 AWS
AWS Amazon EMR – Spot Instances 使われていないEC2を格安で借りられる“スポット枠”をEMRでも利用して、コスト削減できるよ。ただし途中で“返して!”と奪われることもあるから、再実行が効く処理や一時的な計算にうまく活用する感じなんだ。 2025.02.22 AWS
AWS Amazon Redshift – Data Sharing 別のRedshiftクラスターとデータをリアルタイムで共有できる仕組みだよ。コピーを作らずに直接テーブルを見せ合うから、最新情報をすぐ参照できてストレージの無駄も少ない。チーム間で連携がしやすくなるんだ。 2025.02.22 AWS