AWS

Amazon Redshift

データを列ごとに整理して、分析クエリを高速でさばく“倉庫型データベース”だよ。大企業のデータ分析やBIツールと組み合わせるなど、まとめてがっつり調べたいときに向いている。AWSが運用を楽にしてくれるんだ。
AWS

Amazon EMR – Spot Instances

使われていないEC2を格安で借りられる“スポット枠”をEMRでも利用して、コスト削減できるよ。ただし途中で“返して!”と奪われることもあるから、再実行が効く処理や一時的な計算にうまく活用する感じなんだ。
AWS

Amazon EMR – Reconfiguration on Running Cluster

走っている途中でも、クラスターの設定を変更できる機能。たとえばメモリ割り当てやジョブの優先度を再調整したいときに役立つ。一度停止しなくてもいいから、処理を止めずに柔軟な対応ができるんだ。
AWS

Amazon EMR – Release Version

EMRで利用するソフトウェア群のバージョンセットだよ。たとえば“Hadoop 3.3 + Spark 3.1”など、どの組み合わせを使うかを選べる。同じEMRでもバージョンごとに機能が違うから、プロジェクトに合わせて決めるんだ。
AWS

Amazon EMR – Clusters

EMRが作る“HadoopやSparkの集まり”そのものだよ。マスターノードとワーカーノードで構成され、大量のデータを分割して並列で処理する。終わったらクラスターを消せるから、使い捨てでも大規模分析が気軽にできるんだ。
AWS

Amazon EMR – Step Execution

分析や処理を“ステップ”に分けて順番に実行する仕組みだよ。一つのステップが終わったら次へ進むから、複雑なワークフローも管理しやすい。実行結果に応じてステップを追加したり飛ばしたりできるんだ。
AWS

Amazon EMR – Bootstrap Actions

クラスターの起動時に“最初に自動でやってほしい作業”を指定できる機能。必要なソフトをインストールしたり、設定ファイルを上書きしたりして、ユーザーが手動でやる手間を省き、すぐに目的の環境を整えられる。
AWS

Amazon EMR – Security Configurations

暗号化や認証などのルールをまとめて“ひとパック”で設定する仕組み。クラスターを作るたびに毎回細かい項目を指定しなくても、この設定を一気に適用すれば、ミスなく安全な環境が用意しやすいんだ。
AWS

Amazon EMR – Managed Scaling

EMRが自動でクラスターの大きさを考えてくれて、“最適な台数”に調整してくれる機能。自分で細かくルールを書かなくても、使用状況を見て無駄を減らしつつ速度を保つから、手動管理よりラクでコスパも良くなるんだ。
AWS

Amazon EMR – Encryption

HadoopやSparkが使うデータを暗号化して、安全に保管したり通信できるようにする機能。こっそり盗み見られても鍵がないと中身がわからない。ログや一時データも含めて守れるから、センシティブな情報を扱うときに必須だね。