AWS

Amazon EMR – Bootstrap Actions

クラスターの起動時に“最初に自動でやってほしい作業”を指定できる機能。必要なソフトをインストールしたり、設定ファイルを上書きしたりして、ユーザーが手動でやる手間を省き、すぐに目的の環境を整えられる。
AWS

Amazon EMR – Security Configurations

暗号化や認証などのルールをまとめて“ひとパック”で設定する仕組み。クラスターを作るたびに毎回細かい項目を指定しなくても、この設定を一気に適用すれば、ミスなく安全な環境が用意しやすいんだ。
AWS

Amazon EMR – Managed Scaling

EMRが自動でクラスターの大きさを考えてくれて、“最適な台数”に調整してくれる機能。自分で細かくルールを書かなくても、使用状況を見て無駄を減らしつつ速度を保つから、手動管理よりラクでコスパも良くなるんだ。
AWS

Amazon EMR – Encryption

HadoopやSparkが使うデータを暗号化して、安全に保管したり通信できるようにする機能。こっそり盗み見られても鍵がないと中身がわからない。ログや一時データも含めて守れるから、センシティブな情報を扱うときに必須だね。
AWS

Amazon EMR – Kerberos

クラスター内のユーザーをきちんと認証するセキュリティ仕組みだよ。たとえば勝手に分析ジョブを動かされないように、本当に本人かどうかしっかり確認する。大規模クラスターでも安全性を保ちたいなら大事なんだ。
AWS

Amazon EMR – Auto Scaling

データ処理が増えたら“まとめて手伝いに来る人”を増やし、減ったら帰ってもらうみたいにクラスターのノード数を自動で調整する機能。これで処理が必要なときだけサーバーを増やし、コストを抑えられるんだ。
AWS

Amazon EMR – EMR Notebooks

ブラウザでプログラムを書いて、その場で結果をグラフや表で見られる“ノートブック”機能だよ。たとえばSparkやSQLのコードを入力すると、EMRクラスターで実行され、結果がすぐ返ってくる。学習やコラボにも便利だね。
AWS

Amazon EMR – EMRFS

S3をHadoopのファイルシステムっぽく扱う仕組みだよ。わざわざHDFSにデータをコピーしなくてもS3に置いたまま分析できるから、ディスクが足りなくなる心配も減るし、大容量のファイルも楽に扱えるんだ。
AWS

Amazon EMR – Ganglia

クラスターの動きをグラフで見られる監視ツール。EMRの内部でどのノードがどれだけ負荷を受けているか一目でわかる。もし処理が遅かったら原因を探しやすいし、調整や拡張のヒントにできる優れものなんだ。
AWS

Amazon EMR – Presto

超高速でSQLクエリを実行できる“分析エンジン”だよ。大量のデータでもすぐに結果を返してくれることが多く、あちこちに散らばったデータソースにも対応しやすい。EMRならすぐクラスタを作って使い始められるんだ。