AWS Amazon EMR – Bootstrap Actions クラスターの起動時に“最初に自動でやってほしい作業”を指定できる機能。必要なソフトをインストールしたり、設定ファイルを上書きしたりして、ユーザーが手動でやる手間を省き、すぐに目的の環境を整えられる。 2025.02.22 AWS
AWS Amazon EMR – Security Configurations 暗号化や認証などのルールをまとめて“ひとパック”で設定する仕組み。クラスターを作るたびに毎回細かい項目を指定しなくても、この設定を一気に適用すれば、ミスなく安全な環境が用意しやすいんだ。 2025.02.22 AWS
AWS Amazon EMR – Managed Scaling EMRが自動でクラスターの大きさを考えてくれて、“最適な台数”に調整してくれる機能。自分で細かくルールを書かなくても、使用状況を見て無駄を減らしつつ速度を保つから、手動管理よりラクでコスパも良くなるんだ。 2025.02.22 AWS
AWS Amazon EMR – Encryption HadoopやSparkが使うデータを暗号化して、安全に保管したり通信できるようにする機能。こっそり盗み見られても鍵がないと中身がわからない。ログや一時データも含めて守れるから、センシティブな情報を扱うときに必須だね。 2025.02.22 AWS
AWS Amazon EMR – Kerberos クラスター内のユーザーをきちんと認証するセキュリティ仕組みだよ。たとえば勝手に分析ジョブを動かされないように、本当に本人かどうかしっかり確認する。大規模クラスターでも安全性を保ちたいなら大事なんだ。 2025.02.22 AWS
AWS Amazon EMR – Auto Scaling データ処理が増えたら“まとめて手伝いに来る人”を増やし、減ったら帰ってもらうみたいにクラスターのノード数を自動で調整する機能。これで処理が必要なときだけサーバーを増やし、コストを抑えられるんだ。 2025.02.22 AWS
AWS Amazon EMR – EMR Notebooks ブラウザでプログラムを書いて、その場で結果をグラフや表で見られる“ノートブック”機能だよ。たとえばSparkやSQLのコードを入力すると、EMRクラスターで実行され、結果がすぐ返ってくる。学習やコラボにも便利だね。 2025.02.22 AWS
AWS Amazon EMR – EMRFS S3をHadoopのファイルシステムっぽく扱う仕組みだよ。わざわざHDFSにデータをコピーしなくてもS3に置いたまま分析できるから、ディスクが足りなくなる心配も減るし、大容量のファイルも楽に扱えるんだ。 2025.02.22 AWS
AWS Amazon EMR – Ganglia クラスターの動きをグラフで見られる監視ツール。EMRの内部でどのノードがどれだけ負荷を受けているか一目でわかる。もし処理が遅かったら原因を探しやすいし、調整や拡張のヒントにできる優れものなんだ。 2025.02.22 AWS
AWS Amazon EMR – Presto 超高速でSQLクエリを実行できる“分析エンジン”だよ。大量のデータでもすぐに結果を返してくれることが多く、あちこちに散らばったデータソースにも対応しやすい。EMRならすぐクラスタを作って使い始められるんだ。 2025.02.22 AWS