AWS

Amazon Redshift – RA3 Nodes

“計算する頭(コンピュート)”と“データをしまう場所(ストレージ)”を切り離して効率よく使える新しいノードタイプだよ。必要なときは計算力だけ増やすなど柔軟に拡張でき、データも安めに保管できるメリットがあるんだ。
AWS

Amazon Redshift – Concurrency Scaling

同時にアクセスが殺到したら“追加のスピンオフサーバー”を用意して処理を分担してくれる機能。例えば多くの人が同時にクエリを投げても、メインの処理を圧迫せずスムーズに結果を返せるんだ。
AWS

Amazon Redshift – Spectrum

S3にしまってあるデータを、わざわざRedshiftに全部コピーしなくても“直接SQLで読める”機能だよ。必要な部分だけS3から取り出して分析できるから、膨大なファイルでもコストや時間を節約できるんだ。
AWS

Amazon Redshift – Clusters

Redshiftで動くサーバーの集まりだよ。リーダーノードとコンピュートノードに分かれて、大量のデータを手分けして保存・処理する。必要に応じてノードを増やすと、一気にパワーアップできるんだ。
AWS

Amazon Redshift

データを列ごとに整理して、分析クエリを高速でさばく“倉庫型データベース”だよ。大企業のデータ分析やBIツールと組み合わせるなど、まとめてがっつり調べたいときに向いている。AWSが運用を楽にしてくれるんだ。
AWS

Amazon EMR – Spot Instances

使われていないEC2を格安で借りられる“スポット枠”をEMRでも利用して、コスト削減できるよ。ただし途中で“返して!”と奪われることもあるから、再実行が効く処理や一時的な計算にうまく活用する感じなんだ。
AWS

Amazon EMR – Reconfiguration on Running Cluster

走っている途中でも、クラスターの設定を変更できる機能。たとえばメモリ割り当てやジョブの優先度を再調整したいときに役立つ。一度停止しなくてもいいから、処理を止めずに柔軟な対応ができるんだ。
AWS

Amazon EMR – Release Version

EMRで利用するソフトウェア群のバージョンセットだよ。たとえば“Hadoop 3.3 + Spark 3.1”など、どの組み合わせを使うかを選べる。同じEMRでもバージョンごとに機能が違うから、プロジェクトに合わせて決めるんだ。
AWS

Amazon EMR – Clusters

EMRが作る“HadoopやSparkの集まり”そのものだよ。マスターノードとワーカーノードで構成され、大量のデータを分割して並列で処理する。終わったらクラスターを消せるから、使い捨てでも大規模分析が気軽にできるんだ。
AWS

Amazon EMR – Step Execution

分析や処理を“ステップ”に分けて順番に実行する仕組みだよ。一つのステップが終わったら次へ進むから、複雑なワークフローも管理しやすい。実行結果に応じてステップを追加したり飛ばしたりできるんだ。