mot

AWS

Amazon Redshift – Table Restore

一部のテーブルだけ“スナップショット”から復元できるから、全部を巻き戻す必要がない。間違えて削除したテーブルだけ元に戻すなんてことが可能で、大規模データを扱うほどこの部分的リストアが助かるんだ。
AWS

Amazon Redshift – Cross-Region Snapshot Copy

スナップショットを別のリージョンにも自動転送して保管する仕組み。地震や停電などでメインリージョンが使えなくなっても、遠くのリージョンで復元できる。大事なデータを世界規模で守りたいときに役立つんだ。
AWS

Amazon Redshift – Dedicated Admin Queries

ユーザーの重いクエリでいっぱいでも、管理用のコマンドは別枠で動かせる仕組み。クラスタが詰まっていても管理者が状態をチェックしたりテーブルの変更をしたりできるから、トラブル対応がスムーズになるんだ。
AWS

Amazon EMR – Hadoop

データを“小分けにして並行作業”する仕組みの代表格だよ。EMRではこのHadoopクラスターを何台も簡単に作成でき、使い終わったら片づけられる。自分でサーバー構築するより断然ラクなんだ。
AWS

Amazon EMR – Spark

メモリを活用してとても速い分析ができるフレームワークだよ。繰り返しの処理やリアルタイム分析に強い。EMR上でSparkを動かすと、自分で面倒な設定をしなくても必要なサーバーが用意されてスイスイ動かせるんだ。
AWS

Amazon EMR – Hive

SQLみたいな言葉でビッグデータを扱える仕組みだよ。“SELECT”で巨大なデータを読んだり集計したりするから、普段SQLに慣れている人でも大規模データ分析に挑戦しやすい。EMRがあれば構築がシンプルなんだ。
AWS

Amazon EMR – Pig

読みやすいスクリプトを書いて大きなデータを加工する仕組みだよ。SQLほど厳密じゃない言い回しで操作できる。EMRでPigジョブを走らせると、一気に大量のファイルを処理して、自動でクラスタが増えたり減ったりしてくれる。
AWS

Amazon EMR – Presto

超高速でSQLクエリを実行できる“分析エンジン”だよ。大量のデータでもすぐに結果を返してくれることが多く、あちこちに散らばったデータソースにも対応しやすい。EMRならすぐクラスタを作って使い始められるんだ。
AWS

Amazon EMR – Ganglia

クラスターの動きをグラフで見られる監視ツール。EMRの内部でどのノードがどれだけ負荷を受けているか一目でわかる。もし処理が遅かったら原因を探しやすいし、調整や拡張のヒントにできる優れものなんだ。
AWS

Amazon EMR – EMRFS

S3をHadoopのファイルシステムっぽく扱う仕組みだよ。わざわざHDFSにデータをコピーしなくてもS3に置いたまま分析できるから、ディスクが足りなくなる心配も減るし、大容量のファイルも楽に扱えるんだ。