AWS

AWS

Amazon EMR – Pig

読みやすいスクリプトを書いて大きなデータを加工する仕組みだよ。SQLほど厳密じゃない言い回しで操作できる。EMRでPigジョブを走らせると、一気に大量のファイルを処理して、自動でクラスタが増えたり減ったりしてくれる。
AWS

Amazon S3 Glacier – Archive

Glacierに入れる1つ1つの“箱”のような単位だよ。書類の束や写真のフォルダなどをまとめて、1つのアーカイブとして扱う。Vaultの中には複数のアーカイブが入っていて、取り出すときはこの単位で操作するんだ。
AWS

Amazon EMR – Presto

超高速でSQLクエリを実行できる“分析エンジン”だよ。大量のデータでもすぐに結果を返してくれることが多く、あちこちに散らばったデータソースにも対応しやすい。EMRならすぐクラスタを作って使い始められるんだ。
AWS

Amazon S3 Glacier – Archive Description

アーカイブにメモ書きできる“自己紹介文”みたいなもの。見返すときに“これは何の資料だったかな?”とすぐわかるように、簡単な説明や日付を載せておける。大量のアーカイブを整理する手助けになるんだ。
AWS

Amazon EMR – Ganglia

クラスターの動きをグラフで見られる監視ツール。EMRの内部でどのノードがどれだけ負荷を受けているか一目でわかる。もし処理が遅かったら原因を探しやすいし、調整や拡張のヒントにできる優れものなんだ。
AWS

Amazon S3 Glacier – Restore Completion Notification

時間がかかる復元が終わったら、SNSやメールで“準備できました!”と知らせてくれる便利な仕組み。人が手動で頻繁にチェックしなくても、自動で合図が来るから、効率よく作業を進められるんだ。
AWS

Amazon EMR – EMRFS

S3をHadoopのファイルシステムっぽく扱う仕組みだよ。わざわざHDFSにデータをコピーしなくてもS3に置いたまま分析できるから、ディスクが足りなくなる心配も減るし、大容量のファイルも楽に扱えるんだ。
AWS

Amazon S3 Glacier – Expedited Retrieval

急いで取り出したいときに使う“特急オプション”みたいな取り出しモード。料金は高めになるけど、普通は待たないといけないGlacierのデータを最短数分で取り出せる。どうしてもすぐ欲しい場面向きなんだ。
AWS

Amazon EMR – EMR Notebooks

ブラウザでプログラムを書いて、その場で結果をグラフや表で見られる“ノートブック”機能だよ。たとえばSparkやSQLのコードを入力すると、EMRクラスターで実行され、結果がすぐ返ってくる。学習やコラボにも便利だね。
AWS

Amazon S3 Glacier – Bulk Retrieval

大量データを一気に出したいときに、まとめて“どさっと”取り寄せる方法だよ。その代わり時間は長めにかかることもあるので、コストを節約しつつ一括処理したいときには便利。急がないデータに向いているんだ。