proxmox.blog

AWS

Amazon EMR – Pig

読みやすいスクリプトを書いて大きなデータを加工する仕組みだよ。SQLほど厳密じゃない言い回しで操作できる。EMRでPigジョブを走らせると、一気に大量のファイルを処理して、自動でクラスタが増えたり減ったりしてくれる。

2025.02.22

AWS

SQLみたいな言葉でビッグデータを扱える仕組みだよ。“SELECT”で巨大なデータを読んだり集計したりするから、普段SQLに慣れている人でも大規模データ分析に挑戦しやすい。EMRがあれば構築がシンプルなんだ。

2025.02.22

AWS

メモリを活用してとても速い分析ができるフレームワークだよ。繰り返しの処理やリアルタイム分析に強い。EMR上でSparkを動かすと、自分で面倒な設定をしなくても必要なサーバーが用意されてスイスイ動かせるんだ。

2025.02.22

AWS

データを“小分けにして並行作業”する仕組みの代表格だよ。EMRではこのHadoopクラスターを何台も簡単に作成でき、使い終わったら片づけられる。自分でサーバー構築するより断然ラクなんだ。

2025.02.22

AWS

大量のデータを分割して同時に処理する“Hadoop”などの仕組みをクラウドで簡単に使えるサービスだよ。いっぱいの人手がいる引っ越しみたいに、大きな荷物(ビッグデータ)でも手分けして素早く分析したりできるんだ。

2025.02.22

AWS

Glacierの取り出しリクエストや容量をCloudWatchなどでチェックして、全体の動きを把握できる仕組みだよ。どれだけのデータを入れているか、取り出しが頻繁に行われていないかを見て、予算や運用を調整しやすくなる。

2025.02.22

AWS

ファイルを“一定期間絶対に消せない状態”にする仕組み。法律で定められた文書の保管などで使える。GlacierとS3のObject Lockを組み合わせることで、誤って削除や改ざんが起きないようガチッと固められるんだ。

2025.02.22

AWS

遠くのリージョンにも同じアーカイブをコピーできて、災害や障害への備えに使えるんだ。万が一一方の地域がダメになっても、別の地域のコピーを呼び出せるから、長期保管だけじゃなくリスク分散も実現できるんだ。

2025.02.22

AWS

Glacierにしまっていたアーカイブを再び“S3の使いやすい形”に戻すこと。これでアプリケーションからアクセスしやすくなるんだ。ただし少し待ち時間や費用がかかるモードもあるから、そこは用途に合わせて選ぶよ。

2025.02.22

AWS

S3のライフサイクルルールと連携して、古くなったファイルを自動的にGlacierへ移す仕組みだよ。これで手動で動かさなくても“S3→Glacier”と自然に移動できる。長期間使わないデータのコストを節約できるんだ。

2025.02.22

AWS