Amazon Redshiftの特徴と使い方を徹底解説!Amazon Redshiftで何ができる?機能や導入手順も紹介
AWS(Amazon Web Services)が提供する、Amazon Redshiftというツールをご存じでしょうか。
- Amazon社が提供していることは知っている
- 詳しいことはよくわからない
そういった初心者でも理解できるよう、この記事ではAmazon Redshiftのことを丁寧に解説します。
- Amazon Redshiftの基礎情報を得たい
- なるべく簡単にAmazon Redshiftを知りたい
- Amazon Redshiftで何ができるのか教えてほしい
- Amazon Redshiftの費用はどれくらいかかるのか
- Amazon Redshiftの使い方とは?
Amazon Redshiftにまつわる疑問を解消したい人は、ぜひご一読ください。
Amazon Redshiftとは
Amazon Redshiftとは、クラウドで動かすデータウェアハウスで、AWS(Amazon Web Services)が提供するサービスの1つです。
名称
「アマゾン レッドシフト」と読みます。
提供元
Amazon社がAWSの1サービスとして提供しています。
AWSについて
AWSというのは、Amazon社が提供しているクラウドサービスをまとめた呼び名です。
データウェアハウスとデータベース
データウェアハウスについて
「ウェアハウス」の意味は「倉庫」。
データウェアハウスは、「データの倉庫」という意味です。
データウェアハウスというのは、企業の業務をおこなう過程で発生した情報を時系列に保存したデータベースのことを指します。
なお、データウェアハウスを名乗るためには4つの定義を満たす必要があります。
その定義とは「データが時系列」「内容別に分類」「データを統合」「データを削除しない」。
この定義を満たしてはじめて「データウェアハウス」を名乗ることができます。
データウェアハウスとデータベースの違い
データウェアハウスはデータベースと書きましたが、疑問を感じる人もいるでしょう。
「それならデータウェアハウスじゃなくてデータベースと表記すれば良いじゃないか」と思うかもしれません。
しかし、データウェアハウスとデータベースには明確な違いが存在します。
その違いとは「情報を保管しておける期間」です。
通常のデータベースの場合、ある一定の期間が経過したデータは削除されます。
データウェアハウスの場合は、データを時系列に保管しておく役割を持っているので今は使わないものをずっと留めておくことが可能です。
Amazon Redshiftの特徴
この項目では、Amazon Redshiftの特徴について見ていきましょう。
他データウェアハウスとはひと味違うAmazon Redshiftの特徴、刮目ください。
高度なセキュリティ
先の「Amazonがデータを管理してくれる」ことに通じるところがありますが、Amazon RedshiftはAmazonの高度なセキュリティにガードされています。
そのため、データの盗難被害や流出被害対策にもってこいでしょう。
SQLに対応している
Amazon RedshiftはSQL(データウェアハウスやデータベースとやり取りをおこなうための言語)に対応しています。
SQLは、他データウェアハウスやデータベースだけでなく、多数の企業が提供しているソフトウェアでも使える言語です。
SQLに対応しているAmazon Redshiftには、他データベースやソフトウェアとの連携がしやすいという利点があります。
高速で処理ができる
今までのデータベースと比べ、Amazon Redshifは今までのデータベースと比べ10倍もの性能を内包しています。
「データを列で管理していることで圧縮率が高いこと」や「データ処理を並列処理していること」がその理由です。
クラウドデータシェアウェアの代表格
Amazon Redshiftは数多くの顧客を有するツールです。
たしかなパフォーマンスと容量に、数万社にものぼる企業がAmazon Redshiftを利用中です。
Amazon Redshiftを取り入れたことで製造効率がアップしたとか。
さらにデータ収集や分析にかかっていた時間を大幅に縮小できたという声もそこかしこで挙がっています。
具体的にどんな企業が使っているかについてですが、「McDonald’s(マクドナルド)」や「ANA」、「SHARP」や「ダイソー」など。
大手企業がこぞってAmazon Redshiftを利用し、たしかな実績を獲得しています。
Amazon Redshiftのメリット
この項目では、Amazon Redshiftのメリットについていくつかご紹介します。
緻密なマーケティング
Amazon Redshiftの力を発揮できる場としてまず最初に思い浮かぶのが「緻密なマーケティング」です。
ユーザーの行動を把握してニーズや購買意欲などを調べるのに、Amazon Redshiftは最適です。
通常ならデータ量が多すぎて、データ収集だけで見逃してしまうようなものでも、Amazon Redshiftを取り入れれば状況はガラリと変わってきます。
Amazon Redshiftのデータ処理速度のスピードはかなりのもの。
パフォーマンスが高いツールを使うことで、緻密なマーケティングを短期間でおこなうことが可能です。
クラウドサービス
Amazon Redshiftの特徴は何といっても「クラウドサービス」ということです。
Amazon Redshiftはクラウド上にあるデータウェアハウスであるため、データの管理をおこなうのは自社ではなくAmazonです。
自社に保管しているデータが壊れてしまっても、元データはAmazonがしっかりと管理してくれているという安心感があります。
コストを抑えられる
上記のように、Amazon Redshiftは通常よりもスピードが速く容量もコンパクトに収めることができるデータウェアハウスです。
詳しくは後述しますが、Amazon Redshiftは利用した分だけ料金がかかります。
利用時間や容量がコンパクトに済むということはコストを減らすことに繋がるでしょう。
Amazon Redshiftの機能
次に、Amazon Redshiftの持つ機能についてご覧ください。
列指向データベース
「カラムナーデータベース」とも呼ばれます。
Amazon Redshiftに限らず、データウェアハウスはSQLをメインに使ってたくさんのデータの集計処理をおこないます。
ですから、各カラムによってデータをブロック化する方法―列指向が最適です。
従来のデータベースは行指向データベースと呼ばれることも。
行指向は、特定の行を取得するなどランダムアクセスに向いている手法です。
MPP(Massively Parallel Processing)
MPPを利用することで、シェアード・ナッシング(リリースを共有せず、線形スケールができるアーキテクチャのこと)を実現可能です。
圧縮エンコード
Amazon Redshiftにはたくさんの圧縮エンコードがあります。
その中から最適な圧縮エンコードを選択してくれるというコマンドもあり、とても便利です。
インスタンスの追加
他のデータウェアハウスやソフトウェアを使っていてデータ量が不足してしまった場合、インスタンス追加にコストと時間(1ヶ月ほど)がかかってしまいます。
ですが、Amazon Redshiftなら数クリックで簡単にインスタンスを追加することが可能です。
Amazon Redshiftの料金
この項目では、Amazon Redshiftを使うのにかかる
費用について解説します。
Amazon Redshiftは他データウェアハウスと比較して低コストなツールです。
そんなAmazon Redshiftには大きく分けて2つの料金プランが存在します。
オンデマンド
クラスターのノード・タイプによって1時間あたりに対して支払う料金を決定するプランです。
ノードの数が増加すると料金もアップします。
初期費用は無料。
リザーブドインスタンス
「スタンダード1年間」もしくは「スタンダード3年間」という2つのコースが用意されています。
どちらの契約期間を選ぶかで料金に変化あり。
なお、どちらのプランも支払い方法は「前払い(一部前払い・全額前払い)」か「毎月払い」の中から選択することが可能です。
料金について詳しいことが知りたい人はこちらからご確認ください。
無料お試し期間あり
上記のプランを見るとわかるとおり、Amazon Redshiftを利用するのにはお金がかかります。
しかし、Amazon Redshiftには「お試し期間」というものが存在します。
このお試し期間が終わるまではAmazon Redshiftの機能を無料で使うことが可能です。
無料トライアルを使用できるのは750時間。
Amazon Redshiftの使い心地などを試すのには十分な利用時間といえるでしょう。
大体2ヶ月くらいは試すことができる計算になります。
ただ、複数の処理システムを使った場合は時間消費が著しくなってしまうため、2ヶ月より前にお試し期間が終了してしまう可能性もあるでしょう。
無料お試しプランを試すことができる条件は「初めてAmazon Redshiftでクラスターを作成する」こと。
要は、初めてAmazon Redshiftを使う人は自動的に無料お試しからスタートすることになるということです。
Amazon Redshiftの導入手順
Amazon Redshiftの基礎知識や特徴、機能や料金などについて確認したら次は「Amazon Redshiftの導入」です。
この項目では、Amazon Redshiftの導入方法をわかりやすくご説明します。
AWSアカウントを作成する
まず、AWSアカウントを所有していないという人はアカウントを作るところから始めましょう。
Amazon S3にバケットを作成する
AWSにサインインし、Amazonクラウドストレージサービス「Amazon S3」にバケット(フォルダのようなもの)を作ります。
このバケットにデータを格納していくので、必ず作成が必要です。
「マネジメントコンソール」に「バケットの作成」というコマンドあり。
それクリックしてバケットを作成しましょう。
データを入れる
バケットの中にデータを入れてみます。
「アクション」内の「アップロード」を選び、「ファイルの追加」をクリックします。
アップロードしたいファイルの選択をおこなってください。
確認する
ファイルが表示されるかをチェックしたら、一通りの作業は終わりです。
Amazon Redshiftの使い方①スナップショット
Amazon Redshiftはスナップショット用に無料ストレージを提供してくれています。
ただ、そのストレージ容量というのはクラスターのもの。
スナップショットの空き容量がMAXまでいくと、追加ストレージを通常料金で課金されてしまうので注意が必要です。
そうならないためにも、不要なスナップショットを取り除く作業が必要になります。
Amazon Redshiftの使い方②通信を暗号化する
SSLを利用して通信の暗号化をおこないたい時は「AWS ACM」を使いましょう。
その場合、証明書をクラスターへインストールすることが必要です。
なお、クラスターを作成する時にKMSを使って暗号化することも可能。
ただし、あとから暗号化をおこなうことはできない点は気をつけましょう。
まとめ
Amazon Redshiftについてご紹介しましたが、いかがだったでしょうか。
蓄積した数多くの価値あるデータ。せっかくのデータをより活かすことができる方法があるなら試してみたいのが人間です。
データを細かい分析をおこなえるAmazon Redshiftは、とても魅力的なツール。
記事内でも述べましたが、Amazon Redshiftはクラウド上で動作します。
データ管理は自社でなくAmazonがおこなってくれるところが大きなポイント。
Amazonの高いセキュリティが、データを盗まれ流出してしまうかもしれない恐怖から守ってくれるでしょう。
世界中の企業から熱い視線を送られ、多くの成果を出してきたデータシェアハウス・Amazon Redshift。
既存のデータウェアハウスに不満を持っている人、これからを導入しようと思っている人はぜひAmazon Redshiftの導入をご検討ください。