LAB 1 - LOADING SENSOR DATA INTO HDFSの翻訳です。
このセクションでは、センサデータをダウンロードし、Ambari User Viewを使用してHDFSにロードします。ファイルを管理するためにAmbari File User Viewを紹介します。Ambari File User Viewを用いるとディレクトリの作成、ファイルシステムのナビゲート、ファイルのHDFSへのアップロードなどのタスクを実行できます。さらに、他のファイル関連のタスクも実行することができます。最初にAmbari File User Viewの基礎を学習し、実際にAmbari File User Viewを用いて2つのディレクトリを作成し、2つのファイルをHDFSにロードしていきます。
このチュートリアルは、Hortonworks Sandboxを使用してHDPを始めるためのシリーズの一部です。このチュートリアルを進める前に、前提条件を満たしていることを確認してください。
- Hortonworks Sandboxをダウンロードしインストールしておく
- Learning the Ropes of the Hortonworks Sandbox を読んでおく(オプション)
このチュートリアルを完了するのに20分ほどを要します。
- HDFS backdrop
- Step 1.1: Download data – Geolocation.zip
- Step 1.2: Load Data into HDFS
- Summary
- Suggested Reading
1台の物理マシンでは、データが増加するにつれてそのストレージ容量が限界に達してしまいます。このデータ増加のために、データを別々のマシンに分割する必要があります。ネットワークのマシン間でデータのストレージを管理するこのタイプのファイルシステムは、分散ファイルシステムと呼ばれます。HDFSはApache Hadoopの中心的なコンポーネントであり、コモディティハードウェアのクラスタ上で実行されるストリーミングデータアクセスパターンを含む大きなファイルを格納するように設計されています。Hortonworks Data Platform HDP 2.2では、HDFSはクラスタ内でheterogeneous storage(様々なストレージメディア)をサポートするように拡張されました。
-
サンプルセンサーデータはここからダウンロードできます:Geolocation.zip
-
Geolocation.zipをダウンロードし、ファイルを展開します。 次のファイルを含むGeolocationフォルダが展開されます。
- geolocation.csv - これはトラックから収集されたジオロケーションデータです。トラックの場所、日付、時刻、イベントの種類、速度などを示すレコードが含まれています。
- trucks.csv - これはリレーショナルデータベースからエクスポートされたデータで、トラックモデル、運転手ID、トラックID、および集計されたマイレージ(燃費)に関する情報が含まれています。
-
Ambariのダッシュボードに移動し、HDFS File Viewを開きます。ユーザー名ボタンの横にある9つの四角のボタンをクリックし、Files Viewを選択します。
-
HDFSファイルシステムの一番上のルートから始まり、ログインしているユーザー(この場合はmaria_dev)がアクセス権を持っているすべてのファイルが表示されます。
-
/user/maria_dev
のディレクトリリンクをクリックして移動します。 -
今回のユースケースで使用するデータをアップロードするためのデータディレクトリを作成しましょう。 ボタンをクリックして、
maria_dev
ディレクトリ内にデータディレクトリを作成します。そして、data
ディレクトリに移動します。
-
新しく作成したディレクトリパス
/user/maria_dev/data
にまだ移動していない場合は、そのフォルダに移動します。次に、ボタンをクリックして、geolocation.csvとtrucks.csvをアップロードします。 -
別のウィンドウが表示され流ので、2つのcsvファイルをダウンロードしたディレクトリに移動します。1回に1つのファイルを選択し、Openを押してアップロードを完了します。両方のファイルがアップロードされるまで、このプロセスを繰り返します。 両方のファイルがHDFSにアップロードされ、Files ViewのUIに表示されます。 ここでファイルやフォルダに対して、次の操作を実行することもできます: 開く、名前変更、権限変更、削除、コピー、移動、ダウンロード、ファイル連結
- ディレクトリパス
/user/maria_dev
に含まれているdata
フォルダをクリックします。[Permissions]をクリックします。下記の画像のように、すべてのWriteボックスがチェックされていることを確認してください(背景が青色になる)。
おめでとうございます! このチュートリアルで得たスキルと知識を要約しましょう。Hadoop Distributed File System(HDFS)は、複数のマシン間でデータを管理するために構築されたものです。 そしてAmbariのHDFS Files Viewを使用することでHDFSにデータをアップロードすることができます。
- HDFS
- Manage Files on HDFS with Command Line: Hands-on Tutorial
- HDFS User Guide
- Build your HDFS Architecture Knowledge HDFS Architecture Guide
- HDP OPERATIONS: HADOOP ADMINISTRATION