Skip to content

Latest commit

 

History

History
81 lines (50 loc) · 8.47 KB

lab1.md

File metadata and controls

81 lines (50 loc) · 8.47 KB

LAB 1 - LOADING SENSOR DATA INTO HDFSの翻訳です。

LAB 1 - LOADING SENSOR DATA INTO HDFS

INTRODUCTION

このセクションでは、センサデータをダウンロードし、Ambari User Viewを使用してHDFSにロードします。ファイルを管理するためにAmbari File User Viewを紹介します。Ambari File User Viewを用いるとディレクトリの作成、ファイルシステムのナビゲート、ファイルのHDFSへのアップロードなどのタスクを実行できます。さらに、他のファイル関連のタスクも実行することができます。最初にAmbari File User Viewの基礎を学習し、実際にAmbari File User Viewを用いて2つのディレクトリを作成し、2つのファイルをHDFSにロードしていきます。

PRE-REQUISITES

このチュートリアルは、Hortonworks Sandboxを使用してHDPを始めるためのシリーズの一部です。このチュートリアルを進める前に、前提条件を満たしていることを確認してください。

このチュートリアルを完了するのに20分ほどを要します。

OUTLINE

  • HDFS backdrop
  • Step 1.1: Download data – Geolocation.zip
  • Step 1.2: Load Data into HDFS
  • Summary
  • Suggested Reading

HDFS BACKDROP

1台の物理マシンでは、データが増加するにつれてそのストレージ容量が限界に達してしまいます。このデータ増加のために、データを別々のマシンに分割する必要があります。ネットワークのマシン間でデータのストレージを管理するこのタイプのファイルシステムは、分散ファイルシステムと呼ばれます。HDFSはApache Hadoopの中心的なコンポーネントであり、コモディティハードウェアのクラスタ上で実行されるストリーミングデータアクセスパターンを含む大きなファイルを格納するように設計されています。Hortonworks Data Platform HDP 2.2では、HDFSはクラスタ内でheterogeneous storage(様々なストレージメディア)をサポートするように拡張されました。

STEP 1.1: DOWNLOAD AND EXTRACT THE SENSOR DATA FILES

  1. サンプルセンサーデータはここからダウンロードできます:Geolocation.zip

  2. Geolocation.zipをダウンロードし、ファイルを展開します。 次のファイルを含むGeolocationフォルダが展開されます。

  • geolocation.csv - これはトラックから収集されたジオロケーションデータです。トラックの場所、日付、時刻、イベントの種類、速度などを示すレコードが含まれています。
  • trucks.csv - これはリレーショナルデータベースからエクスポートされたデータで、トラックモデル、運転手ID、トラックID、および集計されたマイレージ(燃費)に関する情報が含まれています。

STEP 1.2: LOAD THE SENSOR DATA INTO HDFS

  1. Ambariのダッシュボードに移動し、HDFS File Viewを開きます。ユーザー名ボタンの横にある9つの四角のボタンをクリックし、Files Viewを選択します。 Files  View

  2. HDFSファイルシステムの一番上のルートから始まり、ログインしているユーザー(この場合はmaria_dev)がアクセス権を持っているすべてのファイルが表示されます。 Files  View

  3. /user/maria_devのディレクトリリンクをクリックして移動します。

  4. 今回のユースケースで使用するデータをアップロードするためのデータディレクトリを作成しましょう。 New Folderボタンをクリックして、maria_devディレクトリ内にデータディレクトリを作成します。そして、dataディレクトリに移動します。 Add New Folder

1.2.1 UPLOAD GEOLOCATION AND TRUCKS CSV FILES TO DATA FOLDER

  1. 新しく作成したディレクトリパス/user/maria_dev/dataにまだ移動していない場合は、そのフォルダに移動します。次に、Uploadボタンをクリックして、geolocation.csvとtrucks.csvをアップロードします。

  2. ファイルのアップロードウィンドウが表示され、雲の画像をクリックします。 Upload file

  3. 別のウィンドウが表示され流ので、2つのcsvファイルをダウンロードしたディレクトリに移動します。1回に1つのファイルを選択し、Openを押してアップロードを完了します。両方のファイルがアップロードされるまで、このプロセスを繰り返します。 File Navigator 両方のファイルがHDFSにアップロードされ、Files ViewのUIに表示されます。 File Views ここでファイルやフォルダに対して、次の操作を実行することもできます: 開く、名前変更、権限変更、削除、コピー、移動、ダウンロード、ファイル連結

1.2.2 SET WRITE PERMISSIONS TO WRITE TO DATA FOLDER

  1. ディレクトリパス/user/maria_devに含まれているdataフォルダをクリックします。[Permissions]をクリックします。下記の画像のように、すべてのWriteボックスがチェックされていることを確認してください(背景が青色になる)。

File Views

SUMMARY

おめでとうございます! このチュートリアルで得たスキルと知識を要約しましょう。Hadoop Distributed File System(HDFS)は、複数のマシン間でデータを管理するために構築されたものです。 そしてAmbariのHDFS Files Viewを使用することでHDFSにデータをアップロードすることができます。

SUGGESTED READING