Home > Programming > Cài đặt và sử dụng Hadoop (I)

Cài đặt và sử dụng Hadoop (I)

Chuẩn bị:

+Cài đặt Vmware Workstation, máy ảo ubuntu và cài vmware tools

+Vm–>Settings–>chọn như hình sau:

Trong hình SharedCloud là thư mục dùng chung của hệ điều hành của bạn và Ubuntu. Ubuntu sẽ tìm thấy folder SharedCloud trong /mnt/hgfs/

+Cài đặt ssh:

$ sudo apt-get install ssh

+Cài đặt Java: download jdk-6u23-linux-i586.bin  đặt trong thư mục dùng chung (SharedCloud)

$ cd /usr/java

$ /mnt/hgfs/SharedCloud/jdk-6u23-linux-i586.bin

+Cài đặt Hadoop: download hadoop-0.19.2.tar.gz đặt trong SharedCloud

$ tar –zxvf /mnt/hgfs/SharedCloud/hadoop-0.19.2.tar.gz

NB: phiên bản hadoop-0.21.0.tar.gz ko có gói ví dụ sắp được tiến hành trong bài này

+Edit conf/hadoop-env.sh: có thể dùng Text editor có sẵn trong Ubuntu hoặc dùng lệnh nano conf/hadoop-env.sh để sửa lại theo đường dẫn cài đặt của java

export JAVA_HOME=/usr/java/jdk1.6.0_23 (nhớ bỏ dấu # đầu câu)

Tiến hành:

Hadoop cung cấp 3 cách hoạt động, thí nghiệm này dùng ví dụ sẵn có WordCount(thống kê tổng cộng tần số xuất hiện của từng chữ trong nhiều file) để minh họa cho 3 mô hình

+Chạy trên 1 máy (Single Node):

$ cd hadoop-0.19.2

$ mkdir input

$ cd input

$ echo “hello world”>text1.txt

$ echo “hello hadoop”>text2.txt

$ cd

$ bin/hadoop jar hadoop-0.19.2-examples.jar wordcount input ouput

$ cat output/*

+Phân bố giả(Pseudo-Distributed)

Cách này mô phỏng theo ứng dụng thật của Hadoop bằng cách tạo ra nhiều process (NameNode, DataNode, JobTracker, TaskTracker, Secondary NameNode) chạy trên cùng 1 máy.

Sửa file conf/hadoop-site.xml

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

Tạo cặp mật mã :

$ ssh-keygen –t rsa

Sau đó cứ nhấn enter liên tiếp.

$ cd .ssh

$ cp id_rsa.pub authorized_keys

$ ssh localhost

$ cd

Chạy ví dụ:

$ bin/hadoop namenode –format

$ bin/start-all.sh

Có thể mở internet explorer ra xem trạng thái của distributed file system tại http://localhost:50070, của Jobtracker tại http://localhost:50030, của TaskTracker tại http://localhost:50060

Chạy tiếp các lệnh sau:

$ bin/hadoop fs –put input in

$ bin/hadoop jar hadoop-0.19.2-examples.jar wordcount in out

$ bin/hadoop fs –cat out/*

Kết thúc tất cả process:

$ bin/stop-all.sh

Notes:

Khi tạo new folder nếu báo lỗi không đủ quyền thì có thể đặt sudo trước lệnh tạo.

Để ý chữ thường hay chữ hoa, ví dụ bạn gõ sai thành bin/hadoop NameNode –format thì luôn báo lỗi

(to be continued)

Categories: Programming Tags: ,
  1. Đỗ Quang Nghĩa
    December 10, 2011 at 2:35 PM

    Trước khi câu cá phải có cần câu! Bài viết bổ ích 1 vote cho người cùng chí hướng

  2. Tạ Đình Tích
    December 10, 2011 at 5:29 PM

    Ai cùng chí hướng thế?:D

  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: