Home > Programming > Các lệnh thường dùng của Hadoop

Các lệnh thường dùng của Hadoop

Trong Search Engine Terms lưu trong blog của tôi có từ khóa “name node is in safe mode”. Có thể tác giả tự mình không thể thoát khỏi safe mode nên tôi nhận thấy cần thiết viết một bài để tổng hợp lại các lệnh thông dụng của Hadoop. Điều đó có nghĩa là đa số các lệnh này đã được đề cập đến trong các bài viết trước, ở đây thống kê lại để các bạn dễ thao tác cũng như chọn lệnh thích hợp để xử lí tình huống.

bin/start-all.sh: khởi động tất cả process. Có 5 loại process được khởi động, bao gồm:  NameNode, JobTracker, SecondaryNameNode, DataNode và TaskTracker.

bin/stop-all.sh: close all process

bin/start-dfs.sh: khởi động NameNode và DataNode

bin/stop-dfs.sh: close NameNode và DataNode

bin/start-mapred.sh: start JobTracker và TaskTracker

bin/stop-mapred.sh: close JobTracker and TaskTracker

bin/hadoop-daemon.sh start datanode: khởi động DataNode trên node đó. Lệnh này được dùng khi  có một máy tính rảnh rỗi muốn gia nhập vào hệ thống.

bin/hadoop-daemon.sh stop datanode:  close DataNode trên node đó

bin/hadoop-daemon.sh start tasktracker: khởi động TaskTracker trên node đó. Lệnh này được dùng khi  có một máy tính rảnh rỗi muốn gia nhập vào hệ thống (như vậy trong trường hợp này phải dùng đến 2 lệnh để khởi động 2 process:  datanode và tasktracker).

bin/hadoop-daemon.sh stop tasktracker:  close TaskTracker trên node đó

bin/hadoop dfsadmin –report: báo cáo tình hình sử dụng của hệ tập tin phân bố

bin/hadoop dfsadmin –safemode enter: vào trạng thái safe mode

bin/hadoop dfsadmin –safemode leave: rời trạng thái safe mode. Như đã giới thiệu, khi một tỉ lệ nhất định (có thể thiết lập) các block dữ liệu đã được sao lưu đủ số lượng thì hệ thống sẽ tự động thoát khỏi safe mode trong vòng 30s. Do đó nếu bạn chỉ có 2 DataNode trở xuống mà số lượng bản sao mặc định là 3 thì không thể nào sao ra đủ, nên hệ thống sẽ không thoát ra safe mode, vì vậy không thể chạy ứng dụng, tạo file…Bạn cần dùng lệnh này để ép hệ thống thoát ra khỏi safe mode.

bin/start-balancer.sh: phân bố lại dữ liệu trên các node cho bình quân. Lệnh này được dùng khi hệ thống có thêm 1 node mới gia nhập, hoặc một node cũ bị lỗi dẫn đến một số block bị thiếu cần được sao thêm.

Ngoài các lệnh trên, bạn có thể mở webbrowser để xem thông tin hiện tại của hệ thống, ví dụ nhập http: //tên(hoặc ip) của máy chạy NameNode:  50070 để xem status của distributed file system, bao gồm thông tin sử dụng của các DataNode và xem thông tin các block; nhập http: //tên(hoặc ip) của máy chạy NameNode:  50030 để xem thông tin các job, như tiến trình, trạng thái của Map task và Reduce task, data transferred….

Categories: Programming Tags: ,
  1. No comments yet.
  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: