Home > Programming > Các tham số của một ứng dụng MapReduce

Các tham số của một ứng dụng MapReduce

Khi chạy ứng dụng MapReduce, Hadoop có thể cung cấp các thông số (counter) sau đây:

Type

Counter

Meaning

Job Counters Launched map tasks Số lượng tất cả các Map được kích hoạt.
Launched reduce tasks Số lượng tất cả các Reduce được kích hoạt
Failed map tasks Số lượng Map thất bại
Failed reduce tasks Số lượng Reduce thất bại
Data-local map tasks Số lượng các Map có input nằm trên cùng một node chạy Map đó.
Rack-local map tasks Số lượng các Map có input nằm trên cùng một rack có node chạy Map đó
Other local map tasks Số lượng các Map có input nằm trên không cùng một rack có node chạy Map đó
FileSystems Counters FILE_BYTES_READ Lượng dữ liệu đọc từ ổ cứng
HDFS_BYTES_READ Lượng dữ liệu đọc từ HDFS
FILE_BYTES_WRITTEN Lượng dữ liệu viết vào ổ cứng
HDFS_BYTES_WRITTEN Lượng dữ liệu viết vào HDFS
Map-Reduce Framework Map input records Số lượng record nhập vào của tất cả các Map
Map skipped records Số lượng record bị Map bỏ qua, không xử lí (ví dụ record không đúng format)
Map input bytes Lượng dữ liệu nhập vào của tất cả các Map
Map output records Số record xuất ra của tất cả các Map
Map output bytes Lượng dữ liệu xuất ra của tất cả các Map
Combine input records Số record nhập vào của Combine
Combine output records Số record xuất ra của Combine
Reduce input groups Số lượng nhóm (key phân biệt) nhập vào của Reduce
Reduce input records Số record nhập vào của Reduce
Reduce output records Số record xuất ra của Reduce
Reduce skipped groups Số lượng nhóm mà Reduce không xử lí
Reduce skipped records Số record mà Reduce không xử lí
Spilled records Số lượng record mà Map với Reduce viết vào ổ cứng

Trong ví dụ sau, có 1000 Map cần được tính toán (Num Tasks=1000), nhưng thực tế có đến 1007 Map được kích hoạt(Launched map tasks=1007), không có Map nào thất bại (Failed=0). Lí do là trong 1000 Map ban đầu được kích hoạt, chỉ có 873 Map sử dụng được data locality (Data-local map tasks=873) nên chạy nhanh hơn, phần còn lại chạy chậm hơn. Khi đa phần các Map đã hoàn thành mà vẫn còn một số chưa chạy xong thì hệ thống sẽ phân phối cho các node khác tiến hành song song, sau đó sử dụng kết quả nào nhanh nhất, trong hình có 7 Map kiểu này. Đây là đặc tính backup nhiệm vụ.

Categories: Programming Tags: ,
  1. No comments yet.
  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: