Home > Programming > Tính độ tương tự của 2 tài liệu dựa trên MapReduce

Tính độ tương tự của 2 tài liệu dựa trên MapReduce

Độ tương tự giữa 2 tài liệu là một cách thường dùng để phân loại tài liệu. Tính toán độ tương tự giữa 2 tài liệu thường dùng phương pháp cosin: mỗi tài liệu d dùng một vector V(d)={<t1,w1>,<t2,w2>,…,<tn,wn>}đại diện, trong đó ti là những từ ngữ phân biệt, wi là hệ số của mỗi từ ti, độ tương tự của 2 tài liệu di và dj được tính bằng công thức:

TF-IDF(Term Frequency-Inverse Document Frequency) là một cách thường dùng của phương pháp này. TF-IDF dựa trên tầm quan trọng của mỗi từ trong tài liệu để thống kê, bởi vì một từ xuất hiện nhiều lần trong tài liệu này nhưng rất ít xuất hiện trong tài liệu khác thì từ này dùng phân loại tương đối thích hợp, nếu số lượng tài liệu chứa đựng một từ nào đó là tương đối ít thì từ này cũng có khả năng phân loại tốt.

Đối với mỗi từ ti trong tài liệu di, TF-IDF cần tính các chỉ số sau:

TF(i,j)=Fre(tj)/tot(di)

IDF(i,j)=log(N/f(tj))

w(i,j)=TF(i,j)*IDF(i,j)

Trong đó, Fre(tj)là số lần xuất hiện của từ tj trong tài liệu di, tot(di)là tổng số từ trong di, N là tổng số tài liệu, f(tj) là số lượng các tài liệu chứa từ tj.

TF-IDF có thể dùng 4 lần MapReduce để tính, cụ thể như sau:

Trong hình, t là tổng số từ của filename, m là số tài liệu chứa word

MapReduce1: thống kê số lần xuất hiện của mỗi từ trong mỗi tài liệu

MapReduce2: thông kê số lượng từ của mỗi tài liệu

MapReduce3: đối với từng từ, thống kê số lượng tài liệu chứa nó

MapReduce4: tính toán hệ số w của mỗi từ ứng với mỗi tài liệu và độ tương tự.

(Dựa trên ý tưởng của tác giả Hồng Nghị Hồng, ĐH Vũ Hán)

Categories: Programming Tags:
  1. No comments yet.
  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: