Đây là cách máy móc học hỏi! Học tập không giám sát (Unsupervised Learning)

Published in

Vega Corporation

5 min readNov 12, 2020

Part 3

Nếu chúng ta lấy một đống gạch Lego lớn và yêu cầu ba đứa trẻ phân loại chúng, những đứa trẻ có thể sẽ phân loại ra một vài đống gạch nhỏ hơn. Chúng có thể phân loại các loại gạch này dựa trên màu sắc hoặc kích thước của từng viên gạch, ngay cả khi chúng không được hướng dẫn rõ ràng. Điều này tương tự như những gì các thuật toán học không giám sát làm.

Ý tưởng cơ bản của phương pháp như sau

Các hình ảnh dưới đây mô tả các hoạt động của phương pháp.

Học không giám sát (**Unsupervised Learning**) được trực quan hóa bằng robot.

① Đối với một số vấn đề, không có dữ liệu được gắn nhãn (như trong trường hợp học có giám sát, xem ) cũng như cách đánh giá hành vi (như đối với học tăng cường ). Thay vào đó, thông tin chúng ta có sẵn chỉ giới hạn ở dữ liệu đầu vào chưa được gắn nhãn: dạng dữ liệu duy nhất có sẵn cho rô bốt của chúng tôi là một loạt các khối hình — không có bất kỳ nhãn nào. Ví dụ, một ứng dụng trong thế giới thực là phân đoạn các nhóm khách hàng cho các quảng cáo được cá nhân hóa. Trong trường hợp này, dữ liệu bao gồm các đặc điểm như tuổi của khách hàng, các lần mua hàng trước đây hoặc thu nhập — nhưng không bao gồm các nhãn, chẳng hạn như “quan tâm đến công nghệ”, “quan tâm đến thời trang”.

② Các thuật toán học tập không giám sát xử lý dữ liệu không được gắn nhãn bằng cách xác định các điểm tương đồng giữa các tính năng. Trong trường hợp robot ở trên, dữ liệu bao gồm các khối hình riêng lẻ và đặc điểm của chúng, chẳng hạn như số lượng các góc. Giả định là các tính năng này càng giống nhau thì các điểm dữ liệu càng giống nhau. Điều tương tự cũng áp dụng cho các đặc điểm của khách hàng: sự gia tăng hành vi mua hàng, thu nhập, độ tuổi, v.v. có nghĩa là sự tương đồng cao hơn giữa hai khách hàng.

③ Các điểm dữ liệu tương tự được sắp xếp thành các nhóm, chẳng hạn như tất cả các hình vuông, hình tam giác, v.v … Các điểm ngoại lệ, chẳng hạn như hình tròn, bị cô lập. Nếu xem xét dữ liệu khách hàng, chúng ta cũng có thể thấy các nhóm khác nhau đang nổi lên: Để chạy quảng cáo, bây giờ chúng ta cần kiểm tra các nhóm và quyết định quảng cáo nào phù hợp nhất với nhóm khách hàng nào.

Việc gán các điểm dữ liệu cho các nhóm (hoặc “cụm”) dựa trên các đặc điểm của chúng tạo thành mô hình. Nó liên tục được điều chỉnh theo từng điểm dữ liệu mới. Ngược lại với học có giám sát, không có nhãn cho các cụm kết quả, chỉ có thông tin về dữ liệu nào thuộc về một cụm nhất định. Hơn nữa, chúng ta không thể đo lường chất lượng của mô hình kết quả một cách khách quan, vì trái ngược với việc học có giám sát, không thể đưa ra tuyên bố nào về việc bài tập là “đúng” hay “sai”.

Lĩnh vực ứng dụng

Học không giám sát được sử dụng trong các ứng dung khi chúng ta không có sẵn dữ liệu được gắn nhãn hoặc khi việc dán nhãn sẽ rất tốn kém về thời gian và chi phí. Các ứng dụng phổ biến là phân cụm dữ liệu, tìm các điểm bất thường hoặc xác định các mối tương quan của dữ liệu.

Bài toán phân tích cụm (**Cluster analysis**)

Việc tìm kiếm các nhóm (cụm) khác nhau của dữ liệu đầu vào được sử dụng trong phân tích cụm (như trong ví dụ của về phân khúc khách hàng) hoặc trong mô hình chủ đề. Mô hình hóa chủ đề là một cách tiếp cận để tự động xác định các chủ đề cơ bản của tài liệu văn bản. Với mục đích này, sự giống nhau của các tài liệu văn bản được xác định dựa trên các từ mà chúng chứa. Điều này giúp cho việc phân loại nhóm tài liệu văn bản về các nhóm cùng chủ đề.

Phát hiện sự cố bất thường (**Anomaly detection**)

Phần đối chiếu của phân cụm là phát hiện bất thường. Với tính năng phát hiện bất thường, trọng tâm là tìm ra các điểm khác thường thay vì các nhóm trong dữ liệu. Ví dụ, điều này được sử dụng trong phân tích lưu lượng mạng (đáng ngờ) hoặc phát hiện gian lận đối với thanh toán bằng thẻ tín dụng.

Học quy tắc kết hợp (Association rule learning)

Ngoài ra, các thuật toán học không giám sát có thể được sử dụng để tìm các mối quan hệ đã ẩn trước đó (học quy tắc kết hợp) trong tập dữ liệu. Trong trường hợp mua sắm trực tuyến, các khuyến nghị được đưa ra dựa trên các thông tin có trong giỏ hàng: Những khách hàng mua đồng hồ đắt tiền cũng đã mua rượu whisky chất lượng cao trong 70% trường hợp.

Bài viết được dịch từ bài của các tác giả Stefan Seegerer, Tilman Michaeli và Ralf Romeike

Hình ảnh robot được chuyển thể từ https://openclipart.org/detail/191072/blue-robot và được cấp phép theo CC0.

Đây là cách máy móc học hỏi! Học tập không giám sát (Unsupervised Learning)

Written by Toàn LH