Đây là cách máy móc học cách học có giám sát (Supervised Learning)

Toàn LH
Vega Corporation
Published in
5 min readNov 12, 2020

Part 2

Đối với trẻ em, chó là con vật mà chúng từng gặp (“ a bow-wow - âm thanh mà một con chó tạo ra ”). Ban đầu, một đứa trẻ cũng sẽ áp dụng thuật ngữ này cho các động vật khác, chẳng hạn như mèo và bò. Thông qua những cuộc gặp gỡ, tiếp súc sâu hơn với những loại động vật này, đứa trẻ sau đó sẽ biết rằng những loài này có tên riêng biệt và nó sẽ sớm có thể nhận dạng các loài động vật theo đặc điểm riêng của chúng, ngay cả khi không có mô tả rõ ràng.

Ý tưởng cơ bản

Các thuật toán học có giám sát (Supervised learning) hoạt động tương tự. Một loạt dữ liệu có nhãn tương ứng được đưa ra làm đầu vào. Mục tiêu là tìm một mẫu mà theo đó các nhãn chính xác có thể được gán cho dữ liệu. Sau đó, mẫu này, được đưa vào xứ lý trong một mô hình, có thể được áp dụng cho dữ liệu mới.

Học có giám sát (Supervised Learning) được trực quan hóa bằng robot.

Tính sẵn có của dữ liệu được gắn nhãn, còn được gọi là dữ liệu đào tạo (training data), rất quan trọng đối với việc sử dụng học có giám sát. Dữ liệu này có thể ở dạng các khối hình có nhãn “A”, “B”, “C” hoặc “D”, như trong ví dụ, hoặc ảnh có nhãn “mèo” hoặc “chó”. Đôi khi có thể sử dụng các tập dữ liệu hiện có. Nếu không đúng như vậy, dữ liệu cần được dán nhãn theo cách thủ công.

Sử dụng dữ liệu được gắn nhãn này, thuật toán thiết lập mẫu riêng sử dụng các đặc điểm của dữ liệu (ví dụ: hình dạng và màu sắc của khối hình) để gán nhãn (ví dụ: “A”). Ví dụ, đối với hình ảnh, các kỹ thuật thông minh có thể được sử dụng để xác định các hình dạng hình học đơn giản đóng vai trò là các đặc trưng. Vì các nhãn của dữ liệu đào tạo đã được biết, nên quá trình học tập có thể được “giám sát ”: Thủ tục nhận được phản hồi về mức độ mà mẫu được gắn nhãn dữ liệu chính xác. Dựa trên phản hồi này, mô hình dần dần được tinh chỉnh để đạt được kết quả ngày càng tốt hơn. Bước này còn được gọi là giai đoạn huấn luyện (training). Mô hình (giấy nến bằng gỗ, trong trường hợp là rô bốt ở trong ví dụ) đại diện cho mẫu, điều này sẽ đảm bảo dữ liệu đầu vào được cung cấp đúng nhãn. Mẫu này có thể được biểu diễn một cách rõ ràng dưới dạng cây quyết định hoặc ngầm hiểu là các tham số của mạng nơ-ron. Trong thực tế, kết quả đạt yêu cầu thường đòi hỏi một lượng lớn dữ liệu đào tạo, ví dụ: hàng nghìn hình ảnh động vật, mỗi hình ảnh được gắn nhãn “mèo” hoặc “chó”.

Khi quá trình đào tạo hoàn tất, mô hình có thể được sử dụng để gắn nhãn dữ liệu mới (tương tự). Ví dụ, giờ đây, rô bốt có thể sử dụng bút chì bằng gỗ để gán nhãn A hoặc B cho các khối hình khác. Giờ đây, mô hình học tập có giám sát (Supervised Learning) được huấn luyện để phân biệt mèo với chó trong ảnh cũng có thể được sử dụng để gắn nhãn các hình ảnh không xác định về chó hoặc mèo, ngay cả khi góc nhìn hoặc điều kiện ánh sáng khác với các điều kiện trong bộ đào tạo. Tuy nhiên, trước khi một mô hình như vậy có thể được sử dụng, cần phải xác định hiệu suất của nó, tức là độ chính xác của nó. Vì mục đích này, giữ lại một số dữ liệu được gắn nhãn là “dữ liệu thử nghiệm-test data” cho phép chúng ta kiểm tra xem thuật toán gắn nhãn dữ liệu chưa được đào tạo như thế nào. Độ chính xác cần thiết sẽ thay đổi tùy theo ứng dụng dự kiến. Để dự đoán liệu khách hàng có nhấp vào quảng cáo được cá nhân hóa hay không, dữ liệu kiểm tra có thế được gắn nhãn chính xác 60% là đảu, trong khi đối với việc nhận dạng hình ảnh, độ chính xác cần phải đạt 90% và thậm chỉ hơn thếnữa. Làm sao người máy có thể biết được rằng hình bán nguyệt phải có một nhãn khác nếu nó chưa từng nhìn thấy hình bán nguyệt trước đây?

Lĩnh vực ứng dụng

Một số lượng lớn các ứng dụng AI được sử dụng cho mục đích thương mại dựa trên việc học có giám sát. Các lĩnh vực ứng dụng phổ biến của mô hình học tập này bao gồm các bài toán phân loại và hồi quy.

Vấn đề phân loại. (classification problems)

Trong trường hợp của vấn đề về phân loại, thuật toán học, giống như trong ví dụ về nhận dạng hình ảnh và rô bốt của chúng tôi, để sắp xếp dữ liệu thành các danh mục khác nhau (được xác định trước), tức là gán nhãn cho chúng. Các lĩnh vực ứng dụng điển hình bao gồm: Một bức ảnh có hiển thị một con mèo, một con chó hoặc một con chim? Một khách hàng vay tiền thuộc loại rủi ro nào? Một e-mail có được phân loại là thư rác hay không?

Vấn đề hồi quy. (Regression problem.)

Học có giám sát cũng được sử dụng khi dữ liệu phải được gán một giá trị số hơn là một nhãn xác định trước. Trong cái gọi là các bài toán hồi quy, thuật toán xác định mối quan hệ giữa các điểm dữ liệu và nhãn được cung cấp dưới dạng giá trị số. Do đó, hồi quy được sử dụng để giải quyết các câu hỏi như: Còn bao nhiêu tuần cho đến khi người dùng hủy đăng ký video của họ? Chúng tôi có thể bán căn nhà với giá nào? Mức tăng giá cổ phiếu sẽ là bao nhiêu?

Bài viết được dịch từ bài của các tác giả Stefan Seegerer, Tilman Michaeli và Ralf Romeike

Hình ảnh robot được chuyển thể từ https://openclipart.org/detail/191072/blue-robot và được cấp phép theo CC0.

--

--