Bạn hiểu như thế nào về học máy?

Học máy sẽ tự động hoá hầu hết các công việc chỉ có thể thực hiện được bởi con người

Published in

Coding For Fun

4 min readMay 5, 2020

Tất cả con người chúng ta được tiếp xúc với dữ liệu từ khi sinh ra. Mắt, tai, mũi, da và lưỡi liên tục thu thập các dạng dữ liệu khác nhau để não bộ chuyển thành thị giác, âm thanh, mùi, xúc giác và vị giác. Bộ não sau đó xử lý các dạng dữ liệu thô khác nhau mà nó nhận được thông qua các cơ quan giác quan, sau đó chuyển thành các hành động tương ứng như lời nói, cử chỉ v.v.

Ngày nay, dữ liệu xuất hiện từ mọi người trên thế giới. Các cảm biến gắn liền được lắp khắp mọi nơi để thu thập dữ liệu như nhiệt độ môi trường, tốc độ xe, vị trí tàu thuỷ, áp suất lốp, mực nước hồ chứa v.v. Dữ liệu cũng được thu thập từ Internet thông qua các trang web và các trang mạng xã hội khác nhau. Các dạng dữ liệu phong phú này được thu thập từ nhiều nguồn và được xử lý để thực hiện các nhiệm vụ khác nhau theo yêu cầu.

Cách lập trình truyền thống…

Trước đây, chúng ta sẽ chủ yếu xây dựng các chương trình (giải thuật) được thiết kế sẵn và dữ liệu được thu thập theo các cách trên để tạo ra các kết quả mong muốn (nghiệp vụ) — ví dụ thống kê thời tiết trong tuần qua.

Các giải thuật học máy được sinh ra…

Học máy sinh ra để giúp chúng ta tạo ra các chương trình từ dữ liệu và kết quả thu được, nó khác cách tiếp cận trước đây — chúng ta có thể dựa vào dữ liệu cũ và một số tham số hiện tại để dự đoán thời tiết tuần tiếp theo.

Học máy là gì…?

Vậy học máy là gì, chính xác nó là tập hợp các giải thuật và kỹ thuật được sử dụng để thiết kế các hệ thống (chương trình) có khả năng học từ dữ liệu. Học máy là tập hợp của các lý thuyết sau:

Tính toán khoa học.
Toán học.
Thống kê.

Học máy sẽ giải quyết các vấn đề gì…?

Rất nhiều việc ngành học máy có thể giải quyết được, ví dụ như việc xác định giao dịch chi tiêu thẻ tín dụng có phải là lừa đảo hay không? Học máy có thể dự đoán xem ai sẽ là Tổng thống Mỹ tiếp theo hay đơn giản là xác định giá ngôi nhà định mua v.v. Tất cả các vấn đề này được chia thành 3 nhóm chính:

Classification — phân loại: đây là quả táo hay lê?
Regression — hồi quy: bao nhiêu tiền hoặc bao nhiêu cái?
Clustering — phân cụm: nó được tổ chức như thế nào?

Phân loại

Trong học máy, phân loại là việc phân loại các tập dữ liệu thành từng nhóm khác nhau và xác định xem dữ liệu chưa được phân loại thuộc nhóm nào. Nó có thể dùng để giải các bài toán như:

Dự đoán người chiến thắng cho cuộc bầu cử tổng thống Hoa Kỳ năm 2020.
Dự đoán một khối u có phải là ung thư hay không?
Hoặc đơn giản là phân loại các loại hoa khác nhau.

Hồi quy

Hồi quy giúp chúng ta dự báo tương lai dựa vào mối quan hệ giữa các biến dữ liệu. Không giống như phân loại, hồi quy trả về một giá trị có thể tiếp tục sử dụng. Các vấn đề hồi quy giải quyết:

Dự đoán doanh thu bán hàng quý tiếp theo.
Dự đoán nhiệt độ ngày mai.
Hay là dự đoán tuổi thọ của lốp xe.

Phân cụm

Phân cụm giúp chúng ta nhóm các dữ liệu tương tự thành các nhóm, mỗi đối tượng có thể thuộc nhiều nhóm. Một số ví dụ về phân cụm:

Những người thích xem thể loại phim giống nhau.
Các ổ đĩa bị hỏng theo cách giống nhau.

Vậy, máy sẽ học như thế nào nhỉ…?

Mặc dù các vấn đề học máy giải quyết rất rộng lớn tuy nhiên chúng chỉ học theo có 3 cách.

Học có giám sát…

Cách học này lấy cảm hứng từ việc giáo viên day học sinh theo các bài tập mẫu và học sinh giải các bài tương tự. Hiểu đơn giản chúng ta sẽ dạy học sinh nhận biết các bức ảnh nào là táo, ảnh nào là lê và đưa ra một bức ảnh khác cho học sinh nhận dạng.

Học không có giám sát…

Không giống như học có giám sát, cách học này sẽ không có hướng dẫn mà chúng ta chỉ có dữ liệu đầu vào. Chúng ta phải tự xác định các nhóm dữ liệu theo các tiêu chí mà chúng ta mong muốn hoặc giảm dữ liệu để thuận tiện cho việc lưu trữ tính toán.

Học tăng cường…

Phương pháp này giống như cách dạy đứa trẻ cách tập đi thông qua các lần vấp ngã. Chúng sẽ phải xác định hành vi dựa trên hoàn cảnh để đạt mục đích cao nhất.

Cảm ơn bạn đã đọc!