AI Đại Chiến: AlphaGo Zero

Vo Thanh Minh Tue
7 min readOct 24, 2017

--

AI đấu với AI: AlphaGo Zero tự-dạy đã đánh bại tiền thân của nó. Phần mềm chơi cờ vây (Go) của DeepMind — cái đã thống lãnh cuộc cạnh tranh của nó với con người — nay đã tốt hơn .

Tác giả: Larry Greenemeier, 18 tháng 10, 2017

Nguyễn Xuân Xanh (dịch) & Võ Thành Minh Tuệ (hiệu đính)

Lời nói đầu: Đúng 20 năm trước, 1997, trong một cuộc đối đầu giữa người với máy, Deep Blue của IBM đã đánh bại đại kiện tướng cờ vua thế giới Garry Kasparov, gây chấn động dư luận. Nhưng từ nhiều thập niên qua, người ta tin rằng cờ vây cổ đại khó có thể bị đánh bại bởi các computer do tính chất tinh tế và phức tạp của nó mà chỉ bộ óc con người mới làm chủ được. Nhưng rồi vài năm qua, các đại kiện tướng cờ vây thế giới lần lược bị đánh bại bởi hệ thống trí tuệ nhân tạo có tên AlphaGo. Và mới đây, tới phiên một loại trí tuệ nhân tạo (AI) có tên AlphaGo Zero lại có thể đánh bại được AlphaGo. Trong khi AlphaGo được mô phỏng theo cách cổ điển của Deep Blue, tức dựa lên vô số data kinh nghiệm của các kỳ thủ cờ vua đi trước, thì AlphaGo Zero lại hoạt động độc lập với DNA trí tuệ tổng hợp của con người. Nó có thể tự dạy và tự học, tự tương tác với nó, và hoàn thiện năng lực chỉ trong vòng 40 ngày (!) để có thể đánh bại tri thức tích lũy hàng ngàn năm của con người. Đó là một sự rẽ nhánh của ngành trí tuệ? Cảm hứng, ngưỡng mộ, kính sợ, và lo âu về những ứng dụng của nó trong tương lai? Bài viết dưới đây nói về sự kiện đó. NXX & VTMT

(Saran Poroong Getty Images)

Đầu năm nay, phần mềm trí tuệ thông minh AlphaGo kết thúc 2.500 năm[1] thống trị của con người trên bàn cờ vây. Không hài lòng với chiến thắng 3–0 trước đối thủ hàng đầu của thế giới, Cty Công nghệ DeepMind, công ty sáng tạo nên AlphaGo, đã công bố vào ngày thứ tư một phiên bản được nâng cao − AlphaGo Zero — phiên bản mà công ty nói đã đánh bại một cách “sạch sẽ” tiền thân của nó trong một cuộc giáp mặt-AI với nhau, chiến thắng tất cả 100 bàn đã được chơi. Nhưng điều có lẽ còn quan trọng hơn các chiến thắng này là làm sao mà AlphaGo Zero đã trở thành át trội như thế. Không giống như AlphaGo ban đầu, cái mà DeepMind huấn luyện qua thời gian bằng cách sử dụng các số lượng lớn của tri thức con người, có sự giám sát, lần này algorithm (thuật toán) của hệ thống mới đã tự dạy cho nó để biết làm chủ cuộc chơi.

AlphaGo đánh với Lee Sedol (phải) (Tạp chí Wired)

AI (trí tuệ nhân tạo) làm cho máy tính (computer) nhận dạng được gương mặt, làm những cuộc giới thiệu mua hàng trực tuyến, và thực hiện cả việc đậu xe song song. Computer thu nhận những khả năng này từ các “algorithm học” (learning algorithms), được con người viết ra, và nạp những số lượng lớn của các data huấn luyện vào mạng thần kinh nhân tạo (được đặt tên như thế vì khả năng của nó xử lý thông tin theo cách thức dựa trên cấu trúc tế bào thần kinh của não một cách lỏng lẻo). Quá trình này được gọi là máy học, machine learning. Trong trường hợp của AlphaGo, điều này liên quan đến việc phân tích hàng triệu các nước đi mà các chuyên gia người cờ vây đã từng chơi, và thông qua việc chơi đi chơi lại rất nhiều ván cờ với chính nó để củng cố những điều nó đã học được. AlphaGo đã đánh bại Ke Jie, kỳ thủ cờ vây hàng đầu thế giới — vào tháng Năm[1]. Tháng 3, 2016, nó đánh bại một kỳ thủ hàng đầu khác nữa, Lee Sedol[2], với sự trợ lực của các mạng thần kinh (neural networks) mà các computer của chúng đòi hỏi 48 đơn vị xử lý tenxơ (tensor processing units, TPUs) — (là) các microchip chuyên môn được thiết kế đặc biệt cho sự huấn luyện mạng thần kinh.

Sự huấn luyện của AlphaGo Zero sử dụng bốn TPU và một mạng thần kinh duy nhất, mạng mà ban đầu chẳng biết gì về cờ vây. Trí tuệ nhân tạo, AI, đã học mà không cần sự giám sát — nó đơn giản tự chơi với nó, và chẳng bao lâu nó đã đoán trước được những bước đi của nó, và có thể hình dung chúng sẽ ảnh hưởng đến kết cục của ván cờ như thế nào. “Kỹ thuật này mạnh hơn các phiên bản trước của AlphaGo bởi vì nó không còn bị ràng buộc bởi các giới hạn của tri thức con người”, theo như một bài viết blog của người đồng sáng lập Demis Hassabis của DeepMind, và David Silver, người hướng dẫn nhóm nghiên cứu học tăng cường (reinforcement learning) của công ty. (DeepMind là một đơn vị của Alphabet, Inc., công ty mẹ của Google.) Một vấn đề với AI là luôn luôn phải dựa lên tri thức con người, do đó thông tin như thế có thể quá đắt, quá không tin cậy, hay đơn giản không tồn tại trong những hoàn cảnh nhất định. “Nếu những kỹ thuật tương tự có thể được áp dụng cho những bài toán được cấu trúc khác như sự cuốn gấp protein (protein folding), giảm bớt sự tiêu thụ năng lượng, hay đi tìm các vật liệu mới có tính cách mạng, các bức phá tìm được sẽ có tiềm năng ảnh hưởng tốt lên xã hội”, bài viết blog nói.

AlphaGo Zero nghĩ ra ngay cả các chiến lược bất-quy ước của riêng nó. Cờ vây tiêu biểu chơi bằng cách sử dụng các “viên đá” nhuộm màu đen hay trắng trên một bàn cờ với 19x19 dòng kẻ. Mỗi người chơi đặt các viên đá (tại các nút giao điểm) với mục tiêu bao vây các viên đá của đối phương. “Trong lúc huấn luyện, AlphaGo Zero đã khám phá, chơi và cuối cùng học cách chọn ưu tiên cho một loạt các biến thể của định thức (joseki, chuỗi nước đi) trước đây chưa được biết”, phát ngôn viên Jon Fildes của DeepMind nói. Cờ vây điển hình bắt đầu với những nước đi trong các góc của đườg kẻ, cho phép một người chơi tạo được một vị thế toàn cục tốt cho bàn cờ. “Như nước đi thứ 37 trong ván thứ hai được chơi đấu với Lee Sedol, những khoảng khắc của cảm hứng thuật toán cho chúng ta một cái nhìn thoáng qua của tính sáng tạo của AlphaGo và tiềm năng của AI”, người phát ngôn nói thêm. An Young-gil, một tay chơi cờ vây chuyên nghiệp của Nam Hàn có trình độ đệ-bát-đẳng (cao nhất là đệ-cửu-đẳng) đã lọc ra được nước thứ 37 là nước “hiếm hoi và làm cho mê hồn” ngay sau cuộc đấu tháng 3, 2016.

Nghiên cứu của DeepMind mô tả “một kết quả kỹ thuật rất ấn tượng; và cả hai, khả năng của chúng để làm điều đó — và khả năng của chúng huấn luyện hệ thống trong vòng 40 ngày, trên bốn TPU — là đáng kể”, Oren Etzioni, Tổng giám đốc của Viện nghiên cứu Allen về Trí tuệ nhân tạo (AI2) nói, một tổ chức mà người đồng sáng lập của Microsoft, Paul Allen, đã thành lập trong năm 2014 để tập trung vào những lợi ích tiềm năng của AI. “Trong khi nhiều người đã sử dụng [học tăng cường] trước đây, những mặt kỹ thuật của công trình là mới mẻ.”

Thành công của AlphaGo Zero báo trước cho sự bá chủ của AI đối với các trò chơi, Etzioni nói. Nhưng “tôi vẫn nghĩ sẽ là điều sai lầm nếu tin rằng chúng ta đã học được điều gì tổng quát về tư duy và về sự học cho trí thông minh nói chung”, ông nói. “Cách tiếp cận này sẽ không hoạt động được trong những bài toán có cấu trúc không thích hợp như hiểu biết ngôn ngữ tự nhiên, hay robotics, ở đó không gian trạng thái (state space) phức tạp hơn, và không có một hàm tối ưu (objective function, loss function) rõ ràng”.

Sự tập luyện không cần giám sát là chìa khóa thành công để cuối cùng tạo ra AI có thể tự suy nghĩ cho mình, Etzioni nói, nhưng “còn cần đến nhiều nghiên cứu hơn bên ngoài các giới hạn của các trò chơi bảng, và những chức năng khách quan tiền-định (predefined) trước khi các computer có bắt đầu tư duy ngoài chiếc hộp./.

Demis Hassabis, người đồng sáng lập DeepMind, công ty sáng lập ra AlphaCo: “AlphaGo bây giờ vượt lên — hy vọng và sau cùng đã đến — khỏi những gì mà các con người giỏi nhất trong lãnh vực này có thể làm.” (Tạp chí Wired)

Bài gốc: https://www.scientificamerican.com/article/ai-versus-ai-self-taught-alphago-zero-vanquishes-its-predecessor/. Courtesy of Scientific American.

Chú thích:

[1] Cờ vây tồn tại ở Trung Quốc 2.500 năm

[2] Dường như tháng 10, 2017, trong trận đấu 3 ván. Ke Jie là đại kiện tướng thế giới đệ cửu đẳng người Trung Quốc. Ông mất đi giải thưởng 1.5 triệu đô la Mỹ. Sau khi AlphaGo chiến thắng, Hội cờ vây Trung Quốc trao tặng AlphaGo hàm “đệ cửu đẳng”.

[3] Đây là trận đấu từ ngày 9–15/3/2016, diễn ra tại Hàn Quốc. Lee có hàm đệ cửu đẳng, là nhà vô địch thế giới 18 lần, một tài năng đặc biệt trong làng cờ vây, được xem là “anh hùng quốc gia” của Hàn Quốc. Trận đấu có 5 ván. Ba ván đầu AlphaGo thắng liên tiếp, trước sự thất kinh của Lee. Ván thứ 4 Lee thắng lại. Nhưng ván thứ 5 AlphaGo thắng tiếp. Lee đã vuột mất giải thưởng một triệu đô la Mỹ. Sau trận đấu, Hiệp hội cờ vây Hàn Quốc Korea Baduk Association đã trao tặng cho AlphaGo hàm “đệ cửu đẳng”.

--

--

Vo Thanh Minh Tue

I want to make gifts for the world. ML Engineer @ MindMeld.