Tóm tắt lịch sứ về nhận dạng khuôn mặt (Facial Recognition)

Toàn LH
Vega Corporation
Published in
7 min readNov 13, 2020

Từ Panoramic đến World Wide Web

Tính năng nhận dạng khuôn mặt ở Hoa Kỳ bắt nguồn từ những năm 1960 khi nhà toán học và khoa học máy tính Woodrow “Woody” Bledsoe thu hút sự quan tâm của Cơ quan Tình báo Trung ương (Central Intelligence Agency) với nghiên cứu của ông về lý luận tự động và trí tuệ nhân tạo. Để tiếp thị nghiên cứu của mình, Woody thành lập Công ty Panoramic Research Incorporated với sứ mệnh đã nêu là “thử những ý tưởng có thể‘ chuyển động thế giới ’.”

Phần lớn lịch sử của Panoramic được che giấu trong bí mật. Tuy nhiên, Yêu cầu Tự do Thông tin (Freedom of Information Request) và các tài liệu được giải mật cho thấy kể từ khi thành lập, Panoramic đã nhận được nhiều dự án và tài trợ thông qua các công ty bình phong của CIA như Quỹ Nghiên cứu Khoa học Y tế(Medical Sciences Research Foundation) và Nhóm Nghiên cứu King-Hurley (King-Hurley Research Group). Năm 2005, CIA đã giải mật một tài liệu năm 1968 đề cập đến một “hợp đồng bên ngoài” được chuyển đến Panoramic cho một hệ thống nhận dạng khuôn mặt sẽ giảm thời gian tìm kiếm xuống gấp trăm lần. Do đó, chính phủ Hoa Kỳ đã bắt đầu bước đột phá rõ ràng nhất vào công nghệ nhận dạng khuôn mặt.

Là một phần của sự hợp tác với Phòng thí nghiệm Vật lý Ứng dụng tại Viện Nghiên cứu Stanford (hiện được gọi là SRI International), Panoramic cuối cùng đã phát triển một cỗ máy “vượt trội hơn rất nhiều” và “thống trị” con người trong nhận dạng khuôn mặt.

Ảnh của Dan Winters

Trong những ngày đầu, công nghệ nhận dạng khuôn mặt không hiệu quả lắm. Hồi đó, ngay cả ý tưởng nhận ra khoảng 10 khuôn mặt cũng là một tham vọng ngoạn mục. Bộ dữ liệu nghiên cứu của Panoramic bắt đầu với ít nhất là 122 bức ảnh, tăng dần lên 2.000 bức ảnh trong vài năm. Những hạn chế về dữ liệu như vậy chủ yếu là do lao động thủ công cần thiết để xử lý trước hình ảnh cũng như thiếu các hình ảnh công khai chất lượng cao.

Hai trong số những đột phá quan trọng nhất trong công nghệ nhận dạng khuôn mặt đến vào đầu những năm 2000 với sự phổ biến của Google, Facebook World Wide Web.

Kể từ khi được thành lập vào năm 1998, sứ mệnh của Google luôn là “sắp xếp thông tin của thế giới và làm cho thông tin hữu ích và có thể truy cập được trên toàn cầu”. Trong khi đó, Facebook nhiệt tình ủng hộ ý tưởng “làm cho thế giới cởi mở và kết nối hơn”.

Đến năm 2008, Google đã xử lý hơn 8 tỷ lượt tìm kiếm mỗi năm và Facebook đã kết nối hơn 150 triệu người dùng trên toàn thế giới. Sự kết hợp của hai nền tảng đó và nhiều nền tảng khác trên world wide web đã khắc phục hiệu quả các hạn chế về tập dữ liệu và tiền xử lý trong công việc trước đó của Woody.

Ảnh: Rainier Ehrhardt / Getty

Từ FBI tới Clearview

Bộ phận Dịch vụ Thông tin Tư pháp Hình sự (CJIS), bộ phận lớn nhất của FBI, được thành lập vào năm 1992 để đóng vai trò là đầu mối và kho lưu trữ trung tâm cho các dịch vụ thông tin tư pháp hình sự như nhận dạng vân tay và khuôn mặt.

Vào năm 2008, theo ủy quyền của Đạo luật về quyền riêng tư năm 1974, Bộ phận CJIS của FBI đã lần đầu tiên công bố Đánh giá tác động về quyền riêng tư (PIA) nêu chi tiết về Hệ thống ảnh giữa các tiểu bang nhận dạng thế hệ tiếp theo (NGI-IPS). Trở lại năm 2008, người ta tiết lộ rằng NGI-IPS của FBI chủ yếu bao gồm một vài triệu bức ảnh tội phạm và các hình ảnh nhận dạng khác như vết sẹo, dấu vết và hình xăm.

FBI lần đầu tiên ra mắt thành phần nhận dạng khuôn mặt của NGI-IPS vào năm 2011 với cơ sở dữ liệu hơn 10 triệu hình ảnh. Khi cơ sở dữ liệu NGI-IPS phát triển qua nhiều năm, FBI, vi phạm luật liên bang và cơ quan, đã không cung cấp PIA được cập nhật.

U.S. Government Accountability Office

Vào năm 2016, Văn phòng Trách nhiệm Chính phủ (GAO) cuối cùng đã tiết lộ rằng ngoài 30 triệu bức ảnh chụp từ cơ sở dữ liệu tội phạm, FBI đã có quyền truy cập vào 412 triệu hình ảnh dân sự không phải tội phạm như một phần của cơ sở dữ liệu của mình. Những hình ảnh đó bao gồm ảnh bằng lái xe từ 16 tiểu bang, cơ sở dữ liệu thị thực và hộ chiếu của Bộ Ngoại giao (State Department)và cơ sở dữ liệu sinh trắc học của Bộ Quốc phòng (Defense Department).

Với những tranh cãi xung quanh báo cáo của GAO, FBI đã chuyển sang hợp tác với các tổ chức tư nhân như Microsoft, Amazon Google để cấp phép cho các công nghệ nhận dạng khuôn mặt thay vì phát triển các hệ thống như vậy trong nhà. Bất chấp sự thay đổi đó, cơ sở dữ liệu hình ảnh nhận dạng khuôn mặt (facial recognition) của FBI vẫn tiếp tục phát triển.

Gần đây nhất, tại phiên điều trần của Ủy ban Giám sát Hạ viện (House Oversight Committee) năm 2019, FBI xác nhận rằng cơ sở dữ liệu hình ảnh của họ đã tăng lên hơn 640 triệu bức ảnh. Cơ sở dữ liệu đó hiện bao gồm ảnh bằng lái xe từ 21 bang, bao gồm cả những bang không có luật cho phép sử dụng kho lưu trữ bằng lái xe của họ để nhận dạng khuôn mặt.

Phiên điều trần năm 2019 tiết lộ rất ít về hiệu quả của hệ thống nhận dạng khuôn mặt (facial recognition) của FBI cũng như việc tuân thủ các nghĩa vụ hiến pháp hay “các công ty vận động hành lang hoặc liên lạc” với FBI về hệ thống này.

Trái ngược với sự tăng trưởng ổn định trong nhiều thập kỷ của cơ sở dữ liệu hình ảnh được tiết lộ của FBI từ 10 triệu vào năm 2011 lên 640 triệu vào năm 2019, cơ sở dữ liệu hình ảnh của Clearview đã tăng từ hàng trăm triệu lên vài tỷ trong vòng chưa đầy ba năm. Sự phát triển bùng nổ như vậy là do World Wide Web như đã thảo luận trước đây và do bản chất của các công nghệ Học sâu (Deep Learning) và Trí tuệ nhân tạo (Artificial Intelligence) nói chung.

Hầu hết các hệ thống trở nên kém hiệu suất hơn khi tập dữ liệu cơ bản tăng lên. Tìm kiếm qua 3 tỷ hình ảnh sẽ chậm hơn và kém hiệu quả hơn so với tìm kiếm qua 640 triệu hình ảnh. Với Deep Learning, thực tế lại khác. Việc đào tạo một mô hình và tìm kiếm thông qua một tập dữ liệu diễn ra riêng biệt và hình ảnh thường được xử lý trước thành một định dạng trung gian để tăng tốc quá trình đáng kể.

Khi quy mô của tập dữ liệu đào tạo cơ bản tăng lên, độ chính xác và hiệu suất của mô hình Học sâu (Deep Learning) sẽ tiếp tục được cải thiện. Khả năng mở rộng hiệu suất dữ liệu Deep Learning như vậy trái ngược với các mô hình Machine Learning cổ điển sớm ổn định hơn nhiều và có xu hướng yêu cầu các phương pháp phức tạp hơn để cải thiện độ chính xác.

Andrew Ng, Chief Scientist at Baidu

Bài viết được dịch từ trang The innovation của tác giả Samuel Brice

--

--