เล่ห์ลวงตาปัญญาประดิษฐ์

Published in

Super AI Engineer

4 min readFeb 2, 2021

The Illusion of AI: Deep Generative Networks

คุณจะคิดอย่างไรหากผมจะบอกว่า รูปของบุคคลที่คุณกำลังเห็นอยู่ทางด้านล่างนี้ เป็นบุคคลที่ไม่เคยมีตัวตนอยู่จริงบนโลก 🌎 ขอต้อนรับสู่อีกด้านหนึ่งของเทคโนโลยีปัญญาประดิษฐ์ ที่ใช้ในการสรรค์สร้างมายาที่ไม่เคยมีอยู่จริง ด้วยเทคโนโลยี AI ในกลุ่มที่เราเรียกกันว่า Deep Generative Networks

Images of nobody, generated by StyleGAN2 (source: thispersondoesnotexist.com)

สวัสดีมิตรรักนักอ่านที่หลงกดเข้ามาทุกท่านนะครับ 😆 กระผมนาย T.K. GearWalker หนึ่งในผู้เข้าแข่งขัน Super AI Engineer กลุ่มบ้าน EXP จะนำพาทุกท่านดำดิ่งสู่ห้วงแห่งโลกมายามิติ ที่ถูกสรรค์สร้างโดยเทคโนโลยีปัญญาประดิษฐ์ ที่นับว่าสร้างผลลัพธ์ออกมาได้น่ามหัศจรรย์เกินจินตนาการมนุษย์ และได้สร้างหน้าประวัติศาสตร์ใหม่แห่งวงการกันเลยทีเดียว

ทำความรู้จักกันนิดนึง

ย้อนกลับไปในปี 2014 ทีมนักวิจัยนำโดย Ian Goodfellow และเพื่อนของเขา ได้ปล่อยงานวิจัยโครงสร้างปัญญาประดิษฐ์ชนิดใหม่ ที่เขย่าไทม์ไลน์วงการปัญญาประดิษฐ์ ด้วยความสามารถในการสร้างภาพพี่ไม่เคยมีมาก่อน จากสิ่งที่มันได้เคยเรียนรู้ไป ให้ออกมาได้เหมือนจริงจนมนุษย์ไม่สามารถแยกแยะความแปลกปลอมได้ ซึ่งโครงสร้างปัญญาประดิษฐ์นี้ถูกเรียกว่า Generative Adversarial Networks (หรือเรียกสั้นๆ ว่า GAN) ด้วยเทคนิคการสร้างโครงข่ายปัญญาประดิษฐ์สองชุดที่ทำการแข่งขันกันเอง เหมือนตำรวจจับผู้ร้าย ตัวแรกพยายามสร้างของเลียนแบบ ส่วนอีกตัวก็พยายามจับผิดตัวแรก แล้วผลที่ได้ก็จะเป็นบทเรียนให้กับตัวแรกอีกที ด้วยวิธีการนี้ปัญญาประดิษฐ์ทั้งสองตัวนั้นจะช่วยพัฒนากันและกันผ่านทางการแข่งขัน จนได้ผลลัพธ์ที่น่ามหัศจรรย์ออกมา

A figure of Generative Adversarial Networks

ด้วยความโด่งดังของมันจึงทำให้มีคนนำ network ชนิดนี้ไปใช้ในงานต่างๆ มากมาย ทั้งด้านสว่างและด้านมืดเช่น deepfake อันโด่งตัง ที่ใช้ในการสลับหน้าตาของบุคคลเป้าหมาย ไปแทนที่ในหนังสำหรับผู้ใหญ่(หนังโป้นั้นแหละ!) หรือสลับหน้าบุคคลเข้าไปในไฟล์วีดีโอใดๆ ซึ่งจุดนี้เองที่ทำให้ชื่อเสียงของปัญญาประดิษฐ์นั้น แย่ลงไปในสายตาของใครหลายๆคน แต่นั่นยังไม่ใช่สิ่งที่เราจะพูดถึงกันในวันนี้ 😜

A fake video generated by AI (First Order Motion Model for Image Animation)

GAN นั้นไม่ใช่ networks ตัวแรก แล้วมันก็ไม่ใช่ networks เพียงตัวเดียวที่มีอยู่ในโลกของ Deep Generative Networks ยังมี network อีกมากมายหลายตัวไม่ว่าจะเป็น Autoencoders หรือแม้กระทั่ง Transfomers อันโด่งดัง ก็จัดอยู่ในกลุ่มของปัญญาประดิษฐ์ประเภทนี้เช่นกัน (ยังไม่นับ subtype ที่แตกตัวออกมาอีกมากมายหลายสิบ)

เราลองมาทำความรู้จักโครงสร้างพื้นฐานของปัญญาประดิษฐ์ประเภทนี้กันว่า มีความวิจิตรแตกต่างอลังการ กันอย่างไรดีกว่าครับ 🤪 ซึ่งถ้าหากจะพูดถึงโครงสร้างปัญญาประดิษฐ์แบบทั่วไป ก็คงจะอธิบายได้อย่างคร่าวๆ ตามแบบรูปทางด้านล่างนี้นะครับ

โครงสร้างปัญญาประดิษฐ์โดยทั่วไปนั้นจะทำงานอย่างตรงไปตรงมา ด้วยโครงสร้างพื้นฐานตรงกลางที่ประกอบไปด้วย เซลล์ประสาทเทียม(ที่เลียนแบบการทำงานของเซลล์ประสาทมนุษย์) สานต่อกันเป็นชั้นลึกๆ รับข้อมูลที่เป็นชุดตัวเลขที่แปลงแล้ว เข้ามาทำการบวกลบคูณหาร ทีละโหนด ทีละชุด ทีละชั้น จนออกมาเป็นผลลัพธ์สุดท้ายที่ปลายทางขวา ซึ่งเป็นค่าการทำนายจากข้อมูลที่ได้รับมานั้นเอง จะเห็นได้ว่าชุดข้อมูลที่เข้ามามากมายจากทางด้านซ้ายนั้น ได้ถูกประมวลผลและย่อยลงมาจนเหลือค่าการทำนายเพียงค่าเล็กๆ และเป็นค่าที่เรียบง่าย เป็นเช่นนี้ในเกือบทุกๆ โครงข่ายปัญญาประดิษฐ์ทั่วไป

ต่างจากโครงสร้างปัญญาประดิษฐ์ในกลุ่มของ Deep Generative Networks ที่ส่วนใหญ่ จะมีกลุ่มโครงข่ายประสาทเทียมชุดพิเศษที่เราเรียกมันว่า Generator ดั้งที่แสดงให้เห็นในรูปด้านล่าง เป็นโครงข่ายปัญญาประดิษฐ์ชุดสีส้มแดง

ด้วยความพิศดารทางโครงสร้างของมันที่มีความกลับตาลปัตรจากโครงสร้างปกติ (หรือจะเรียกว่าเวอร์ชั่นกลับด้านก็ได้) ส่งผลให้ข้อมูลขนาดเล็กที่มีรูปแบบเรียบง่าย(คนวงในจะเรียกสิ่งนี้ว่า latents space) ที่เข้ามาจากทางซ้ายนั้น ถูกเปลี่ยนรูปแบบโดย generator แปลงกลับให้เป็นข้อมูลที่มีความซับซ้อนสูง และใกล้เคียงกับต้นกำเนิดมากที่สุดเท่าที่เป็นจะเป็นไปได้มาเป็นผลลัพธ์ ตู๊ม! โกโก้ครันซ์! 💣 จะเห็นได้ว่าไอเดียที่เรียบง่ายเช่นนี้ กลับได้ผลลัพธ์ออกมาแจ่มอย่างเหลือเชื่อ ซึ่งความเป็นจริงแล้วกระบวนการภายในนั้นมีความซับซ้อนมากมาย และสามารถอธิบายได้ อย่างไรก็ดีข้อมูลในเชิงลึกนี้ จะหาโอกาสมาอธิบายในบทความถัดไปครับ

นอกเหนือจากนั้น ถ้าหากว่าเรามองชุดโครงข่ายประสาทเทียมมันเป็นบล็อก lego เราก็จะสามารถนำมันมาต่อไปต่อมา จับนั่นมาใส่นิดจับนี่มาใส่หน่อย ก็จะได้รูปแบบของโครงสร้างปัญญาประดิษฐ์แบบแปลกๆ ออกมาอีกมากมาย จนกล่าวไว้ในบทความนี้ไม่ไหว 😆

Various types of GANs architecture [Recent progress on generative adversarial networks (GANs): A survey]

และแน่นอนครับว่า ถ้าของมันดีแบบนี้แล้ว มันก็จะต้องถูกนำไปใช้ประโยชน์ ผมจะขอยกตัวอย่าง การนำโครงข่ายปัญญาประดิษฐ์ประเภทนี้ไปใช้งานอย่างที่ถูกที่ควรกันดีกว่าครับ โดยผมจะขออนุญาตเลือกตัวอย่างที่เป็นประโยชน์อย่างยิ่งใหญ่ต่อมวลมนุษย์ชาติเป็นอันๆ ไปดังนี้

วาดรูปแมว

ผมไม่ได้ล้อเล่นนะครับ 🤣 เทคนิคนี้เราเรียกกันว่า Image-to-Image translation หลักการของมันก็คือการแปลงภาพจากรูปแบบหนึ่ง ให้กลายเป็นรูปภาพในอีกรูปแบบหนึ่งนั้นเอง (เทียบกับการเปลี่ยนม้า🐴ให้กลายเป็นม้าลาย🦓) โดยผมจะขอยกตัวอย่างจาก web app ที่ให้ทุกคนนั้นได้ทดลองวาดภาพแมวด้วยลายเส้นของคุณเอง แล้วตัว AI ก็จะจัดการแปลงรูปภาพลายเส้นของคุณนั้น ให้กลายเป็นรูปภาพแมวตัวจริงที่มีขนอุยๆ (ฟังดูน่าสนุกใช่ไหมล่ะ😋) ไปลองกันได้ครับที่เว็บต้นทางด้านล่าง

ซึ่งประโยชน์จริงๆ ของมัน นี่ก็มีมากมายเลยล่ะครับ ไม่ว่าจะเป็น การซ่อมรูปถ่ายหรือภาพยนตร์โบราณที่มีความเสียหาย ให้กลับมามีสภาพที่สมบูรณ์ ลดสัญญาณรบกวนในรูปภาพ แต้มสีสรรค์ให้กับภาพขาวดำ เพิ่มเฟรมเรตให้ข้อมูลมีความนุ่มนวลมากยิ่งขึ้น หรือแม้กระทั่งเพิ่มรายละเอียดภาพที่มีอยู่น้อยนิด ให้มีความคมชัดแบบระดับ HD!

DeepRemaster: Temporal Source-Reference Attention Networks for Comprehensive Video Enhancement

เสริมสวยแปลงเพศ 👩‍🦰♻👨‍🦰

ลดความเหลื่อมล้ำทางด้านรูปร่างหน้าตา ด้วยเทคโนโลยีการบีบอัดข้อมูลแบบใหม่ที่ใช้ประโยชน์จาก Deep Generative Networks จะเปลี่ยนหน้าประวัติศาสตร์ของการ video call ไปตลอดกาล ตัวอย่างเช่นที่ทาง Nvidia ได้ใช้ GAN ในการบีบอัดข้อมูลวีดีโอ แทนที่จะส่งข้อมูลของภาพเคลื่อนไหวที่บีบอัดแล้ว ก็เปลี่ยนเป็นการส่งลักษณะของการแสดงสีหน้าไปที่ปลายทาง แล้วที่เครื่องปลายทางนั้นจะ generate รูปหน้าของบุคคลต้นทางออกมาเป็น video ที่มีความเนียนไม่เหมือนกับถูกบีบอัดมา ด้วยขนาดไฟล์ที่เล็กยังไม่เคยมีมาก่อน นอกเหนือจากนั้น ด้วยวิธีนี้ ไม่ว่าหน้าตาคุณจะแย่ขนาดไหน หรือตื่นนอนมาแล้วหน้าหน้าสดซอมบี้ก็ตาม ก็จะสามารถจำแลงรูปหน้าของคุณให้สวยสดงดงามอยู่เสมอ นี่ยังไม่พูดถึงการแปลงเพศของคนเป็นอีกด้าน หรือการแปลงภาพของคุณเป็นตัวการ์ตูนซึ่งก็สามารถทำได้เช่นกัน

เปิดกระโหลกแมลงวัน 🐝(นี่มันผึ้ง! ผ่าม!)

Visualization of the Fly Brain with Neuroglancer

การทำความเข้าใจกับสรีระทางธรรมชาติ ก็เป็นอีกหนึ่งโจทย์ที่นักวิทยาศาสตร์ต่างถวิลหาเช่นกัน ยกตัวอย่างเช่นการทำแผนที่สมองของสิ่งมีชีวิต ซึ่งโดยปกติแล้วทำได้ยากยิ่ง ด้วยจำนวนเซลที่มหาศาล โครงสร้างที่ซับซ้อนและขนาดที่เล็กมากของเซลล์ จึงเป็นไปได้ยากมากที่จะทำด้วยมือของมนุษย์ นี่จึงเป็นที่มาของการทดลองใช้ Deep Generative Network มาช่วยในการทำแผนที่สมองของแมลงวัน ด้วยโครงสร้างปัญญาประดิษฐ์ที่เรียกว่า SRTGAN ทำการหาขอบเขตของเซลล์ จากภาพสไลด์สมองของแมลงวันเป็นหมื่นๆภาพ ออกมาเป็นโมเดลสมอง 3 มิติอย่างอลังการ นับเป็นอีกก้าวที่ยิ่งใหญ่ของมวลมนุษย์ชาติ

ชุบชีวิตคนตาย👻

อันนี้ก็ไม่ได้ล้อเล่นครับ 😆 ที่ The Dalí Museum รัฐฟลอริดา ประเทศสหรัฐอเมริกา ได้ทำการใช้เทคโนโลยีตัวเดียวกับ deepfake (ที่ทำหนังโป้นั่นแหละ!) มาชุบชีวิตศิลปินเอกของโลก Salvador Dalí ขึ้นมาพูดคุยและทำความรู้จักกับผู้ที่มาเยี่ยมชมพิพิธภัณฑ์ เปิดโอกาสให้คนรุ่นใหม่ได้สัมผัสถึงตัวตนอันเอกอุของศิลปินท่านนี้ และยังเป็นการเชื่อมต่อสืบสานและสร้างแรงบันดาลใจของคนยุคใหม่ที่มีต่อศิลปะยุคเก่าอย่างไร้รอยต่อ

Deepfake Salvador Dalí (Source: The Dalí Museum)

สุดท้ายนี้

“With great power comes great responsibility”

เราคงปฏิเสธไม่ได้ว่าเทคโนโลยีนั้นก็เหมือนกับเหรียญที่มีสองด้าน และหน้าเหรียญทั้งสองด้านนั้นต่างก็มีวิถีและความเป็นไปของมันอยู่ แต่ไม่ว่าหน้าเหรียญมันจะออกมาเป็นอย่างไร ก็ไม่สามารถหลีกหนีความจริงที่ว่า นักเทคโนโลยีอย่างเราๆ นั้นจำเป็นที่จะต้องเข้าใจในหน้าเหรียญทั้ง 2 ด้านนั้นให้เป็นอย่างดี เพื่อที่จะได้เข้าใจถึงประโยชน์และข้อจำกัดของมัน ส่งผลทำให้เราสามารถใช้ประโยชน์จากมันได้อย่างเกิดประโยชน์สูงสุด

“Yes, I acknowledge maybe a new twist makes it work. But in this field nearly all apparent positive results are false, so I’d be skeptical a priori. I’d be interested in an independent evaluation.”
Ian Goodfellow
Twitter, 2020 Aug 8

และถึงแม้ว่าผลลัพธ์ที่ได้มาจากเทคโนโลยีนี้ จะมหัศจรรย์กลิ่นกาวดาวล้านดวงอย่างไร แต่สุดท้ายผลทั้งหมดก็คือภาพมายาอยู่ดี ดังนั้นเราจึงควรใส่ใจ กับวิธีการที่สามารถใช้ประโยชน์จากมัน สรรค์สร้างสิ่งดีๆ ให้กับมวลมนุษย์ชาติกันดีกว่าครับ 🤗

References

Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks(PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680.
Isola, Phillip; Zhu, Jun-Yan; Zhou, Tinghui; Efros, Alexei (2017). “Image-to-Image Translation with Conditional Adversarial Nets”. Computer Vision and Pattern Recognition.
Z. Pan, W. Yu, X. Yi, A. Khan, F. Yuan and Y. Zheng, “Recent Progress on Generative Adversarial Networks (GANs): A Survey,” in IEEE Access, vol. 7, pp. 36322–36333, 2019, doi: 10.1109/ACCESS.2019.2905015.
Yu, Jiahui, et al. “Generative image inpainting with contextual attention.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
Satoshi Iizuka and Edgar Simo-Serra. 2019. DeepRemaster: temporal source-reference attention networks for comprehensive video enhancement. ACM Trans. Graph. 38, 6, Article 176 (November 2019), 13 pages. DOI:https://doi.org/10.1145/3355089.3356570
Siarohin, Aliaksandr, Stéphane Lathuilière, S. Tulyakov, E. Ricci and N. Sebe. “First Order Motion Model for Image Animation.” NeurIPS (2019).
Paez, Danny (2019–02–13). “This Person Does Not Exist Is the Best One-Off Website of 2019”. Retrieved 2019–02–16.
“StyleGAN: Official TensorFlow Implementation”. March 2, 2019 — via GitHub.
Google. https://github.com/google/neuroglancer. Retrieved Jan 23,2020.
This Person Does Not Exist — photorealistic images of people who do not exist, generated by StyleGAN
Image-to-Image Demo. Retrieved Jan 23,2020.
GANs Improve Video Conferencing with Maxine | NVIDIA Blogs. Retrieved Jan 23,2020.
https://thedali.org/exhibit/dali-lives/. Retrieved Jan 23,2020.