เล่ห์ลวงตาปัญญาประดิษฐ์
The Illusion of AI: Deep Generative Networks
คุณจะคิดอย่างไรหากผมจะบอกว่า รูปของบุคคลที่คุณกำลังเห็นอยู่ทางด้านล่างนี้ เป็นบุคคลที่ไม่เคยมีตัวตนอยู่จริงบนโลก 🌎 ขอต้อนรับสู่อีกด้านหนึ่งของเทคโนโลยีปัญญาประดิษฐ์ ที่ใช้ในการสรรค์สร้างมายาที่ไม่เคยมีอยู่จริง ด้วยเทคโนโลยี AI ในกลุ่มที่เราเรียกกันว่า Deep Generative Networks
สวัสดีมิตรรักนักอ่านที่หลงกดเข้ามาทุกท่านนะครับ 😆 กระผมนาย T.K. GearWalker หนึ่งในผู้เข้าแข่งขัน Super AI Engineer กลุ่มบ้าน EXP จะนำพาทุกท่านดำดิ่งสู่ห้วงแห่งโลกมายามิติ ที่ถูกสรรค์สร้างโดยเทคโนโลยีปัญญาประดิษฐ์ ที่นับว่าสร้างผลลัพธ์ออกมาได้น่ามหัศจรรย์เกินจินตนาการมนุษย์ และได้สร้างหน้าประวัติศาสตร์ใหม่แห่งวงการกันเลยทีเดียว
ทำความรู้จักกันนิดนึง
ย้อนกลับไปในปี 2014 ทีมนักวิจัยนำโดย Ian Goodfellow และเพื่อนของเขา ได้ปล่อยงานวิจัยโครงสร้างปัญญาประดิษฐ์ชนิดใหม่ ที่เขย่าไทม์ไลน์วงการปัญญาประดิษฐ์ ด้วยความสามารถในการสร้างภาพพี่ไม่เคยมีมาก่อน จากสิ่งที่มันได้เคยเรียนรู้ไป ให้ออกมาได้เหมือนจริงจนมนุษย์ไม่สามารถแยกแยะความแปลกปลอมได้ ซึ่งโครงสร้างปัญญาประดิษฐ์นี้ถูกเรียกว่า Generative Adversarial Networks (หรือเรียกสั้นๆ ว่า GAN) ด้วยเทคนิคการสร้างโครงข่ายปัญญาประดิษฐ์สองชุดที่ทำการแข่งขันกันเอง เหมือนตำรวจจับผู้ร้าย ตัวแรกพยายามสร้างของเลียนแบบ ส่วนอีกตัวก็พยายามจับผิดตัวแรก แล้วผลที่ได้ก็จะเป็นบทเรียนให้กับตัวแรกอีกที ด้วยวิธีการนี้ปัญญาประดิษฐ์ทั้งสองตัวนั้นจะช่วยพัฒนากันและกันผ่านทางการแข่งขัน จนได้ผลลัพธ์ที่น่ามหัศจรรย์ออกมา
ด้วยความโด่งดังของมันจึงทำให้มีคนนำ network ชนิดนี้ไปใช้ในงานต่างๆ มากมาย ทั้งด้านสว่างและด้านมืดเช่น deepfake อันโด่งตัง ที่ใช้ในการสลับหน้าตาของบุคคลเป้าหมาย ไปแทนที่ในหนังสำหรับผู้ใหญ่(หนังโป้นั้นแหละ!) หรือสลับหน้าบุคคลเข้าไปในไฟล์วีดีโอใดๆ ซึ่งจุดนี้เองที่ทำให้ชื่อเสียงของปัญญาประดิษฐ์นั้น แย่ลงไปในสายตาของใครหลายๆคน แต่นั่นยังไม่ใช่สิ่งที่เราจะพูดถึงกันในวันนี้ 😜
GAN นั้นไม่ใช่ networks ตัวแรก แล้วมันก็ไม่ใช่ networks เพียงตัวเดียวที่มีอยู่ในโลกของ Deep Generative Networks ยังมี network อีกมากมายหลายตัวไม่ว่าจะเป็น Autoencoders หรือแม้กระทั่ง Transfomers อันโด่งดัง ก็จัดอยู่ในกลุ่มของปัญญาประดิษฐ์ประเภทนี้เช่นกัน (ยังไม่นับ subtype ที่แตกตัวออกมาอีกมากมายหลายสิบ)
เราลองมาทำความรู้จักโครงสร้างพื้นฐานของปัญญาประดิษฐ์ประเภทนี้กันว่า มีความวิจิตรแตกต่างอลังการ กันอย่างไรดีกว่าครับ 🤪 ซึ่งถ้าหากจะพูดถึงโครงสร้างปัญญาประดิษฐ์แบบทั่วไป ก็คงจะอธิบายได้อย่างคร่าวๆ ตามแบบรูปทางด้านล่างนี้นะครับ
โครงสร้างปัญญาประดิษฐ์โดยทั่วไปนั้นจะทำงานอย่างตรงไปตรงมา ด้วยโครงสร้างพื้นฐานตรงกลางที่ประกอบไปด้วย เซลล์ประสาทเทียม(ที่เลียนแบบการทำงานของเซลล์ประสาทมนุษย์) สานต่อกันเป็นชั้นลึกๆ รับข้อมูลที่เป็นชุดตัวเลขที่แปลงแล้ว เข้ามาทำการบวกลบคูณหาร ทีละโหนด ทีละชุด ทีละชั้น จนออกมาเป็นผลลัพธ์สุดท้ายที่ปลายทางขวา ซึ่งเป็นค่าการทำนายจากข้อมูลที่ได้รับมานั้นเอง จะเห็นได้ว่าชุดข้อมูลที่เข้ามามากมายจากทางด้านซ้ายนั้น ได้ถูกประมวลผลและย่อยลงมาจนเหลือค่าการทำนายเพียงค่าเล็กๆ และเป็นค่าที่เรียบง่าย เป็นเช่นนี้ในเกือบทุกๆ โครงข่ายปัญญาประดิษฐ์ทั่วไป
ต่างจากโครงสร้างปัญญาประดิษฐ์ในกลุ่มของ Deep Generative Networks ที่ส่วนใหญ่ จะมีกลุ่มโครงข่ายประสาทเทียมชุดพิเศษที่เราเรียกมันว่า Generator ดั้งที่แสดงให้เห็นในรูปด้านล่าง เป็นโครงข่ายปัญญาประดิษฐ์ชุดสีส้มแดง
ด้วยความพิศดารทางโครงสร้างของมันที่มีความกลับตาลปัตรจากโครงสร้างปกติ (หรือจะเรียกว่าเวอร์ชั่นกลับด้านก็ได้) ส่งผลให้ข้อมูลขนาดเล็กที่มีรูปแบบเรียบง่าย(คนวงในจะเรียกสิ่งนี้ว่า latents space) ที่เข้ามาจากทางซ้ายนั้น ถูกเปลี่ยนรูปแบบโดย generator แปลงกลับให้เป็นข้อมูลที่มีความซับซ้อนสูง และใกล้เคียงกับต้นกำเนิดมากที่สุดเท่าที่เป็นจะเป็นไปได้มาเป็นผลลัพธ์ ตู๊ม! โกโก้ครันซ์! 💣 จะเห็นได้ว่าไอเดียที่เรียบง่ายเช่นนี้ กลับได้ผลลัพธ์ออกมาแจ่มอย่างเหลือเชื่อ ซึ่งความเป็นจริงแล้วกระบวนการภายในนั้นมีความซับซ้อนมากมาย และสามารถอธิบายได้ อย่างไรก็ดีข้อมูลในเชิงลึกนี้ จะหาโอกาสมาอธิบายในบทความถัดไปครับ
นอกเหนือจากนั้น ถ้าหากว่าเรามองชุดโครงข่ายประสาทเทียมมันเป็นบล็อก lego เราก็จะสามารถนำมันมาต่อไปต่อมา จับนั่นมาใส่นิดจับนี่มาใส่หน่อย ก็จะได้รูปแบบของโครงสร้างปัญญาประดิษฐ์แบบแปลกๆ ออกมาอีกมากมาย จนกล่าวไว้ในบทความนี้ไม่ไหว 😆
และแน่นอนครับว่า ถ้าของมันดีแบบนี้แล้ว มันก็จะต้องถูกนำไปใช้ประโยชน์ ผมจะขอยกตัวอย่าง การนำโครงข่ายปัญญาประดิษฐ์ประเภทนี้ไปใช้งานอย่างที่ถูกที่ควรกันดีกว่าครับ โดยผมจะขออนุญาตเลือกตัวอย่างที่เป็นประโยชน์อย่างยิ่งใหญ่ต่อมวลมนุษย์ชาติเป็นอันๆ ไปดังนี้
วาดรูปแมว
ผมไม่ได้ล้อเล่นนะครับ 🤣 เทคนิคนี้เราเรียกกันว่า Image-to-Image translation หลักการของมันก็คือการแปลงภาพจากรูปแบบหนึ่ง ให้กลายเป็นรูปภาพในอีกรูปแบบหนึ่งนั้นเอง (เทียบกับการเปลี่ยนม้า🐴ให้กลายเป็นม้าลาย🦓) โดยผมจะขอยกตัวอย่างจาก web app ที่ให้ทุกคนนั้นได้ทดลองวาดภาพแมวด้วยลายเส้นของคุณเอง แล้วตัว AI ก็จะจัดการแปลงรูปภาพลายเส้นของคุณนั้น ให้กลายเป็นรูปภาพแมวตัวจริงที่มีขนอุยๆ (ฟังดูน่าสนุกใช่ไหมล่ะ😋) ไปลองกันได้ครับที่เว็บต้นทางด้านล่าง
ซึ่งประโยชน์จริงๆ ของมัน นี่ก็มีมากมายเลยล่ะครับ ไม่ว่าจะเป็น การซ่อมรูปถ่ายหรือภาพยนตร์โบราณที่มีความเสียหาย ให้กลับมามีสภาพที่สมบูรณ์ ลดสัญญาณรบกวนในรูปภาพ แต้มสีสรรค์ให้กับภาพขาวดำ เพิ่มเฟรมเรตให้ข้อมูลมีความนุ่มนวลมากยิ่งขึ้น หรือแม้กระทั่งเพิ่มรายละเอียดภาพที่มีอยู่น้อยนิด ให้มีความคมชัดแบบระดับ HD!
เสริมสวยแปลงเพศ 👩🦰♻👨🦰
ลดความเหลื่อมล้ำทางด้านรูปร่างหน้าตา ด้วยเทคโนโลยีการบีบอัดข้อมูลแบบใหม่ที่ใช้ประโยชน์จาก Deep Generative Networks จะเปลี่ยนหน้าประวัติศาสตร์ของการ video call ไปตลอดกาล ตัวอย่างเช่นที่ทาง Nvidia ได้ใช้ GAN ในการบีบอัดข้อมูลวีดีโอ แทนที่จะส่งข้อมูลของภาพเคลื่อนไหวที่บีบอัดแล้ว ก็เปลี่ยนเป็นการส่งลักษณะของการแสดงสีหน้าไปที่ปลายทาง แล้วที่เครื่องปลายทางนั้นจะ generate รูปหน้าของบุคคลต้นทางออกมาเป็น video ที่มีความเนียนไม่เหมือนกับถูกบีบอัดมา ด้วยขนาดไฟล์ที่เล็กยังไม่เคยมีมาก่อน นอกเหนือจากนั้น ด้วยวิธีนี้ ไม่ว่าหน้าตาคุณจะแย่ขนาดไหน หรือตื่นนอนมาแล้วหน้าหน้าสดซอมบี้ก็ตาม ก็จะสามารถจำแลงรูปหน้าของคุณให้สวยสดงดงามอยู่เสมอ นี่ยังไม่พูดถึงการแปลงเพศของคนเป็นอีกด้าน หรือการแปลงภาพของคุณเป็นตัวการ์ตูนซึ่งก็สามารถทำได้เช่นกัน
เปิดกระโหลกแมลงวัน 🐝(นี่มันผึ้ง! ผ่าม!)
การทำความเข้าใจกับสรีระทางธรรมชาติ ก็เป็นอีกหนึ่งโจทย์ที่นักวิทยาศาสตร์ต่างถวิลหาเช่นกัน ยกตัวอย่างเช่นการทำแผนที่สมองของสิ่งมีชีวิต ซึ่งโดยปกติแล้วทำได้ยากยิ่ง ด้วยจำนวนเซลที่มหาศาล โครงสร้างที่ซับซ้อนและขนาดที่เล็กมากของเซลล์ จึงเป็นไปได้ยากมากที่จะทำด้วยมือของมนุษย์ นี่จึงเป็นที่มาของการทดลองใช้ Deep Generative Network มาช่วยในการทำแผนที่สมองของแมลงวัน ด้วยโครงสร้างปัญญาประดิษฐ์ที่เรียกว่า SRTGAN ทำการหาขอบเขตของเซลล์ จากภาพสไลด์สมองของแมลงวันเป็นหมื่นๆภาพ ออกมาเป็นโมเดลสมอง 3 มิติอย่างอลังการ นับเป็นอีกก้าวที่ยิ่งใหญ่ของมวลมนุษย์ชาติ
ชุบชีวิตคนตาย👻
อันนี้ก็ไม่ได้ล้อเล่นครับ 😆 ที่ The Dalí Museum รัฐฟลอริดา ประเทศสหรัฐอเมริกา ได้ทำการใช้เทคโนโลยีตัวเดียวกับ deepfake (ที่ทำหนังโป้นั่นแหละ!) มาชุบชีวิตศิลปินเอกของโลก Salvador Dalí ขึ้นมาพูดคุยและทำความรู้จักกับผู้ที่มาเยี่ยมชมพิพิธภัณฑ์ เปิดโอกาสให้คนรุ่นใหม่ได้สัมผัสถึงตัวตนอันเอกอุของศิลปินท่านนี้ และยังเป็นการเชื่อมต่อสืบสานและสร้างแรงบันดาลใจของคนยุคใหม่ที่มีต่อศิลปะยุคเก่าอย่างไร้รอยต่อ
สุดท้ายนี้
“With great power comes great responsibility”
เราคงปฏิเสธไม่ได้ว่าเทคโนโลยีนั้นก็เหมือนกับเหรียญที่มีสองด้าน และหน้าเหรียญทั้งสองด้านนั้นต่างก็มีวิถีและความเป็นไปของมันอยู่ แต่ไม่ว่าหน้าเหรียญมันจะออกมาเป็นอย่างไร ก็ไม่สามารถหลีกหนีความจริงที่ว่า นักเทคโนโลยีอย่างเราๆ นั้นจำเป็นที่จะต้องเข้าใจในหน้าเหรียญทั้ง 2 ด้านนั้นให้เป็นอย่างดี เพื่อที่จะได้เข้าใจถึงประโยชน์และข้อจำกัดของมัน ส่งผลทำให้เราสามารถใช้ประโยชน์จากมันได้อย่างเกิดประโยชน์สูงสุด
“Yes, I acknowledge maybe a new twist makes it work. But in this field nearly all apparent positive results are false, so I’d be skeptical a priori. I’d be interested in an independent evaluation.”
Ian Goodfellow
Twitter, 2020 Aug 8
และถึงแม้ว่าผลลัพธ์ที่ได้มาจากเทคโนโลยีนี้ จะมหัศจรรย์กลิ่นกาวดาวล้านดวงอย่างไร แต่สุดท้ายผลทั้งหมดก็คือภาพมายาอยู่ดี ดังนั้นเราจึงควรใส่ใจ กับวิธีการที่สามารถใช้ประโยชน์จากมัน สรรค์สร้างสิ่งดีๆ ให้กับมวลมนุษย์ชาติกันดีกว่าครับ 🤗
References
- Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks(PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680.
- Isola, Phillip; Zhu, Jun-Yan; Zhou, Tinghui; Efros, Alexei (2017). “Image-to-Image Translation with Conditional Adversarial Nets”. Computer Vision and Pattern Recognition.
- Z. Pan, W. Yu, X. Yi, A. Khan, F. Yuan and Y. Zheng, “Recent Progress on Generative Adversarial Networks (GANs): A Survey,” in IEEE Access, vol. 7, pp. 36322–36333, 2019, doi: 10.1109/ACCESS.2019.2905015.
- Yu, Jiahui, et al. “Generative image inpainting with contextual attention.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
- Satoshi Iizuka and Edgar Simo-Serra. 2019. DeepRemaster: temporal source-reference attention networks for comprehensive video enhancement. ACM Trans. Graph. 38, 6, Article 176 (November 2019), 13 pages. DOI:https://doi.org/10.1145/3355089.3356570
- Siarohin, Aliaksandr, Stéphane Lathuilière, S. Tulyakov, E. Ricci and N. Sebe. “First Order Motion Model for Image Animation.” NeurIPS (2019).
- Paez, Danny (2019–02–13). “This Person Does Not Exist Is the Best One-Off Website of 2019”. Retrieved 2019–02–16.
- “StyleGAN: Official TensorFlow Implementation”. March 2, 2019 — via GitHub.
- Google. https://github.com/google/neuroglancer. Retrieved Jan 23,2020.
- This Person Does Not Exist — photorealistic images of people who do not exist, generated by StyleGAN
- Image-to-Image Demo. Retrieved Jan 23,2020.
- GANs Improve Video Conferencing with Maxine | NVIDIA Blogs. Retrieved Jan 23,2020.
- https://thedali.org/exhibit/dali-lives/. Retrieved Jan 23,2020.