มาทำความรู้จักกับ Conversational UI

Next-Gen User Interface

Nat U.
ConvoLab
2 min readJun 9, 2019

--

“คอมพิวเตอร์มันใช้ยังไงอะ”

“กดที่ปุ่มนี้น้า พอเปิดคอมพิวเตอร์ขึ้นมา” เรามองที่จอ

“รอแปบนึง” เราขยับเมาส์

“เลื่อนเมาส์มันไปที่ไอคอนนี้นะ มันจะเปิดโปรแกรม …. นี้ขึ้นมา เราก็จะทำ … ได้” เราเล่าต่อ

ผ่านไปอีกสามเดือนเพื่อนเราคนนี้ก็เริ่มที่จะเปิดคอมเองเป็นบ้าง … ช่างดีจริงๆ

และนั้นคือวิธีการที่เราใช้คอมพิวเตอร์ในปัจจุบัน ด้วยเมาส์ คีย์บอร์ด และ หน้าจอสีสันสวยงาม ( หรือจะเปลี่ยนจากเมาส์เป็นนิ้วแทน บนหน้าจอสัมผัสของ Smartphone ) ซึ่งหลายคนคงพอทราบแล้วว่าไอเจ้าสามอย่างเนี้ย มันเรียกว่า User Interface (UI) หรือที่เป็นภาษาไทยว่า ส่วนติดต่อผู้ใช้

iOS 12

โดยในวันนี้สิ่งที่เราก็จะพูดถึงก็คือ User interface อีกแบบนึง ที่ไม่ได้ใช้เมาส์หรือนิ้ว คลิกไอคอนบนหน้าจอ

แต่ก่อนผมของเล่าความเป็นมาคร่าวๆ ของเจ้า UI ก่อน โดยผมขอแบ่งเป็น 3 generations: เจนแรก Text-based, เจนที่สอง Graphical และสุดท้าย Conversational UI ที่เป็นหัวข้อของวันนี้

เริ่มที่ UI เจนแรก Text-based UI

ตั้งแต่เรื่องแรกที่เรามีคอมพิวเตอร์ใช้ ทุกอย่างที่เราจะทำเราต้องพิมพ์เป็น commands แล้วสั่งรัน ใช่แล้ว! ทุกอย่างต้องถูกพิมพ์ลงไปทั้งหมดเป็นคำสั่งเฉพาะที่เราต้องรู้ เหมือนตอนเราใช่ Terminal หรือ Cmd นั้นหละ บางคนอาจจะเถียง เห้ย! แต่ก่อนหน้านี้มันใช้ punched cards มาก่อนนิ ไม่เอาอะ ผมขอนับ Text-based เป็นเจนแรกละกัน 5555

ตัวอย่าง Text-based User Interface: Synchronet

ใครก็ตามที่อยากใช้งานคอมพิวเตอร์ต้องรู้คำสั่งเฉพาะสำหรับงานนั้นๆ หลายครั้งงานหนึ่งอย่างต้องใช้หลายคำสั่งต่อเนื่อง การใช้งานในลักษณะนี้เหมาะสำหรับผู้ใช้เฉพาะทาง

จนต่อมาเราเริ่มมีวัตนธรรมขึ้น จึงมีเจนสองที่เรียกว่า Graphical User Interface (GUI)

Windows 10: เวอร์ชั่นล่าสุดของ Windows

GUI นี้เป็นรูปแบบการใช้งานคอมพิวเตอร์ที่เราคุ้นเคยในปัจจุบัน

เป็นเจ้าตัวนี้ละ ที่ทำให้คนทั่วไปสามารถใช้คอมพิวเตอร์ได้อย่างแท้จริง เราสามารถลากเมาส์ไปทำนู้นทำนี้ได้ แทนที่จะมีแต่คีย์บอร์ดกับจอดำๆ อย่างเดียว ชีวิตเราเริ่มมีสีสันขึ้นซักที โดยการที่เราใช้เมาส์หรือนิ้วคลิกไปตามเมนูต่างๆ ในแอปสามารถแทน command ที่ของ text-based ได้หลาย commands

คอมพิวเตอร์ใช้งานง่ายขึ้น และรวดเร็วขึ้น การแสดงผลทำได้หลากหลายมากขึ้น เป็นข้อความ เป็นรูป เป็นกราฟ เป็นวิดิโอ เจ้าตัว GUI นี้ถูกพัฒนาเรื่อยมาจึงใช้ง่าย มีสีสันสวยงาน เหมือนดังที่เราเห็นในปัจจุบัน

ยุคเริ่มต้นของ GUI(แต่ไม่ใช่ครั้งแรก): Windows 95 ซึ่งแน่นอนว่าผมเกิดไม่ทัน

จากนั้นก็มาถึงเจนที่ 3 Conversational UI ของเรา

เจ้าตัว GUI เนี้ยสามารถตอบสนองความต้องการของเราได้เป็นอย่างดี เราสร้างเอกสารได้จาก Microsoft word ทำพรีเซ็นท์ที่สวยงามได้จาก PowerPoint ดูวิดีโอได้จาก Youtube จะมีอะไรยอดเยี่ยมไปกว่านี้อีก

ดูเหมือนจะเป็นอย่างนั้น … จนเราได้เล่น Siri

ใช่แล้ว! เจ้า Siri ที่อยู่บน iPhone นั้นหละ เราพูดคุยกับมันได้ ถามข้อมูลมันได้ ( ถึงส่วนใหญ่จริงๆ เราจะแค่แกล้งมัน ) ใช่มันสร้างตารางนัดหมายได้ และอื่นๆ อีกมากมาย จนกระทั่ง iOS เวอร์ชั่นล่าสุด iOS 12 เราเริ่มพอที่จะสอนมันได้ด้วย

ช่างเจ๋งจริงๆ ( ถึงหลายคนจะบอกว่า Google Assistant เจ๋งกว่าก็ตาม )

เจ้า Siri หรือ Google Assistant เนี้ยหละคือจุดเริ่มต้นของ Conversational UI

ทุกวันนี้เราเริ่มเห็น Amazon Google Apple และเจ้าอื่นๆ ออกผลิตภัณฑ์พวกลำโพงอัจฉริยะ ( รู้สึกของทุกอย่าง จะอัจฉริยะไปหมด 5555 ) ที่นอกจากเอาไว้เปิดเพลงฟังแล้ว เราสามารถสั่งงานมันได้ด้วยเสียงของเรา

ใช่แล้วด้วยเสียงอันไพเราะของเรา

ลำโพงอัจฉริยะ Apple HomePod, Google Home และ Amazon Echo ตามลำดับ. Credit: Newsweek

แต่อันที่จริงตัว Conversational UI ไม่ได้จำกัดแค่การพูดนะครับ มันรวมถึงการพิมพ์ข้อความด้วย ( เหมือนที่เราพิมพ์ใน Line, Facebook messenger, … ) ซึ่งหลักๆ หมายถึงการใช้งานโดยการสนทนา ( Conversational )

เปิดไฟให้หน่อย อยากดู The lord of the rings จัง ซื้อของอันนี้จากที่นี้ให้หน่อย วันนี้อากาศเป็นยังไง ขอตารางงานวันนี้หน่อย

หรือจะเป็นอะไรที่ซับซ้อนกว่านั้น อะไรที่เป็นบทสนทนา มีการถาม-ตอบอย่างต่อเนื่องเช่น

ผู้ใช้งาน: “พรุ่งนี้วันอะไรอะ”

คอมพิวเตอร์: “วันอังคารค่ะ”

ผู้ใช้งาน: “ฝนจะตกไหม”

คอมพิวเตอร์: “พรุ่งนี้อากาศดีค่ะ”

ผู้ใช้งาน: “จองร้านอาหารให้หน่อย” (ของพรุ่งนี้)

คอมพิวเตอร์: “ร้านไหนดีคะ”

ผู้ใช้งาน: ….

ทั้งหมดนี้เป็นแค่ตัวอย่างที่เราสามารถสั่งเจ้าลำโพงอัจฉริยะได้

ช่างง่ายดายเหลือเกิน….

ไม่ต้องลากเมาส์ไปคลิกอะไรเลย ด้วย 1 คำสั่งเสียงของเราอาจแทนจากลากเมาส์/นิ้ว ไปคลิกไอคอนต่างๆ นับสิบครั้ง เราสามารถทำงานได้เร็ว สะดวกยิ่งขึ้น เมื่อเราพูดคุยกับเพื่อน เราสามารถทำงานกับคอมพิวเตอร์ได้เหมือนเราทำงานกับคน

หรือนี้จะเป็นจุดจบของ Graphical User Interface

อันที่จริงยังอะครับ

จริงอยู่งานหลายอย่างเราสามารถทำได้โดย Conversational UI แต่อีกหลายอย่างเราอาจยังเจ้าพึ่ง GUI อยู่เช่นทำพรีเซ็นเตชั่น ทำงานกราฟฟิกต่างๆ แต่งานหลายๆ อย่างเราคงอยากใช้เจ้า UI แบบใหม่นี้มากกว่า

สรุป

นั้นหละครับ Next Gen UI ของเรา เป็นการใช้งานเจ้าตัวคอมพิวเตอร์ในรูปแบบใหม่ เป็นการใช้งานด้วยการสนทนา เหมือนที่เราทำกันทุกๆวันกับคนจริงๆ กับเพื่อนเรา กับครอบครัวเรา ทำให้เราทำงานได้ง่ายขึ้น เร็วขึ้น สะดวกขึ้น ไม่ว่าจะเป็นด้วยการพูดหรือพิมพ์ ถ้าเป็นการสนทนาเราเรียกมันว่าเป็น Conversational User Interface

และนั้นคือทั้งหมดของวันนี้ครับ ใครมีอะไรจะเสนอแนะ สอบถาม หรือใครคิดว่าผมนับเจนผิด ( ก็แล้วแต่ละกัน ) บอกได้ในคอมเมนท์นะครับ

--

--