VoiceGPT: จะเกิดอะไรขึ้นเมื่อ Voice Interface ถูกรวมเข้ากับ ChatGPT?

WEDO
WEDO
Published in
3 min readFeb 28, 2023

จากกระแสการนำ ChatGPT หรือ AI chatbot มาช่วยงานในด้านต่าง ๆ ทำให้ผู้คนให้ความสนใจ ChatGPT กันมากขึ้น และทำให้หลายคนกังวลว่า ChatGPT จะเก่งกว่ามนุษย์และเข้ามาแทนที่หลายอาชีพในอนาคต ในขณะที่คนอีกกลุ่มมองว่าสามารถนำทักษะการสื่อสารได้อย่างเป็นธรรมชาติของ ChatGPT มาผนวกเข้ากับความสามารถของเทคโนโลยีอื่น ๆ เพื่อช่วยให้ผู้คน รวมถึงธุรกิจสามารถทำงานได้ไหลลื่นมากขึ้น แต่จะสามารถนำ ChatGPT ไปประยุกต์ใช้กับเทคโนโลยีอะไรได้บ้าง และสามารถช่วยขับเคลื่อนธุรกิจได้อย่างไร บทความนี้นำมุมมองของ พี่เอื้อย ณัฏฑิยา กัณหาบัว Principal Digital Technology Evangelist แห่ง WEDO ที่บอกเล่าต้นกำเนิดและหลักการทำงานของ ChatGPT รวมถึงการนำ “VoiceGPT” มาขับเคลื่อนธุรกิจให้เกิดผลในเชิงบวก จาก session “VoiceGPT: Adding a Voice Interface to ChatGPT” ในงาน National Coding Day 2023 เมื่อวันที่ 18 กุมภาพันธ์ที่ผ่านมา มาฝากทุกคน ถ้าพร้อมแล้ว มาดูกัน!

Cr. VoiceGPT: Adding a Voice Interface to ChatGPT

ChatGPT: AI chatbot ที่ไม่ได้มีความสามารถเพียงการสื่อสาร

ChatGPT ถูกสร้างโดย OpenAI โดยมีจุดประสงค์เพื่อพัฒนาปัญญาประดิษฐ์แบบทั่วไปเพื่อสร้าง impact ที่ช่วยให้ชีวิตของมนุษย์ดีขึ้น หลายคนอาจจะเข้าใจผิดว่า ChatGPT เป็น chatbot ที่เป็น Generative AI ตัวแรก โดย Generative AI เป็นสาขาหนึ่งของ AI ที่มีจุดประสงค์เพื่อสร้างคอนเทนต์ หรือข้อมูลหลายรูปแบบ ไม่ว่าจะเป็น ข้อความ คำพูด รูปภาพ วีดีโอ หรือ 3D โดยสามารถสร้างรูปภาพจาก input ที่เป็นข้อความได้ แต่จริง ๆ แล้ว เมื่อปี 2020 GPT หรือ Generative Pre-trained Transformer ถูกสร้างขึ้นมาเป็นต้นแบบของ ChatGPT ด้วยจุดประสงค์เดียวกันคือการสร้างข้อความต่าง ๆ ซึ่งเมื่อเวลาผ่านไป OpenAI ก็เริ่มพัฒนา InstructGPT โดยใช้ Humans in the Loop เข้ามาช่วยให้ GPT สามารถตอบโต้ได้เหมือนคนและมีข้อมูลที่น่าเชื่อถือมากขึ้น จนกลายมาเป็น ChatGPT ที่เราเห็นกันในทุกวันนี้ โดยต่อยอดมาจาก GPT-3 และ InstructGPT ซึ่งใช้ข้อมูลบทสนทนามหาศาลในการสร้าง ChatGPT ที่มีความสามารถในการสื่อสารได้อย่างเป็นธรรมชาติ ความสามารถของ ChatGPT คงหนีไม่พ้นเรื่องการสื่อสารอย่างเป็นธรรมชาติ แต่รู้ไหมว่า ChatGPT มีความสามารถในการจดจำบริบทได้ ทำให้รู้ว่าเคยคุยอะไรกันก่อนหน้านี้ และสามารถต่อบทสนทนาได้อย่างเป็นธรรมชาติเหมือนพูดคุยกับคน นอกจากนี้ยังสามารถ generate code และแก้ bug ได้อีกด้วย

Voice Interface: ประหยัดเวลาการด้วยการสั่งการด้วยเสียง

Voice Interface จัดอยู่ในโดเมนของ NLP หรือ Natural Language Processing เทคโนโลยี ที่ทำให้มนุษย์สามารถสื่อสารกับคอมพิวเตอร์ได้ หรือทำให้คอมพิวเตอร์สามารถ ฟัง พูด อ่าน เขียน และเข้าใจมนุษย์ได้อย่างเป็นธรรมชาติที่สุด โดยอาศัยเทคโนโลยี AI และ Machine Learning ปัจจุบัน NLP ที่เรารู้จักกันไม่ได้มีเพียง chatbot แต่ Search Engine, Auto Correction หรือแม้กระทั่ง Siri ก็เป็นเทคโนโลยี NLP เช่นเดียวกัน โดยข้อจำกัดของการใช้งานเทคโนโลยีนี้ คือ จำเป็นต้องมีอินเทอร์เน็ตตลอดเวลา ทีมของพี่เอื้อยจึงลองพัฒนา Offline NLP จาก pain point ที่ว่ามีบางสถานที่ และบางกลุ่มคนที่ไม่สามารถเข้าถึงอินเทอร์เน็ตได้ หรือขาดต้นทุนในการใช้งานอินเทอร์เน็ต เพราะฉะนั้นการมีเทคโนโลยี NLP ที่สามารถใช้งานออฟไลน์ได้บนคอมพิวเตอร์เครื่องเล็ก ๆ อย่าง Edge Device ทำให้ไม่จำเป็นต้องใช้อินเทอร์เน็ต ไม่ต้องส่งข้อมูลหรือเสียงที่ถูกประมวลผลไปที่ Cloud ทำให้ข้อมูลมีความปลอดภัย พี่เอื้อยยังเล่าว่า

“สิ่งสำคัญคือการพัฒนาเทคโนโลยีให้คนทั่วไปสามารถใช้งานอุปกรณ์ และเข้าถึงได้ ไม่ว่าจะเป็นคนที่มีปัญหาทางการมองเห็น คนที่อาศัยอยู่ในพื้นที่ห่างไกล หรือไม่มีทุนทรัพย์มากพอในการเข้าถึงอินเทอร์เน็ต”

Cr. VoiceGPT: Adding a Voice Interface to ChatGPT

ทีมของพี่เอื้อยยังนำ Offline NLP ไปประยุกต์ใช้กับอุปกรณ์ต่าง ๆ รวมถึงพัฒนา Voice Assistant ในบ้านอัตโนมัติ นอกจากนี้ยังมี Wearable Device อย่าง Smart Watch และอุปกรณ์อื่น ๆ ที่กำลังพัฒนาร่วมกับทีม IoT ซึ่งอนาคตเราอาจจะสามารถพูดคุยกับนาฬิกาที่สวมใส่ได้ หรือแม้แต่ Audio Book ที่คนตาบอดสามารถอ่านหนังสือได้โดยไม่ต้องพึ่งคนอื่น และ AI Vision Eddge ที่สามารถจับสิ่งกีดขวางตามท้องถนนเพื่อเตือนให้คนตาบอดเดินทางบนท้องถนนได้อย่างปลอดภัยเหมือนคนตาดีทั่วไป

Offline NLP Enablement (ONE): เทคโนโลยีเพื่อชีวิตที่ดีขึ้น

Offline NLP Enablement หรือที่ทีม NLP ของพี่เอื้อยเรียกกันว่า ONE เป็นการพัฒนา Offline NLP ได้แก่ Speech to Text, Text to Speech และ NLU ให้สามารถทำงานได้ในรูปแแบ offline บนคอมพิวเตอร์เครื่องเล็ก ๆ หรือ Single Board Computer เพื่อนำไปใช้เชื่อมต่อกับอุปกรณ์ต่าง ๆ โดยการทำงานเริ่มที่ Speech to Text ซึ่งเสียงที่สั่งงานจะถูกเปลี่ยนเป็นข้อความ จากข้อความส่งไปตัว Integater ทำหน้าที่รับข้อความเข้ามาและส่งต่อไปที่โมดูล NLU หรือ Natural Language Understanding เพื่อตีความหมายว่าสั่งการอะไร และส่งไปยัง knowledge base โดยคำถามที่ได้รับคำตอบเป็นข้อความก็จะถูกส่งไปที่ Text to Speech เพื่อสร้างเสียงสังเคราะห์ขึ้นมา

Cr. VoiceGPT: Adding a Voice Interface to ChatGPT

ปัจจุบันทางทีมได้พัฒนาก๊อกน้ำพูดได้ เครื่องคิดเลขพูดได้ ซึ่งเป็นคอนเซปต์ของ phygital coding เพื่อพิสูจน์ให้เห็นว่า coding ไม่จำเป็นต้องอยู่แค่บนหน้าจอเท่านั้น แต่สามารถเป็น physical+digital ที่ออกมาเป็น device ได้ โดยทีมได้พัฒนา smart bathroom ที่ประกอบไปด้วย ก๊อกน้ำพูดได้ กระจกพูดได้ ฝักบัวพูดได้ที่สามารถสั่งการด้วยเสียงและมีความแม่นยำมากขึ้น

ขับเคลื่อนธุรกิจเชิงบวกด้วย VoiceGPT

จากความสามารถด้านการสื่อสารของ ChatGPT และการสั่งการด้วยเสียงโดยไม่ต้องใช้อินเทอร์เน็ตของเทคโนโลยี Voice Interface ส่วนหนึ่งของ Offline NLP ทำให้ทางทีมเห็นถึงประโยชน์ในการประยุกต์ใช้เทคโนโลยีทั้งสองตัวนี้เข้าด้วยกัน จึงเกิดเป็น VoiceGPT ที่เป็นรูปแบบ hybrid โดยสามารถสั่งงานทางเสียงแบบ offline ได้ ทำให้สามารถยืนยันความปลอดภัยของข้อมูลได้ในระดับหนึ่ง เชื่อมต่อกับ ChatGPT ของ OpenAI

พี่เอื้อยได้ยกตัวอย่างการนำ VoiceGPT มาประยุกต์ใช้ในธุรกิจ เช่น customer service ที่มีการใช้ chatbot จะสังเกตเห็นว่ามี pain point เรื่องการ manual และ define, user intent หรือ response ซึ่ง ChatGPT สามารถวิเคราะห์ความรู้สึกของลูกค้าได้ และแก้ pain point กรณีที่มี intent หรือ response ที่ Chatbot ไม่สามารถตอบได้ ในทางการแพทย์ยังสามารถนำ ChatGPT มาช่วยรักษาสภาพจิตใจของผู้ป่วยได้ เนื่องจากเทคโนโลยีนี้สามารถช่วยให้กำลังใจหรือเยียวยาจิตใจผู้คนได้ นอกจากนี้ยังสามารถนำไปประยุกต์ใช้ในกลุ่มของนักเรียนที่ต้องการเรียนรู้ด้วยตัวเองโดยสื่อสารกับ ChatGPT ได้อีกด้วย โดยวิธีการทำงานของ VoiceGPT คือ input เสียงภาษาไทย จากนั้นแปลเป็นภาษาอังกฤษแล้วส่งเข้า OpenAI ให้ ChatGPT เมื่อได้คำตอบออกมาเป็นภาษาอังกฤษแล้วจึงแปลเป็นภาษาไทยนั่นเอง

แม้ว่าหลายคนอาจกังวลว่าความสามารถของ ChatGPT อาจเก่งเกินมนุษย์จนเข้ามาแทนที่มนุษย์ แต่ข้อจำกัดของ ChatGPT คือ ChatGPT ถูกเทรนด้วยข้อมูลถึงปี 2021 ทำให้ไม่สามารถตอบข้อมูลด้านสถิติที่เปลี่ยนแปลงบ่อย หรือข้อเท็จจริงที่มีการอัปเดตหลังจากปี 2021 ได้ นอกจากนี้ข้อมูลที่ถูกเทรนอาจมี bias เนื่องจากไม่สามารถรองรับได้ทุกภาษา ทำให้ข้อมูลส่วนใหญ่จะเอนเอียงไปทางภาษาอังกฤษมากกว่าความเห็นของคนแต่ละภูมิภาคจึงไม่เท่ากัน อีกทั้งยังมีค่าใช้จ่ายในการเทรนค่อนข้างสูง

Cr. VoiceGPT: Adding a Voice Interface to ChatGPT

อ่านบทความจบแล้ว เพื่อน ๆ คงรู้แล้วว่า ChatGPT มีความเป็นมาอย่างไร และสามารถนำมาประยุกต์ใช้กับ Voice Interface ได้อย่างลงตัวและมีประโยชน์มากกว่าที่คิด นอกจากนี้ยังสามารถนำมาประยุกต์ใช้ได้ในธุรกิจต่าง ๆ อย่างกว้างขวางอีกด้วย บทความหน้า WEDO จะมีความรู้เรื่องอะไรมาฝาก อย่าลืมติดตาม!!

เขียนโดย พิสินี ตันตราชีวธร YTPGen1, WEDO

--

--