วิเคราะห์ The Forrester Wave เปรียบเทียบ AI Foundation Models สำหรับ Enterprise เค้าดูอะไรบ้าง

Sneak Peak: Enterprise ควรมองมากกว่าแค่ Performance Benchmarks

Ray Iramaneerat
Google Cloud Thailand
5 min readJun 17, 2024

--

Image generated with Google Imagen 2

Link to official Blog | Link to full report

ในยุคปัจจุบัน องค์กร Enterprise มีการนำ AI เข้ามาใช้อย่างจริงจังในหลายๆ เรื่อง มาใช้กับพนักงานทุกคน ทุกระดับ ทุกตำแหน่ง ทุกสายงาน ทั้งเพื่อการเพิ่มรายได้ขององค์กร ลดรายจ่ายต่างๆ และเพิ่มประสิทธิภาพการทำงานของคนในองค์กร (Productivity)

โดยเมื่อปีที่ผ่านมา องค์กรส่วนใหญ่จะเน้นศึกษาและทดสอบ Proof-of-Concept (POC) โดยเฉพาะ Generative AI POC แต่มาในปี 2024 นี้ หลายองค์กรเริ่มยกระดับจากแค่ POC มาเป็นการใช้งานจริง โดยส่วนมากจะเริ่มกับงานภายใน เพื่อทดสอบให้มั่นใจก่อนนำไปใช้จริงกับลูกค้าภายนอก แต่ก็มีบางองค์กร ที่มีทั้งศักยภาพและทรัพยากรให้ทุ่มอย่างจริงจัง เราจึงได้เห็นผลิตภัณฑ์ที่มีส่วนร่วมของ Generative AI ออกมาให้ consumer ใช้กันในวงกว้างไม่น้อยแล้ว (มีใครใช้ Samsung Galaxy S24 Circle to Search กันแล้วบ้างครับ)

Foundation Models คืออะไร

Practitioners ด้าน Data หรือ Gen AI คงรู้จัก Foundation Models กันอยู่แล้ว แต่ขอยกตัวอย่างมาอธิบายสั้นๆ สำหรับบุคคลทั่วไปที่อาจยังไม่คุ้นเคย

Practitioner ข้ามไป section ถัดไปได้เลยครับ หรือใครอยากอ่านเพิ่มเกี่ยวกับ Foundation Models สามารถกดดูในบทความก่อนหน้านี้ Generative AI ทำงานยังไง ที่เขียนไว้เมื่อปีที่แล้วครับ

Foundation Models (FML) เปรียบเหมือนสมองของ Generative AI application ตัวอย่าง FML จากค่าย Google ก็มี Gemini 1.0 Pro, Gemini 1.5 Flash (กลุ่มนี้เป็นโมเดลด้านภาษา ที่เรียกอีกอย่างได้ว่า Large Language Model หรือ LLM) โดยโมเดลเหล่านี้จะเป็นส่วนประกอบเบื้องหลังของ Gen AI application ต่างๆ

ขอยกตัวอย่าง Gemini Advanced ที่เราเข้าใช้ผ่าน https://gemini.google.com ส่วนที่เราใช้งานทางเวป จะเป็นเพียงหน้ากากแอป (Application layer) โดยเบื้องหลัง (Backend) จะมี Gemini 1.5 Pro ที่เป็น Foundation Model มาทำงานร่วมกับ Services อื่นๆ เช่น PDF Parser (แปลง PDF จาก Prompt ให้เป็นตัวอักษร) หรือ YouTube Extension (ดาว์นโหลดวีดีโอจาก Prompt ที่มี YouTube link) ทำหน้าที่ส่ง Prompt ไปตอบโต้กับ FML เพื่อให้ได้คำตอบที่ต้องการ ดังนั้นหน้าที่ของ Application Layer ที่เราโต้ตอบด้วย จะเป็นศูนย์กลางการประสานงานระหว่าง ผู้ใช้งานกับ Services ต่างๆ โดยผู้ใช้ไม่จำเป็นต้องโต้ตอบโดยตรงกับ Foundation Models ทั้งนี้ก็เพื่อให้ผู้ใช้งาน Gen AI application สามารถเข้าถึงความสามารถของ Foundation Models ได้ โดยไม่ต้องมีความรู้ด้านเทคนิค และยังเพิ่มความสะดวกในการใช้งานอีกด้วย

แต่ถ้าจะเข้าใช้ Foundation Models โดยตรง จะเป็นการเข้าผ่านเครื่องมือเฉพาะ เช่น Google Cloud Vertex AI ที่ต้องมีความเข้าใจในการเรียกใช้ API — ไม่ได้ยากสำหรับคนทางเทคนิค หรือเหล่า Builder ทั้งหลาย แต่อาจจะไม่ง่ายสำหรับผู้ใช้ทั่วไป ที่จะสะดวกกว่าด้วยการใช้เครื่องมือแบบ Gemini Advanced

เพิ่มเติมตัวอย่าง Foundation Models จากฝั่ง Open Source ก็จะมี Mistral 7B จาก Mistral AI หรือ Llama 3 70B ของค่าย Meta รวมถึงฝั่ง Google ก็ออก Foundataion Models แบบ Open Model ชื่อ Gemma (และอีกหลายๆโมเดล) ที่สามารถนำไปใช้ หรือจะเทรนเพิ่มด้วยข้อมูลของตัวเอง บนเครื่องที่ไหนก็ได้ (on-premises, cloud, etc.)

ความหลากหลายของ Foundation Models ที่มาจากหลายค่าย และอัตราการพัฒนาออกสู่ตลาดอย่างรวดเร็วในปัจจุบัน เป็นปัจจัยที่ทำให้การเลือกใช้ Foundation Models โดยเฉพาะในองค์กร Enterprise ไม่ใช่เรื่องง่ายเลย ต้องศึกษาข้อมูลใหม่ๆ อยู่ตลอดเวลา แต่ก็หลีกเลี่ยงการเปรียบเทียบ Foundation Models ไม่ได้ เนื่องจากมันคือสมองของ Gen AI applications ซึ่งเป็นส่วนที่สำคัญกับความฉลาดของของ AI applications ของเรา

The Forrester Wave: AI Foundation Models (Q2 2024)

Link to official Blog | Link to full report

ล่าสุดทาง Forrester Research หนึ่งในผู้นำด้านรายงานการเปรียบเทียบเทคโนโลยีประเภทต่างๆ ได้ออกรายงานการเปรียบเทียบ AI Foundation Models ด้านภาษา (กดลิงค์เพื่อดู methodology เพิ่มเติม)

ส่วนตัวมองว่ารายงานนี้มีความน่าสนใจในรายละเอียดหัวข้อที่ใช้ในการเปรียบเทียบ โดยปัจจัยที่ตัวรายงานนำมาใช้ ดูจะมีความครอบคลุมและครบถ้วน น่าจะสามารถนำมาปรับใช้เป็น Framework ในการพิจารณาเลือก FML มาใช้กับงาน Gen AI applicationในบริบทขององค์กร Enterprise ได้ดีทีเดียว

ทั้งนี้เป็นที่น่ายินดีกับทางทีมงาน Google ที่เกี่ยวข้อง ที่ผลเปรียบเทียบ โมเดล Gemini ออกมาอยู่ในกลุ่ม Leaders เป็นการแสดงให้เห็นถึงความครบถ้วนของ Foundation Models (FML) ในการใช้งานในบริบท Enterprise ที่ทาง Google ให้ความสำคัญมาโดยตลอด

** ขออนุญาตวิเคราะห์รายงาน โดยอ้างอิงเฉพาะในส่วนของ Google เท่านั้นครับ **

The Forrester Wave™ is copyrighted by Forrester Research, Inc. Forrester and Forrester Wave™ are trademarks of Forrester Research, Inc. The Forrester Wave™ is a graphical representation of Forrester’s call on a market and is plotted using a detailed spreadsheet with exposed scores, weightings, and comments. Forrester does not endorse any vendor, product, or service depicted in the Forrester Wave™. Information is based on best available resources. Opinions reflect judgment at the time and are sub
Excerpted from: (Link for full report)

ในบทนำของรายงาน The Forrester Wave เริ่มต้นด้วย 2 ประเด็น Do และ Don’t ที่เป็นมุมมองที่น่าสนใจมากๆ และส่วนตัวมองว่าเป็นประเด็นที่สำคัญ สำหรับการเลือกใช้ FML ขององค์กร Enterprise

  • Do = Open to Multiple Models: เนื่องจากปัจจุบัน FML มีอัตราการพัฒนาที่รวดเร็วมาก (Quote from the report: “Absurd rate of innovation”) การจำกัดตัวเลือกเพื่อใช้เพียงโมเดลเดียว อาจทำให้องค์กรเสียประโยชน์ แต่ตรงกันข้าม ควรใช้การแข่งขันด้าน FML นี้ให้เป็นโอกาสในการใช้งานโมเดลหลายๆ ตัว ทั้งที่มาจาก tech giants และ ค่าย open source ต่างๆ
  • Don’t = Distracted by Incremental Benchmarks: การประกาศ model benchmark incremental improvement เกิดบ่อยมากๆ แต่ก็จะมีอายุแค่ตาม “news cycle” คืออาจจะแค่ 1–2 สัปดาห์เท่านั้น ในรายงาน Forrester แนะนำให้ Enterprise ระมัดระวังที่จะคล้อยตามข่าวใดข่าวหนึ่ง แต่ให้พยายามไม่ลืมที่จะพิจารณา benchmark improvement ร่วมกับปัจจัยที่สำคัญอื่นๆ ด้วย เช่น มี Product Roadmap ที่ชัดเจน, มาพร้อมเครื่องมือช่วยลด Hallucination (เช่น การทำ Grounding หรือการตอบคำถามด้วยข้อมูลของเรา), ความสามารถในการขยายระบบ (Platform Scalability) หรือ แม้กระทั้งความโปร่งใส่ในการนำข้อมูลมาใช้ในการพัฒนาโมเดล (Corpus for Model Training) — ประเด็นสุดท้าย คงไม่มีใครอยากเจอกับเหตุการณ์ในอนาคต ที่ถูกฟ้องร้องดำเนินคดีทางกฎหมายจากเจ้าของ IP (Intellectual Properties หรือทรัพย์สินทางปัญญา) หลายคนคงเคยอ่านเจอกรณีจริงแบบนี้ในข่าวกันมาบ้างแล้ว

หัวข้อที่ใช้เปรียบเทียบ มีอะไรกันบ้าง

จากรายงาน สามารถจัดกลุ่มหัวข้อ สรุปตาม 3 แกนของกราฟ Bubble Chart (1. Y-axis: Current offering, 2. X-axis: Strategy, และ 3. Bubble Size: Market presence)

1. Current offering (แกนแนวตั้ง)

พิจารณาจาก services ที่ออกมาให้บริการจริงแล้วในตลาดของแต่ละค่าย แบ่งออกเป็นหัวข้อต่างๆ ที่ทาง Forrester ให้น้ำหนักแตกต่างตามความสำคัญ

** ขออนุญาตวิเคราะห์รายงาน โดยอ้างอิงเฉพาะในส่วนของ Google เท่านั้นครับ **

* Indicates a non-participating vendor / Scale: 0=weak to 5=strong

1.1 Corpus (3 factors / 19% weight) คือ ข้อมูลที่นำมาใช้ในการพัฒนา FML ซึ่ง [arguably] มีความสำคัญเป็นอันดับต้นๆ กับคุณภาพและความสามารถของ FML หัวข้อนี้ทาง Forrester มีการวัดผลในด้าน scope, transparency and IP, และ filtering ซึ่งทั้งสามส่วนมีความสำคัญในบริบทองค์กร Enterprise ที่ไม่ใช่เฉพาะ scope หรือความครอบคลุมของความรู้ที่นำมาเทรน เท่านั้น แต่รวมถึงความโปร่งใส่ของที่มาของข้อมูล หรือการคัดกรองสิ่งที่ไม่ควรนำมาเป็นความรู้ของโมเดล ทั้งหมดมีความสำคัญไม่แพ้กัน — ในหัวข้อนี้ทาง Google อาจจะได้เปรียบเป็นพิเศษ เนื่องจากธุรกิจทั้งหมดตั้งแต่เริ่มต้นของ Google จะเป็นการสร้างบริการให้มีประโยชน์กับผู้ใช้ ผ่านการพัฒนาด้วยข้อมูลที่ Google ได้มาจาก Business Models ที่มีการคิดและแบ่งผลประโยชน์ให้กับทุกฝ่าย โดยเฉพาะเจ้าของข้อมูล หรือ Data Contributor การใช้ข้อมูลโดย Google ที่นอกจากจะ Transparent ในที่มาของข้อมูลแล้ว ทาง Google ยังเป็นค่ายเดียวในปัจจุบัน ที่ยืนยันรับผิดชอบเรื่องนี้ในลักษณะ Shared Fate (อ่านเพิ่มที่ Blog: Gen AI Indemnification) ผู้ใช้องค์กร Enterprise สบายใจได้เต็มที่

1.2 Model (6 factors / 45% weight) ไม่น่าแปลกใจที่เป็นปัจจัยที่มีน้ำหนักเกือบครึ่ง แต่ที่น่าสนใจสำหรับรายงานนี้ คือความครบถ้วนในการพิจารณา ที่มีถึง 6 ด้านที่แตกต่างกัน (ไม่ใช่วัดผลหลายอย่าง แต่เป็นเรื่องคล้ายๆ กันหมด) น้ำหนักที่เยอะสุดก็ยังเป็น Core Capabilities (เหมาะสม) แต่ที่น่าสนใจคือมีการพิจารณาในด้าน Multi-modality (ความเข้าใจทั้ง ตัวอักษร รูป เสียง วีดีโอ), Multi-lingual (หลายภาษา), และ Context Window (อธิบายอย่างย่อ คือ ขนาดของ Prompt เดี๋ยวด้านล่างมีตัวอย่างเพิ่ม)— ซึ่งทั้งสามปัจจัยนี้ จากประสบการณ์ที่มีโอกาสไปช่วยให้คำปรึกษากับลูกค้าเรื่อง Gen AI มาหลายที่ ปัจจัยเหล่านี้จะทำให้ Generative AI มีประโยชน์ และใช้งานง่ายมากขึ้นมาก ยกตัวอย่าง Use case ของ Enterprise เช่น หากต้องการวิเคราะห์ข้อมูลเสียงบันทึกจาก Call center ที่แต่ละครั้งมีความยาว 5–20 นาทีหรือมากกว่า เพื่อหา Insights มาปรับปรุงบริการ แทนที่จะต้องทำหลายขั้นตอน เช่น แปลงเสียงให้เป็น text, ตัดแบ่งไฟล์เสียงที่มีการคุยนาน, แปลภาษาทั้งหมดให้เป็นภาษาหลัก, หรืออย่างอื่นอีกหลายขั้นตอน การมีความสามารถด้าน Multi-modaltiy (ทั้งเสียงและ text), Multi-lingual และ Long context window จะสามารถทำให้เราส่งไฟล์เสียงเพื่อถามหา insights ในขั้นตอนเดียว โดยเสียงจะมีหลายภาษา (Gemini เข้าใจ 37 ภาษา) หรือไฟล์เสียงที่สามารถยาวได้สูงสุดถึง 11 ชั่วโมง (มากสุด 1 ล้าน Tokens ของ Gemini) ก็ทำได้ในขั้นตอนเดียว ไม่มีปัญหา

1.3 Enterprise (2 factors / 18% weight) พิจารณา Governance and security, และ Application development ทั้งสองเรื่องนี้อาจจะไกลตัว Data / Gen AI Practitioners ในช่วง POC แต่เนื่องจาก FML ส่วนใหญ่จะต้องการ Hardware ขนาดใหญ่มากๆ เลยมักอาศัย Shared facilities ในการ host FML ทำให้ Governance and security มีความสำคัญมากๆ (คงไม่มีใครอยากให้ Prompt หรือ ข้อมูลที่ใช้ Grounding รั่วไหลออกไป) รวมทั้งความสามารถของ Gen AI ในการโต้ตอบกับมนุษย์ และการเข้าใจความต้องการ (Intent) ทำให้การสร้าง Application สำหรับ Gen AI เป็นสิ่งที่หลีกเลี่ยงไม่ได้เลย — เรื่อง Governance and security ทาง Google ก็อาจจะได้เปรียบอีก เนื่องจากธุรกิจทั้งหมดของ Google ต้องบริหารจัดการข้อมูลส่วนตัวของลูกค้าใน Shared facilites จึงเข้าใจวิธีการบริหารข้อมูล Privacy Sensitive และสามารถใช้ความเชี่ยวชาญที่ทำได้ดีมานานแล้ว รวมถึงประสบการณ์เรื่อง Security ในฝั่ง Google Cloud ก็มีเครื่องมือมาใช้กับ FML ได้อย่างครบถ้วน

1.4 Deployment (2 factors / 18% weight) คือ Model management, และ Resilience and scalability ที่สำหรับองค์กร Enterprise ไม่ควรมองข้าม การใช้ FML จะได้ประโยชน์สูงสุด ควรอยู่บน AI platform ที่รองรับทั้ง Model management และ Resilience and scalability ได้อย่างมีประสิทธิภาพด้วย — สำหรับ Google Cloud จะมี Vertex AI ที่เป็น End-to-end AI platform รองรับทั้ง Predictive AI และ Generative AI ที่เป็นส่วนนึงใน Google Cloud สามารถทำงานร่วมกับ Services อื่นๆทั้งหมดได้อย่าง Seamless โดยเฉพาะการสร้าง Gen AI application จะมี Service ยอดนิยมชื่อ Cloud Run ที่ทำให้ App container deployment ทำได้อย่างง่ายดาย และสามารถ Auto-scale พร้อมสำหรับ Workload และ Traffic ทุกขนาดด้วย

2. Strategy (แกนแนวนอน)

พูดง่ายๆ ก็คือวิสัยทัศน์ระยะยาว (long-term) สำหรับอนาคต หมวดนี้จะค่อนข้างตรงไปตรงมา แบ่งเป็น 6 ข้อที่มีน้ำหนักเท่าๆ กัน หัวข้อเปรียบเทียบในหมวดนี้จะคล้ายๆ กันกับรายงานอื่นของ The Forrester Wave ในบทวิเคราะนี้อาจจะไม่ได้ลงลึกในส่วนนี้มากนัก

เคยอ่านบทสัมภาษณ์ของ Forrester Analyst เค้าว่าในการพิจารณาวิสัยทัศน์สำหรับอนาคต ก็มีการพิจารณาไปถึง historical track records คือเวลาประกาศวิสัยทัศน์ในอดีต แล้วพอของจริงออกสู่ตลาดในเวลาถัดมา มันตรงกันกับที่ประกาศไว้ในวิสัยทัศน์มากน้อยแค่ไหนด้วย

สำหรับองค์กร Enterprise วิสัยทัศน์ระยะยาวมีความสำคัญ เพื่อเป็นเครื่องยืนยันว่า Vendor ค่ายนั้นๆ จะไม่หนีไปในปีสองปี แต่เราก็เห็นความไม่แน่นอนของ Tech Industry กันมาไม่น้อย เรื่องนี้ก็คงยืนยันได้แค่ระดับหนึ่งเท่านั้น

** ขออนุญาตวิเคราะห์รายงาน โดยอ้างอิงเฉพาะในส่วนของ Google เท่านั้นครับ **

* Indicates a non-participating vendor / Scale: 0=weak to 5=strong

2.1 Vision (17%) วิสัยทัศน์สำหรับอนาคต ที่จะเป็นมุมมองและแนวทาง สำหรับการพัฒนาผลิตภัณฑ์รุ่นถัดไป ยิ่งออกสื่อว่าคิดล้ำไปไกลแค่ไหน ก็น่าจะยิ่งได้คะแนนส่วนนี้เยอะเท่านั้น ส่วนนี้คงแสดงให้เห็นแบบอ้อมๆ ถึงความ Aggressive หรือ Conversative ของค่ายนั้นๆด้วย

2.2 Innovation (17%) มีความเป็นนวัตกรรม ไม่เหมือนใครในตลาด กับของที่ออกมาใหม่ทุกครั้ง ของรุ่นใหม่ๆ มีความใหม่จริง อันนี้ Vendor ไหน R&D เก่งก็ได้เปรียบ

2.3 Roadmap (17%) รายละเอียดของ Service ใหม่ที่กำลังจะออก กำลังจะเป็น Preview ที่มาพร้อม timeline คร่าวๆ ความชัดเจน ความถูกต้อง ตรงกับความต้องการของตลาด คิดว่ายิ่งเปิดเผยชัดเจนและออกได้ตรงเวลาก็จะได้คะแนนเยอะ

2.4 Partner ecosystem (17%) ข้อนี่สำคัญมาก เราคงได้เห็นตัวอย่าง Gen AI application ที่ออกมาในตลาดกันบ้างแล้ว ว่า Foundation Models อย่างเดียวไม่เพียงพอ ต้องมี Platform ที่มีตัวเลือก โดยเฉพาะความหลากหลายของ Foundation Models ที่รองรับบน Platform รวมถึง Partner ecosystem บน Platform ด้วย

2.5 Pricing flexibility and transparency (16%) ข้อนี้ตรงไปตรงมา คือราคาชัดเจน โปร่งใส่เข้าใจง่าย และมีความหลากหลายในการคิดเงิน ที่อาจต้องยืดหยุ่นให้เหมาะกับ Use cases หรือ Application stages ที่แตกต่างกัน เช่น มี Pay-per-API-call สำหรับช่วงเพิ่งทดสอบ Application ในตลาด หรือเปิดเป็นแบบ Reserved capacity เพื่อให้ได้ความคุ้มค่าของราคาที่สเกลใหญ่ๆ ได้

2.6 Supporting services and offerings (16%) เช่นเดียวกับที่พูดถึงใน Partner ecosystem — “The more choices, the merrier!”

3. Market presence (ขนาดของ Bubble)

หัวข้อสุดท้ายนี้ก็คือ ความนิยมในตลาด มีมากน้อยแค่ไหน แบ่งเป็นสองหัวข้อ ด้วยน้ำหนักที่เท่าๆกัน ประกอบด้วย 3.1 รายได้ (Revenue) กับ 3.2 จำนวนลูกค้าในปัจจุบัน (Number of Customers) ยิ่ง Bubble ขนาดใหญ่ ก็คือยิ่งเป็นที่นิยมในตลาด ส่วนนี้จะเหมือนกันกับทุกๆรายงาน The Forrester Wave อื่นๆ

นอกจากรายงาน The Forrester Wave: AI Foundation Models ทาง Forrester ก็ได้ออกรายงานเรื่อง AI อีกอันนึงเมื่อ Q1 2024 ที่ผ่านมา เรื่อง AI Infrastructure สามารถกดดูในลิงค์ได้ครับ

สุดท้ายหวังว่าทุกคนจะได้รับความรู้จากบทวิเคราะห์ส่วนตัวนี้นะครับ และหวังว่าจะสามารถนำเอาแนวทางจากรายงานของ The Forrester Wave นี้ไปใช้เป็นกรอบความคิด (Framework) ในการพิจารณาเปรียบเทียบเพื่อเลือกใช้ AI Foundation Models ได้อย่างครบถ้วน ในบริบทขององค์กร Enterprise ครับ หากใครสนใจพูดคุยกันเพิ่มเติมในหัวข้อเรื่องนี้ เข้ามาทักทายกันทาง LinkedIn เพื่อพูดคุยสอบถามเพิ่มเติมได้ตลอดครับ

ความคิดเห็นทั้งหมดเป็นความคิดเห็นส่วนตัว ไม่มีส่วนใดสะท้อนความคิดเห็นของบริษัทที่เป็นนายจ้างของผู้เขียนทั้งในอดีตและปัจจุบัน

“Views expressed above are my own. All opinions are own. The opinions expressed here belong solely to me and do not reflect the views of my employer.”

References:

--

--