เทคโนโลยีประมวลภาษาธรรมชาติสำหรับตลาดทุนไทย เฟส 1

Published in

AIResearch.in.th

4 min readJun 23, 2024

การวิเคราะห์ข้อความเกี่ยวกับตลาดทุน ไม่ว่าจะเป็นข่าวด้านการเงิน รายงานจากนักวิเคราะห์ หรือประกาศอย่างเป็นทางการ มักจะมีข้อมูลใหม่จำนวนมากที่เกิดขึ้นแต่ละวัน การวิเคราะห์ด้วยตนเองจึงเป็นงานที่ใหญ่เกินไปสำหรับคนหนึ่งคน หรือแม้แต่หน่วยงานเดียว ดังนั้นการนำระบบอัตโนมัติมาวิเคราะห์และจำแนกข้อความทางด้านเงินโดยใช้วิธีการประมวลผลภาษาธรรมชาติ (Natural Language Processing) จึงเริ่มถูกนำมาใช้งาน เช่นการจำแนกประเภทเอกสาร การสกัดหาข้อมูลความรู้ที่จำเป็น การสร้างระบบค้นหาอัจฉริยะ รวมไปถึงระบบที่ช่วยตรวจสอบกำชับระเบียบข้อบังคับต่าง ๆ อย่างไรก็ตามเทคโนโลยีประมวลผลภาษาธรรมชาติสำหรับภาษาไทยนั้นยังล้าหลังภาษาที่มีทรัพยากรสูงเช่นภาษาอังกฤษ ดังนั้นสถาบันวิทยสิริเมธีภายใต้การสนับสนุนของกองทุนส่งเสริมการพัฒนาตลาดทุน (CMDF) จึงเสนอการสร้างชุดข้อมูลและเทคโนโลยีสำหรับเป็นโครงสร้างพื้นฐานในการเทคโนโลยีประมวลผลภาษาธรรมชาติสำหรับข้อความด้านการเงินภาษาไทย ซึ่งจะประกอบด้วย:

(1) โมเดลและชุดข้อมูลรู้จำชื่อเฉพาะ (Named-Entity Recognition) เพื่อนำไปสร้างโมเดลที่สามารถดึงข้อมูลเกี่ยวกับบุคคล บริษัทและองค์กร หน่วยงานต่าง ๆ ในตลาดทุนได้ นอกจากนี้ชุดข้อมูลรู้จำชื่อเฉพาะสามารถต่อยอดเพื่อไปสร้างชุดข้อมูลอื่นเช่น ชุดข้อมูลสำหรับการสกัดหาความสัมพันธ์ในข้อความ (relation extraction) ซึ่งสามารถนำไปสร้างโมเดลที่ใช้ระบุความสัมพันธ์ระหว่างบุคคล องค์กร หรือสินทรัพย์ต่าง ๆ ได้ เช่น (entity1: ก.ล.ต., relation: สั่งฟ้อง, entity2: บริษัท บิทคับ ออนไลน์) นอกจากนี้ยังสามารถไปต่อยอดเป็นชุดข้อมูลเชื่อมโยงชื่อเฉพาะ (entity linking) ที่สามารถระบุได้ว่าชื่อเฉพาะเชื่อมกับข้อมูลใดในฐานข้อมูลคลังความรู้เช่น เวลาเห็นคำว่า GLOBAL โมเดลที่สร้างจากชุดข้อมูลนี้จะสามารถแยกแยะได้ว่าข้อความนี้กำลังพูดถึง บริษัท สยามโกลบอลเฮ้าส์ จำกัด (มหาชน) และสามารถเชื่อมโยงไปยังข้อมูลเกี่ยวกับบริษัทนี้ในฐานข้อมูลตลาดหลักทรัพย์ได้

(2) โมเดลและชุดข้อมูจำแนกอารมณ์จากข้อความตามเป้าหมาย (Target-based Sentiment Analysis) ข่าวการเงินในหลายครั้งมักจะประกอบด้วยข้อมูลที่เกี่ยวข้องกับหลายบริษัท Target-based Sentiment Analysis ช่วยให้เราสามารถแยกแยะและวิเคราะห์ความรู้สึกที่มีต่อเป้าหมายเฉพาะเจาะจง เช่น บริษัทหนึ่งๆ หรือหุ้นตัวหนึ่ง โดยไม่ถูกกวนด้วยข้อมูลอื่นๆ ที่ไม่เกี่ยวข้อง

(3) โมเดลภาษา (Language Model) ที่สร้างมาเพื่อวิเคราะห์ข้อมูลทางการเงินโดยเฉพาะ ซึ่งโมเดลภาษาเป็นส่วนประกอบหลักของแทบทุกเทคนิคสมัยใหม่ในการทำเทคโนโลยีประมวลผลภาษาธรรมชาติ โดยโมเดลภาษาจะแปลงข้อความภาษามนุษย์ให้อยู่ในรูปแบบของเวกเตอร์ที่สามารถนำไปประมวลต่อด้วยคอมพิวเตอร์ได้

Thai-English Named-Entity Recognition Dataset

โดย คุณวีรยุทธ บัวเพชร

Data: https://drive.google.com/open?id=1-YXGnr9v-th1Uc-OzuLXDkc3qlxuPVrg&usp=drive_fs
Code: https://github.com/WeerayutBu/Bilingual-Financial-NER-Model.git
Colab: https://colab.research.google.com/drive/1v_cs14tJp9yY4HwWJ2C3IjFLSb77PC9F?usp=share_link
Guideline:https://drive.google.com/drive/folders/1-atFWh69MJ7vsAsa_1WQm6YhYe-4IGa3?usp=sharing
Checkpoints: https://drive.google.com/open?id=1-AM4QF9R4q5di9JZu_qRJBXz_XTL27Wd&usp=drive_fs

จำนวน documents ที่เราได้กำกับทั้งอยู่จะอยู่ที่ 48,376 documents โดยจำนวนชื่อเฉพาะที่เราได้กำกับได้ 252,904 ชื่อเฉพาะ จากชื่อทั้งหมด 15 ชนิด

ในการวิเคราะห์ข้อมูลในตลาดทุน ชื่อคน ชื่อบริษัท และจำนวนเงิน ในการลงทุนเป็นส่วนประกอบสำคัญของการตัดสินใจ ตัวอย่างเช่น ในบทความทางการเงินที่ระบุว่า “บริษัท ABC ลงทุนในโครงการ X จำนวน 500 ล้านบาท” การระบุ ชื่อบริษัท จำนวนเงินนี้ช่วยให้สามารถวิเคราะห์และประเมินการลงทุนได้ เช่น การคำนวณผลตอบแทนจากการลงทุน หรือการเปรียบเทียบกับการลงทุนอื่นๆ การ preprocessing ชื่อเหล่านี้สามารถทำได้ด้วยการใช้โมเดลทางคณิตศาสตร์ในการระบุชื่อเฉพาะ (Named Entity Recognition — NER) ข้อดีของการใช้โมเดลเหล่านี้คือเราสามารถ process ข้อมูลได้อย่างรวดเร็วและมีประสิทธิภาพในปริมาณมาก ระบบจดจำชื่อเฉพาะนี้ยังเป็นส่วนสำคัญของระบบอื่นๆ ในการวิเคราะห์ความสัมพันธ์ที่ซับซ้อนมากขึ้น เช่น Knowledge Graph ซึ่งเป็นการแสดงกราฟของความสัมพันธ์ระหว่างชื่อเฉพาะต่างๆ ในบทความที่ระบุว่า “นายสมชาย จงรักษ์ เป็น CEO ของบริษัท ABC” และ “บริษัท ABC ลงทุนในโครงการ X จำนวน 500 ล้านบาท” เราสามารถสร้าง Knowledge Graph ที่แสดงความสัมพันธ์ระหว่าง นายสมชาย จงรักษ์, บริษัท ABC, และโครงการ X ได้ หรือ Entity Linking ซึ่งเป็นการระบุความสัมพันธ์ของชื่อในข้อความกับเอกสารที่เกี่ยวข้อง ในกรณีที่มีบทความหลายบทความกล่าวถึง “บริษัท ไทยพาณิชย์ จำกัด (มหาชน)” และ “นายสมชาย จงรักษ์” เราสามารถใช้ Entity Linking เพื่อเชื่อมโยงข้อมูลในบทความเหล่านี้เข้าด้วยกัน เพื่อให้เห็นภาพรวมและความสัมพันธ์ของข้อมูลที่กระจัดกระจายได้

ในสาขา NLP ทางการเงินของไทย มีการพยายามใช้เทคโนโลยี เช่น การเรียนรู้เชิงลึกสำหรับการทำนายหุ้นโดยการวิเคราะห์จากอารมณ์ (Sentiment analysis)

อย่างไรก็ตามยังไม่มีการสร้างระบบสำหรับการจดจำชื่อเฉพาะในทางการเงินขึ้น ชุดข้อมูลและ model NER ในภาษาไทยที่มีอยู่เป็นการสร้างชุดข้อมูลสำหรับการใช้งานทั่วไปซึ่งไม่ได้ออกแบบเพื่อนำไปใช้กับการวิเคราะห์ทางการเงินโดยเฉพาะเนื่องจาก:

การออกแบบ guideline: เพื่อทำการรู้จำชื่อเฉพาะในข้อความทางการเงินจำเป็นต้องมีข้อความในโดเมนการเงินที่มีป้ายกำกับ(label) ชื่อเฉพาะ เพราะข้อความในโดเมนทั่วไปอาจไม่ครอบคลุมศัพท์เฉพาะและชนิดของชื่อเฉพาะพิเศษ เช่น ชื่อหุ้น TICKER, ค่าสถิติ, มูลค่าทางการเงิน METRIC_FIN, สื่อ/ช่องทางการสื่อสาร (MEDIA_FIN), บริการทางการเงิน (SERVICE_FIN), ผลิตภัณฑ์/สินค้าทางการเงิน (PRO_FIN) เป็นต้น ซึ่งสิ่งเหล่านี้มีความสำคัญในการนำไปวิเคราะห์ทางการเงินทั้งสิ้น
การเก็บข้อมูล: (a) Specific Domain: การเก็บรวบรวมข้อมูลในการกำกับเพื่อใช้ในการสอน ner model เป็นอีกหนึ่งปัจจัยสำคัญสำหรับสร้างระบบการจดจำชื่เฉพาะเนื่องจาก model จะเรียน pattern ของการใช้ภาษาจากข้อมูลโดยตรง เช่น กลุ่มของคำ, โครงสร้างในการเขียนภาษา หรือศัพย์ต่างๆ ที่ใช้ในเฉพาะทางการเงิน เช่น “ตลาดหมี”, “งบดุล”, “หุ้น”, ฯลฯ (b) Thai-English data: ชุดข้อมูลขอ NER ที่มีอยู่ถูกเก็บเพียงภาษาไทย ซึ่งไม่เพียงพอในการวิเคราะห์ตลาดทุนเนื่องจากคนที่ทำงานด้านนี้มักจะต้องจัดการกับข้อมูลทั้งภาษาไทยและภาษาอังกฤษ นอกจากนี้การเก็บข้อมูลเพียงภาษาเดียวเป็นการจำกัดการเข้าถึงข้อมูลที่กว้างขึ้น และการฝึกฝน model ด้วยภาษาเดียว อาจทำให้โมเดลไม่สามารถจัดการกับภาษาอื่นหรือการสลับภาษาได้อย่างมีประสิทธิภาพ.

ในงานนี้ เรานำเสนอชุดข้อมูล ที่ออกแบบร่วมกับผู้เชี่ยวชาญทางการเงิน และเนื่องจากเราต้องการให้โมเดลสามารถเข้าใจข้อมูลได้จากสองภาษา (ภาษาไทย และ อังกฤษ) ด้วยเหตุนี้ เราได้รวบรวมชุดข้อมูลของเราจากแหล่งต่างๆ ทั้งหมด 5 แห่งโดยมี แหล่งข่าวภาษาไทยที่น่าเชื่อถือและมีการให้ข้อมูลเกี่ยวกับการเงินของไทยอย่างสม่ำเสมอ คือ Prachachat, Post Today, Kaohoon, และ Kasikorn Securities และเราใช้ข้อมูลภาษาอังกฤษจาก Reddit ซึ่งเป็นข้อความจากโซเชียลมีเดียที่มีการแลกเปลี่ยนข้อมูลทางการลงทุนและซื้อขายหุ้นอย่างต่อเนื่อง เพื่อประเมินคุณภาพของการประเมินผลชุดข้อมูลที่เราเสนอ เราได้วัดผลโดยคิดจากการเห็นตรงกันของสองผู้กำกับข้อมูลโดยใช้วิธีการวัดแบบ Cohen’s kappa และได้คะแนน 0.78 ซึงถือว่าอยู่ในคุณภาพที่ดี

เราได้เลือกโมเดลพื้นฐานจำนวน 5 โมเดล เพื่อทำการทดลอง ในที่นี้รวมไปถึง models ทางภาษาที่เราได้ทำขึ้นใหม่โดยใช้ BART architecture จากผลการทดลอง โมเดลทางภาษาที่ทำได้ดีที่สุดในชุดข้อมูลของเราคือ XLM-RoBERTa-large โดยมีความถูกต้องในการตอบถึง 85.81% F1 score.

Target-based Sentiment Analysis

โดย คุณชยพัทธ์ อุทโยภาศ

Data: https://drive.google.com/drive/folders/1QCQJ3c4am_NgPXAv4D1WX8ABSRKcQh2s?usp=sharing
Checkpoints: https://drive.google.com/drive/folders/16W0Q4cfGzphBNc_ElgX40M2eMrN2qyyj?usp=sharing
Colab: https://drive.google.com/drive/folders/1r-2fj3MMbhHE1fy3Rp7hfOjoqPNYXvQz?usp=sharing

การวิเคราะห์ความรู้สึก(Sentiment analysis) เป็นtaskหนึ่งในการประมวลผลภาษาธรรมชาติ(Natural langauge processing)ที่มีความสำคัญอย่างมากในอุตสาหกรรมด้านต่างๆในปัจจุบัน ไม่ว่าจะเป็น ด้านการวิเคราะห์ผลตอบรับสินค้า ด้านการวิเคราะห์ผลตอบรับการบริการ เป็นต้น ในปัจจุบันนั้นsentiment analysisยังถูกนำมาใช้ในการวิเคราะห์ความรู้สึกของนักลงทุนที่มีต่อหุ้นหรือบริษัทต่างๆในสื่อต่างๆได้อีกด้วย ไม่ว่าจะเป็น social media, financial news เป็นต้น ซึ่งsentimentต่อหุ้นต่างๆเหล่านี้ล้วนมีความสัมพันธ์กับแนวโน้มการเปลี่ยนแปลงไปของราคาหุ้นนั้นๆในตลาดหลักทรัพย์

สำหรับการทำ sentiment analysis โดยแบบปกตินั้น เราจะทำการตีความและวิเคราะห์ความคิดเห็นหรืออารมณ์จากบทความทั้งหมด โดยมองภาพรวมของเอกสารนั้นเพียงอย่างเดียว นอกจากนี้เราใช้ความรู้และภาษาทั่วไปในการตีความอีกด้วย ซึ่งการตีความในลักษณะนี้จะไม่เหมาะสมกับการตีความที่เกี่ยวข้องการการลงทุนในสินทรัพย์ต่างๆ เนื่องจากในบทความข่าวหนึ่งๆนั้นสามารถกล่าวถึงหุ้นของบริษัทหลายๆบริษัทได้พร้อมกันในข่าวเดียว รวมถึงคำศัพท์หรือภาษาที่ใช้ในเชิงการลงทุนอาจจะมีความหมายไม่ตรงกับความหมายในบริบทปกติ ดังนั้นการตีความในโปรเจคนี้เราจะตีความในลักษณะ target-based stock sentiment analysis กล่าวคือ เราจะตีความ sentiment ในบริบทของการลงทุนในหุ้น และทำการตีความ sentiment ของหุ้นแต่ละแยกจากกันอย่างชัดเจน ข้อดีนี้คือ สามารถระบุ sentiment ของหุ้นแต่ละหุ้นในข่าวหนึ่งได้อย่างชัดเจน

โดยไม่มีการแทรกแซงของ sentiment จากหุ้นอื่นๆในบทความข่าวเดียวกัน

เราได้ทำการเปิดชุดข้อมูลจำแนกอารมณ์จากข้อความตามเป้าหมายของบทความหุ้นและการลงทุนจำนวนทั้งสิ้น 20,000 documents สู่สาธารณะ โดยแบ่งเป็นหุ้นในตลาดหลักทรัพย์แห่งประเทศไทยจากบทความข่าวภาษาไทยทั้งสิ้น 10,000 documents และ หุ้นต่างประเทศและหุ้นในตลาดหลักทรัพย์แห่งประเทศไทยจากบทความข่าวภาษาอังกฤษจำนวนทั้งสิ้น 10,000 documents โดยเราได้ทำการรวบรวมบทความข่าวจากเว็บไซต์ข่าวและสำนักข่าวที่เกี่ยวข้องกับหุ้นและการลงทุนทั้งในประเทศไทยและต่างประเทศ

โดยข้อมูลชุดนี้สามารถนำมาใช้ในการเทรน sentiment prediction model สำหรับการวิเคราะห์ sentiment ของหุ้นแต่ละตัวในบทความข่าวได้ นอกจากนี้ dataset นี้ยังสามารถใช้ในการประเมินประสิทธิภาพของ large language modelในส่วนของ financial domain ได้อีกด้วย

แหล่งที่มาของข้อมูล

เราได้ทำการเก็บข้อมูลบทความข่าวที่เกี่ยวข้องกับหุ้นและการลงทุน ทั้งหุ้นในตลาดหลักทรัพย์แห่งประเทศไทยและหุ้นในตลาดหลักทรัพย์ต่างประเทศ จากเว็ปไซต์ข่าวและสำนักข่าวออนไลน์ทั้งของไทยและต่างประเทศดังนี้

1. สำหรับบทความข่าวภาษาไทย ทำการเก็บจากเว็ปไซน์และสำนักข่าวออนไลน์ต่อไปนี้ได้แก่ ข่าวหุ้นธุรกิจออนไลน์ (kaohoon.com), โพสต์ทูเดย์ (posttoday.com), ประชาชาติธุรกิจ (Prachachat.net)

2. สำหรับบทความข่าวภาษาอังกฤษ ทำการเก็บจากเว็ปไซน์และสำนักข่าวออนไลน์ต่อไปนี้ได้แก่ ข่าวหุ้นธุรกิจออนไลน์ (kaohoon.com), kaohoon international (kaohooninternational.com), investing.com

หมายเหตุ: บทความข่าวจาก investing.com เป็นบทความที่รวบรวมมากจากสำนักข่าวต่างประเทศหลายแห่ง อาทิเช่น investing.com, Reuters, เป็นต้น

ระเบียบวิธี

หลังจากที่ได้ข้อมูลบทความข่าวมาแล้ว เราได้ทำความสะอาดข้อมูล และคัดกรองมาเฉพาะบทความที่พูดถึงเกี่ยวกับหุ้นหรือการลงทุนในหุ้นเท่านั้นมาใช้ในการสร้าง datasetsนี้ นอกจากนี้เรายังจำกัดความยาวของบทความข่าวให้ไม่ยาวเกินจำนวน 2,000 ตัวอักษรและในหนึ่งบทความสามารถมีการกล่าวถึงหุ้นได้ไม่เกิน 5 TICKER (ตัวย่อของหุ้น) เพื่อความเหมาะสมในการสร้างชุดข้อมูลและการเทรนโมเดล จากข้อมูลข้างต้นเราได้ทำการออกแบบ guideline สำหรับการกำกับข้อมูลบทความข่าวที่เกี่ยวข้องกับหุ้นขึ้นมา ซึ่ง guideline นี้ได้รับการตรวจสอบความถูกต้องจาก financial experts ก่อนนำมาให้นักกำกับข้อมูลใช้ในการกำกับข้อมูล

ชุดข้อมูลนี้เราทำการannotateด้วยวิธี Crowdsourcing ซึ่งเราได้ใช้บริการบริษัท Wangให้ดำเนินการเรื่องการกำกับข้อมูล เราได้ทำการออกแบบชุดทดสอบในการกำกับ stock sentiment ทั้งภาษาไทยและภาษาอังกฤษออกมาเพื่อนำมาใช้คัดเลือก ผู้ที่มีความเหมาะสมในการกับกำข้อมูล โดยคุณสมบัติที่เราต้องการคือ เป็นผู้ที่มีประสบการณ์การลงทุนในหุ้นหนึ่งปีขึ้นไป และต้องผ่านแบบทดสอบข้างต้น(ต้องได้คะแนนความถูกต้อง 80%ขึ้นไป) หลังจากได้นักกำกับข้อมูลแล้วเราจึงทำการกำกับข้อมูลต่อไป

การกำกับข้อมูลจะเราจาก training set และ validation setก่อน (ข้อมูลของปีค.ศ. 2018–2021) ระหว่างการกำกับข้อมูลเราได้ทำการ sampling ข้อมูลที่กำกับแล้วโดยนักกำกับข้อมูลออกมาเป็นช่วงๆเพื่อทำการตรวจสอบความถูกต้องของกำกับข้อมูล(ในการทดสอบความถูกต้องนั้น เราได้ทำการเทียบannotator’s labelกับground truth labelจากทีมผู้สร้างdatasets) รวมถึงวัดประสิทธิภาพในการกำกับข้อมูลข้องนักกำกับข้อมูลแต่ละคน หลังจากพบข้อผิดพลาดหรือสิ่งที่ต้องปรับปรุง เราได้นำข้อสังเกตเหล่านั้นมาปรับปรุงตัวguidelineของเรา รวมถึงแจ้งข้อผิดพลาดต่างๆให้นักกำกับข้อมูล เพื่อการปรับปรุงในการกำกับข้อมูลในส่วนถัดๆไป จากการกำกับข้อมูลtraining set เราทำการคัดเลือกนักกำกับข้อมูลที่มีความถูกต้องในการกำกับข้อมูลมากที่สุด 2 คน มาทำหน้าที่กำกับข้อมูล testing set (ข้อมูลของปีค.ศ. 2022–2023 )

สำหรับการตรวจสอบคุณภาพนั้นเราได้ทำการสุ่มข้อมูลตัวอย่างออกมา แล้วทำการเปรียบเทียบlabelจาก annotator กับ ground truth label จากทีมผู้สร้าง dataset ถ้ามีความถูกต้องเกิน 80% ถือว่าเป็น datasetที่มีคุณภาพที่ดี ในส่วนของtesting set เราได้ทำการคำนวณ Cohen’s kappa ระหว่าง annotators 2 คนที่ทำการกำกับข้อมูล ถ้าคะแนนเกิน 0.75 ขึ้นไปถือว่าเป็นdatasetที่มีคุณภาพที่ดี

โมเดล

เนื่องจากบทความในDatasetของเรานั้นมีความยาวค่อนข้างมาก เราจึงเลือกใช้โมเดลที่มีความสามารถในการprocess บทความที่มีความยาวมากได้นั่นคือ xlm-roberta-longformer-base-4096 ซึ่งเราได้แบ่ง datasetออกเป็นทั้งหมด 3 ส่วนด้วยกันได้แก่

-Training set เป็นข้อมูลของปีค.ศ. 2018 ถึง 2020

-Validation set เป็นข้อมูลของปีค.ศ. 2021

-Testing set เป็นข้อมูลของปีค.ศ. 2022 ถึง 2023

เนื่องจากชุดข้อมูลภาษาอังกฤษยังอยู่ในกระบวนการควบคุมคุณภาพและพัฒนาชุดข้อมูล เราจึงทำการทดสอบโมเดลด้วยชุดข้อมูลภาษาไทยก่อน ซึ่งในเบื้องต้นเราพบว่า โมเดลของเรามีความสามารถในการจำแนก positive sentimentได้ค่อนข้างดี ส่วนของอีกสอง classที่เหลือยังต้องได้รับการปรับปรุง โดยประสิทธิภาพโมเดลโดยรวมอยู่ที่ 0.78

Foundation Models

โดย คุณลลิตา โล่พันธุ์ศิริกุล และคุณนนทกฤษ ไชยวงค์

เนื่องด้วยการนำโมเดลภาษาไปกับโจทย์ทางด้านการเงิน มีความจำเป็นต้องใช้ในโจย์การทำความเข้าใจข้อความ เช่น การรู้จำประเภทของคำ การวิเคราะห์อารมณ์จากข่าว หรือการเขียนสรุปเนื้อหาสำหรับการข่าวหรือรายงานทางการเงิน ทีมพัฒนาจึงเลือกใช้สถานปัตยกรรมแบบ encoder-decoder ด้วยวิธีการ BART [Lewis et al., 2020] ที่รองรับทั้งการทำความเข้าใจภาษา (Natural Language Understanding; NLU) และการเขียนข้อความ (Natural Language Generation; NLG)

ทีมพัฒนาจึงได้ทำการฝึกฝนโมเดลภาษา โดยใช้ ชุดข้อมูลภาษาไทยและภาษาอังกฤษในทั่วไปที่มีอยู่จากโครงการ WangchanBERTa และได้รวบรวมชุดข้อมูลภาษาเพิ่มเติมในโดเมนการเงิน อาทิเช่น ข่าว, บทวิเคราะห์, แบบแสดงรายการข้อมูลประจำปีของบริษัทที่จดทะเบียนในตลาดหลักทรัพย์ ขนาดของชุดข้อมูลที่รวบรวมได้สำหรับภาษาไทยและอังกฤษมีขนาด 58 GB และ 7 GB ตามลำดับ

ทีมพัฒนาได้เผยแพร่ โมเดลสำหรับการทำความเข้าภาษาและเขียนข้อความที่รองรับภาษาไทยและภาษาอังกฤษ ภายไต้ชื่อ WangchanBART สู้สาธารณะผ่านทาง Huggingface Model Hub จำนวน 3 โมเดลดังนี้