Sentiment Analysis กับเครื่องดักฟังชั้นเยี่ยม

Oat Phattaraphon
deepverse.io
Published in
2 min readNov 22, 2017

What is Sentiment Analysis ?

“Sentiment Analysis is the process of determining whether a piece of writing is positive, negative or neutral. It’s also known as opinion mining, deriving the opinion or attitude of a speaker.”

Sentiment Analysis ;

หรือช่ือในภาษาไทย คือ “การวิเคราะห์ความรู้สึก”
ซึ่งเป็นการวิเคราะห์ความรู้สึก ที่แปลงข้อความบน Social Media ผ่านโครงสร้าง Algorithm ได้ Output ออกมาเป็นความรู้สึกดี (Positive) และความรู้สึกไม่ดี (Negative)

Example :

[1] I love this car.
[2] I do not like this car.

จากข้อ [1] แสดงถึงความรู้ด้านบวก ก็จะจัดอยู่ในหมวดหมู่ Positive
ส่วนข้อ [2] ที่แสดงถึงความรู้สึกด้านลบ อย่างนี้เราจะจัดให้อยู่ในหมวดหมู่ Negative

ในปัจจุบัน Sentiment Analysis ได้มีการนำมาปรับใช้งานด้านต่างๆ
เช่น ด้านธุระกิจ และประชาสัมพันธ์

ซึ่งประเทศไทย ก็จะมีหน่วยงานของภาครัฐที่นำเอา Sentiment Analysis มาใช้ในการเก็บ Big Data เช่น NECTEC ที่ใช้โปรแกรม POP ในการใช้วัดความรู้สึกของคนไทยบนโซเชียลมีเดียที่ดึง data ที่เป็น positive tweets and negative tweets
จาก twitter และก็มี S-Sense Tourism ที่มีความสามารถในการบอกว่า สถานที่ท่องเที่ยวไหนในไทยที่เป็นยอดนิยม สถานที่ไหนถูกกล่าวถึงในเชิงบวก และสถานที่ไหนถูกกล่าวถึงในเชิงลบ ซึ่ง S-Sense Tourism ก็เรียนรู้จากการที่ เมื่อเรา check in + caption ที่เราใส่ ซึ่งสามารถดูขั้นตอนแบบพื้นฐานได้จากรูปด้านล่าง

การทำงานของเจ้า S-Sense ตาม Algorithm ด้านล่างนี้

ศัพท์เฉพาะ

Positive tweets : ข้อความที่แสดงถึงความรู้สึกด้าน “บวก”
Negative tweets : ข้อความที่แสดงถึงความรู้สึกด้าน “ลบ”
Feature extractor : กระบวนการแปลงข้อมูลให้อยู่ในรูปแบบที่สามารถนำไปใช้ได้ใน (Machine Learning : ML) เช่น การ Tranform จาก Text to Image
Training set : การตรวจสอบหรือว่าทดสอบ data ที่รับมา

ซึ่งหลักการทำงานของมันก็คือ

เมื่อไหร่ที่เรา check in ตัว S-Sense ก็จะวิ่งไปเก็บ data ตัวนี้ไว้เสมอ ซึ่งมันจะไม่เก็บเพียง Location นะครับ แต่มันยังจะวิ่งไป Scan Caption ด้วยว่า เรา tweet ว่าอะไร เช่น สมมติว่าเราใส่ caption ว่า “อากาศที่นี่ดีมาก” ทางเจ้าตัว S-Sense ก็จะเก็บ caption นี้ไปสู้ Process Algorithm หลักการง่ายๆคือ เมื่อตัว S-Sense ได้รับ data ก็จะนำ data ตัวนี้ไปตัดคำอีกที ก็จะได้

อากาศ|ที่|นี่ | ดี|มาก

หลักจากที่ตัดคำเสร็จ มันก็จะกลับไปเช็คว่า มีข้อความไหนไหมที่เข้าข่าย positive หรือ negative ซึ่งในการตรวจสอบว่า คำไหนเข้าข่าย หมวดหมู่ไหน มันจะต้องมี Big data ที่เอาไว้เปรียบเทียบและให้คะแนน ที่เยอะพอสมควร

และเมื่อไหร่ที่มันให้คะแนน แล้วพบว่า data ตัวนั้นได้ค่าออกมาเป็น positive มันก็จะนำเอา Location ที่ Check in นี้ไปเก็บไว้ในคลังของ สถานที่ที่ถูกกว่าถึงในเชิงบวกต่อไป

“สำหรับความยากของการทำ Sentiment Analysis ของประเทศไทย คือ
ประเทศไทยนั้น นับว่าเป็นประเทศที่ไม่ได้เป็นเมืองขึ้นของใคร ซึ่งมันก็ส่งผลให้
เรามีภาษาที่ใช้เป็นของตัวเอง ซึ่งตรงนี้แหละที่ทำให้การทำ Sentiment Analysis
ไม่ค่อยได้ผล ก็เพราะว่า หลักการพิมพ์ข้อความลงบน Social ของคนไทยนั้น
ชอบพิมพ์ผิดๆถูกๆเกินๆ เช่น “เฮ้ยมึงงง ติมอย่างอร่อยย” จากประโยคนี้อ่ะครับ ถ้ามนุษย์อ่าน ก็จะรู้ว่า ไอติมแท่งนี้ต้องอร่อยแน่ๆเลย แต่กลับกัน เมื่อ Computer
อ่านภาษาของเรา มันก็คงจะสงสัยว่า ติม คืออะไร? มึงและอร่อย จะลากยาวไปทำไม ?ซึ่งตรงนี้เอง มันทำให้เป็นอุปสรรคหนึ่งของการทำ SA ในประเทศไทย”

ด้วยเหตุนี้เอง จึงวินวอนให้ท่านทั้งหลายที่อ่านบทความนี้ ทุกครั้งที่พิมพ์อะไรออกมา
พยายามตรวจทานอีกครั้ง เพื่อ Big Data ที่ยิ่งใหญ่ของประเทศของเรา

อ่านบทความเพิ่มเติมได้ที่ : Artificial Intelligence 0.6

#SentimentAnalysis #AI #ArtificialIntelligence #DataScience #ArtificialIntelligence06

--

--