อบรม RapidMiner Platform 5 วันได้อะไรบ้าง

ผมใช้ซอฟต์แวร์ RapidMiner Studio มานานพอควรครับ (ประมาณ 3–4 ปี) แล้วก็ได้เปิดอบรมการใช้งานไปแล้วหลายรุ่น หลายๆ ครั้งก็จะได้รับคำถามกลับมาว่า

 • เมื่อทำการสร้างโมเดลเสร็จแล้วจะไปใช้ต่อได้อย่างไร (หรือไปใช้กับโปรแกรมอื่นยังไง)
 • ข้อมูลแต่ละวันมีหลายล้าน record จะจัดการยังไงดี
 • ซอฟต์แวร์นี้สามารถดึงข้อมูลจาก Twitter ได้แบบง่ายๆ แล้วดึงข้อมูลจากเว็บอื่นๆ ได้ไหม

เพื่อหาคำตอบเหล่านี้ก็เลยค้นหาข้อมูลเพิ่มเติมครับ ซึ่งก็ทำให้พอทราบว่านอกจาก RapidMiner Studio ที่ผมใช้อยู่แล้วก็ยังมีเวอร์ชันอื่นๆ อีก เช่น RapidMiner Server และ RapidMiner Radoop ทำให้เห็นภาพการใช้งานของซอฟต์แวร์ตัวนี้มากขึ้น โดยอธิบายได้ดังภาพ

จากภาพจะเห็นได้ว่าซอฟต์แวร์ RapidMiner สามารถจัดการข้อมูลได้ตั้งแต่การเตรียมข้อมูล (Data Preparation) สร้างโมเดล (Model & Validate) ไปจนถึงนำไปใช้งานใน production (Operationaize) ซึ่งจะแยกส่วนได้ดังนี้

 • RapidMiner Radoop เป็นเวอร์ชันที่ทำงานบน Hadoop (ซึ่งเป็นการนำคอมพิวเตอร์หลายๆ เครื่องมาช่วยประมวลผล) ทำให้สามารถรองรับการทำงานกับข้อมูลที่มีขนาดใหญ่ๆ หลาย (ร้อย) ล้านเรคอร์ดได้
 • RapidMiner Studio เป็นเวอรชันที่ทำงานบนเครื่องคอมพิวเตอร์ของเราเอง (อาจจะเป็น PC หรือ Notebook ก็ได้) เป็นตัวหลักในการออกแบบโพรเซส (process) หรือ workflow เพื่อใช้ในการวิเคราะห์ข้อมูลต่างๆ เช่น สร้างโพรเซสในการคาดการณ์ว่าลูกค้าคนใดจะยกเลิกการใช้บริการ (churn) ด้วยโมเดล Decision Tree
 • RapidMiner Server เป็นเวอร์ชันที่ทำงานบนเครื่องคอมพิวเตอร์และรองรับการทำงานที่มีผู้ใช้งานหลายๆ คนพร้อมกัน โดยเวอร์ชันนี้สามารถสร้างกราฟในลักษณะของ BI (Business Intelligence) ตั้งเวลาให้ทำงาน (scheduler) และสร้าง web service เพื่อให้โปรแกรมต่างๆ มาติดต่อได้ด้วย

แต่วิธีการใช้งานซอฟต์แวร์เหล่านี้ไม่ค่อยมีสำหรับผู้เริ่มต้นเท่าไรนักในอินเตอร์เน็ต ส่วนใหญ่จะมีเป็น webinar บ้างแต่ก็เหมือนกับว่าต้องใช้เป็นมาระดับหนึ่ง (อันนี้ความเห็นส่วนตัวนะครับ) ดังนั้นก็เลยต้องเดินทางมาอบรมการใช้งานซอฟต์แวร์ RapidMiner เพิ่มเติมที่ประเทศมาเลเซีย ซึ่งคอร์สนี้มีระยะเวลา 5 วัน จัดอบรมโดยบริษัท Quandatics ซึ่งเป็น Master Reseller ของ RapidMiner ในแถบเอเชียตะวันออกเฉียงใต้ โดย 5 วันนี้ก็จะได้เอกสารประกอบการอบรมจำนวน 3 เล่มเลยครับ

โดย 2 วันแรกที่อบรมจะเป็นเรื่องเกี่ยวกับ RapidMiner Server ซึ่งทางบริษัทที่จัดอบรมก็จะตั้งเครื่อง Server ไว้ให้เราได้ทดลองใช้กัน ใน 2 วันนี่ก็ได้เรียนรู้เกี่ยวกับ

 • การใช้ RapidMiner Studio ดึงข้อมูลจากฐานข้อมูล
 • การสร้างโพรเซสแล้วนำไปรันใน RapidMiner Server
 • สร้างกราฟต่างๆ ซึ่งสามารถดูผลได้ผ่านทางเว็บ บราวเซอร์ (web browser)
 • สร้าง web service

ตัวอย่างผลงานการอบรมจะเป็นดังภาพนี้ครับ

ส่วนวันที่ 3 จะเป็นการอบรมเกี่ยวกับ RapidMiner Radoop ซึ่งก็ใช้คลัสเตอร์บน Amazon ที่เรียกว่า Elastice MapReduce หรือเรียกย่อๆ ว่า EMR โดยส่วนตัวคิดว่าส่นยากของการใช้งาน Radoop คือ การตั้งค่าเพื่อติดต่อกับ Hadoop เพราะว่าเป็นคนละ network กัน ทางผู้จัดอบรมก็ให้ set up ตั้งแต่เย็นวันที่ 2 แล้วครับ ถ้าต้องการใข้งาน RapidMiner Radoop ต้องติดตั้ง Extension ที่ชื่อว่า Radoop เพิ่มเติมด้วยครับ ดูวิธีการติดตั้งได้จาก https://docs.rapidminer.com/studio/installation/adding-extensions.html หลังจากติดตั้งอะไรเรียบร้อยแล้ว ในคอร์สนี้หลักๆ ก็จะเป็นการทำ ETL กับข้อมูลที่มีขนาดใหญ่ๆ โดยมีเนื้อหาดังนี้ครับ

 • การใช้ RapidMiner Studio เชื่อมต่อไปยังเครื่องคลัสเตอร์
 • ทดลองดึงข้อมูลจากคลัสเตอร์มาแสดงผล และนับจำนวนแถว
 • อ่านไฟล์ CSV แล้วโหลดเข้าไปบน Hadoop cluster (ในเชิงเทคนิคแล้วเป็นการเก็บข้อมูลไว้ใน Hive ซึ่งเป็นระบบคล้ายๆ กับฐานข้อมูลบน Hadoop)
 • ดึงข้อมูลที่เป็นลักษณะของ transaction การใช้งานจาก Hadoop มาทำ ETL (ย่อมาจาก Extract, Transform,Load) เช่น นับจำนวนการใช้งานของ user แต่ละคน หาระยะเวลาการใช้งาน
 • สร้างเป็นตาราง customer profile เพื่อใช้ในการสร้างโมเดลต่อไป
 • สร้างโมเดลและทดสอบประสิทธิภาพบนเครื่องคอมพิวเตอร์ของเราเองและ Hadoop cluster

ตัวอย่างโพรเซสการทำงานมีดังนี้ครับ

การทำ ETL บน Hadoop cluster
การสร้างโมเดลและทดสอบประสิทธิภาพ

ส่วน 2 วันสุดท้ายจะเป็น 2 เรื่องครับ คือ Text Mining (1 วัน) และ Web Mining (1 วัน) โดยคอร์สสุดท้ายนี้จะใช้ซอฟต์แวร์ RapidMiner Studio ครับ โดยติดตั้ง extension เพิ่มเติม คือ Text Processing และ Web Mining ครับ เนื้อหาเกี่ยวกับ Text Mining ก็จะมีดังนี้

 • การสร้าง document ด้วยรูปแบบต่างๆ
 • การอ่านไฟล์ text เข้ามาใช้งาน
 • การทำ preprocess text เช่น การทำ Tokenization (การตัดคำให้ออกมาเป็นแต่ละคำ) การทำ Steming (แปลงคำให้เป็นรากศัพท์ เช่น Accessed กลายเป็น Access) การแปลงให้เป็นอักษรตัวเล็กทั้งหมด (transform cases)
 • การนำข้อมูลรีวิวไปสร้างโมเดลเพื่อคาดการณ์ความพึงพอใจ (rating) ด้วยเทคนิคการสร้างโมเดล K-Nearest Neighbours (K-NN) โดยการเปรียบเทียบความเหมือน (similarity) ของข้อความต่างๆ จะใช้เป็น cosine similarity
 • การแบ่งกลุ่มข้อความด้วยเทคนิคการทำคลัสเตอร์แบบ K-Means

ตัวอย่างโพรเซสของ Text Mining มีดังนี้ครับ

ตัวอย่างการทำ Text Data Preprocessing

ส่วนวัดสุดท้ายเป็นเรื่องเกี่ยวกับ Web Mining ซึ่งจะเป็นการดึงข้อมูลจากอินเตอร์เน็ต (internet) โดยใช้ข้อความรีวิวจากเว็บ http://www.imdb.com เป็นตัวอย่างครับ โดยเนื้อหาที่เรียนในวันสุดท้ายนี้ได้แก่

 • ดึงข้อมูลจาก web page (ข้อมูลจาก 1 หน้า)
 • crawl ข้อมูลจากเว็บไซต์หลายๆ หน้า เช่น http://www.imdb.com/title/tt0903624/reviews?start=0 ซึ่งก็จะได้ข้อมูลออกมาเป็นแบบ HTML
 • Extract ข้อมูลส่วนที่เราสนใจ เช่น Header, Review content และ Rating จากการรีวิวภาพยนต์แต่ละเรื่อง โดยที่ไม่ต้องเขียน code เลยครับ แต่ใส่ว่าต้องการตัดข้อความจากช่วงไหนก็ระบุคำขึ้นต้นและลงท้ายไว้
 • นำข้อความรีวิวที่ได้ไปผ่านกระบวนการแปลงข้อความ (text data preprocessing) และนำมาสร้างโมเดลด้วยเทคนิค Support Vector Machines

สิ่งที่ประทับใจมากคือสามารถดึงข้อมูลจากเว็บไซต์ต่างๆ และตัดเฉพาะส่วนที่สนใจได้แบบง่าย ดังรูปด้านล่างนี้ครับ

การ extract ข้อความส่วนที่สนใจจากหน้าเว็บ

หลังจากการอบรมครบทั้ง 5 วันก็ได้รับใบประกาศนียบัตรว่าเข้าร่วม (แบบตั้งใจเรียน) ครบแล้วดังนี้ครับ

หลังจากอบรมก็ทำให้เห็นว่า RapidMiner สามารถทำอะไรได้หลากหลายมากจริงๆ ครับ ยิ่งทำให้ชอบซอฟต์แวร์ตัวนี้มากยิ่งขึ้นไปอีก ^^