อยากกินกาแฟให้ไป Cafe อยากเป็น Data Scientist ต้องมา Data Cafe Fellowship Batch 2

Nithiroj Tripatarasit
Diving in Deep
Published in
3 min readOct 21, 2018

Data Cafe Fellowship คืออะไร ?

โครงการนี้จัดโดย Data Café Thailand ครั้งนี้เป็นครั้งที่ 2 เป้าหมายก็เพื่อบ่มเพาะผู้ที่อยากทำงาน Data Science ผ่านการทำงานจริง บนข้อมูลจริง เป็นเวลาประมาณ 3 เดือน ภายใต้การดูแลของบาริสต้า ประสบการณ์เข้ม คั่วบดจนได้รสชาตินุ่ม อะไรประมาณนั้น (โฆษณากาแฟซักยี่ห้อ?) ที่จะทำหน้าที่ Mentor คอยให้คำแนะนำแก่เราแบบ “เข้มข้น” ตลอดโครงการ

ส่วนการคัดเลือกก็เปิดกว้างให้ทุกคนที่สนใจสมัคร โดยกรอกใบสมัคร และโปรไฟล์ของตัวเองเข้าไป หลังจากนั้นก็จะถูกคัดเลือกให้เหลือประมาณ 70 คน ไปแข่ง Hackathon 2 วัน 1 คืน โดยมีโจทย์เกี่ยวกับ Data Science มาให้ทำ แล้วคัดเหลือเพียง 15 คนเข้าคาเฟ่ไป

อ่านเพิ่มเติม แชร์ประสบการณ์เข้าร่วม โครงการ Data Cafe Fellowship Batch2 ที่โหด มันส์ ฮา

เราทำอะไรใน Cafe ?

คร่าว ๆ ก็คือ จะมี Data มาให้เราแต่ละคนเลือก ซึ่งเป็นข้อมูลจริงดิบๆ ที่เก็บมา หน้าที่ของเราก็คือเลือกข้อมูลในหัวเรื่องที่เราสนใจไปทำ กลับมานำเสนอความคืบหน้าและรับคำแนะนำอย่างเข้มข้น ทุก ๆ 2–3 อาทิตย์ จนจบโครงการ

ถ้าจะให้เห็นภาพก็จะเป็นขั้นตอน Timeline ประมาณนี้ ซึ่งเรียกได้ว่าเป็นขั้นตอนพื้นฐานปกติของการทำงาน Data Science (Data Science Process) ในชีวิตจริง (ตามที่ผมเข้าใจและทำในโปรแกรมนะครับ) ที่เราจะได้ลงมือทำจริงๆ ตลอดโปรแกรม

อยากบอกว่าตลอดโปรแกรมในแต่ละขั้นตอน เราจะต้องค้นคว้าหาข้อมูล และหาความรู้เพิ่มเติมตลอดเวลา เพื่อที่จะนำมาใช้ในงานที่เราจะต้องนำเสนอความคืบหน้าในแต่ละครั้ง ซึ่งก็น่าจะไม่ต่างจากในการทำงานจริงโดยทั่วไป อีกอย่างขั้นตอนทั้ง 7 นี่ไม่ได้เป็นลำดับขั้นสวยงามอย่างที่เห็นนะครับ เป็นเพียงแนวทางเป็นเรื่องปกติมากที่เราต้องย้อนกลับมาเริ่มต้น 1

ต่อจากนี้ต้องขอบอกว่าเป็นความคิดเห็น ประสบการณ์ส่วนตัวล้วน ๆ ที่ได้มีโอกาสเข้าร่วมในโปรแกรมนี้นะครับ อาจจะใช่ ไม่ใช่สำหรับทุก ๆ คนก็ได้ เห็นต่างอย่างไหนแลกเปลี่ยนกันนะครับ

Problem Formulation

เป็นขั้นตอนแรกและผมคิดว่าเป็นขั้นตอนที่สำคัญมากกก ๆ และยากมากกๆ มันเหมือนก้าวแรก ถ้าเราก้าวผิด ก้าวต่อไปก็เข้ารกเข้าพงเอาง่ายๆ เป็นขั้นตอนที่สำคัญมาก ๆ ที่ผมได้เรียนรู้จากโปรแกรมนี้ ส่วนตัวผมกว่าจะตั้งคำถามได้ชัดเจนก็กินเวลากว่าครึ่งของโปรแกรมแล้ว เรียกว่าทำมา โยนทิ้ง และกลับไปคิดมาใหม่

ในขณะที่เพื่อนๆ ในโปรแกรมที่ตั้งคำถามและกำหนดปัญหาได้ชัดเจน ก็จะเห็นลำดับการทำงานใน Process ต่อ ๆไปได้ชัดเจน ว่าจะต้องทำอะไร อย่างไร และเห็นผลลัพธ์ที่ชัดเจน

นอกจากนี้คำถามแต่ละคน และวิธีคิดของเพื่อนเป็นสิ่งที่ผม WOW และเรียนรู้มากคือประมาณว่าทำไมผมไม่เห็นเคยคิดแบบนั้นเลย ซึ่งตรงนี้ความชำนาญความรู้ใน ฺ Business นั้นๆ เป็นเรื่องช่วยได้มาก

อยากให้ทุกคนตั้งโจทย์ให้ชัด ว่าจะทำอะไร แล้วเอาไปทำอะไร ชัดๆ ฟังแล้วเข้าใจทันที

ผลลัพธ์ที่จับต้องได้ เป็นอีกเรื่องที่สำคัญ ยกตัวอย่าง แรกๆ ผมเลือกทำ Social Insight ข้อมูล post และ comment ของ Page บน Facebook โดยคำถามแรก ๆ ที่ผมถามก็คือ ทำไมคนถึงใช้ # ใน Post มันมีผลกับ Engagement ไหม ซึ่งผลก็คือไม่มีความเกี่ยวข้องกัน แต่ประเด็นคือ ถ้ามันเกี่ยวข้อง มันจะมีประโยชน์อย่างไร และจะนำไปใช้อย่างไร ซึ่งคำตอบก็คือ ??? ต้องจำไว้อย่างหนึ่งก็คือ Data Science Process เป็นกระบวนการที่กินเวลา ดังนั้นต้องแน่ใจว่ามันจะมีประโยชน์ และมีผลลัพธ์ชัดเจน เราคงไม่อยากเสียเวลาไป 3 เดือนเพื่อได้ผลลัพธ์ที่ไม่รู้เอาไปทำอะไร???

Data Data Data

นอกจากความรู้ใน Business Domain สิ่งที่จะช่วยเรา Formulate Problem ได้อย่างหนึ่งก็คือการจัดการ และการขุดลึกลงไปใน Data และสิ่งที่เราต้องมีคือความอึด ถึก และเวลา สิ่งที่ต้องทำก็คือการทำความเข้าใจกับข้อมูลอย่างแท้จริง ทำไมมันถึงเป็นอย่างนั้น ต้องตอบให้ได้ การลงไปนั่งดู Data ทีละบรรทัด ๆ จึงเป็นสิ่งที่เลี่ยงไม่ได้ และต้องทำถ้าเราอยากเข้าใจมันอย่างแท้จริง

อย่างที่ทราบกันดีกระบวนการเตรียมข้อมูลนี้คิดเป็นกว่า 80% ของเวลาใน Data Science Process ไม่ว่าจะเป็น Data Acquisition, Cleaning, Wrangling และ Exploratory เรียกว่าทำวนกันไป จนกว่าเรานำไปใช้งานได้ SQL, BigQuery, แพนด้งแพนด้า (pandas), seaborn, Web Scraping อะไรๆ ต้องงัดมาใช้ให้หมด

ทำไมตัวเลขนี้มันเป็นอย่างนี้ เข้าไปดูไหมว่าทำไม ไม่งั้นเราก็จะไม่รู้ว่าเพราะอะไร

Modeling

ไม่ใช่นางแบบนะครับ สุดท้ายหัวข้อ ๆ ที่ผมเลือกทำก็คือ Facebook Comment Sentiment Analysis ก็คือโมเดลที่จะทำนายว่า comment ที่เข้ามาในแต่ละ Post มีความเห็นเป็นบวก หรือลบ ซึ่งใช้โมเดล Classification ใช้เทคนิคหลัก ๆ ก็คือ NLP (Natural Language Processing) ซึ่งส่วนตัวไม่เคยทำมาก่อน คือแค่คิดถึงการจัดการคำภาษาไทย ก็เลี่ยงไม่แตะมาตลอด สุดท้ายหนีไม่พ้น

ทำไมเราถึงใช้โมเดลนี้ โมเดลนี้มีเงื่อนไขอะไร ตัวแปรนี้ส่งผลกับโมเดลอย่างไร?…

นอกจากความรู้ใหม่อย่าง NLP สิ่งที่ผมได้ก็คือ การทำความเข้าใจลงลึกลงไปในตัวโมเดลต่างๆ ที่เคยใช้มากขึ้น ในเงื่อนไขที่ต่างๆ ออกไป ซึ่งผมคิดว่าความรู้ Math และ ทฤษฏีต่างๆ สำคัญมากไม่แพ้กัน (ตกลงมีอะไรไม่สำคัญบ้างเนี่ย) ช่วยให้เราเข้าใจและปรับจูนโมเดลได้ดี เราคงไม่อยากตอบว่า “ไม่รู้เหมือนกันครับ” เวลามีคนถามว่าทำไมเราใช้โมเดลนี้ ทำไมใช้ค่านี้

สรุปสิ่งที่ได้รับจาก Data Cafe

ก็คงสั้น ๆ อยากบอกว่าเป็น Program ที่เป็นอย่างโฆษณา ถ้าอยากได้ประโยชน์อย่างเต็มที่ แนะนำผู้สนใจเข้าร่วมต้องเตรียมเวลา ร่างกาย มาให้พร้อม จัดแบ่งเวลาให้ดีๆ ต้องใช้พลังพอควร แลกกับโอกาสที่ ได้ถามสิ่งต่างๆ จาก Mentors ผู้รู้ที่มีประสบการณ์จริง ๆ ไม่มีสแตนอิน แลกเปลียนความคิดเห็น และชี้ทางสว่างให้ทุก ๆ 2 อาทิตย์ ครั้งละกว่า 4 ชั่วโมง เป็นเวลากว่า 3 เดือน กับมุมมองต่างๆ จากเพื่อนร่วมโครงการกว่า 15 ชีวิต คุ้มครับ

ปล. ขอบคุณสปอนเซอร์ ผู้จัด ที่สนับสนุนโครงการดีๆ แบบนี้ ขอบคุณ Mentors สุดเข้ม และขาดไม่ได้ทีมงาน Data Cafe คุณโจ้ คุณตาล และทุกคนที่ดูแลพวกเราอย่างดี อาหารครบครันไม่เคยขาดมีแต่เกินแถมบังคับหิ้วกลับบ้านอีกต่างหาก

ความรู้ต่างๆ มีโอกาสจะค่อยเขียนเป็นการทบทวนและสรุปอีกทีนะครับ

--

--