ประสบการณ์ 2 เดือนทำ Data Ingestion ตอนเป็น Internship ที่ SCB Tech X เป็นอย่างไง

Kittitad Srichatsuwan
SCB TechX
Published in
3 min readSep 27, 2022

กราบสวัสดีทุกคนที่อยากรู้ว่าประสบการณ์แค่ 2 เดือนของ Internship ที่ SCB Tech X จะได้อะไรบ้างไหมนะ 👀 บอกไว้ก่อนเลยว่าได้เยอะมากก✨ ซึ่งผมได้ฝึกงานในแผนก Data Science ซึ่งทำงานในตำแหน่ง Data Engineer จึงอยากจะแชร์ให้ทุกๆ คนได้เห็นประสบการณ์ทำงานของผม โดยจะแบ่งบทความออกเป็น 3 ส่วนหลักๆ ตามนี้เลย

  1. ที่บริษัท SCB Tech X ตำแหน่ง Data Engineer ทำอะไรบ้าง
  2. บรรยากาศและประสบการณ์ที่ได้ภายในสองเดือนมีอะไรบ้าง
  3. กิจกรรมต่างๆ ที่บริษัทได้จัดไว้มีอะไรบ้าง

ซึ่งอันนี้เป็นบทความที่เขียนในโครงการ Internship Program 2022 By SCB Tech X ตั้งแต่วันที่ 1 มิถุนายน ถึงวันที่ 31 กรกฎาคม สำหรับคนที่อ่านในอนาคต อาจจะมีข้อมูลเปลี่ยนแปลงได้นะครับผม

ที่บริษัท SCB Tech X ตำแหน่ง Data Engineer ทำอะไรบ้าง

จะขอแนะนำบริษัทคร่าวๆ ให้รู้จักกันก่อนนะครับ บริษัท SCB Tech X เป็นบริษัททางด้านเทคโนโลยีในกลุ่ม SCBX ซึ่งให้บริการด้านเทคโนโลยีแบบครบวงจร เน้นให้คําปรึกษา ตลอดจนพัฒนา Platforms และ Solutions ทางด้านดิจิทัลอีกด้วย

โลโก้บริษัท SCB Tech X

แผนก Data Science นั้นมีหน้าที่หลักๆ คือ การนำข้อมูลจากบริษัทในเครือทุกประเภท นำมาสร้าง Model หรือ Dashboard วิเคราะห์ข้อมูลต่างๆ เพื่อหา Solution ให้กับบริษัทต่างๆ นั้นเอง

ซึ่งในส่วนของฝั่ง Data Engineer นั้นมีหน้าที่ดัดแปลงข้อมูลตามที่ต้องการเพื่อนำไปใช้งานในฝั่งอื่นต่อไป แต่ว่ามันไม่ได้ง่ายเลย เนื่องจากข้อมูลมีจำนวนมากสุดๆ หรือเรียกง่ายๆ ว่า Big Data นั้นเอง (ข้อมูลมากกว่าสิบล้านข้อมูล รันกันเป็นวันไปเลย 😂 ) ทำให้ดึงข้อมูล SQL เฉยๆ ไม่ได้ เลยจำเป็นต้องใช้ Pyspark เข้ามาเกี่ยวด้วยนั้นเอง จึงเป็นเหตุผลที่มีความท้าทายเป็นอย่างมากในการดัดแปลงข้อมูลในแต่ละชุดได้อย่างราบรื่น

บรรยากาศและประสบการณ์ที่ได้ภายในสองเดือนมีอะไรบ้าง

การฝึกงานในบริษัท SCB Tech X นั้นเป็นการฝึกแบบ Hybrid ซึ่งส่วนใหญ่จะเป็น WFH และเข้าบริษัท 1 ครั้งต่อสัปดาห์ โดยวันแรกของการฝึกงาน ทุกคนจะต้องเข้าไปรับคอมพิวเตอร์ และมีปฐมนิเทศที่บริษัทตึกสำนักงานใหญ่ SCB เขตจตุจักร ตึกเดินมาง่ายมากแทบจะติดรถไฟฟ้า BTS สถานีรัชโยธิน เดินผ่านเมเจอร์รัชโยธินก็ถึงเลย

เมื่อถึงเวลาปฐมนิเทศก็คือนั่ง Set up เครื่องคอมพิวเตอร์กับทีม IT และมีเดินทัวร์บริษัทรอบๆ ว่ามีสิ่งอำนวยความสะดวกอะไรบ้างในบริษัท ซึ่งบอกเลยว่า มีเยอะมากก เช่น ฟิตเนสในบริษัท โรงอาหารแม่มณี และก็ร้านค้าอื่นๆ อีกมากมาก เดินเกือบเมื่อยกันเลยทีเดียว นึกว่าอยู่ในอาณาจักรอะไรสักอย่างซะอีก ต่อมาพวกพี่ก็ให้เราได้ไปคุยกับทีม Data Science เลยได้ทำความรู้จักกับพี่ๆ ในทีมดูเป็นกันเองแบบสุดๆ

อันนี้คอมพิวเตอร์ที่บริษัทให้ใช้ทำงาน 👀✨

การทำงานในแต่ละวันเป็นอย่างไง

ช่องทางการสื่อสารที่ใช้หลักๆ คือ Microsoft Teams โดยจะเริ่มทำงานตั้งแต่ 9.00 น. ถึง 18.00 น. ซึ่งจะมีเวลา Daily Meeting ในแต่ละวันคือช่วง 10.00 น. และถ้ามีการประชุมอะไรเพิ่มเติมจะมี Calendar ที่เชื่อม Email ไว้ เพื่อให้ทราบว่าต้องเข้าร่วมตอนไหน และส่วนช่วงบ่ายจะเป็นการทำงานต่อจากเมื่อวาน ซึ่งถ้ามีคำถามอะไรเล็กน้อย ก็มี Gather Town เป็นการจำลองที่ทำงานไว้ Meeting แบบเดินไปหาแต่ละโต๊ะได้ แหวกแนวในการไปคุยกับพี่ดีเหมือนกัน

บรรยากาศการประชุม Daily Meeting ของทีม Data Science

งานที่ได้รับมอบหมาย

งานที่ได้รับคือการทำ Fully Automate Data Pipeline เป็นการสร้าง Pipeline ที่ดัดแปลงข้อมูลให้อัตโนมัติ เพื่อจัดเตรียมข้อมูลนี้ให้พร้อมใช้งานให้กับพี่ๆ ต่อไปได้ซึ่งเอาข้อมูลมาจากแอป Spring UP เป็นแอปที่ใช้อำนวยความสะดวกให้กับการออกกำลังกายและดูแลสุขภาพได้อย่างครบวงจรที่จะคอยเตือนให้ไม่ลืมดูแลตนเอง โดยจะได้ศึกษาข้อมูลต่างๆ ในแอปนั้น เช่น ข้อมูลการออกกำลังกาย ข้อมูลการกินอาหาร เป็นต้น ซึ่งมาแบบผสมกันไปหมด จึงจำเป็นต้องแปลงและเข้าตารางให้ตรงตามความต้องการของ Business Requirement

โลโก้แอปพลิเคชั่น Spring UP

การทำ Pipeline นั้น ทำโดยใช้ Data Ingestion เพื่อนำไปเก็บข้อมูลลงใส่ Database ของบริษัท ให้ข้อมูลมีความพร้อมในการใช้งานในการทำงานต่อๆ ไป โดยขั้นตอนของการทำ Data Ingestion ดังนี้

  1. นำข้อมูลดิบเข้า โดยใช้ pyspark ดึงเก็บข้อมูลเป็น Dataframe ใน Bucket ที่เก็บฐานข้อมูลดิบๆ ไว้
  2. แปลงข้อมูลที่เก็บไว้ ตาม Business Requirement กำหนดไว้ โดยใช้ SQL และ Pyspark เพื่อจัดการกับ Big data
  3. แล้วสุดท้ายนำข้อมูลเข้า Database ตามที่บริษัทกำหนด เพื่อรองรับในการวิเคราะห์ในส่วนต่างๆ ด้านธุรกิจที่จำเป็นต่อไป

Data Ingestion คือ ขั้นตอนนี้เป็นการนำข้อมูลเข้าแพลตฟอร์มสำหรับจัดเก็บข้อมูล สามารถแบ่งการทำงานได้เป็น 2 แบบได้แก่ แบบกลุ่ม (Batch) และเรียลไทม์หรือกึ่งเรียลไทม์ (Real-time / Near Real-time) ซึ่งสามารถเลือกใช้เทคโนโลยีที่เหมาะสมกับความต้องการนำข้อมูลเข้าในรูปแบบที่กล่าวมา

การพัฒนา Pipeline นี้ ทำให้ได้เรียนรู้ Tools มากมายเลย อย่าง Databricks ที่ใช้ภาษา Pyspark ในการพัฒนา และมี AWS ที่เก็บถังข้อมูลไว้ และ Gitlab ในการทำ Version Control ขนาดนี่แค่ 2 เดือนเท่านั้นนะเนี่ย ถ้าได้ฝึกงานต่อคงจะได้เรียนมากกว่านี้ 😥

ภาษาและเครื่องมือที่ได้เรียนรู้ระหว่างการฝึกงาน

ซึ่งงานที่ได้รับมามีความท้าทายทุกครั้ง เพราะงาน Data Engineer มันแปลงข้อมูลที่ไม่เหมือนกันในแต่ละ Requirement ของทีม จึงได้ประสบการณ์ตลอดเวลากับการได้ทำกับทีมนี้

กิจกรรมต่างๆ ที่บริษัทได้จัดไว้มีอะไรบ้าง

ในบริษัทส่วนใหญ่จะมีกิจกรรมที่จัด Podcast Knownledge Sharing ตลอดทุกเดือน ส่วนในทีมนั้น มีแชร์ความรู้ในส่วน Data Science อยู่เหมือนกัน ซึ่งฟังแล้วมีแต่สาระทั้งนั้นเลย แล้วก็จะมีรายงานที่จะบอกว่า ในส่วนที่ทำไปมีผลอะไรออกไปบ้าง ซึ่งเป็นสิ่งที่ดีเหมือนกัน เพราะบางทีเราอาจจะไม่รู้ก็ได้ว่าที่เราทำส่วนนี้ไปได้อะไร 😂

แล้วก็มีจัดกิจกรรมบริษัทครบรอบ 1 ปี ตรงกับวันที่ 1 กรกฎาคม ซึ่งอยู่ในช่วงระหว่างฝึกงานพอดีเลยได้เข้าร่วมกิจกรรมนี้ด้วย มีงานเลี้ยงแล้วก็กิจกรรมตอบคำถามร่วมสนุก ชิงของรางวัลมากมาย ก็สนุกมากเช่นกัน 🎈

ภาพถ่ายทีม Data Science ตอนบริษัทครบรอบ 1 ปี ผมอยู่ซ้ายล่างเอง~~

จบแล้วนะครับกับการอธิบายงาน สรุปแล้ว ความประทับใจที่ได้ร่วมฝึกงานกับ SCB Tech X ที่ได้ไม่แค่การทำงานเพียงอย่างเดียว แต่ยังมีสาระและกิจกรรมต่างๆ ร่วมกับพี่ๆ ตั้งแต่วันแรกที่ได้ฝึก ขอบคุณพี่ๆ ที่ได้ให้ประสบการณ์ในการฝึกงานและเป็นส่วนหนึ่งกับองค์กรดีๆ แบบนี้นะครับ 💗💗

--

--