ยิ่งคิดยิ่งสงสัย ให้ Data Analytics เป็นคำตอบ!! ฉีดวัคซีนและล็อกดาวน์ (รอบ 2,3,4) แล้วยังไง(ต่อ)?

DSE#4 G2
5 min readAug 22, 2021

--

(Not) Got vaccinated? What’s next?

ไม่ใช่แค่โลกรอบตัวที่เปลี่ยนแปลง…ชีวิตประจำวันเราเองก็เปลี่ยนไปใช่ย่อย

ทุกวันนี้ตื่นมาพร้อมกับความตื่นเต้น ลุ้นจำนวนผู้ติดเชื้อ ผู้เสียชีวิตยิ่งกว่าลุ้นหวย เมื่อวาน New High วันนี้ก็ New High ไหนจะข้อมูลมากมายมหาศาล ประดุจ Big Data ก็ไม่ปาน ทั้งจาก Line กลุ่ม Family เพื่อนสมัยเรียน ไหนจะเพื่อนที่ทำงาน Line Official ร้านค้าร้านอาหารที่ไปแอดเฟรนด์ไว้ดูโปรโมชั่น ยังจะ Update ข่าวโควิดกับเค้าด้วย อ่านแล้วปวดหัว ตัวรุมๆ จบลงที่ความคิดยอดฮิตในช่วงโควิด…..เอ๊ะ เราติดรึยังนะ???

เคยควบคุมได้ดี ตอนนี้มีแต่แย่ลงๆ แล้วมันจะดีขึ้นเมื่อไหร่?

ต้นปีที่ผ่านมา ดีใจ เค้าชมเราว่าเป็น 1 ใน 5 สำหรับประเทศที่รับมือกับการระบาดของ COVID-19 ได้อย่างมีประสิทธิภาพ ไม่ทันไร ตอนนี้ติดอันดับ 11 ของโลก ของผู้ป่วยโควิดที่มีอาการหนัก และอยู่ในอันดับที่ 118 ของอัตราผู้ป่วยที่ฟื้นจากการเป็นผู้ป่วยโควิด จาก 120 ประเทศทั่วโลก โอ้วววโนววว

Topic โควิดอยู่กับพวกเรามาเป็นปีๆ ตามมันไปทุกที่ OMG แล้วเมื่อไหร่โควิดจะจบไปซักที?? วัคซีนจะช่วยให้มันจบไปมั้ย หรือเราต้องล็อกตัวเองอยู่ในบ้าน หรือติดให้จบๆ ไป ถ้าโชคดีหายจะได้เกิดภูมิคุ้มกันตามธรรมชาติ

หันไปมองบางประเทศอย่างอังกฤษ อิสราเอล สหรัฐอเมริกา ฉีดวัคซีนเกินกว่า 50% แล้ว ได้ผลดี เริ่มออกมาใช้ชีวิตกัน เชียร์บอลลั้ลลา แต่บางประเทศฉีดวัคซีนไปกว่า 60% แล้ว เช่น มัลดีฟส์และเซเชลส์กลับล้มเหลว

โอ้ย มึนงง สับสน คำถามต่างๆ เข้ามามากมาย…วัคซีนมันจะช่วยได้จริงๆ ใช่มั้ยนะ

คิดถึงคำสอนที่ร่ำเรียนมา “อย่าเชื่อเพราะเค้าเล่าว่า” … “He say, She Say — Don’t listen to Hearsay!”

ไหนๆ ก็มาลงเรียน DSE กับ Botnoi เลยอยากลองวิชา Data Analytics มาวิเคราะห์ข้อมูลที่มีมากมายมหาศาลดูหน่อย อาจารย์สอนว่า “Those who understand the past, will define the future!” สงสัยมานานแล้วว่าข้อมูลที่ได้ๆ มา โดยเฉพาะเรื่อง ‘วัคซีน’ เนี่ยมันจะจริงแค่ไหน

…ว่าแล้วก็เริ่ม ค _ ย = คิด วิเคราะห์ แยกแยะ ทีมทำยังไงถึงจะวิเคราะห์ได้ เรามาเริ่มกันเล้ยยย

จากความสงสัย นำมาตั้งสมมติฐานที่ต้องหาคำตอบ

เอาจริงๆ เรื่องที่ทีมเราสงสัยกันมีเยอะมากกกกกก (ก ไก่ ล้านตัว) เลือกมาหลักๆ ประมาณนี้ก่อน

  1. วัคซีนที่ดีที่สุดขณะนี้ คือ วัคซีนที่ฉีดได้เร็วที่สุด? จังหวัดที่มีอัตราการฉีดสูง จะมีอัตราการติดเชื้อลดลง หรืออัตราการเสียชีวิต (ถามจริง?…แต่ร.พ.จุฬาฯ เค้าบอกมานะ)
  2. ความหนาแน่นประชากร / จำนวนคนต่อพื้นที่ มีปริมาณการติดมากน้อยแค่ไหน? ความหนาแน่นของประชากรมากกว่าจะพบผู้ติดเชื้อมากกว่า (น่าจะมีนะ?)
  3. มาตรการล็อกดาวน์มีผลต่อการควบคุมการติดเชื้อหรือไม่? (ไม่มีมั้ง? ไม่เห็นยอดคนติดเชื้อลดลงเท่าไหร่เลย)

Brainstorm สุมกำลังสมอง ข้อมูลอะไรบ้างที่ทีมต้องการ…

จากสมมติฐานที่กล่าวมา ทีมต้องการข้อมูลดังต่อไปนี้เพื่อนำมาวิเคราะห์

  • จำนวนประชากรที่ได้รับวัคซีนแล้ว
  • จำนวนผู้ติดเชื้อ
  • จำนวนผู้เสียชีวิต
  • จำนวนประชากรทะเบียนราษฎร์ และประชากรแฝง
  • พื้นที่แต่ละจังหวัด
  • มาตรการล็อกดาวน์ในช่วงเวลาต่างๆ

แต่ในเมื่อระดับประเทศ หลายๆ สำนักก็ทำข้อมูลมานำเสนอกันแล้ว ทีมเลยต้องการวิเคราะห์ข้อมูลข้างต้นเป็นรายจังหวัด

Data จุดเริ่มต้นของการนำมาใช้วิเคราะห์…กระจายตัวไปหาข้อมูลที่ต้องการ คิดว่าไม่น่ายากข้อมูลพวกนี้เห็นกันอยู่ทุกวัน ที่ไหนได้…

‘There is no PERFECT data’

เหมือนชีวิตจริงที่ไม่มีใครเกิดมาสมบูรณ์แบบ เป็นปัญหาคลาสสิกที่คนทำข้อมูลต้องเจอ สิ่งที่คิดคือ ข้อมูลหน้าตาสวยงามอยู่ใน Format ที่สามารถนำไปวิเคราะห์ได้ แต่ในความเป็นจริงปัญหาที่เจอมีทั้ง Data ไม่ครบ ไม่อยู่ใน Format ที่พร้อมนำไปใช้งาน ข้อมูลไม่ตรงกับแหล่งอื่นๆ เช่น ข่าว ศบค. Dashboard จากกรมควบคุมโรคที่ดึงข้อมูลออกมาไม่ได้ (https://ddc.moph.go.th/covid19-dashboard) เอาหละเริ่มลงมือหาข้อมูลกันเถอะ!

รวบรวมชุดข้อมูลจากแหล่งต่างๆ

แหล่งที่ 1 ข้อมูลจาก Data.go.th

ข้อมูลผู้ติดเชื้อรายจังหวัดรายจังหวัด (Confirmed Case)

ปัญหา: เมื่อมีข้อมูลเพียงมิติเดียวในเรื่องของผู้ติดเชื้อ ไม่มีในส่วนของข้อมูลผู้ฉีดวัคซีน และข้อมูลผู้เสียชีวิต (ทำให้ข้อมูลที่ใช้วิเคราะห์เพื่อตอบสมมติฐานยังไม่เพียงพอ)

source : https://data.go.th/dataset/covid-19-daily

เมื่อข้อมูลในเว็บไซต์ผู้สนับสนุนเรามีไม่ครบอย่างที่ต้องการ ทีมต้องไปเสาะหาข้อมูลจากแหล่งอื่น จนได้เจอ ‘ข้อมูลผู้เสียชีวิตและข้อมูลการฉีดวัคซีนรายวันรายจังหวัด’ จาก Github

แหล่งที่ 2 ข้อมูลจาก Github
ข้อมูลผู้เสียชีวิตและข้อมูลการฉีดวัคซีนรายจังหวัด

เห็นข้อมูลผู้เสียชีวิตและผู้ติดเชื้อรายวันรายจังหวัดจาก Github แสดงเป็นกราฟสวยงาม ในเมื่อทำเป็น Visualization ได้ก็ต้องมีข้อมูลดิบสิ จังหวะนี้ทีม Dev มือดีของเราก็ไปจัดการดูดข้อมูลมาจากเว็ปไซต์นี้

source : https://djay.github.io/covidthailand/

แหล่งที่ 3 ข้อมูลจากกรมควบคุมโรค

เป็นอีกแหล่งที่เราไปนำข้อมูล ข้อมูลการฉีดวีคซีน เดือน ก.ค.-ส.ค. 2564 ข้อมูลจำนวนประชากรทะเบียนราษฎร์ และประชากรแฝงรายจังหวัดมาใช้

ปัญหา: File จากกรมควบคุมโรคมีการเปลี่ยน Format ตลอดเวลา API สำหรับนักพัฒนาก็ไม่มีข้อมูลผู้เสียชีวิต ข้อมูลที่นำมาแสดงมักเป็น PDF

ปัญหา: ข้อมูลที่ได้จาก Github ในบางวันช่วงเดือน ก.ค.-ส.ค. ไม่มีข้อมูลการฉีดวัคซีน ทราบได้จากเมื่อดึงข้อมูลมาแล้ว พบความผิดปกติ ทำยังไงดีล่ะ ! ทีมก็เลยลอง scraping จาก เว็บไซต์ของกรมควบคุมโรคเลยจ้าา แต่ข้อมูลที่แสดง ด้วย Tableau เป็นข้อมูลที่ถูกส่งมาจากฝั่ง Server (Server Side Rendering) สิ่งที่เราเห็นจากเว็บกรมควบคุมโรค (Web Client) เป็นรูปภาพซึ่งเกิดจากการคำนวณเอาไว้แล้วแล้วนำมาแสดงให้เราเห็น ไม่เป็นไรทีมเราไม่ยอมแพ้จ้า จนในที่สุด พวกเราเลยไปเอาข้อมูลการฉีดวัคซีน เดือน ก.ค.-ส.ค. ที่หายไป มาเติมเต็ม ทีมเราใช้เวลาในการ Cleansing Data สูงมากกกกก (พยายาม Clean ด้วยเทคนิคของ Data Science แต่ด้วยความเป็นมือใหม่ เลยยังไม่รอด T___T )

แหล่งที่ 4 ข้อมูลจาก Wikipedia

รายชื่อจังหวัดและพื้นที่แต่ละจังหวัด เอาจริงๆ ข้อมูลนี้แทบจะไม่ต้อง Cleansing ที่สุดและ

เอาหละเข้ากระบวนการ Data Analysis ซักที ขั้นตอนมีอะไรบ้าง

ขั้นตอนการทำ Data Analysis

ใครเป็นสาย Dev อยากอ่านวิธีทำที่ละเอียดพร้อมวิธีที่ทีมเรา Code ตามไปดูที่นี่ https://colab.research.google.com/drive/1av0zcZ2kHyxoFxsTn3CIbdopKfg_ZekS

ส่วนด้านล่างนี้เป็นสรุปคร่าวๆ

1. Data Preparation : การเตรียมข้อมูลให้พร้อมก่อนการวิเคราะห์

1) Import library ที่จำเป็น และ Install library ที่เอาไว้ให้ Python คุยกับ Google drive ได้ และอ่าน Excel ได้

Import Library ที่เอาไว้ให้ Python คุยกับ Google drive และอ่าน Excel ได้

2) ดาวน์โหลดไฟล์ที่มีข้อมูลจำนวนผู้ฉีดวัคซีนรายวัน รายจังหวัดจาก Original Source ลง Google Drive และตั้งชื่อไฟล์หลังจากที่ Save ไว้ใน Working Directory ว่า vaccinations.csv

รวบรวมข้อมูลจำนวนผู้ฉีดวัคซีนแล้วเก็บไว้เป็นชุดข้อมูล (Data Frame)

3) ตรวจสอบดูว่าข้อมูลที่เอามาถูกต้องและจัดการข้อมูลให้พร้อมใช้งาน (Data Validation & Data Cleansing)

2. Data Modeling: หาความเชื่อมโยงและสร้างความสัมพันธ์ของ Data ด้วยเทคนิค Data Science (Data Relation & Star Schema)

1) สร้าง Key ที่ใช้ในการรวมข้อมูล (Join) เมื่อรู้ว่าจะ Join รายวันและจังหวัด โดยสร้าง Column key ซึ่ง Column Datadate มีประเภทข้อมูลเป็น Date time ไม่สามารถนำมาต่อ (Concatenate) กับจังหวัดได้ จึงต้องแปลงประเภทข้อมูลเป็น String ก่อน

สร้าง Column เพื่อใช้เป็นตัวตั้งในการรวมข้อมูลจากแหล่งอื่นๆ เข้าด้วยกัน

2) ตรวจสอบข้อมูลของจังหวัดที่ตรวจเจอผู้ติดเชื้อว่ามีทั้งหมดกี่จังหวัด (Column province_of_onset) อีกรอบ เพื่อความชัวร์!

พบว่ามี 179 จังหวัด แต่เอ๊ะ! จากความรู้รอบตัว ประเทศไทยมีแค่ 77 จังหวัดนิ ทีมจึงต้องลงไปตรวจสอบข้อมูลและได้พบว่ามีการใส่ชื่ออำเภอมาในช่องจังหวัด หรือมีข้อมูลผู้ติดเชื้อแต่ไม่ได้ระบุจังหวัดไว้ หมายความว่ามีข้อมูลผิด ต้องมีการ Data Cleansing เพิ่ม (ทำความสะอาดข้อมูล)

ตรวจสอบจังหวัดของผู้ติดเชื้อ (อีกรอบ)

3) Join ข้อมูลสองชุด cdf (ข้อมูลจำนวนผู้ติดเชื้อ) และ vdf (ข้อมูลจำนวนผู้ฉีดวัคซีน) เป็น mdf (Merged DataFrame)

รวมข้อมูลจำนวนผู้ติดเชื้อและข้อมูลจำนวนผู้ฉีดวัคซีนเข้าด้วยกัน

3. ทำข้อมูลให้เห็นภาพและวิเคราะห์ข้อมูลเพื่อตอบสมมติฐานที่เราตั้งไว้ (Data Visualization & Data Analysis)

Hypothesis#1 วัคซีนที่ดีที่สุดขณะนี้ คือ วัคซีนที่ฉีดได้เร็วที่สุดจริงมั้ย? ถ้างั้น จังหวัดที่มีการอัตราการฉีดวัคซีนสูง ก็ต้องมีอัตราการติดเชื้อหรืออัตราการเสียชีวิตลดลงสินะ

หลังจากร่วมด้วยช่วยกันคิด วิเคราะห์ แยกแยะ เราได้นำข้อมูลคนที่ได้รับวัคซีนในแต่ละวันแยกแต่ละจังหวัดมาพิจารณา เนื่องจากสมมติฐานของเราคือวัคซีนที่ดีคือวัคซีนที่ฉีดได้เร็วที่สุด ดังนั้น จังหวัดที่มีการฉีดวัคซีนเยอะๆ ก็น่าจะมีแนวโน้มของจำนวนผู้ติดเชื้อหรือผู้เสียชีวิตที่ลดลง

1.1 อัตราการติดเชื้อ

เรานำอัตราการติดเชื้อ (แกนตั้ง) มาเทียบกับอัตราการฉีดวัคซีน (แกนนอน) แยกเป็นรายจังหวัด โดย Bubble ที่แสดงก็คือตัวแทนแต่ละจังหวัดนั่นเอง ยิ่ง Bubble ไหนอ้วน ก็คือกินเยอะ เอ้ย ไม่ใช่ คืออัตราความหนาแน่นของประชากรเยอะ

กราฟที่ 1 กราฟแสดงอัตราส่วนการติดเชื้อเทียบกับอัตราการฉีดวัคซีนในแต่ละจังหวัด

ในส่วนของกราฟข้างต้น ไม่มีการพิจารณาจังหวัดภูเก็ตเนื่องจากว่าข้อมูลจากศูนย์กลางข้อมูลเปิดภาครัฐ data.go.th มีไม่ครบถ้วน

จากกราฟที่ 1 เราจะเห็นว่าจังหวัดส่วนใหญ่อัตราการฉีดวัคซีนจะเกาะกลุ่มกันอยู่ไม่เกิน 0.3–0.4 ทีมได้ทำการลากเส้นตัด เพื่อดูว่ามี Bubble ไหน กระเด็นออกมาจากชนหมู่มาก จึงได้เลือกออกมาทั้งหมด 3 กลุ่ม เพื่อมาทำการวิเคราะห์ ดังนี้

กลุ่มที่ 1 (กลุ่มจังหวัดในวงกลมสีเขียว) เป็นกลุ่มจังหวัดที่มีอัตราการฉีดวัคซีนสูง และอัตราการติดเชื้อดูจะต่ำกว่าเส้นแนวโน้ม (Trend line) ประกอบด้วย จังหวัดกรุงเทพมหานคร สุราษฎร์ธานี บุรีรัมย์ พังงา ระนอง กระบี่

กลุ่มที่ 2 (กลุ่มจังหวัดในวงกลมสีฟ้า) เป็นกลุ่มจังหวัดที่มีอัตราการฉีดวัคซีนกับอัตราการติดเชื้ออยู่ในระดับที่ดูเหมือนจะสอดคล้องกัน ประกอบด้วย จังหวัดสมุทรปราการ นนทบุรี ปทุมธานี ชลบุรี ฉะเชิงเทรา

กลุ่มที่ 3 (กลุ่มจังหวัดในวงกลมสีแดง) เป็นจังหวัดที่อัตราการฉีดวัคซีนน้อยและมีอัตราการติดเชื้อสูง ได้แก่ จังหวัดสมุทรสาคร

จากนั้น เรามาพิจารณาแยกรายกลุ่ม โดยใช้กราฟที่แสดงถึงอัตราการฉีดวัคซีนและอัตราการติดเชื้อสะสม เพื่อพิจารณาว่า อัตราการฉีดวัคซีนที่เพิ่มขึ้น ระดับของการติดเชื้อจะเป็นอย่างไร จึงได้ออกมาเป็นหน้าตาแบบนี้

กราฟที่ 2 กราฟแสดงการฉีดวัคซีนและการติดเชื้อสะสมเรียงตามวันที่ของกลุ่มที่ 1
กราฟที่ 3 กราฟแสดงการฉีดวัคซีนและการติดเชื้อสะสมเรียงตามวันที่ของกลุ่มที่ 2

จากกราฟที่ 2 และ 3 ด้านบน จะเห็นได้ว่าเมื่อจำนวนการฉีดวัคซีนเพิ่มสูงขึ้น แนวโน้มของผู้ติดเชื้อก็ดูเหมือนจะเพิ่มขึ้นค่อนข้างคงที่

กราฟที่ 4 กราฟแสดงการฉีดวัคซีนและการติดเชื้อสะสมเรียงตามวันที่ของกลุ่มที่ 3

จากกราฟที่ 4 กลุ่มเรายังไม่สามารถสรุปได้ว่า สมมติฐานที่ตั้งมานั้นถูกต้องหรือไม่ หลักๆ เนื่องจาก “ความสัมพันธ์ระหว่างอัตราการฉีดวัคซีนและอัตราการติดเชื้อไม่ชัดเจน”

  1. การฉีดวัคซีนอาจจะช่วยได้ แต่ช่วยได้ไม่มากนัก เพียงแต่ประคองความสัมพันธ์ระหว่างกันให้พอไปรอด (ความชันระหว่างกราฟเส้นกับกราฟแท่งค่อนข้างจะรักษาระดับ)
  2. การฉีดวัคซีนช่วยได้มาก ระยะห่างระหว่างกราฟเส้นที่แสดงถึงผู้รับวัคซีนกับกราฟแท่งที่แสดงผู้ติดเชื้อ ยิ่งห่างกันมากก็ยิ่งดี
  3. ฉีดวัคซีนแล้วไม่ได้ช่วยอะไรเลย กราฟแท่งจะชันขึ้นเรื่อยๆ
  4. เราไม่มีข้อมูลของคนที่ฉีดแล้ว ว่ามีการติดเชื้อหรือเสียชีวิตภายหลังการฉีดหรือไม่

1.2 อัตราการเสียชีวิต

เมื่อเราวิเคราะห์อัตราการติดเชื้อแล้ว กลุ่มเราก็สงสัยต่อว่า แล้วที่เค้าว่าวัคซีนกันตายไม่กันติด มันเป็นแบบนั้นจริงหรือไม่ จาก 3 กลุ่มเดิม เราเลือกมาวิเคราะห์เพียงกลุ่มที่ 1 และ 2 โดยไม่รวมจังหวัดสมุทรสาคร เนื่องจากเมื่อพวกเราพิจารณาอัตราการฉีดวัคซีนกับจำนวนผู้เสียชีวิตพบว่ายังเกาะกลุ่มกับจังหวัดอื่นๆ (ไม่เป็น Outlier)

กลุ่มที่ 1

กราฟที่ 5 กราฟแสดงการฉีดวัคซีนและการเสียชีวิตสะสมเรียงตามวันที่ของกลุ่มที่ 1

กลุ่มที่ 2

กราฟที่ 6 กราฟแสดงการฉีดวัคซีนและการเสียชีวิตสะสมเรียงตามวันที่ของกลุ่มที่ 2

จากกราฟที่ 5 และ 6 กลุ่มเรายังไม่สามารถสรุปได้ว่า สมมติฐานที่ตั้งมานั้นถูกต้องหรือไม่ หลักๆ เนื่องจาก “ความสัมพันธ์ระหว่างอัตราการฉีดวัคซีนและอัตราการเสียชีวิตไม่ชัดเจน”

เมื่อเราพอจะเห็นภาพเกี่ยวกับการฉีดวัคซีนแล้ว พวกเราก็สงสัยต่อไปว่า แล้วความหนาแน่นของประชากรที่แสดงเป็นขนาดของ Bubble จากกราฟที่ 1 มีผลทำให้จังหวัดนั้นๆ มีการติดเชื้อสูงด้วยใช่หรือไม่ ก็คนอยู่กันแน่นมากๆ ก็น่าจะติดกันได้ง่ายมากๆ เช่นกัน เราจึงได้ตั้งสมมติฐานต่อมา นั่นคือ

Hypothesis#2 ความหนาแน่นประชากร / จำนวนคนต่อพื้นที่ มีปริมาณการติดมากน้อยแค่ไหน?

ลองเอาข้อมูลจำนวนผู้ติดเชื้อมาเปรียบเทียบกับอัตราความหนาแน่นของประชากรต่อตารางกิโลเมตร ทำออกมาเป็นกราฟ ได้หน้าตาตามนี้

กราฟที่ 7 จำนวนผู้ติดเชื้อมาเปรียบเทียบกับอัตราความหนาแน่นของประชากรต่อตารางกิโลเมตร

เมื่อพิจารณาจากกราฟที่ 7 จะเห็นได้ค่อนข้างชัดว่าจำนวนผู้ติดเชื้อสอดคล้องกับความหนาแน่นของประชากร ถึงแม้ว่าจะมีบางจังหวัดที่เป็น Outlier เช่น จังหวัดชลบุรี ฉะเชิงเทรา เพชรบุรี ซึ่งพบการติดเชื้อเป็นกลุ่มก้อน (Cluster)

ความหนาแน่นก็ดูจะมีผลต่อการติดเชื้อ แล้วจะทำอย่างไรหละที่จะลดการติดเชื้อได้ เราจึงพิจารณาต่อว่า แนวทางการแก้ไขของรัฐบาลที่ประกาศมาตรการล็อกดาวน์มันจะช่วยจริงหรือไม่ ทำให้พวกเราตั้งสมมติฐานสุดท้ายนี้ขึ้นมา

Hypothesis#3 มาตรการ ‘ล็อกดาวน์’ ไม่มีผลต่อการควบคุมการติดเชื้อ

ทำไมถึงคิดว่าล็อกดาวน์แล้วจะได้ผล?

หากใครสงสัยว่าล็อกดาวน์ได้ผลหรือไม่ แล้วลองค้นหาข้อมูลในอินเตอร์เน็ตดูคงจะปวดหัวไม่น้อยเพราะบ้างก็ว่าไม่ได้ผลเพราะตัวเลขผู้ติดเชื้อ ผู้เสียชีวิตเพิ่ม บ้างก็ว่ามันดีขึ้นนะ เราเองก็สงสัยว่าแท้จริงแล้วมันเป็นอย่างไรกันแน่

ไม่รอช้าในเมื่อมีข้อมูลอยู่ในมือ เลยลองเอาจำนวนผู้ติดเชื้อในกลุ่มจังหวัดสีแดงเข้ม 10 จังหวัดมาลองดูว่ามาตรการล็อกดาวน์จะช่วยหรือไม่ช่วยลดการติดเชื้อ แล้วทำไมถึงเอาเฉพาะ 10 จังหวัดที่เป็นสีแดงเข้ม (กทม. ฉะเชิงเทรา ชลบุรี นครปฐม นนทบุรี นราธิวาส ปทุมธานี ปัตตานี พระนครศรีอยุธยา ยะลา สงขลา สมุทรปราการ และ สมุทรสาคร) ก็เพราะว่าเป็นจังหวัดเป้าหมายการล็อกดาวน์ตั้งแต่ต้น ตามประกาศ ศบค. ฉบับที่ 25 มีผลตั้งแต่วันที่ 28 มิถุนายน 2564 เป็นต้นมาและไม่เคยหลุดโผเลยจนถึงตอนนี้ แม้แต่ประกาศล่าสุดคือประกาศ ศบค. ฉบับที่ 30 มีผลตั้งแต่วันที่ 3 สิงหาคม 2564 ที่มีจำนวนของจังหวัดสีแดงเข้มมากที่สุดถึง 29 จังหวัด ทั้ง 10 จังหวัดนี้ก็ยังติดโผอยู่

แล้วเห็นอะไรบ้างจากข้อมูล?

บอกก่อนนะว่าข้อมูลมันมี ‘ข้อจำกัด’ แต่อย่างน้อยข้อมูลที่มีก็ยังพอจะทำเห็นอะไรได้บ้างแหละ เราลองมาดูกัน

กราฟที่ 8 การล็อกดาวน์ของจังหวัดสีแดงเข้ม 10 จังหวัด

สิ่งที่มองเห็นจากกราฟที่ 8 เมื่อเอาจำนวนผู้ติดเชื้อของกลุ่ม 10 จังหวัดสีแดงเข้มที่มีมาตรการเข้มงวดสุดๆ มาวางแล้วเอาวันที่เริ่มการล็อกดาวน์เข้ามาจับ จะเห็นได้ว่าการล็อกดาวน์ไม่ได้ผลตามที่คาดหวังเพราะแนวโน้มของกราฟยังคงเป็นขาขึ้น แต่มีข้อสังเกตประการหนึ่งคือหลังการประกาศ ศบค. ฉบับที่ 27 ความชันของผู้ติดเชื้อลดลงจากก่อนหน้านี้ น่าจะแปลความหมายได้ว่าแม้จะมีการประกาศล็อกดาวน์เป็นระยะๆ แต่ยังไม่สามารถกดจำนวนผู้ติดเชื้อให้ลดลงได้ตามที่คาดหวัง เรื่องนี้อาจจะสนับสนุนความเชื่อของหลายๆ คนที่ว่ามาตรการล็อกดาวน์ไม่ได้ผล เพราะเห็นจากจำนวนผู้ติดเชื้อไม่ได้ลดลงมากสักเท่าไร ก็น่าจะจริงเพราะข้อมูลไม่เคยหลอกใครนะจะบอกให้

แล้วจะยังไงต่อดีหละ?

มันก็แปลว่ามาตรการล็อกดาวน์น่าจะถูกขยายออกไปอีกเพื่อหาทางกดตัวเลขผู้ติดเชื้อให้ลดลงให้ได้ แต่อาจจะต้องคำนึงถึงปัจจัยอื่นๆ ประกอบด้วยนะที่เป็นแรงเสริมมาตรการล็อกดาวน์ให้ได้ผลมากขึ้น เช่น จำนวนคนทำงานที่บ้านเพิ่มมากขึ้นหรือไม่ มาตรการป้องกันควบคุมในพื้นที่เฉพาะ (Bubble & Seal) ในโรงงาน หรือ บริษัทที่เพิ่งจะประกาศเมื่อวันที่ 16 สิงหาคม 2564 นี้จะได้ผลหรือไม่ ซึ่งหากได้ผลก็อาจจะเป็นแรงหนุนสำคัญนอกเหนือจากมาตรการล็อกดาวน์ที่ทำให้สถานการณ์การระบาดของโควิด-19 ระลอกใหม่นี้ที่เริ่มตั้งแต่ปลายเดือนมีนาคมลดลงได้

ดังนั้นพวกเราๆ ท่านๆ หรือ คนทำธุรกิจใน 10 จังหวัดนี้ก็คงต้องทำใจว่าสถานการณ์จะยังไม่คลี่คลายไปในทางที่ดีในช่วงเวลานี้ การจะได้กลับมาทำมาหากินกันหลังจากที่หยุดกันไปเป็นเดือนอาจจะต้องรอกันต่อไป

What if … / improvement

  1. การเก็บ Data ด้วยวันเวลาที่ต่างกัน อาจทำให้ได้ผลลัพธ์ต่างกัน คนเก็บข้อมูลควรมีการวางแผนการเก็บข้อมูลตั้งแต่ต้น
  2. การจะตอบโจทย์ปัญหา หรือ สมมติฐานได้ดีแค่ไหน ส่วนสำคัญคือข้อมูลที่หามาได้จะมีความเกี่ยวโยงมากน้อยแค่ไหน
  3. การซ่อมข้อมูลก็สำคัญไม่แพ้กันเพราะความที่ข้อมูลอาจจะไม่สมบูรณ์ดังนั้นนอกจาก Data Cleansing แล้ว การทำ Data Patching ก็สำคัญไม่น้อยทีเดียว
  4. สิ่งที่ทีมได้เรียนรู้จากการทำโปรเจ็กต์นี้ก็คือ การ Verify ข้อมูลที่ได้รับมาเป็นสิ่งที่สำคัญมาก หากคุณไม่ทำสิ่งนี้ก่อน ได้ข้อมูลมาแล้วดีใจ นำไปวิเคราะห์เลย มันอาจนำไปสู่การตัดสินใจที่ผิดพลาดได้ หรือทำให้เราต้อง Rework โดยไม่จำเป็น ดังนั้น

“จง Verify Data ก่อนลงมือทำ จงเตรียมใจไว้ว่าชีวิตจริงอาจไม่ราบรื่นเหมือนที่เรียนทฤษฎี ข้อมูลที่ต้องการอาจไม่ใช่ข้อมูลที่เราจัดเก็บเอง ต้องหาทางปรับ แก้ไขในระหว่างทาง”

คำถามต่อไป คือ จังหวัดไหนที่จะได้รับวัคซีนเพิ่มขึ้น จนเกิด Herd Immunity ก่อน??

ปล.การวิเคราะห์ข้อมูลชุดนี้เป็นการใช้ข้อมูลทุติยภูมิ โดยใช้ชุดข้อมูลที่มีการเปิดให้สาธารณะเข้าถึง ซึ่งเป็นการวิเคราะห์เชิงนิเวศวิทยา โดยมีหน่วยในการวิเคราะห์ข้อมูลเป็นระดับประชากร(รายจังหวัด) และด้วยข้อจำกัดของข้อมูลที่เราไม่ได้มีการนำมาพิจารณา อาจทำให้เกิดความควาดเคลื่อนในการวิเคราะห์ข้อมูล เช่น จำนวนการตรวจหาเชื้อรายจังหวัด ชนิดของวัคซีน ระยะเวลาการตอบสนองของวัคซีน การแพร่กระจายเชื้อโควิดของแต่ละสายพันธุ์ เป็นต้น

Team Members

Reference:

https://www.youtube.com/watch?v=YPTtLSi1-Kg

https://www.facebook.com/basementkaraoke

COVID DATA:

https://data.go.th/dataset/covid-19-daily

https://ddc.moph.go.th/dcd/pagecontent.php?page=643&dept=dcd

https://djay.github.io/covidthailand/?fbclid=IwAR0oAZcwkdvcdBu7hRi-NpU0G_WLMBg-AqtJJzcZMAnjw0WC2Ln8GiPU6U4

https://th.wikipedia.org/wiki/รายชื่อจังหวัดของประเทศไทยเรียงตามพื้นที่

http://statbbi.nso.go.th/staticreport/page/sector/th/01.aspx

--

--

DSE#4 G2

กลุ่มคนที่เห็นความสำคัญของ Data รวมตัวกันมาเรียนรู้งานด้าน Data Science