ลดเนื้อ-เพิ่มผัก ช่วยต้านโควิดจริงหรือไม่ เรามาใช้ Data Analytics หาคำตอบกันค่ะ

Apiradee Wongkitrungrueng
botnoi-classroom
Published in
4 min readMay 8, 2021

--

บทความนี้จัดทำขึ้นเพื่อเป็นส่วนหนึ่งของ Data Science Essential รุ่นที่ 3 ของ
Botnoi Consulting Classroom กลุ่มที่ 7 หัวข้อ Data Analytics

*Colab link เพื่อดู code ในการวิเคราะห์ผล

เชื้อไวรัสโคโรนาสายพันธุ์ใหม่ (Covid19) ที่ทั่วโลกได้เผชิญตั้งแต่ปลายปี 2019 มีต้นตอมาจากตลาดขายส่งอาหารทะเลในประเทศจีน ต่อมาแหล่งระบาดโควิด19 ยังพบที่ตลาดสดบนเขียงหมู เขียงปลาแซลมอน แม้ว่าไม่มีหลักฐานโดยตรงว่าผู้ป่วยติด Covid19 จากการรับประทานอาหารหรือสัมผัสบรรจุภัณฑ์อาหาร แต่อาหารอาจเป็นปัจจัยหนึ่งที่อธิบายความแตกต่างในจำนวนผู้ติดเชื้อ/ผู้เสียชีวิต ระหว่างประเทศต่างๆ นอกเหนือจากวัฒนธรรม สภาพอากาศ และความหนาแน่นของประชากร อีกทั้งการทานอาหารที่ดียังช่วยเพิ่มภูมิคุ้มกันให้กับร่างกาย ซึ่งอาจช่วยฟื้นฟูร่างกายจากการติดเชื้อโรคและลดความเสี่ยงจากภาวะแทรกซ้อน

ดังนั้นวัตถุประสงค์ของการจัดทำบทความนี้ คือ
1. เพื่อศึกษาความสัมพันธ์ของปริมาณและประเภทอาหาร ตลอดจนภาวะโรคอ้วนกับอัตราเคสที่ติดเชื้อ และเสียชีวิตจาก Covid19
2. เพื่อศึกษารูปแบบการทานอาหารของประเทศที่มีจำนวนผู้ติดเชื้อ Covid19 น้อยโดยมีเป้าหมายเพื่อหา Insight เกี่ยวกับความสำคัญของโภชนาการและนิสัยการรับประทานอาหารที่อาจมีผลต่อโอกาสหรืออาการจากการติดเชื้อ เพื่อสร้างความเข้าใจและส่งเสริมให้ประชาชนทานอาหารที่ดีต่อสุขภาพที่อาจช่วยเพิ่มภูมิคุ้มกันให้กับร่างกาย

ขั้นตอนการวิเคราะห์ข้อมูล (Data Analytics)

  1. การเก็บและเลือกข้อมูล
    เพื่อตอบวัตถุประสงค์ข้างต้น คณะผู้วิจัยจึงได้ค้นหาและวิเคราะห์ชุดข้อมูล COVID-19 Healthy Diet Dataset จากเว็บไซต์ Kaggle.com ซึ่งรวบรวมข้อมูลปริมาณและประเภทอาหารที่รับประทานต่อปีของประเทศต่างๆ จากองค์การอาหารและเกษตรแห่งสหประชาชาติ (FAO) และข้อมูลการแพร่ระบาดของเชื้อไวรัส Covid19 จาก Johns Hopkins Center for Systems Science and Engineering CSSE website ชุดข้อมูลดังกล่าวประกอบด้วยไฟล์ทั้งหมด 4 ไฟล์ได้แก่
    1. Fat_Supply_Quantity_Data.csv แสดงเปอร์เซ็นต์ไขมันจากอาหารประเภทต่างๆที่ร่างกายได้รับโดยเฉลี่ยต่อคนต่อปี ใน 170 ประเทศ
    2. Food_Supply_Quantity_kg_Data.csv แสดงเปอร์เซ็นต์ปริมาณอาหารประเภทต่างๆที่ร่างกายได้รับโดยเฉลี่ยต่อคนต่อปี ใน 170 ประเทศ
    3. Food_Supply_kcal_Data.csv แสดงเปอร์เซ็นต์พลังงานแคลอรี่จากอาหารประเภทต่างๆที่ร่างกายได้รับโดยเฉลี่ยต่อคนต่อปี ใน 170 ประเทศ
    4. Protein_Supply_Quantity_Data.csv แสดงเปอร์เซ็นต์โปรตีนจากอาหารประเภทต่างๆที่ร่างกายได้รับโดยเฉลี่ยต่อคนต่อปี ใน 170 ประเทศ
    ทั้ง 4 ไฟล์ข้างต้น ประกอบด้วยอัตราภาวะโรคอ้วน ภาวะขาดสารอาหาร และเปอร์เซ็นต์เคสที่ติดเชื้อCovid19 เสียชีวิต รักษาหายและยังรักษาตัวอยู่ เทียบกับจำนวนประชากร
    อย่างไรก็ตาม เราเลือกใช้ข้อมูลที่อยู่ในรูปแบบปริมาณอาหาร (หน่วยกิโลกรัม) เนื่องจากการวิเคราะห์และแปรผลจากปริมาณ สามารถทำให้ผู้อ่านเข้าใจและนึกภาพตามได้ง่าย (intuitive) และสามารถนำไปประยุกต์ใช้ได้ง่ายกว่าในชีวิตประจำวัน เมื่อเทียบกับแคลอรี่, ไขมัน, หรือโปรตีน นอกจากนี้เราได้ทำการวิเคราะห์เบื้องต้นพบว่า สหสัมพันธ์อัตราการติดเชื้อกับอาหารแต่ละประเภทในรูปแบบปริมาณ แคลอรี่ ไขมัน หรือโปรตีน ไม่มีความแตกต่างกันอย่างเห็นได้ชัด ดังนั้นเพื่อความสะดวกในการวิเคราะห์และแปรผลข้อมูลเราจะใช้ข้อมูลปริมาณชุดเดียว

เรามาดูข้อมูลในแต่ละไฟล์ พบว่ามีคอลัมน์ทั้งหมด 31 คอลัมน์ โดยมีบางคอลัมน์เป็นผลรวมของคอลัมน์อื่นๆ เช่น ประเภทอาหารต่างๆ แบ่งออกคร่าวๆ ได้เป็น Animal products ซึ่งรวมผลผลิตที่มาจากสัตว์ และ Vegetal products รวมผลผลิตที่ไม่ใช่เนื้อสัตว์ ทั้งเครื่องดื่มแอลกอฮอล์ กาแฟ และน้ำตาล นอกจากนี้อัตราผู้ติดเชื้อเป็นผลรวมของอัตราผู้เสียชีวิต รักษาหาย และผู้ที่ยังรักษาตัวอยู่ (Confirmed = Deaths + Recovered + Active)

*หมายเหตุ ข้อมูลที่ใช้ในการทำการวิเคราะห์ เป็นข้อมูลเมื่อวันที่ 8 กุมภาพันธ์ 2564 ดังนั้น จำนวนผู้ติดเชื้อจึงมีความแตกต่างจากจำนวนในปัจจุบัน

2. การตั้งคำถาม/สมมติฐาน
จากวัตถุประสงค์และข้อมูลที่มี คณะผู้วิจัยกำหนดประเด็นที่จะทำการวิจัย ได้แก่
2.1 ภาพรวมอัตราการติดเชื้อ Covid19 ตามทวีป
2.2 ประเภทอาหารกับอัตราการติดเชื้อ Covid19 มีความสัมพันธ์กันอย่างไรโดยมีสมมติฐาน เช่น
- ปริมาณการทานเนื้อ/นม/ไข่ มีความสัมพันธ์ไปในทิศทางเดียวกันกับอัตราการติดเชื้อ
- ปริมาณจากการทานผัก/ธัญพืช มาก มีความสัมพันธ์ไปในทิศทางตรงกันข้ามกับอัตราการติดเชื้อ
2.3 ประเทศที่อัตราการติดเชื้อ Covid19 มาก/น้อยมีรูปแบบการทานอาหารต่างกันหรือไม่อย่างไร โดยมีสมมติฐาน เช่น
- ประเทศที่ติด Covid19 มาก ทานเนื้อ นม แอลกอฮอล์มากกว่าประเทศที่ติด Covid19 น้อย
- ประเทศที่ติด Covid19 น้อยทานพืชผักผลไม้มากกว่าประเทศที่ติด Covid19 มาก
2.4 ภาวะโรคอ้วนกับอัตราการติดเชื้อ Covid19 มีความสัมพันธ์กันอย่างไร โดยมีสมมติฐาน คือ ภาวะโรคอ้วน มีความสัมพันธ์ไปในทิศทางเดียวกันกับอัตราการติดเชื้อ

3. การสร้างฐานข้อมูลเพื่อการวิเคราะห์ (Data Mart)
3.1
ก่อนการวิเคราะห์ข้อมูล เราจะต้องตรวจสอบข้อมูล และจัดรูปแบบข้อมูล ให้พร้อมสำหรับการวิเคราะห์ (ดู Code การวิเคราะห์ได้ที่นี่ Colab link)

จากการตรวจสอบข้อมูลพบว่า ตัวแปรบางตัว ได้แก่ Obesity, Undernourished, Confirmed, Deaths, Recovered, Active มี missing data ซึ่ง Undernourished เป็นตัวที่เราวิเคราะห์ว่าไม่เกี่ยวข้องจึงได้ตัดออก และแทนที่ข้อมูลด้วยวิธี KNNImputer โดยใช้หลักการของ K-Nearest Neighbor (KNN)

3.2 ตัวแปรที่ใช้ในการวิเคราะห์ ประกอบด้วย
กลุ่ม Predictors ได้แก่
- กลุ่มอาหารประเภทเนื้อสัตว์ = [‘Animal fats’, ‘Aquatic Products, Other’, ‘Eggs’, ‘Fish, Seafood’, ‘Meat’, ‘Milk-Excluding Butter’, ‘Offals’]
- กลุุ่มอาหารประเภทพืชผักผลไม้ = [‘Cereals’, Fruits’, ‘Oilcrops’, ‘Pulses’, ‘Spices’, ‘Starchy Roots’, , ‘Treenuts’, ‘Vegetable Oils’, ‘Vegetables’]
- กลุ่มอาหารประเภทอื่นๆ = [‘Alcoholic Beverages’, ‘Stimulants’, ‘Sugar Crops’, ‘Sugar & Sweeteners’]

กลุ่ม Target variables ได้แก่
— ร้อยละของผู้ติดเชื้อ Confirmed Case เทียบกับจำนวนประชากร
— ร้อยละของผู้ป่วยโรคอ้วน Obesity เทียบกับจำนวนประชากร
เนื่องจากการวิเคราะห์ความสัมพันธ์ระหว่าง Predictor และ Target สำหรับ Confirmed case กับ Death case มีผลที่คล้ายกัน เราจึงจะนำเสนอผลเฉพาะ Confirmed case เพื่อให้ง่ายต่อการทำความเข้าใจผลการวิเคราะห์

4. การหาคำตอบจากข้อมูล
4.1 สรุปภาพรวมอัตราการติดเชื้อจาก Covid19

จากแผนภาพด้านล่าง จะเห็นได้ว่าประเทศที่มีอัตราการติดเชื้ออยู่ในระดับค่อนข้างสูงเมื่อเทียบกับจำนวนประชากรส่วนใหญ่เป็นประเทศขนาดเล็กในยุโรป เช่น Montenegro, Czechia, Slovenia, Luxembourg เป็นต้น

4.2 วิเคราะห์หาความสัมพันธ์ของการทานอาหารกับอัตราการติดเชื้อ Covid19
วิธีที่ใช้วิเคราะห์ข้อมูลประกอบด้วย
4.2.1 Correlation ใช้เพื่อแสดงภาพรวมสหสัมพันธ์ของแต่ละตัวแปรเป็นคู่ๆ เบื้องต้นเราพบว่า
- ตัวแปรที่มีค่าสหสัมพันธ์กับอัตราการติดเชื้อในทางบวก ในระดับปานกลางประมาณ 0.4-0.5 ได้แก่ นม และไขมันจากสัตว์ และภาวะโรคอ้วน
- ตัวแปรที่มีค่าสหสัมพันธ์กับอัตราการติดเชื้อในทางลบ ในระดับปานกลางประมาณ 0.4–0.5 ได้แก่ ธัญพืช
- ตัวแปรที่มีค่าสหสัมพันธ์กับอัตราการเสียชีวิตในทางบวก ในระดับปานกลางประมาณ 0.4–0.5 ได้แก่ แอลกอฮอล์ นม ไขมันจากสัตว์ และภาวะโรคอ้วน
- ตัวแปรที่มีค่าสหสัมพันธ์กับอัตราการเสียชีวิตในทางลบ ในระดับปานกลางประมาณ 0.4–0.5 ได้แก่ ธัญพืช

4.2.2 Scatter plot เพื่อดูความสัมพันธ์ระหว่างปริมาณอาหารที่บริโภคกับอัตราการติดเชื้อ COVID-19 เบื้องต้นพบว่าปริมาณการบริโภคผลิตภัณฑ์จากสัตว์ (Animal products) โดยเฉพาะนมและไขมันจากสัตว์ มีทิศทางไปในทางเดียวกันกับอัตราการติดเชื้อ ในขณะที่การบริโภคผลิตภัณฑ์จากพืช (Vegetal product) โดยเฉพาะธัญพืช (Cereal) และพืชหัว (Starchy root) มีทิศทางไปในทางตรงกันข้ามกับอัตราการติดเชื้อ

4.3 ประเทศที่ติด Covid19 มาก/น้อยมีรูปแบบการทานอาหารต่างกันหรือไม่อย่างไร
จาก Correlation heatmap และ Scatter plot เราเห็นปริมาณการบริโภคผลิตภัณฑ์จากสัตว์ (Animal products) มีทิศทางไปในทางเดียวกันกับอัตราการติดเชื้อ ขณะที่ปริมาณการบริโภคผลิตภัณฑ์จากพืช (Vegetal product) มีทิศทางไปในทางตรงกันข้ามกับอัตราการติดเชื้อ

เพื่อจะหาคำตอบว่าประเทศที่อัตราการติดเชื้อ Covid19 มาก/น้อย รับประทานอาหารต่างกันหรือไม่อย่างไร เราจึงจะแบ่งกลุ่มประเทศตามการติดเชื้อ โดยใช้วิธี Clustering (K-means) โดยใช้เทคนิค Elbow method เพื่อหาจำนวน Cluster ที่เหมาะสม โดยผลจาก Elbow method แนะนำ 3 clusters เราจึงแบ่งกลุ่มเป็นกลุ่มที่มีระดับติดเชื้อต่ำ ปานกลาง และสูง

โดยสัดส่วนของกลุ่มประเทศที่มีอัตราการติดเชื้อต่ำ ปานกลาง และสูง คือ 63.5%, 25.3% และ 11.2%

เมื่อเราแบ่งประเทศออกเป็นกลุ่มๆ แล้ว เราทำการเปรียบเทียบประเภทอาหารของกลุ่มประเทศที่มีอัตราการติดเชิ้อต่ำและกลุ่มประเทศที่มีอัตราการติดเชื้อสูง โดยใช้ Pie Chart เราได้ Insight เพิ่มเติมว่า กลุ่มประเทศที่มีอัตราการติดเชื้อต่ำ มีสัดส่วนการบริโภคผลิตภัณฑ์จากพืชเมื่อเทียบกับผลิตภัณฑ์จากสัตว์ (Vegetable products : Animal products) สูงกว่าประเทศที่มีอัตราการติดเชื้อสูง

เมื่อพิจารณาเฉพาะกลุ่มอาหารที่มาจากสัตว์ เราได้ Insight เพิ่มเติมว่า
- กลุ่มประเทศที่มีการติดเชื้อสูงมีการบริโภคนมในปริมาณที่มากกว่ากลุ่มประเทศที่มีอัตราการติดเชื้อต่ำ ขณะที่ปริมาณเนื้อสัตว์ที่รับประทานกลับน้อยกว่า
- กลุ่มประเทศที่มีการติดเชื้อต่ำมีสัดส่วนการบริโภคปลาและอาหารทะเลมากกว่าประเทศที่มีการติดเชื้อสูง

เมื่อพิจารณากลุ่มอาหารที่มาจากพืช กลุ่มประเทศที่มีการติดเชื้อต่ำมีสัดส่วนการบริโภคธัญพืช (Cereals) และพืชหัว (Starchy roots) มากกว่ากลุ่มประเทศที่มีการติดเชื้อสูง ขณะที่ประเทศที่มีการติดเชื้อสูงปริมาณผักที่รับประทานกลับมากกว่า

เมื่อพิจารณากลุ่มอาหารประเภทอื่นๆ ได้แก่ เครื่องดื่มแอลกอฮอล์, ผลิตภัณฑ์กระตุ้นประสาทเช่น ชา กาแฟ โกโก้, น้ำตาลและสารให้ความหวาน และพืชที่ให้น้ำตาล พบว่า กลุ่มประเทศที่มีการติดเชื้อสูงมีสัดส่วนการดื่มแอลกอฮอล์มากกว่ากลุ่มประเทศที่มีการติดเชื้อต่ำ

4.4 ภาวะโรคอ้วน มีความสัมพันธ์กับอัตราการติดเชื้อ Covid19 อย่างไร
เพื่อดูความสัมพันธ์ระหว่างภาวะโรคอ้วนกับการติดเชื้อ COVID-19 เราได้วิเคราะห์ Scatter plot และพบว่าภาวะโรคอ้วนมีแนวโน้มไปในทิศทางเดียวกันกับอัตราการติดเชื้อ

จากนั้นเราได้แบ่งกลุ่มประเทศที่มีภาวะโรคอ้วนออกเป็น 3 กลุ่ม โดยใช้วิธี Clustering K-means, elbow method และสัดส่วนของกลุ่มประเทศที่มีภาวะโรคอ้วนต่ำ ปานกลาง และสูง คือ 35.3%, 41.8% และ 22.9%

และวิเคราะห์ Correlation ของภาวะโรคอ้วนกับการติดเชื้อ COVID-19 ตามกลุ่มประเทศที่ได้แบ่งไว้ โดยผลการวิเคราะห์พบว่า กลุ่มประเทศที่มีอัตราการติดเชื้อต่ำ มีภาวะโรคอ้วนต่ำ ส่วนกลุ่มประเทศที่มีอัตราการติดเชื้อปานกลางและสูง มีภาวะโรคอ้วนในระดับปานกลาง

5. สรุปผลการวิเคราะห์
จากการวิเคราะห์ข้อมูล ทำให้เราได้ข้อสรุปดังนี้
1) ปริมาณการดื่มนมและไขมันสัตว์ มีความสัมพันธ์ไปในทิศทางเดียวกันกับอัตราการติดเชื้อ COVID-19
2) ปริมาณการรับประทานธัญพืชและพืชหัว มีความสัมพันธ์ไปในทิศทางตรงกันข้ามกับอัตราการติดเชื้อ COVID-19
3) ภาวะโรคอ้วนมีความสัมพันธ์ไปในทิศทางเดียวกันกับอัตราการติดเชื้อ
4) กลุ่มประเทศที่มีอัตราการติดเชื้อสูง สัดส่วนการดื่มนมและแอลกอฮอล์มากกว่ากลุ่มประเทศที่มีอัตราการติดเชื้อต่ำ ส่วนกลุ่มประเทศที่มีอัตราการติดเชื้อต่ำมีสัดส่วนการรับประทานปลาและอาหารทะเล ธัญพืช พืชหัว มากกว่ากลุ่มประเทศที่มีอัตราการติดเชื้อสูง

ดังนั้นอาหารที่เราแนะนำว่าน่าจะมีประโยชน์ต่อร่างกาย โดยเฉพาะในบริบทของการต้านทานการติดเชื้อ COVID-19 คือ ธัญพืช/พืชหัว และปลาและอาหารทะเล และควรหลีกเลี่ยงการดื่มเครื่องดื่มแอลกอฮอล์

ในส่วนของภาวะโรคอ้วนนั้น แม้ว่าเราจะสามารถยืนยันสมมติฐานได้เพียงบางส่วน แต่ปฏิเสธไม่ได้ว่าอาหารโดยเฉพาะกลุ่มเนื้อนมไข่เป็นปัจจัยหนึ่งที่ก่อให้เกิดภาวะโรคอ้วน ดังนั้นการรับประทานอาหารให้ได้สัดส่วนที่เหมาะสม ไม่เพียงแต่ส่งผลดีต่อการป้องกันการติดเชื้อ COVID-19 แต่ยังมีส่วนช่วยในการป้องกันภาวะโรคอ้วนอีกด้วย !!!

เพราะอาหารเป็นปัจจัยพื้นฐานในการดำรงชีวิตของมนุษย์ การมีโภชนาการที่ดี รับประทานอาหารที่หลากหลายในสัดส่วนที่เหมาะสมจะช่วยให้ร่างกายมีสารอาหารครบถ้วนและส่งเสริมให้ร่างกายมีภูมิต้านทานต่อสิ่งแปลกปลอม

แล้ววันนี้คุณเลือกอาหารที่ดีต่อสุขภาพคุณแล้วหรือยัง ?

Stay Healthy !!
Stay Safe !!

--

--