17 หลักการแสดงข้อมูลที่เป็นสัดส่วน

แปล Data Visualization fundamental Claus O. Wilke

NUTHDANAI WANGPRATHAM
3 min readNov 17, 2019

ในการแสดงข้อมูลที่แตกต่างกันในองค์ประกอบของภาพที่แสดงอาทิเช่น พล็อตบาร์ การสร้าง Scale ที่แตกต่างกันจะส่งผลต่อการรับรู้ข้อมูลที่แตกต่างกันอาทิเช่น หากสร้างพล็อตบาร์โดยปกติเราจะเริ่มต้นที่ 0 หากเราดึงกราฟให้มีความยาวไม่เท่ากันการสื่อข้อมูลย่อมแตกต่างกัน

เหตุการณ์ที่คล้ายกันจะสามารถเกิดขึ้นได้ในองค์ประกอบของภาพ ดังนั้นเราต้องตรวจสอบให้แน่ใจว่าข้อมูลที่เรามีต้องสอดคล้องกับค่าที่แสดง แนวคิดนี้ถูกเรียกว่าหลักBergstrom และ West เป็นหลักการของ proportional ink: (Bergstrom และ West 2016):

หลักการ proportional ink: ขนาดของพื้นที่ในการสร้างภาพจะต้องเป็นสัดส่วนกับค่าข้อมูลที่แสดง

17.1 การสร้างภาพข้อมูลตามแนวแกนเชิงเส้น

สิ่งแรกที่เราจะกล่าวถึงคือสถานการณ์ที่พบได้ทั่วไป เราต้องการแสดงปริมาณในรูปแบบเชิงเส้นในรูปที่ 17.1 เเสดงถึงค่ามัธยฐานของรายได้ใน 5 เมืองในฮาวาย ซึ่งเป็นรูปแบบทั่วไปที่เราพบได้ตามหน้าหนังสือพิมพ์ โดยแสดงให้เราเห็นว่าฮาวายเป็นเมืองที่จนที่สุดในขณะที่Honolulu รวยที่สุด ในรูปที่ 17.1 อาจทำให้เราเข้าใจผิดเพราะว่าทุกแท่งเริ่มต้นที่ 50,000 และโดยการรับรู้ของมนุษย์จะทำให้เรารับรู้ข้อมูลที่ผิดพลาด

Figure 17.1: Median income in the five counties of the state of Hawaii. This figure is misleading, because the y axis scale starts at $50,000 instead of $0. As a result, the bar heights are not proportional to the values shown, and the income differential between the county of Hawaii and the other four counties appears much bigger than it actually is. Data source: 2015 Five-Year American Community Survey.

การเเสดงข้อมูลที่ถูกต้องจะทำให้มันดูน่าตื่นเต้นน้อยลงดังรูปที่ 17.2 ขณะที่ความแตกต่างของมัธยฐานของรายได้ระหว่างเมื่องต่างๆมีความไกล้เคียงกัน

Figure 17.2: Median income in the five counties of the state of Hawaii. Here, the y axis scale starts at $0 and therefore the relative magnitudes of the median incomes in the five counties are accurately shown. Data source: 2015 Five-Year American Community Survey.

ปัญหาที่คล้ายกันในการแสดงข้อมูลประเภทอนุกรมเวลา ในรูปที่ 17.3 แสดงให้เห็นถึงการแสดงข้อมูลที่ผิดพลาดอย่างมากของราคาหุ้น Facebook ในช่วงเดือนพฤศจิกายน 2016 ในความเป็นจริงการลดลงของราคาลดลงเพียงปานกลางเท่านั้นเมื่อคิดเป็นร้อยละดังรูปที่ 17.4 ช่วงแกน y ในรูปที่ 17.3 จะเป็นที่น่าสงสัยถึงแม้ว่าจะไม่มีการแรเงาก็ตาม แต่ด้วยการแรเงาตัวเลขจะกลายเป็นปัญหาโดยเฉพาะอย่างยิ่ง การแรเงาเน้นระยะห่างจากที่ตั้งของแกน x ไปยังค่า y ที่แสดงและทำให้เกิดการแสดงผลภาพที่ความสูงของพื้นที่แรเงา ณ วันที่กำหนดแสดงถึงราคาหุ้นของวันนั้น แต่จะแสดงถึงความแตกต่างของราคาหุ้นจากพื้นฐานซึ่งเท่ากับ $ 110 ในรูปที่ 17.3

Figure 17.3: Stock price of Facebook (FB) from Oct. 22, 2016 to Jan. 21, 2017. This figure seems to imply that the Facebook stock price collapsed around Nov. 1, 2016. However, this is misleading, because the y axis starts at $110 instead of $0.
Figure 17.4: Stock price of Facebook (FB) from Oct. 22, 2016 to Jan. 21, 2017. By showing the stock price on a y scale from $0 to $150, this figure more accurately relays the magnitude of the FB price drop around Nov. 1, 2016.

ตัวอย่างของรูปที่ 17.2 และ 17.4 พื้นที่ใต้กราฟไม่สามารถแสดงการเปลี่ยนแปลงเพียงเล็กน้อยตลอดช่วงระยะเวลาหรือความแตกต่างของเงื่อนไข อย่างไรก็ตามนี่ไม่ใช่กรณี สามารถใช้บาร์หรือพื้นที่แรเงาเพื่อแสดงความแตกต่างระหว่างเงื่อนไขได้อย่างสมบูรณ์ตราบใดที่เราทำให้มันชัดเจนว่าเราแสดงความแตกต่างอะไร ตัวอย่างเช่นเราสามารถใช้บาร์เพื่อแสดงภาพการเปลี่ยนแปลงของรายได้เฉลี่ยในมณฑลฮาวายตั้งแต่ปี 2010 ถึงปี 2015 (รูปที่ 17.5) สำหรับทุกมณฑลยกเว้น Kalawao การเปลี่ยนแปลงนี้จะน้อยกว่า $ 5,000 (Kalawao เป็นเขตที่ผิดปกติซึ่งมีประชากรน้อยกว่า 100 คนและสามารถพบรายได้เฉลี่ยจำนวนมากจากผู้คนจำนวนน้อยที่ย้ายเข้าหรือออกจากเขต) และสำหรับเขตฮาวายการเปลี่ยนแปลงนั้นเป็นลบเช่น รายได้เฉลี่ยในปี 2015 ต่ำกว่าในปี 2010 เราแสดงค่าลบด้วยการวาดแท่งที่ไปในทิศทางตรงกันข้ามนั่นคือเพิ่มขึ้นจาก 0 ลงมามากกว่าขึ้น

Figure 17.5: Change in median income in Hawaiian counties from 2010 to 2015. Data source: 2010 and 2015 Five-Year American Community Surveys.

ในทำนองเดียวกันเราสามารถวาดการเปลี่ยนแปลงราคาหุ้น Facebook เมื่อเวลาผ่านไปเนื่องจากความแตกต่างจากจุดสูงสุดชั่วคราวในวันที่ 22 ตุลาคม 2016 (รูปที่ 17.6) ด้วยการแรเงาพื้นที่ที่แสดงระยะทางจากจุดสูงสุดเราจะแสดงขนาดที่แน่นอนของการลดลงของราคา โดยนัยเกี่ยวกับขนาดของการลดลงของราคาเมื่อเทียบกับราคาหุ้นทั้งหมด

Figure 17.6: Loss in Facebook (FB) stock price relative to the price of Oct. 22, 2016. Between Nov. 1, 2016 and Jan. 1, 2017, the price remained approximately $15 lower than it was at its high point on Oct. 22, 2016. But then the price started to recover in Jan. 2017.

17.2 การสร้างภาพตามแกนด้วยสัดส่วนลอการิทึม

เมื่อเราแสดงข้อมูลเป็นเส้นตรงพื้นที่ของแท่งสี่เหลี่ยมหรือรูปร่างอื่น ๆ จะเป็นสัดส่วนกับค่าข้อมูลโดยอัตโนมัติ แต่หากเราใช้สเกลลอการิทึมเนื่องจากค่าข้อมูลไม่ได้เว้นระยะเชิงเส้นตามแนวแกน ดังนั้นหนึ่งอาจโต้แย้งว่าตัวอย่างเช่นกราฟแท่งในระดับบันทึกมีข้อบกพร่องโดยเนื้อแท้ ในด้านพลิกพื้นที่ของแต่ละแท่งจะเป็นสัดส่วนกับลอการิทึมของค่าข้อมูลและกราฟแท่งบนมาตราส่วนบันทึกเป็นไปตามหลักการของสัดส่วนในพิกัดในทางปฏิบัติทำให้เกิดข้อโต้แย้งสองข้อนี้ไม่สามารถแก้ไขได้ว่ากราฟแท่งขนาดบันทึกมีความเหมาะสมหรือไม่ แต่คำถามที่เกี่ยวข้องคือเราต้องการให้เห็นภาพจำนวนหรืออัตราส่วน

ในบทที่ 3 ได้อธิบายว่าสัดส่วนที่เป็นมาตราส่วนตามธรรมชาติเพื่อให้เห็นภาพอัตราส่วนเนื่องจากขั้นตอนของหน่วยตามระดับสเกลบันทึกสอดคล้องกับการคูณด้วยหรือหารด้วยปัจจัยคงที่ อย่างไรก็ตามในทางปฏิบัติมักใช้สัดส่วนบันทึกไม่ใช่เฉพาะเพื่อแสดงอัตราส่วน แต่เป็นเพราะตัวเลขที่แสดงนั้นแตกต่างกันไปตามขนาดของคำสั่ง ยกตัวอย่างเช่นพิจารณาผลิตภัณฑ์มวลรวมภายในประเทศ (GDP) ของประเทศต่างๆในโอเชียเนีย ในปี 2550 สิ่งเหล่านี้แตกต่างจากน้อยกว่าหนึ่งพันล้านดอลลาร์สหรัฐ (USD) ถึงมากกว่า 300 พันล้านดอลลาร์สหรัฐ (รูปที่ 17.7) การแสดงตัวเลขเหล่านี้ในระดับเชิงเส้นจะไม่ได้ผลเพราะทั้งสองประเทศที่มีจีดีพีมากที่สุด (นิวซีแลนด์และออสเตรเลีย) จะเป็นตัวกำหนดตัวเลขดังกล่าว

Figure 17.7: GDP in 2007 of countries in Oceania. The lengths of the bars do not accurately reflect the data values shown, since bars start at the arbitrary value of 0.3 billion USD. Data source: Gapminder.

สำหรับข้อมูลของรูปที่ 17.7 การแสดงข้อมูลอาจไม่เหมาะสมแต่เราสามารถวางจุดที่ตำแหน่งที่เหมาะสมตามมาตราส่วนสำหรับ GDP ของแต่ละประเทศและหลีกเลี่ยงปัญหาความยาวแท่งทั้งหมด (รูปที่ 17.9) สำคัญโดยการวางชื่อประเทศไว้ถัดจากจุดแทนที่จะเป็นตามแนวแกน y เราจะหลีกเลี่ยงการสร้างการรับรู้ด้วยสายตาของขนาดที่สื่อความหมายโดยระยะทางจากชื่อประเทศไปยังจุด

Figure 17.9: GDP in 2007 of countries in Oceania. Data source: Gapminder.

หากเราต้องการเห็นภาพอัตราส่วนมากกว่าจำนวนอย่างไรก็ตามแถบที่อยู่ในระดับบันทึกเป็นตัวเลือกที่ดีอย่างสมบูรณ์ ในความเป็นจริงจะดีกว่าแถบในระดับเชิงเส้นในกรณีที่ ยกตัวอย่างเช่นลองนึกภาพค่า GDP ของประเทศต่างๆในโอเชียเนียเทียบกับ GDP ของปาปัวนิวกินี ตัวเลขที่เกิดขึ้นนั้นทำงานได้ดีโดยเน้นความสัมพันธ์ที่สำคัญระหว่างจีดีพีของประเทศต่างๆ (รูปที่ 17.10) เราจะเห็นว่านิวซีแลนด์มีมากกว่าแปดเท่าของจีดีพีของปาปัวนิวกินีและออสเตรเลียมากกว่า 64 ครั้งในขณะที่ตองกาและสหพันธรัฐไมโครนีเซียมีน้อยกว่าหนึ่งในสิบหกของจีดีพีของปาปัวนิวกีนี เฟรนช์โปลินีเซียและนิวแคลิโดเนียอยู่ใกล้ แต่มี GDP น้อยกว่าปาปัวนิวกินีบ้าง

Figure 17.10: GDP in 2007 of countries in Oceania, relative to the GDP of Papua New Guinea. Data source: Gapminder.

รูปที่ 17.10 ยังเน้นว่าจุดกึ่งกลางตามธรรมชาติของสเกลบันทึกคือ 1 โดยมีแท่งที่แสดงถึงตัวเลขที่มากกว่า 1 ไปในทิศทางเดียว แท่งบนมาตราส่วนแสดงอัตราส่วนและต้องเริ่มต้นที่ 1 เสมอและแท่งบนมาตราส่วนเชิงเส้นแทนจำนวนและต้องเริ่มต้นที่ 0 เสมอ

17.3 การสร้างภาพพื้นที่โดยตรง

ตัวอย่างก่อนหน้าทั้งหมดแสดงข้อมูลเชิงเส้นที่เป็นแบบมิติเดี่ยวในกรณีเหล่านี้เราสามารถพิจารณาการแสดงข้อมูลเป็นหลักหรือตามพื้นที่โดยตรงโดยไม่มีการแมปตำแหน่งที่ตั้งที่สอดคล้องกัน แผนภูมิที่พบมากที่สุดคือแผนภูมิวงกลม (รูปที่ 17.11) แม้ว่าในทางเทคนิคแล้วค่าข้อมูลจะถูกแมปไปยังมุมซึ่งแสดงโดยตำแหน่งตามแนวแกนวงกลม แต่โดยทั่วไปแล้วเราไม่ได้ตัดสินมุมของแผนภูมิวงกลม แต่คุณสมบัติด้านภาพที่โดดเด่นที่เราสังเกตเห็นคือขนาดของพื้นที่ของลิ่มวงกลมแต่ละอัน

Figure 17.11: Number of inhabitants in Rhode Island counties, shown as a pie chart. Both the angle and the area of each pie wedge are proportional to the number of inhabitants in the respective county. Data source: 2010 Decennial U.S. Census.

เนื่องจากพื้นที่ของแผนภูมิวงกลมแต่ละอันเป็นสัดส่วนกับมุมของมันซึ่งเป็นสัดส่วนกับค่าข้อมูลที่แสดงถึงแผนภูมิวงกลมตอบสนองหลักการของหมึกสัดส่วน อย่างไรก็ตามเรารับรู้พื้นที่ในแผนภูมิวงกลมแตกต่างจากพื้นที่เดียวกันในพล็อตบาร์ เหตุผลพื้นฐานคือการรับรู้ของมนุษย์คือระยะทางไม่ใช่พื้นที่ ดังนั้นหากค่าของข้อมูล ทั้งหมดเป็นระยะทางเช่นเดียวกับกรณีของความยาวของแท่งเราจะรับรู้ได้อย่างแม่นยำมากกว่าเมื่อค่าของข้อมูลถูกแปลงค่าผ่านการรวมกันของระยะทางตั้งแต่สองระยะขึ้นไปที่ร่วมกันสร้างพื้นที่ หากต้องการดูความแตกต่างนี้ให้เปรียบเทียบรูปที่ 17.11 ถึงรูปที่ 17.12 ซึ่งแสดงข้อมูลเดียวกับแท่ง ความแตกต่างของจำนวนผู้อยู่อาศัยระหว่างมณฑลโพรวิเดนซ์และมณฑลอื่น ๆ จะปรากฏขึ้นในรูปที่ 17.12 มากกว่าในรูปที่ 17.11

Figure 17.12: Number of inhabitants in Rhode Island counties, shown as bars. The length of each bar is proportional to the number of inhabitants in the respective county. Data source: 2010 Decennial U.S. Census.

ปัญหาที่การรับรู้ของมนุษย์ดีกว่าในการตัดสินระยะทางมากกว่าในพื้นที่การตัดสินก็เกิดขึ้นในทรีแมป (รูปที่ 17.13) ซึ่งสามารถคิดได้ว่าเป็นแผนภูมิวงกลมรุ่นที่สอง อีกครั้งเมื่อเปรียบเทียบกับรูปที่ 17.12 ความแตกต่างของจำนวนผู้อยู่อาศัยในมณฑลนั้นปรากฏเด่นชัดน้อยกว่าในรูปที่ 17.13

อ่านบทอื่นๆได้ที่

1. บทนำ​Data Visualization

2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ

3 การแสดงข้อมูลในรูปพิกัดและแกน

4. การใช้สีเพื่อแสดงข้อมูล

5 Directory of visualizations

6. การแสดงค่าข้อมูล

7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots

8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots

9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว

10 การแสดงข้อมูลในรูปสัดส่วน

11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน

12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป

13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ

14 การแสดงแนวโน้ม

15 การแสดงข้อมูลเชิงภูมิศาสตร์

16 การแสดงการกระจายของข้อมูล

17 หลักการแสดงข้อมูลที่เป็นสัดส่วน

18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล

19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล

20 การแสดงข้อมูลที่ซ้อนกัน

21 การแสดงข้อมูลหลายกราฟในรูปเดียว

22 ชื่อเรื่อง Captions และตาราง

23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล

24 การใช้ labels ที่มีขนาดใหญ่

25 หลีกเลียงการใช้เส้นในการสร้างกราฟ

26 อย่าใช้กราฟ 3 มิติ

27 ทำความเข้าใจกับชนิดไฟล์ที่ใช้บ่อยในงานแสดงข้อมูล

28. การเลือกซอฟต์แวร์สร้างภาพข้อมูลที่ถูกต้อง

--

--