17 หลักการแสดงข้อมูลที่เป็นสัดส่วน
แปล Data Visualization fundamental Claus O. Wilke
ในการแสดงข้อมูลที่แตกต่างกันในองค์ประกอบของภาพที่แสดงอาทิเช่น พล็อตบาร์ การสร้าง Scale ที่แตกต่างกันจะส่งผลต่อการรับรู้ข้อมูลที่แตกต่างกันอาทิเช่น หากสร้างพล็อตบาร์โดยปกติเราจะเริ่มต้นที่ 0 หากเราดึงกราฟให้มีความยาวไม่เท่ากันการสื่อข้อมูลย่อมแตกต่างกัน
เหตุการณ์ที่คล้ายกันจะสามารถเกิดขึ้นได้ในองค์ประกอบของภาพ ดังนั้นเราต้องตรวจสอบให้แน่ใจว่าข้อมูลที่เรามีต้องสอดคล้องกับค่าที่แสดง แนวคิดนี้ถูกเรียกว่าหลักBergstrom และ West เป็นหลักการของ proportional ink: (Bergstrom และ West 2016):
หลักการ proportional ink: ขนาดของพื้นที่ในการสร้างภาพจะต้องเป็นสัดส่วนกับค่าข้อมูลที่แสดง
17.1 การสร้างภาพข้อมูลตามแนวแกนเชิงเส้น
สิ่งแรกที่เราจะกล่าวถึงคือสถานการณ์ที่พบได้ทั่วไป เราต้องการแสดงปริมาณในรูปแบบเชิงเส้นในรูปที่ 17.1 เเสดงถึงค่ามัธยฐานของรายได้ใน 5 เมืองในฮาวาย ซึ่งเป็นรูปแบบทั่วไปที่เราพบได้ตามหน้าหนังสือพิมพ์ โดยแสดงให้เราเห็นว่าฮาวายเป็นเมืองที่จนที่สุดในขณะที่Honolulu รวยที่สุด ในรูปที่ 17.1 อาจทำให้เราเข้าใจผิดเพราะว่าทุกแท่งเริ่มต้นที่ 50,000 และโดยการรับรู้ของมนุษย์จะทำให้เรารับรู้ข้อมูลที่ผิดพลาด
การเเสดงข้อมูลที่ถูกต้องจะทำให้มันดูน่าตื่นเต้นน้อยลงดังรูปที่ 17.2 ขณะที่ความแตกต่างของมัธยฐานของรายได้ระหว่างเมื่องต่างๆมีความไกล้เคียงกัน
ปัญหาที่คล้ายกันในการแสดงข้อมูลประเภทอนุกรมเวลา ในรูปที่ 17.3 แสดงให้เห็นถึงการแสดงข้อมูลที่ผิดพลาดอย่างมากของราคาหุ้น Facebook ในช่วงเดือนพฤศจิกายน 2016 ในความเป็นจริงการลดลงของราคาลดลงเพียงปานกลางเท่านั้นเมื่อคิดเป็นร้อยละดังรูปที่ 17.4 ช่วงแกน y ในรูปที่ 17.3 จะเป็นที่น่าสงสัยถึงแม้ว่าจะไม่มีการแรเงาก็ตาม แต่ด้วยการแรเงาตัวเลขจะกลายเป็นปัญหาโดยเฉพาะอย่างยิ่ง การแรเงาเน้นระยะห่างจากที่ตั้งของแกน x ไปยังค่า y ที่แสดงและทำให้เกิดการแสดงผลภาพที่ความสูงของพื้นที่แรเงา ณ วันที่กำหนดแสดงถึงราคาหุ้นของวันนั้น แต่จะแสดงถึงความแตกต่างของราคาหุ้นจากพื้นฐานซึ่งเท่ากับ $ 110 ในรูปที่ 17.3
ตัวอย่างของรูปที่ 17.2 และ 17.4 พื้นที่ใต้กราฟไม่สามารถแสดงการเปลี่ยนแปลงเพียงเล็กน้อยตลอดช่วงระยะเวลาหรือความแตกต่างของเงื่อนไข อย่างไรก็ตามนี่ไม่ใช่กรณี สามารถใช้บาร์หรือพื้นที่แรเงาเพื่อแสดงความแตกต่างระหว่างเงื่อนไขได้อย่างสมบูรณ์ตราบใดที่เราทำให้มันชัดเจนว่าเราแสดงความแตกต่างอะไร ตัวอย่างเช่นเราสามารถใช้บาร์เพื่อแสดงภาพการเปลี่ยนแปลงของรายได้เฉลี่ยในมณฑลฮาวายตั้งแต่ปี 2010 ถึงปี 2015 (รูปที่ 17.5) สำหรับทุกมณฑลยกเว้น Kalawao การเปลี่ยนแปลงนี้จะน้อยกว่า $ 5,000 (Kalawao เป็นเขตที่ผิดปกติซึ่งมีประชากรน้อยกว่า 100 คนและสามารถพบรายได้เฉลี่ยจำนวนมากจากผู้คนจำนวนน้อยที่ย้ายเข้าหรือออกจากเขต) และสำหรับเขตฮาวายการเปลี่ยนแปลงนั้นเป็นลบเช่น รายได้เฉลี่ยในปี 2015 ต่ำกว่าในปี 2010 เราแสดงค่าลบด้วยการวาดแท่งที่ไปในทิศทางตรงกันข้ามนั่นคือเพิ่มขึ้นจาก 0 ลงมามากกว่าขึ้น
ในทำนองเดียวกันเราสามารถวาดการเปลี่ยนแปลงราคาหุ้น Facebook เมื่อเวลาผ่านไปเนื่องจากความแตกต่างจากจุดสูงสุดชั่วคราวในวันที่ 22 ตุลาคม 2016 (รูปที่ 17.6) ด้วยการแรเงาพื้นที่ที่แสดงระยะทางจากจุดสูงสุดเราจะแสดงขนาดที่แน่นอนของการลดลงของราคา โดยนัยเกี่ยวกับขนาดของการลดลงของราคาเมื่อเทียบกับราคาหุ้นทั้งหมด
17.2 การสร้างภาพตามแกนด้วยสัดส่วนลอการิทึม
เมื่อเราแสดงข้อมูลเป็นเส้นตรงพื้นที่ของแท่งสี่เหลี่ยมหรือรูปร่างอื่น ๆ จะเป็นสัดส่วนกับค่าข้อมูลโดยอัตโนมัติ แต่หากเราใช้สเกลลอการิทึมเนื่องจากค่าข้อมูลไม่ได้เว้นระยะเชิงเส้นตามแนวแกน ดังนั้นหนึ่งอาจโต้แย้งว่าตัวอย่างเช่นกราฟแท่งในระดับบันทึกมีข้อบกพร่องโดยเนื้อแท้ ในด้านพลิกพื้นที่ของแต่ละแท่งจะเป็นสัดส่วนกับลอการิทึมของค่าข้อมูลและกราฟแท่งบนมาตราส่วนบันทึกเป็นไปตามหลักการของสัดส่วนในพิกัดในทางปฏิบัติทำให้เกิดข้อโต้แย้งสองข้อนี้ไม่สามารถแก้ไขได้ว่ากราฟแท่งขนาดบันทึกมีความเหมาะสมหรือไม่ แต่คำถามที่เกี่ยวข้องคือเราต้องการให้เห็นภาพจำนวนหรืออัตราส่วน
ในบทที่ 3 ได้อธิบายว่าสัดส่วนที่เป็นมาตราส่วนตามธรรมชาติเพื่อให้เห็นภาพอัตราส่วนเนื่องจากขั้นตอนของหน่วยตามระดับสเกลบันทึกสอดคล้องกับการคูณด้วยหรือหารด้วยปัจจัยคงที่ อย่างไรก็ตามในทางปฏิบัติมักใช้สัดส่วนบันทึกไม่ใช่เฉพาะเพื่อแสดงอัตราส่วน แต่เป็นเพราะตัวเลขที่แสดงนั้นแตกต่างกันไปตามขนาดของคำสั่ง ยกตัวอย่างเช่นพิจารณาผลิตภัณฑ์มวลรวมภายในประเทศ (GDP) ของประเทศต่างๆในโอเชียเนีย ในปี 2550 สิ่งเหล่านี้แตกต่างจากน้อยกว่าหนึ่งพันล้านดอลลาร์สหรัฐ (USD) ถึงมากกว่า 300 พันล้านดอลลาร์สหรัฐ (รูปที่ 17.7) การแสดงตัวเลขเหล่านี้ในระดับเชิงเส้นจะไม่ได้ผลเพราะทั้งสองประเทศที่มีจีดีพีมากที่สุด (นิวซีแลนด์และออสเตรเลีย) จะเป็นตัวกำหนดตัวเลขดังกล่าว
สำหรับข้อมูลของรูปที่ 17.7 การแสดงข้อมูลอาจไม่เหมาะสมแต่เราสามารถวางจุดที่ตำแหน่งที่เหมาะสมตามมาตราส่วนสำหรับ GDP ของแต่ละประเทศและหลีกเลี่ยงปัญหาความยาวแท่งทั้งหมด (รูปที่ 17.9) สำคัญโดยการวางชื่อประเทศไว้ถัดจากจุดแทนที่จะเป็นตามแนวแกน y เราจะหลีกเลี่ยงการสร้างการรับรู้ด้วยสายตาของขนาดที่สื่อความหมายโดยระยะทางจากชื่อประเทศไปยังจุด
หากเราต้องการเห็นภาพอัตราส่วนมากกว่าจำนวนอย่างไรก็ตามแถบที่อยู่ในระดับบันทึกเป็นตัวเลือกที่ดีอย่างสมบูรณ์ ในความเป็นจริงจะดีกว่าแถบในระดับเชิงเส้นในกรณีที่ ยกตัวอย่างเช่นลองนึกภาพค่า GDP ของประเทศต่างๆในโอเชียเนียเทียบกับ GDP ของปาปัวนิวกินี ตัวเลขที่เกิดขึ้นนั้นทำงานได้ดีโดยเน้นความสัมพันธ์ที่สำคัญระหว่างจีดีพีของประเทศต่างๆ (รูปที่ 17.10) เราจะเห็นว่านิวซีแลนด์มีมากกว่าแปดเท่าของจีดีพีของปาปัวนิวกินีและออสเตรเลียมากกว่า 64 ครั้งในขณะที่ตองกาและสหพันธรัฐไมโครนีเซียมีน้อยกว่าหนึ่งในสิบหกของจีดีพีของปาปัวนิวกีนี เฟรนช์โปลินีเซียและนิวแคลิโดเนียอยู่ใกล้ แต่มี GDP น้อยกว่าปาปัวนิวกินีบ้าง
รูปที่ 17.10 ยังเน้นว่าจุดกึ่งกลางตามธรรมชาติของสเกลบันทึกคือ 1 โดยมีแท่งที่แสดงถึงตัวเลขที่มากกว่า 1 ไปในทิศทางเดียว แท่งบนมาตราส่วนแสดงอัตราส่วนและต้องเริ่มต้นที่ 1 เสมอและแท่งบนมาตราส่วนเชิงเส้นแทนจำนวนและต้องเริ่มต้นที่ 0 เสมอ
17.3 การสร้างภาพพื้นที่โดยตรง
ตัวอย่างก่อนหน้าทั้งหมดแสดงข้อมูลเชิงเส้นที่เป็นแบบมิติเดี่ยวในกรณีเหล่านี้เราสามารถพิจารณาการแสดงข้อมูลเป็นหลักหรือตามพื้นที่โดยตรงโดยไม่มีการแมปตำแหน่งที่ตั้งที่สอดคล้องกัน แผนภูมิที่พบมากที่สุดคือแผนภูมิวงกลม (รูปที่ 17.11) แม้ว่าในทางเทคนิคแล้วค่าข้อมูลจะถูกแมปไปยังมุมซึ่งแสดงโดยตำแหน่งตามแนวแกนวงกลม แต่โดยทั่วไปแล้วเราไม่ได้ตัดสินมุมของแผนภูมิวงกลม แต่คุณสมบัติด้านภาพที่โดดเด่นที่เราสังเกตเห็นคือขนาดของพื้นที่ของลิ่มวงกลมแต่ละอัน
เนื่องจากพื้นที่ของแผนภูมิวงกลมแต่ละอันเป็นสัดส่วนกับมุมของมันซึ่งเป็นสัดส่วนกับค่าข้อมูลที่แสดงถึงแผนภูมิวงกลมตอบสนองหลักการของหมึกสัดส่วน อย่างไรก็ตามเรารับรู้พื้นที่ในแผนภูมิวงกลมแตกต่างจากพื้นที่เดียวกันในพล็อตบาร์ เหตุผลพื้นฐานคือการรับรู้ของมนุษย์คือระยะทางไม่ใช่พื้นที่ ดังนั้นหากค่าของข้อมูล ทั้งหมดเป็นระยะทางเช่นเดียวกับกรณีของความยาวของแท่งเราจะรับรู้ได้อย่างแม่นยำมากกว่าเมื่อค่าของข้อมูลถูกแปลงค่าผ่านการรวมกันของระยะทางตั้งแต่สองระยะขึ้นไปที่ร่วมกันสร้างพื้นที่ หากต้องการดูความแตกต่างนี้ให้เปรียบเทียบรูปที่ 17.11 ถึงรูปที่ 17.12 ซึ่งแสดงข้อมูลเดียวกับแท่ง ความแตกต่างของจำนวนผู้อยู่อาศัยระหว่างมณฑลโพรวิเดนซ์และมณฑลอื่น ๆ จะปรากฏขึ้นในรูปที่ 17.12 มากกว่าในรูปที่ 17.11
ปัญหาที่การรับรู้ของมนุษย์ดีกว่าในการตัดสินระยะทางมากกว่าในพื้นที่การตัดสินก็เกิดขึ้นในทรีแมป (รูปที่ 17.13) ซึ่งสามารถคิดได้ว่าเป็นแผนภูมิวงกลมรุ่นที่สอง อีกครั้งเมื่อเปรียบเทียบกับรูปที่ 17.12 ความแตกต่างของจำนวนผู้อยู่อาศัยในมณฑลนั้นปรากฏเด่นชัดน้อยกว่าในรูปที่ 17.13
อ่านบทอื่นๆได้ที่
2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ
3 การแสดงข้อมูลในรูปพิกัดและแกน
7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots
8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots
9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว
11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน
12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป
13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ
15 การแสดงข้อมูลเชิงภูมิศาสตร์
17 หลักการแสดงข้อมูลที่เป็นสัดส่วน
18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล
19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล
21 การแสดงข้อมูลหลายกราฟในรูปเดียว
22 ชื่อเรื่อง Captions และตาราง
23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล
24 การใช้ labels ที่มีขนาดใหญ่
25 หลีกเลียงการใช้เส้นในการสร้างกราฟ