19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล

แปล Data Visualization fundamental Claus O. Wilke

NUTHDANAI WANGPRATHAM
3 min readDec 7, 2019

สีเป็นตัวช่วยให้สามารถแสดงข้อมูลได้อย่างมีประสิทธิภาพ แต่ในทางกลับกันสีก็อาจทำให้การแสดงข้อมูลนั้นแย่ได้หากมีใช้สีอย่างไม่เหมาะสม ดังนั้นหากเราใช้สีช่วยในการแสดงข้อมูลจำเป็นต้องระมัดระวังให้ใช้สีเป็นไปตามวัตถุประสงค์ที่ชัดเจนและไม่เบี่ยงเบนความสนใจ

19.1 การใช้สีที่หลากหลายเกินไปและไม่เกี่ยวข้องกัน

ข้อผิดพลาดในการใช้สีในงานแสดงข้อมูลที่พบได้บ่อยมากแบบหนึ่งคือการใช้สีแสดงข้อมูลที่มีความแตกต่างกันมากเกินไป ดังตัวอย่างในรูปที่ 19.1 ที่แสดงถึงอัตราการเจริญเติบโตของประชากรเปรียบเทียบกับขนาดของประชากรของ 50 รัฐในสหรัฐอเมริกาโดยแต่ละรัฐใช้สีของตัวเองแต่ผลลัพธ์มันไม่เป็นประโยชน์เพราะการใช้สีที่หลากหลายมันทำให้ดูสับสนและบ้างรัฐก็มีสีที่คล้ายกันอาจทำให้เข้าใจผิดได้ ถึงแม้ว่าเราจะใช้ความพยายามในการมองแต่เราก็ไม่สามารถแยกแยะได้ว่าวงกลมในรูปเป็นของรัฐใด การแสดงข้อมูลแบบนี้ล้มเหลวในการใช้สีเพื่อสื่อสารเราควรใช้สีเพื่อปรับปรุงตัวเลขทำให้ง่ายต่อการเข้าใจไม่ใช่เพื่อเพิ่มความสับสน

Figure 19.1: Population growth from 2000 to 2010 versus population size in 2000, for all 50 U.S. states and the Discrict of Columbia. Every state is marked in a different color. Because there are so many states, it is very difficult to match the colors in the legend to the dots in the scatter plot. Data source: U.S. Census Bureau

หลักการทั่วไปของการใช้สีในการแสดงข้อมูไม่ควรเกิน 5 สี เพราะถ้ามากเกินกว่านี้มันจะยากมากในการเข้าใจการสื่อสารโดยทันที สำหรับชุดข้อมูลของรูปที่ 19.1 อาจมีวิธีที่ดีกว่าในการแยกประเภทข้อมูลโดยแบ่งออกเป็นภูมิภาคของแต่ละรัฐดังรูปที่19.2

Figure 19.2: Population growth from 2000 to 2010 versus population size in 2000. In contrast to Figure 19.1, I have now colored states by region and have directly labeled a subset of states. The majority of states have been left unlabeled to keep the figure from overcrowding. Data source: U.S. Census Bureau

ปัญหาที่พบบ่อยในการใช้สีในการแสดงข้อมูลอย่างที่สองคือการใช้สีโดยที่ไม่มีความหมายหรือวัตถุประสงค์ของการใช้สี ยกตัวอย่างดังรูปที่ 19.3 อย่างไรก็ตามตอนนี้แทนที่จะกำหนดแถบสีตามพื้นที่ทางภูมิศาสตร์เราได้กำหนดสีของแต่ละแท่งเพื่อที่ว่าแท่งจะสร้างเอฟเฟกต์สีรุ้ง สิ่งนี้อาจดูเหมือนเอฟเฟกต์ภาพที่น่าสนใจ แต่ไม่ได้สร้างข้อมูลเชิงลึกใหม่ ๆ ลงไปในข้อมูลหรือทำให้อ่านง่ายขึ้น

Figure 19.3: Population growth in the U.S. from 2000 to 2010. The rainbow coloring of states serves no purpose and is distracting. Furthermore, the colors are overly saturated. Data source: U.S. Census Bureau

นอกเหนือจากการใช้สีที่ต่างกันอย่างไม่มีความหมายแล้ว รูปที่ 19.3 มีปัญหาที่สองเกี่ยวกับสี: สีที่เลือกนั้นแสบตาเกินไปทำให้มองดูได้ยาก ตัวอย่างเช่นเป็นการยากที่จะอ่านชื่อของรัฐโดยไม่ต้องละสายตาจากพื้นที่ขนาดใหญ่และมีสีเข้มติดกับชื่อรัฐ ในทำนองเดียวกันมันเป็นการยากที่จะเปรียบเทียบจุดปลายของแท่งกับเส้นกริด

19.2 การใช้สีเพื่อแสดงสัดส่วนและปริมาณของข้อมูล

ในบทที่ 4 ได้อธิบายถึงเงื่อนไขหลักสองเงื่อนไขในการใช้สีแสดงสัดส่วนค่าของข้อมูลสีต้องระบุอย่างชัดเจนว่าค่าข้อมูลใดที่ใหญ่กว่าหรือเล็กกว่าค่าอื่นและความแตกต่างระหว่างสีต้องแสดงให้เห็นถึงความแตกต่างที่สอดคล้องกันระหว่างค่าข้อมูล น่าเสียดายที่คนส่วนใหญ่ละเมิดเงื่อนไขข้อใดข้อหนึ่งหรือทั้งสองข้อ มาตราส่วนดังกล่าวที่ได้รับความนิยมมากที่สุดคือสีรุ้งดังรูปที่ 19.4 มันคือสีทั้งหมดบนสเปกตรัมสี ซึ่งหมายความว่าระดับสีแต่ละสีมีความหมายแต่หากเราสังเกตุให้ดีจะพบว่าสีแดงและสีม่วงอยู่คละด้านกันซึ่งหมายความว่าข้อมูลของสีแดงและสีม่วงควรจะต่างกันอย่างสิ้นเชิงหากแต่เราจะไม่รับรู้โดยสัญชาตญาณว่าเป็นตัวแทนของค่าข้อมูลที่อยู่ห่างกันมากที่สุด นอกจากนี้สเกลนั้นไม่ได้เป็นแบบโมโนโทนิกอย่างมาก มันมีภูมิภาคที่สีเปลี่ยนช้ามากและอื่น ๆ เมื่อสีเปลี่ยนอย่างรวดเร็ว การขาดความสามารถในการบ่งบอดอย่างชัดเจนนี้โดยเฉพาะถ้าเราดูที่ระดับสีในโทนสีเทา (รูปที่ 19.4) สเกลจะเปลี่ยนจากมืดกลางไปเป็นสว่างจนถึงมืดมากและกลับไปมืดปานกลางและมีแนวยาวขนาดใหญ่ที่ความสว่างเปลี่ยนไปน้อยมาก

ในการสร้างภาพข้อมูลจริงสีรุ้งมีแนวโน้มที่จะปิดบังข้อมูลคุณสมบัติและ / หรือไฮไลท์แง่มุมของข้อมูล (รูปที่ 19.5) นอกจากสีในระดับรุ้งยังแสบตามากเกินไป การดูรูปที่ 19.5 เป็นระยะเวลานานอาจทำให้รู้สึกมึนงงได้

19.3 ไม่ได้ออกแบบมาสำหรับผู้ตาบอดสี

เมื่อใดก็ตามที่เราใช้สีเพื่อเเสดงข้อมูลต้องระมัดระวังผู้อ่านบ้างกลุ่มที่ตาบอดสีที่ไม่สามารถแยกแยะสีที่ดูแตกต่างอย่างชัดเจนเหมือนกับคนทั่วไปแต่โดยทั่วไปแล้วพวกเขาจะมีปัญหาในการแยกแยะสีบางประเภทเช่นสีแดงและสีเขียว (การขาดการมองเห็นสีแดง เขียว) หรือสีน้ำเงินและสีเขียว (การขาดการมองเห็นสีฟ้า — เหลือง) ทางเทคนิคสำหรับข้อบกพร่องเหล่านี้คือ deuteranomaly / deuteranopia และ protanomaly / protanopia สำหรับตัวแปรสีแดง — เขียว (ซึ่งมีความยากลำบากในการรับรู้สีเขียวหรือสีแดงตามลำดับ) และ tritanomaly / tritanopia สำหรับสีน้ำเงิน — เหลือง ) คำที่ลงท้ายด้วย “ความผิดปกติ” หมายถึงการด้อยการรับรู้สีที่เกี่ยวข้องและคำที่ลงท้ายด้วย “ความผิดปกติ” หมายถึงการขาดความเข้าใจอย่างสมบูรณ์ของสีนั้น ประมาณ 8% ของเพศชายและ 0.5% ของผู้หญิงไม่สามารถมองเห็นสีบางชนิดและ deuteranomaly เป็นรูปแบบที่พบมากที่สุดในขณะที่ tritanomaly ค่อนข้างพบได้ยาก

ตามที่กล่าวไว้ในบทที่ 4 มีระดับสีพื้นฐานสามประเภทที่ใช้ในการสร้างภาพข้อมูล: สเกลต่อเนื่อง สเกลที่เบี่ยงเบนและระดับสีคุณภาพ ในทั้งสามนี้ระดับต่อเนื่องโดยทั่วไปจะไม่ทำให้เกิดปัญหาใด ๆ สำหรับผู้ที่มีปัญหาการมองเห็นสี (cvd) เนื่องจากระดับที่ต่อเนื่องได้รับการออกแบบมาอย่างเหมาะสมควรมีการไล่ระดับสีอย่างต่อเนื่อง รูปที่ 19.6 แสดงระดับความร้อนจากรูปที่ 4.3 ในเวอร์ชันจำลองของ deuteranomaly, protanomaly และ tritanomaly ในขณะที่ไม่มีระดับเหล่านี้มีลักษณะเหมือนต้นฉบับพวกเขาทั้งหมดนำเสนอการไล่ระดับสีที่ชัดเจนจากความมืดไปยังแสงและพวกเขาทั้งหมดทำงานได้ดีในการถ่ายทอดขนาดของค่าข้อมูล

Figure 19.6: Color-vision deficiency (cvd) simulation of the sequential color scale Heat, which runs from dark red to light yellow. From left to right and top to bottom, we see the original scale and the scale as seen under deuteranomaly, protanomaly, and tritanomaly simulations. Even though the specific colors look different under the three types of cvd, in each case we can see a clear gradient from dark to light. Therefore, this color scale is safe to use for cvd.

สิ่งต่าง ๆ มีความซับซ้อนมากขึ้นสำหรับระดับสีที่เบี่ยงเบนเนื่องจากความแตกต่างของสีที่นิยมสามารถแยกไม่ออกภายใต้ cvd โดยเฉพาะอย่างยิ่งสีแดงและเขียวให้ความคมชัดที่แข็งแกร่งที่สุดสำหรับผู้ที่มีการมองเห็นสีปกติ แต่แทบจะแยกไม่ออกสำหรับ deutans (ผู้ที่มี deuteranomaly) หรือ protans (คนที่มี protanomaly) (รูปที่ 19.7) ในทำนองเดียวกันความแตกต่างสีฟ้าสีเขียวสามารถมองเห็นได้สำหรับ deutans และ protans แต่จะแยกไม่ออกสำหรับ tritans (คนที่มี tritanomaly) (รูปที่ 19.8)

Figure 19.7: A red–green contrast becomes indistinguishable under red–green cvd (deuteranomaly or protanomaly).
Figure 19.8: A blue–green contrast becomes indistinguishable under blue–yellow cvd (tritanomaly).

ด้วยตัวอย่างเหล่านี้อาจเป็นไปไม่ได้ที่จะแสดงสองสีที่ตัดกันซึ่งปลอดภัยภายใต้ cvd ทุกรูปแบบ อย่างไรก็ตามสถานการณ์ที่ใช้กันบ่อยครั้งที่มันเป็นไปได้ที่จะทำการปรับเปลี่ยนสีเล็กน้อยเพื่อให้มีลักษณะที่ต้องการในขณะที่ยังปลอดภัยสำหรับ cvd ตัวอย่างเช่นระดับสี ColorBrewer PiYG (สีชมพูเป็นสีเหลืองสีเขียว) จากรูปที่ 4.5 มีลักษณะสีแดง — เขียวสำหรับผู้ที่มีการมองเห็นสีปกติ แต่ยังคงสามารถจำแนกได้สำหรับผู้ที่มี cvd (รูปที่ 19.9)

Figure 19.9: The ColorBrewer PiYG (pink to yellow-green) scale from Figure 4.5 looks like a red–green contrast to people with regular color vision but works for all forms of color-vision deficiency. It works because the reddish color is actually pink (a mix of red and blue) while the greenish color also contains yellow. The difference in the blue component between the two colors can be picked up even by deutans or protans, and the difference in the red component can be picked up by tritans.

สิ่งต่าง ๆ มีความซับซ้อนมากที่สุดสำหรับระดับสีเชิงคุณภาพเพราะที่นั่นเราต้องการสีที่แตกต่างกันมากมายและพวกมันจำเป็นต้องแยกแยะได้จากกันภายใต้ cvd ทุกรูปแบบ ระดับสีเพื่อจัดการกับความท้าทายนี้ (รูปที่ 19.10) คือแปดสีที่แตกต่างกันไว้ใช้ได้กับทุกสถานการณ์ด้วยสีที่ไม่ต่อเนื่อง ตามที่กล่าวไว้ในตอนต้นของบทนี้คุณอาจไม่ควรใช้รหัสสีมากกว่าแปดรายการในพล็อต

Figure 19.10: Qualitative color palette for all color-vision deficiencies (Okabe and Ito 2008). The alphanumeric codes represent the colors in RGB space, encoded as hexadecimals. In many plot libraries and image-manipulation programs, you can just enter these codes directly. If your software does not take hexadecimals directly, you can also use the values in Table 19.1.

References

Okabe, M., and K. Ito. 2008. “Color Universal Design (CUD): How to Make Figures and Presentations That Are Friendly to Colorblind People.” http://jfly.iam.u-tokyo.ac.jp/color/.

Stone, M., D. Albers Szafir, and V. Setlur. 2014. “An Engineering Model for Color Difference as a Function of Size.” In 22nd Color and Imaging Conference. Society for Imaging Science and Technology.

อ่านบทอื่นๆได้ที่

1. บทนำ​Data Visualization

2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ

3 การแสดงข้อมูลในรูปพิกัดและแกน

4. การใช้สีเพื่อแสดงข้อมูล

5 Directory of visualizations

6. การแสดงค่าข้อมูล

7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots

8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots

9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว

10 การแสดงข้อมูลในรูปสัดส่วน

11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน

12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป

13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ

14 การแสดงแนวโน้ม

15 การแสดงข้อมูลเชิงภูมิศาสตร์

16 การแสดงการกระจายของข้อมูล

17 หลักการแสดงข้อมูลที่เป็นสัดส่วน

18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล

19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล

20 การแสดงข้อมูลที่ซ้อนกัน

21 การแสดงข้อมูลหลายกราฟในรูปเดียว

22 ชื่อเรื่อง Captions และตาราง

23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล

24 การใช้ labels ที่มีขนาดใหญ่

25 หลีกเลียงการใช้เส้นในการสร้างกราฟ

26 อย่าใช้กราฟ 3 มิติ

27 ทำความเข้าใจกับชนิดไฟล์ที่ใช้บ่อยในงานแสดงข้อมูล

28. การเลือกซอฟต์แวร์สร้างภาพข้อมูลที่ถูกต้อง

--

--