Differential Privacy: เทคโนโลยีที่ควรรู้ก่อน PDPA มาถึง
ในช่วงหลายปีที่ผ่านมานี้ โลกเรามีการหมุนเวียนของข้อมูลจำนวนมาก หลายส่วนจัดได้ว่าเป็นข้อมูลส่วนบุคคล (Personal Data) ข้อดีของการที่มีข้อมูลมากมายในระบบคือการอำนวยความสะดวกให้หน่วยงานและบริษัทหลายแห่งสามารถพัฒนาผลิตภัณฑ์ได้ดีขึ้น แต่ข้อมูลเหล่านี้ก็เป็นดั่งดาบสองคม บางครั้งบริษัทอาจจะรู้เกี่ยวกับเรามากจนเกินไป หรือนำข้อมูลส่วนบุคคลของเราไปหาผลประโยชน์โดยที่เราไม่รู้ตัว ตัวอย่างหนึ่งคือข่าวฉาวที่เกิดกับ Facebook ในช่วง 2–3 ปีที่ผ่านมา (อ่านเพิ่มเติมได้จาก USA Today and Wired) ด้วยข้อกังวลเหล่านี้ ทำให้ภาครัฐมีการจัดหาแนวทางควบคุม โดยตัวอย่างหนึ่งที่เห็นได้ชัดคือ General Data Protection Regulation (GDPR) ที่ถูกประกาศใช้ในกลุ่มประเทศ EU ตั้งแต่ปี 2018
ส่วนประเทศไทยก็มีความสนใจในเรื่องนี้ไม่แพ้กัน จึงเกิดเป็น Thailand’s Personal Data Protection Act (PDPA) ที่จะมีผลบังคับใช้ในช่วงเดือนพฤษภาคมปี 2564 (เลื่อนไปหนึ่งปีจากแผนเดิมที่จะบังคับใช้ในปี 2563) PDPA ถือเป็นผลดีต่อประชาชนที่จะได้สิทธิ์การดูแลข้อมูลส่วนตัวและ Sensitive Data ของตัวเองเพิ่มมากขึ้น แต่ก็ทำให้หลายบริษัทต้องมีเร่งปรับตัวในส่วนของการจัดการข้อมูลลูกค้า โดยเฉพาะอย่างยิ่งการทำวิเคราะห์ข้อมูลลูกค้าที่จะมีข้อจำกัดมากขึ้น เมื่อต้องเผชิญกับ Pain Point ดังกล่าว KBTG ในฐานะผู้นำด้าน Research & Innovation จึงต้องการเสาะหาเทคโนโลยีที่จะมาช่วยตอบโจทย์ในเรื่องนี้ โดยเทคโนโลยีที่เกี่ยวข้องกับการประมวล Data พร้อมทั้งป้องกันความเป็นส่วนตัวทางข้อมูลที่กล่าวมานั้นมีชื่อเรียกรวมๆ ว่า Privacy-Enhancing Technologies (PETs) และในบทความนี้ผู้เขียนขอมาเล่าถึงเทคโนโลยีกลุ่ม PETs นามว่า Differential Privacy
หลายคนอาจจะไม่ทราบมาก่อน แต่จริงๆ แล้วเจ้า Differential Privacy ได้ถูกนำมาใช้กับ Products ของ Top Tech Companies มาพักหนึ่งแล้ว หากใครได้ติดตามงานเปิดตัวเทคโนโลยีของ Apple อย่างต่อเนื่อง น่าจะเคยได้ยินชื่อ Differential Privacy มาก่อน เพราะ Apple เคยเปิดตัวเทคโนโลยีนี้ไปในปี 2016 และได้มีการนำมาใช้กับ iOS ในอุปกรณ์ของ Apple ที่เราใช้กันอยู่ นอกจาก Apple แล้ว ก็ยังมีทาง Google ที่ใช้เทคโนโลยีนี้ในการวิเคราะห์พฤติกรรมการใช้ Chrome Browser เหมือนกัน (แต่ข้อมูลล่าสุดได้ความว่าตอนนี้ไม่ได้ใช้กับโปรเจคนั้นแล้ว แต่กำลังพัฒนาต่อยอดเพื่อไปใช้กับโปรเจคอื่นต่อไป) ดังนั้นกล่าวได้ว่า Differential Privacy เป็นเทคโนโลยีด้านความปลอดภัยของข้อมูลที่กำลังได้รับความสนใจอย่างมากในหมู่ Top Tech Companies จึงสำคัญมากที่เราต้องมาทำความรู้จักเทคโนโลยีนี้กัน
Differential Privacy เป็นเทคโนโลยีที่ใช้สมการทางคณิตศาสตร์มาประเมินการรั่วไหลของความเป็นส่วนตัว (Privacy Leakage) อันเกิดจากการนำข้อมูลมาใช้ และสามารถดีไซน์กระบวนการป้องกันได้ เพื่อให้เราเข้าใจคอนเซ็ปต์ของ Differential Privacy มากขึ้น เราจะเริ่มเล่าจากปัญหา Privacy Leakage กันก่อน มาดูจากสถานการณ์ตัวอย่างต่อไปนี้ครับ
สมมุติว่าบริษัทแห่งหนึ่งอยากรายงานรายได้เฉลี่ยของลูกค้าให้กับนักลงทุน โดยในเดือนมกราคม ทีม A ของบริษัทนี้รายงานรายได้เฉลี่ยของฐานลูกค้าบริษัท 200 คนว่าเป็น 1.4 ล้านบาท ข้อมูลนี้เดี่ยวๆ อาจจะดูเหมือนว่าไม่ได้ Leak ข้อมูลของลูกค้าคนใดคนหนึ่ง แต่ต่อมาในเดือนกุมภาพันธ์ ทีม B ในบริษัทเดียวกันบังเอิญทำรายงานอีกฉบับหนี่ง โดยส่วนหนึ่งในเนื้อหาคือรายได้เฉลี่ยของลูกค้า 201 คน ถูกรายงานเป็น 1.41 ล้านบาท จากตรงนี้เราจะเห็นว่าข้อมูลที่มีการรายงานทั้งหมดผ่านการ Aggregate มาแล้วและเป็นเพียงค่าสถิติ หลายคนอาจจะคิดว่าไม่มีอันตรายในเรื่อง Privacy Leakage แต่ในความจริงแล้ว Leakage จะเกิดขึ้นได้จากกรณีตัวอย่างต่อไปนี้ สมมุติมีนักลงทุนรายหนึ่งที่เห็นรายงานทั้งสองของบริษัทนี้ และเผอิญนักลงทุนรายนี้ทราบมาว่านาย ก. เพิ่งเข้ามาเป็นลูกค้าใหม่ของบริษัทในเดือนกุมภาพันธ์ (ซึ่งในวงของนักวิจัยจะเรียกข้อมูลในส่วนนี้ว่า Auxiliary Information หรือ Side Information) จากข้อมูลทั้งสามอย่างคือ
- รายได้เฉลี่ย 200 คน ในเดือนมกราคม = 1.4 ล้านบาท
- รายได้เฉลี่ย 201 คน ในเดือนกุมภาพันธ์ = 1.41 ล้านบาท
- นาย ก. เพิ่งเข้ามาเป็นลูกค้าใหม่ในเดือนกุมภาพันธ์
นักลงทุนรายนี้จะสามารถมาคิดย้อนกลับและสรุปได้ว่านาย ก. มีรายได้ทั้งหมด (201x1.41)-(200x1.40) = 3.41 ล้านบาท (คิดย้อนกลับจากสูตร รายได้เฉลี่ย = ผลรวมรายได้ทุกคน/จำนวนคน)
จากตัวอย่างนี้ จะเห็นว่าแม้ทางบริษัทจะไม่ได้รายงานข้อมูลส่วนตัวของลูกค้าคนใดคนหนึ่ง และข้อมูลที่รายงานก็เป็นข้อมูลที่ไม่ได้ลงรายละเอียดถึงระดับลูกค้า แต่ด้วยความที่ข้อมูลที่เป็น Auxiliary Information นั้นปรากฏอยู่และเราอาจไม่สามารถทราบได้เลยว่ามีข้อมูลอะไรอยู่บ้าง ทำให้ Sensitive Information ของลูกค้ารายนึงคือนาย ก. สามารถรั่วไหลออกไปได้อยู่ดี ตัวอย่างนี้จึงเป็นที่มาว่าทำไมการรายงานข้อมูลแบบ Aggregated จึงไม่เพียงพอต่อการป้องกันความเป็นส่วนตัวทางข้อมูล
ทีนี้เรามาดูกันว่า Differential Privacy จะจัดการกับสถานการณ์ดังกล่าวได้อย่างไร เริ่มแรกเรามาเข้าใจ Setting กันก่อน เราพิจารณา Database หนึ่งที่มีข้อมูลลูกค้าหลายคน เราอยากจะรายงานผลลัพธ์บางอย่างที่คำนวณมาจากข้อมูลของลูกค้าใน Database นี้ เช่น รายได้เฉลี่ย อายุเฉลี่ย รายได้รวมของกลุ่มคนกลุ่มหนึ่ง เป็นต้น จากตัวอย่างก่อนหน้านี้ เราจะเห็นได้ว่าการรายงานผลเหล่านี้ตรงๆ อาจก่อให้เกิดการรั่วไหลของ Sensitive Information ได้ ดังนั้นเครื่องมือที่จะมาช่วยวัดปริมาณและจัดการกับการรั่วไหลนี้ก็คือ Differential Privacy
สมมุติเราพิจารณาลูกค้าคนหนึ่งที่ชื่อ “Bob” ที่อยู่ใน Database ของเรา ใน Differential Privacy จะมองว่าสถานการณ์ที่เป็น Perfect Privacy สำหรับ Bob คือการที่ข้อมูลของ Bob ไม่ได้ถูกนำมาใช้ในการคำนวณเลย เป็นการตัดปัญหาเรื่องการ Leak ข้อมูลของ Bob ได้โดยสมบูรณ์ ซึ่งหลักการของ Differential Privacy คือแม้จะมี Bob อยู่ใน Database แต่ผลลัพธ์ที่ได้จากการคำนวณจาก Database นี้จะมีลักษณะในทางสถิติและความน่าจะเป็นเสมือนกับผลลัพธ์ที่ได้จากการคำนวณโดยไม่มี Bob อยู่ด้วยเลย หรือพูดอีกอย่างคือ Differential Privacy พยายามทำให้ผลลัพธ์ที่รายงานออกไปนั้นเหมือนกับสถานการณ์ที่เป็น Perfect Privacy ของ Bob มากที่สุด
จากตรงนี้ หากเราลองย้อนดูตัวอย่างก่อนหน้ากันอีกครั้งจะพบว่า หากเราใช้ Differential Privacy ในการจัดการกับผลลัพธ์ก่อน (คือการคำนวณรายได้เฉลี่ยในตัวอย่างนี้) Differential Privacy จะการันตีว่าผลลัพธ์ที่รายงานออกไปทั้งในเดือนมกราคมและกุมภาพันธ์นั้นดูคล้ายกันทางสถิติและความน่าจะเป็นอย่างมากจนทำให้นักลงทุนที่แม้จะรู้ว่านาย ก. มาเป็นลูกค้าของบริษัทในเดือนกุมภาพันธ์ก็ไม่สามารถประเมินรายได้ของนาย ก. จากผลลัพธ์ที่มีได้ จึงเป็นการสร้างความปลอดภัยในความเป็นส่วนตัวทางข้อมูลของนาย ก. ได้นั่นเอง
สำหรับตัวอย่างที่ผ่านมาเราพูดถึง Bob หรือนาย ก. เป็นหลัก แต่แน่นอนว่าใน Database จะมีข้อมูลของลูกค้าอีกหลายคน ซึ่งคุณสมบัติสำคัญของ Differential Privacy คือการที่ Privacy Protection ในตัวอย่างของ Bob และนาย ก. จะ Apply กับทุกคนใน Database ทั้งหมด นอกจากนี้หลักการของ Differential Privacy ยังอิงมาจากสมการทางคณิตศาสตร์ที่ชัดเจน ทำให้ปริมาณความรั่วไหลของความเป็นส่วนตัวทางข้อมูลนั้นสามารถประเมินออกมาเป็นตัวเลขที่ชัดๆ ได้ ถือว่าเป็นคุณสมบัติที่เด่นที่สุดอย่างหนึ่งของ Differential Privacy เลย
ต่อมาเรามาดูในเชิงเทคนิคกันครับ Differential Privacy ใช้หลักการของ Randomized Mechanism คือการใช้วิธีการที่มีความไม่แน่นอนอยู่ เช่น การ Add Noise เข้าไปในผลลัพธ์ก่อนรายงานออกมา โดยตัว Noise ที่จะเพิ่มเข้าไปจะต้องถูกเลือกและดีไซน์มาอย่างดีจากตัวสมการของ Differential Privacy เพื่อ Control ปริมาณ Privacy Leakage ให้เป็นไปตามที่ต้องการ หรือในมุมกลับกัน เนื่องจากปริมาณ Privacy Leakage ใน Differential Privacy สามารถคำนวณออกมาได้อย่างชัดเจนจากสมการทางคณิตศาสตร์ เราก็สามารถระบุปริมาณความรั่วไหลที่เรายอมรับได้ ก่อนจะเอาตัวปริมาณนี้เป็น Input ให้กับการดีไซน์ตัว Noise ที่เพิ่มลงไปในผลลัพธ์ ให้มั่นใจได้ว่าปริมาณความรั่วไหลจะไม่เกินที่เราวางไว้
Mechanism แรกๆ ของ Differential Privacy ที่เป็นที่รู้จักคือ Laplace Mechanism ซึ่งเป็นการเพิ่ม Noise ที่ดึงมาจาก Laplace Distribution เข้าไปในผลลัพธ์ ข้อคำนึงสำคัญของ Mechanism นี้คือ Laplace Distribution ที่ใช้จะต้องมี Variance ขึ้นกับความ Sensitive ของผลลัพธ์ที่ต้องการคำนวณออกมาและปริมาณความรั่วไหลที่เรายอมรับได้
ในบทความนี้เราได้นำเสนอหนึ่งใน PETs ที่จะมีความสำคัญมากขึ้นในยุค PDPA คือ Differential Privacy โดยเกริ่นนำเพื่อให้เข้าใจเบื้องต้น หากผู้อ่านท่านใดสนใจอยากเรียนรู้เพิ่มเติมเกี่ยวกับเทคโนโลยีนี้ เราขอฝาก Bibliography ไว้ ตามไปอ่านเพิ่มเติมกันได้ครับ
The Algorithmic Foundations of Differential Privacy
by Cynthia Dwork and Aaron Roth
สำหรับชาวเทคคนไหนที่สนใจเรื่องราวดีๆแบบนี้ หรืออยากเรียนรู้เกี่ยวกับ Product ใหม่ๆ ของ KBTG สามารถติดตามรายละเอียดกันได้ที่เว็บไซต์ www.kbtg.tech