เอาข้อมูลมายำ แอบดู “เพจสัมพันธ์” บนเฟซบุ๊ก

New Naveen
4 min readFeb 12, 2020

--

บ่อยครั้งที่เราเป็นเจ้าของแบรนด์ แล้วไม่แน่ใจว่าคนที่ชื่นชอบแบรนด์เรา เค้ามีไลฟ์สไตล์อย่างไร ชื่นชอบสินค้าแบรนด์อะไร ฟังเพลงแนวไหน

ถ้าเราต้องการหาพรีเซนเตอร์สักคนหนึ่งให้แบรนด์ของเรา คนคนนั้นควรจะเป็นใคร มีเครื่องมือที่ช่วยคัดเลือกไหม

ในฐานะแอดมินเพจหรือ influencer มีหลายๆ ครั้งที่เรารู้สึกอยากทำคอนเทนต์กับร่วมกับคนอื่น แต่เราก็ไม่แน่ใจว่าควรไปร่วมกับใครดี

สิ่งเหล่านี้เป็นเรื่องน่าปวดหัวมาช้านานของคนทำคอนเทนต์และการตลาดออนไลน์ และบ่อยครั้งเราใช้ความรู้สึกแทนที่จะใช้ ข้อมูล มาตัดสิน คำถามคือมันมีเครื่องมืออะไรมั้ยที่ช่วยหาเพจที่มีสไตล์หรือจริตใกล้เคียงกับเพจของเรา โดยวัดผลออกมาเป็นตัวเลขที่จับต้องได้

หาความ “คล้ายกัน” ระหว่างเพจ

การวัดความคล้ายกันระหว่างเพจสามารถทำได้หลายวิธี อาจจะดูจากหมวดหมู่ของเพจ จำนวนไลก์ คำที่ปรากฏในคอนเทนต์ ฯลฯ วิธีการเหล่านี้ล้วนมีเป้าหมายเดียวกันคือให้คะแนนความคล้ายกันระหว่างเพจของเรากับเพจต่างๆ เมื่อเราได้คะแนนออกมา เราก็เรียงคะแนนจากมากไปน้อย เพียงเท่านี้เราก็จะได้รายการของเพจที่คล้ายคลึงกับเรามากที่สุดแล้ว

วิธีหาความคล้ายกันที่เลือกใช้ในโปรเจ็กต์นี้ เริ่มต้นจากแนวคิดว่าคนที่มากดไลก์เพจเรา ไปกดไลก์เพจอะไรเยอะที่สุด เพจเหล่านั้นก็น่าจะเป็นเพจที่แฟนๆของเราสนใจ และน่าจะมีจริตที่ใกล้เคียงกับเพจเราที่สุดนั่นเอง วิธีคำนวณที่ใกล้เคียงกับแนวคิดนี้ที่สุดคือการคำนวณ Jaccard similarity หรือที่ผมมักจะเรียกว่า “ที่ร่วม หารด้วยที่รวม”

การคำนวณ Jaccard Similarity ระหว่างเซต A และเซต B

ขอยกตัวอย่างการคำนวณดังนี้
สมมติเราต้องการหาความคล้ายกันระหว่างเพจนัดเป็ดกับเพจสัตว์โลกอมตีน
เพจนัดเป็ดมีคนมากดไลก์ 3 คนได้แก่ A, B, D
ส่วนเพจสัตว์โลกอมตีนมีคนมากดไลก์ 3 คนเหมือนกันแต่เป็น B, C, D

Jaccard similarity คำนวณจาก จำนวนคนที่กดไลก์ทั้งเพจนัดเป็ดและสัตว์โลกอมตีน(B กับ D) หารด้วยจำนวนคนจากทั้งสองเพจรวมกัน (A, B, C, D) เราจะได้ Jaccard similarity ระหว่างเพจนัดเป็นกับสัตว์โลกอมตีนเป็น 2/4 = 0.5

คะแนนนี้บอกกับเราว่า ในบรรดาคนที่กดไลก์เพจ A หรือเพจ B มีคนอยู่ครึ่งหนึ่งที่กดไลก์ทั้งสองเพจ

ยิ่งคะแนนสูง สมาชิกจากทั้งสองเพจยิ่งมีสัดส่วนที่ซ้อนทับกันมากขึ้น ประชากรส่วนใหญ่ที่ไลก์เพจหนึ่ง ก็ไปไลก์อีกเพจหนึ่งเหมือนกัน คะแนนนี้จึงใช้บอกความคล้ายคลึงระหว่างเพจได้โดยดูจากพฤติกรรมการกดไลก์นั่นเอง

Dataset

เนื่องจากเราไม่สามารถดึงข้อมูลได้ว่า ใครกดไลก์เพจอะไรบ้าง เราจึงใช้ข้อมูลการกดไลก์และคอมเมนต์โพสต์ของเพจแทน โดยถือว่าเมื่อผู้ใช้เข้ามากดไลก์หรือคอมเมนต์ในเพจ ผู้ใช้จะกลายเป็นสมาชิกของเพจนั้นโดยทันที

Dataset ชุดนี้รวบรวมข้อมูลบนเฟซบุ๊กระหว่างเดือนมกราคม — สิงหาคม 2017
มีเพจที่รวบรวมมาทั้งหมด 254 เพจ
มีโพสต์ที่เกี่ยวข้องทั้งหมด 164,172 โพสต์
และมีจำนวนบัญชีผู้ใช้รวม 44,228,799 บัญชี

ในบรรดา 254 เพจ สามารถจัดหมวดหมู่ออกเป็น 3 กลุ่มได้แก่
1. แบรนด์ เช่น Air Asia, Toyota, ธนาคารกรุงไทย, Central
2. สื่อ ทั้งสำนักข่าว รายการโทรทัศน์ และเพจวาไรตี้เช่น The Mask Singer, 9 Entertain, ใต้เตียงดารา, คิ้วต่ำ
3. ศิลปินและค่ายเพลงเช่น Bodyslam, Boyd โกสิยพงษ์, Genie records, SPICYDISC

เพจไหนคล้ายเราที่สุด

เมื่อเราคำนวณ Jaccard Similarity ระหว่างเพจของเรากับเพจอื่นๆ แล้วเรียงตามลำดับคะแนน เราจะได้เพจที่คล้ายคลึงกับเราที่สุด ยกตัวอย่างเช่นเพจที่คล้ายกับวง Bodyslam 5 อันดับแรกได้แก่เพจต่างๆ ดังนี้

เพจศิลปิน 5 อันดับแรกที่คล้ายกับเพจ Bodyslam

จะเห็นว่าเพจที่คล้ายกับ Bodyslam จะเป็นแนวเพลงร็อกและมีค่ายเพลงของวงเองอย่าง Genie records มาด้วย
Jaccard similarity ที่คำนวณได้จะสมมาตรกันนั่นคือ score(A,B) = score(B,A) แต่ลำดับที่อาจแตกต่างกัน ยกตัวอย่างเช่นเพจที่คล้ายกับ Bodyslam ที่สุดคือเพจของวง Potato แต่เพจที่คล้ายกับ Potato ที่สุดกลับเป็นค่ายเพลง Genie records

เพจศิลปิน 5 อันดับแรกที่คล้ายกับเพจ POTATO

วิธีการนี้ทำให้เราเห็นรสนิยมของแฟนเพลงว่าชื่นชอบศิลปินที่คล้ายคลึงกันคนไหนบ้าง ตัวอย่างการเอาไปใช้ที่ตรงไปตรงมาที่สุดคือการ recommend ศิลปินที่คล้ายกันบนแพลตฟอร์มฟังเพลงออนไลน์ หรืออาจเป็นแนวทางในการหาศิลปินมา featuring หรือขึ้นเวทีร่วมกันในงานคอนเสิร์ต ในบางกรณีเราอาจค้นพบคู่ศิลปินที่มีฐานแฟนคลับร่วมกันจำนวนมาก เช่นกรณีของวงคาราบาว และปู พงษ์สิทธิ์ ที่มีคะแนนสูงโดดเด่นกว่าศิลปินอื่นๆ

เพจศิลปิน 5 อันดับแรกที่คล้ายกับเพจ Carabao Official

หากเราเป็นค่ายเพลง เราสามารถเช็กได้ว่าคนที่ติดตามค่ายเราไปเกิด engagement กับศิลปินคนไหนหรือค่ายเพลงใดบ้าง เช่นสำหรับค่าย Genie records ศิลปิน 5 อันดับแรกล้วนเป็นศิลปินในสังกัดทั้งหมด แตกต่างจากกรณีของแฟนๆ SPICYDISC ที่มี engagement สูงสุดกับศิลปินในค่ายเพียง 2 วง (Mild กับ NAP A LEAN) และไปมีปฏิสัมพันธ์กับวง Scrubb (ค่าย BEC-TERO) กับค่ายเพลงเพื่อนบ้านอย่าง Small room และ What the duck music

เพจศิลปินและค่ายเพลง 5 อันดับแรกที่คล้ายกับเพจ Genie records (ซ้าย)และ SPICYDISC (ขวา)

ในกรณีของแบรนด์ เราสามารถหาเพจที่คล้ายคลึงกันได้ด้วยหลักการเดียวกัน เช่นเพจที่คล้ายคลึงกับเพจ Air Asia ที่สุด 5 อันดับแรกได้แก่

เพจแบรนด์ 5 อันดับแรกที่คล้ายกับเพจ AirAsia

จะเห็นว่าสองอันดับแรกที่เด่นขึ้นมาเป็นเพจในเครือเดียวกับ Air Asia ด้วยกัน ในขณะที่เพจอื่นๆ ที่ไม่เกี่ยวข้องมีคะแนนน้อยไล่เลี่ยกัน นั่นหมายความว่าคนที่ไปกดไลก์คอนเทนต์ของ Air Asia ก็ไปกดไลก์คอนเทนต์ของ Air Asia Go และ Air Asia Big มากที่สุด วิธีการนี้ทำให้เราสามารถติดตามประสิทธิภาพในการสื่อสารขององค์กรเราได้ว่าแบรนด์ของเราสามารถชักชวนฐานแฟนเพจเดิม ไปติดตามเพจต่างๆ ภายใต้แบรนด์ของเราได้มากน้อยแค่ไหน

แบรนด์ x ศิลปิน

ต่อมาเราจะนำหมวดหมู่แบรนด์มาผสมกับหมวดหมู่ศิลปิน เพื่อหาว่าในบรรดาคนที่กดไลก์แต่ละแบรนด์ ไปมีปฏิสัมพันธ์กับศิลปินนักร้องวงใดบ้าง ขอยกตัวอย่าง 2 แบรนด์ที่ไม่เกี่ยวข้องกันเลยต่อไปนี้

เพจศิลปิน 5 อันดับแรก ที่คล้ายกับเพจ King power(ซ้าย) Isuzu (ขวา)

จะเห็นว่าแต่ละแบรนด์มีศิลปินที่แฟนเพจชื่นชอบแตกต่างกัน คนที่ติดตามเพจ King power มีปฏิสัมพันธ์สูงกับนักร้องแนวป๊อป ส่วนเพจรถกระบะ Isuzu จะชื่นชอบเพลงร็อกและเพื่อชีวิต ข้อมูลนี้สามารถใช้อธิบายรสนิยมของผู้ติดตามเราได้ว่าชื่นชอบเพลงแนวไหน หรือศิลปินคนใด และหากเรามีข้อมูลจากหมวดหมู่อื่นๆ เช่น นักแสดง นักกีฬา นักเขียน ฯลฯ จะยิ่งช่วยให้เราเข้าใจผู้ติดตามเราได้ดียิ่งขึ้น และอาจช่วยให้เราคัดเลือกพรีเซนเตอร์ หรือ influencer สำหรับแบรนด์เราได้ตรงใจผู้ติดตามเรายิ่งขึ้น

ทำเป็น Time series

ข้อมูลที่นำเสนอไปก่อนหน้านี้เป็นคะแนนที่คำนวณจากความสัมพันธ์รวมทั้งหมดที่มีใน dataset (ตั้งแต่เดือนมกราคม — สิงหาคม) แต่ความสัมพันธ์เหล่านี้ยังเปลี่ยนแปลงตามเวลาอีกด้วย หากเราแบ่งข้อมูลการกดไลก์ทั้งหมดเป็นรายเดือน เราจะเห็นว่าในแต่ละเดือน คะแนนและลำดับเพจจะแตกต่างกัน

เช่นสำหรับเพจวี วิโอเลต ในเดือนพฤษภาคม เพจอันดับต้นที่แฟนๆ ไปกดไลก์คือ Korea King และ Honda Motorcycle แต่พอมาถึงเดือนมิถุนายนเมื่อวีเป็นพรีเซนเตอร์ให้กับน้ำดื่มสิงห์ ปฏิสัมพันธ์ระหว่างเพจวี วิโอเลต และน้ำดื่มสิงห์ก็โดดขึ้นมาเป็นอันดับ 1 และเมื่อวี วิโอเลตไปเล่นหนังสั้นให้กับเครือเซ็นทรัลในเดือนกรกฎาคม เพจของห้างเซ็นทรัลก็แซงขึ้นมาแทน แม้น้ำดื่มสิงห์จะตกชั้นลงมาเป็นที่สองแต่คะแนนก็ยังสูงกว่าเดือนก่อนหน้าและสูงกว่าแบรนด์อื่นๆมาก
ถ้าเซ็นทรัลหรือน้ำดื่มสิงห์เลือกจ้างพรีเซนเตอร์คนใหม่ในปีถัดมา เราอาจใช้วิธีการนี้เปรียบเทียบได้ว่าการเลือกพรีเซนเตอร์แต่ละคน ทำให้ engagement ระหว่างแบรนด์เรากับตัวพรีเซนเตอร์เพิ่มขึ้นมากแค่ไหน โดยวัดผลออกมาเป็นตัวเลขได้ชัดเจน

เพจแบรนด์ 5 อันดับแรก ที่คล้ายกับเพจ วี วิโอเลตในเดือนพฤษภาคม(ซ้าย) มิถุนายน(กลาง) กรกฎาคม(ขวา)

เพจเชื่อมต่อกันเป็นเครือข่าย

ยัง เรายังไม่จบแค่นั้น สิ่งที่เราทำต่อมาคือการสร้างกราฟเครือข่ายของเพจ จากคะแนนที่เราคำนวณได้ กำหนดให้จุดหนึ่งจุดหรือ node คือเพจหนึ่งเพจ เส้นเชื่อมระหว่างจุดคือ Jaccard similarity ที่คำนวณได้ระหว่างคู่เพจนั้น

เมื่อเราคำนวณ Jaccard similarity ระหว่างทุกคู่เพจ เราจะได้เครือข่ายของเพจเฟซบุ๊กที่เราสนใจขึ้นมา

ในรูปด้านล่างนี้ระดับคะแนนแทนด้วยความหนาของเส้นเชื่อม คะแนนยิ่งมากเส้นเชื่อมยิ่งหนา เพื่อไม่ให้กราฟยุ่งเหยิงจนเกินไปเราจะแสดงเส้นเชื่อมที่มีคะแนนสูงเป็น 5 อันดับแรก (Top 5) ของแต่ละเพจเท่านั้น

เพราะ​ฉะนั้นทุก node จะ​มี​เส้น​เชื่อม​อย่าง​น้อย 5 เส้น และ​ถ้า​เพจนั้นไปติด Top 5 ของ​เพจ​อื่น​ด้วยก็​จะ​มี​เส้น​เชื่อม​เพิ่ม​ขึ้น​ตามมา

กราฟของเพจในกลุ่มสื่อ แต่ละ node แทนเพจ 1 เพจ

เพจคล้ายกัน จะเกาะกลุ่มกัน

ต่อมาเราจะหา community ที่เกิดขึ้นในเครือข่ายด้วยวิธี Louvian method วิธีการนี้จะช่วยเราหา community ในกราฟที่ทำให้มีเส้นเชื่อมหากันเองระหว่างสมาชิกภายในกลุ่มหนาแน่น ในขณะที่เส้นเชื่อมข้ามกลุ่มเบาบาง

ผลของการหา community ด้วย Louvian method

กราฟข้างบนคือเครือข่ายของเพจในกลุ่มสื่อ จะพบว่ามี community เกิดขึ้น 3 กลุ่ม กระจุกสีน้ำเงินมีความสัมพันธ์กันแบบหลวมๆ (มีแต่เส้นเชื่อมบาง) ต่างจากกระจุกสีเขียวและส้มที่โยงถึงกันด้วยเส้นเชื่อมหนา สมาชิกในแต่ละกลุ่มไล่เรียงออกมาได้ดังนี้

รายชื่อเพจในกลุ่มสื่อของแต่ละ community

จะเห็นว่ากลุ่มสีน้ำเงินเป็นรายการข่าวบันเทิงเกือบทั้งหมด ส่วนสีส้มเป็นเพจดราม่าสายอารมณ์ ส่วนกลุ่มสีเขียวนอกจากจะมีรายการข่าวบันเทิง ยังมีสำนักข่าวอย่างมติชน ข่าวสด และประชาชาติอยู่ด้วยกัน แม้กลุ่มสีเขียวจะมีเพจหลากหลายประเภทปะปนกัน แต่เมื่อเราให้ขนาดของจุดแทนด้วยจำนวนยอดไลก์ของเพจ จะเห็นได้ว่ากลุ่มสีเขียวล้วนเป็นกลุ่มสื่อที่แมสและมีผู้ติดตามจำนวนมาก (1 ล้านขึ้น) ในขณะที่กลุ่มสีน้ำเงินเป็นเพจขนาดเล็กที่มีผู้ติดตามหลักแสนเท่านั้น

กราฟของกลุ่มสื่อ ขนาดของ node แทนจำนวนยอดไลก์ของแต่ละเพจ

ต่อมาเราทำวิธีเดียวกันกับเพจในกลุ่มศิลปินและค่ายเพลงดูบ้าง จะได้เราจะได้สมาชิก (บางส่วน)ในกลุ่มต่างๆ ดังนี้

community บางส่วนที่พบในกราฟของศิลปิน

จะเห็นว่าศิลปินแนวเดียวกันจะเกาะกลุ่มอยู่ด้วยกัน และศิลปินส่วนใหญ่จะอยู่กระจุกเดียวกับค่ายเพลงของตนเอง (หรือค่ายเพลงที่แนวเดียวกัน) สีส้มขอเหมารวมว่าเป็นกลุ่มนั่งชิล สีเขียวเป็นกลุ่มชาวร็อก สีแดงเป็นป๊อบฟังสบาย ส่วนสีน้ำตาลส่วนใหญ่ก็คือศิลปินค่ายเบเกอรี่ดีๆ นี่เอง

ทั้งหมดทั้งมวลนี้ช่วยยืนยันกับเราว่า Jaccard similarity สามารถใช้วัดความคล้ายคลึงระหว่างเพจได้ นอกจากจะหาเพจเดี่ยวๆ ที่คล้ายคลึงกันได้แล้ว ยังสามารถหากลุ่มของเพจที่มีลักษณะคล้ายคลึงกันได้ โดยถอดจากปฏิสัมพันธ์ของผู้ใช้งาน

เพจไหนติด Top 5 บ่อย

ต่อมาเราจะหาเพจยอดนิยมที่มักจะติด Top 5 ของเพจอื่นๆ นั่นแสดงให้เห็นว่าเพจนี้เป็นผู้มีอิทธิพลในเครือข่ายที่เป็นตัวกลางเชื่อมกับคนจำนวนมาก วิธีการวัดที่เหมาะสมกับกรณีนี้ที่สุดคือวัดด้วย degree centrality ซึ่งคิดจากดีกรีหรือจำนวนเส้นเชื่อมที่เชื่อมกับ node ที่เราสนใจเทียบกับจำนวน node ที่เหลือทั้งหมดในกราฟ

ตัวอย่างการคำนวณ degree centrality ในกราฟ

เนื่องจากจำนวน node ในกราฟจะคงที่ตลอด ค่า degree centrality จึงแปรตามดีกรีหรือจำนวนเส้นเชื่อมที่เชื่อมกับ node นั้นโดยตรง ยิ่งมีเส้นเชื่อมมากค่า degree centrality ก็ยิ่งสูง

สำหรับเพจที่มีค่า degree centrality สูงสุดสามอันดับแรกในกราฟได้แก่ Genie records, What the duck music และ SPICYDISC ซึ่งไม่น่าแปลกใจที่เป็นค่ายเพลงทั้งหมด เพราะค่ายเพลงเป็นตัวกลางที่เชื่อมศิลปินแต่ละคนเข้าด้วยกันอยู่แล้ว ค่ายเพลงแต่ละค่ายติด Top 5 ของศิลปินวงใดบ้าง แสดงในรูปด้านล่าง

เพจ 3 อันดับแรกที่มีค่า degree centrality สูงสุดได้แก่ Genie records, What the duck music และ SPICYDISC รายการเพจด้านล่างคือเพจที่เชื่อมกับค่ายเพลงนั้นๆ แถบสีแสดงศิลปินที่อยู่ในค่ายเพลง

จะเห็นได้ชัดว่าค่าย Genie records ติด Top 5 ของศิลปินในค่ายเยอะที่สุด ต่างจากอีกสองค่ายที่เหลือที่มีศิลปินค่ายอื่นอย่าง BEC-TERO Music หรือ small room ปะปนมาบ้าง แสดงให้เห็นว่าแฟนเพจของศิลปินค่าย Genie records นอกจากจะมีปฏิสัมพันธ์กับตัวศิลปินแล้ว ยังมีปฏิสัมพันธ์กับทางค่ายเพลงต้นสังกัดสูงอีกด้วย (และนั่นจะเป็นโอกาสให้การโปรโมตศิลปินคนอื่นในค่ายทำได้ง่ายขึ้น)

ถือเป็นโจทย์ของทาง What the duck music และ SPICYDISC ต่อไปว่าจะหาทางโปรโมตค่ายของตนผ่านศิลปินในมือได้อย่างไร หรืออาจเป็นโอกาสอันดีในการจับมือกับศิลปินค่ายอื่นที่มีปฏิสัมพันธ์กับค่ายเราบ่อยๆ ก็คงจะน่าสนใจไม่น้อย

ลองไปใช้กับ dataset อื่น

อย่างที่เกริ่นไปก่อนหน้านี้ว่า ข้อมูลชุดนี้มีแค่ 254 เพจ จาก 3 หมวดหมู่เท่านั้น หากเรารวบรวมเพจในหมวดหมู่อื่นๆ อีกจะยิ่งช่วยให้เราเห็นภาพชัดขึ้นว่า ณ ชั่วขณะหนึ่งคนที่ติดตามเพจหนึ่งอยู่ กำลังสนใจเรื่องอะไรบ้าง เราอาจนำข้อมูลเหล่านี้มาใช้ทำการตลาด หาพรีเซนเตอร์ที่เหมาะกับแบรนด์ หรือหาช่องทางในการทำคอนเทนต์ที่ตรงใจผู้ติดตามเราที่สุด หากมองให้กว้างขึ้นอีกเราอาจใช้วิธีการนี้ติดตามว่า ณ ขณะนั้นกระแสสังคมกำลังสนใจเรื่องอะไรกัน ไม่ว่าจะเป็นตัวบุคคล แบรนด์ ภาพยนตร์ หรือสถานที่ท่องเที่ยวก็ยังได้

ยิ่งในปัจจุบันที่เฟซบุ๊กมี reaction หลากหลายให้กดทั้ง like, love, sad, wow, haha, angry น่าจะมี insight ที่ละเอียดขึ้นและน่าสนใจยิ่งกว่านี้

ข้อควรระวัง

  • นี่ไม่ใช่ data ทั้งหมด! ในอาณาจักรเฟซบุ๊ก อาจมีเพจที่คะแนนสูงกว่านี้ ความสัมพันธ์เหนียวแน่นกว่านี้ แต่เราไม่ได้เอามาคิด เพราะเราไม่รู้จักมัน ควรเช็กให้ชัวร์ว่าเรารวบรวมเพจในกลุ่มที่เราสนใจได้ครอบคลุมแล้ว
  • การคำนวณ Jaccard similarity score ในลักษณะนี้ยังไม่ได้คำนึงถึง ความถี่ของการกดไลก์โดยผู้ใช้งานแต่ละคน และจำนวนของโพสต์ในแต่ละเพจ มีวิธีการคำนวณ Jaccard similarity ที่คำนึงถึงความถี่ของปฏิสัมพันธ์เช่น Weighted jaccard distance แต่เมื่อทดลองดูแล้วได้ผลไม่แตกต่างกันมาก จึงเลือกแนวทางที่ซับซ้อนน้อยกว่า
  • โปรเจ็กต์นี้ยังไม่ได้ตัดโพสต์โฆษณาที่จ่ายเงินมาเพิ่ม engagement โพสต์เหล่านี้จะมีผู้ใช้เข้ามากดไลก์จำนวนมากแค่โพสต์นั้นโพสต์เดียว โดยผู้ใช้อาจไม่ได้สนใจในตัวเพจจริงๆ เราอาจแก้ปัญหาโดยการตัดโพสต์เหล่านี้ออก หรือเลือกเก็บเฉพาะปฏิสัมพันธ์ที่เกิดขึ้นบ่อยๆ (เช่นจากผู้ใช้ที่กดไลก์มากกว่า 5 ครั้ง เป็นต้น)
  • เพื่อความรวดเร็วในการประมวลผล การคำนวณ degree centrality ตัดปัจจัยที่สำคัญอันหนึ่งมากทิ้งไป นั่นคือคะแนน (weight) ของเส้นเชื่อม ซึ่งอาจส่งผลต่อค่า degree centrality ของทุก node ในกราฟ

Acknowledgement

โปรเจ็กต์นี้เป็นโปรเจ็กต์ที่ทำในโครงการ Data Cafe Fellowship Program ซีซั่นแรก โครงการนี้เป็นโครงการปั้นคนทำงานด้านข้อมูล โดยมีจุดขายคือเน้นการลงมือทำกับข้อมูลจริง และมี mentor คอยให้คำแนะนำตลอดโครงการ สำหรับโปรเจ็กต์อื่นๆ ในโครงการ data cafe ติดตามได้ที่ The Matter

ข้อมูลเฟซบุ๊กที่ใช้ในโปรเจ็กต์นี้รวบรวมโดยทีมงาน data cafe การรวบรวมข้อมูลชุดนี้ แม้จะใช้บอตเก็บมา แต่ก็ไม่ต่างจากการที่เราไล่กดดูทุกโพสในเพจที่เราสนใจว่ามีใครกดไลก์หรือคอมเมนต์บ้าง และจดบันทึก id เก็บไว้ ข้อมูลชุดนี้ซ่อน id ของผู้ใช้แต่ละคนไว้เรียบร้อยแล้ว ทำให้ไม่สามารถระบุได้ว่าผู้ใช้เป็นใคร และการได้ข้อมูลชุดนี้มา ไม่ได้เกิดจากการแฮ็กบัญชีผู้ใช้คนใด

สุดท้ายนี้หากใครมีคำถามหรือคำแนะนำเพิ่มเติม คอมเมนต์ไว้ใต้โพสต์นี้ได้เลยครับ :)

--

--

New Naveen

Data Scientist at Infinitas by Krungthai, Science Blogger, Marathoner and Hamster Lover