熱門回應的配方

Dcard Tech
Dcard Tech Blog
Published in
11 min readDec 12, 2016

過去五年來,狄卡逐漸成為大學生分享日常生活故事的一個重要場所。。在這裡,透過文章與回應,分享故事的人與讀者產生了連結。唐太宗說:「以人為鏡,可以明得失。」文章下方的回應往往能激發作者與讀者之間的火花,創造出最引人入勝的內容。

狄卡提供一個功能,讓讀者看到喜愛的回應時,可以按愛心表示認同。特別受歡迎的內容會被額外放在文章的熱門回應區塊內,這個區塊裡的內容,不但可以說是一篇文章迴響的指標,因為被放在一般回應的上方,它們還特別受到矚目。對狄卡人來說,創造一個經典回應的成就感,絲毫不亞於分享一篇熱門故事的滿足。

狄卡上的熱門回應區塊

那麼,究竟要怎麼樣才能擠身熱門回應之列呢?

樣本

我們選用2016年6月至8月的文章作為本次分析的樣本。使用最近一季的文章讓我們有與現在文化相近、數量充足的內容;排除最新兩個月的文章則可以避免樣本中包含還在持續討論、尚未穩定的資料。

由於至少要有 10 個愛心才能成為熱門回應(狄卡熱門回應的定義是:擁有愛心數 10 個以上,愛心數最多的三篇回應),所以並不是每一篇文章下都有熱門回應區塊。 6月至8月的文章共有 48,551 篇符合條件,這給了我們 1,911,563 則回應可以用作分析。

本次的分析我們將從後設資料(metadata)下手,找出決定熱門回應的要素。所謂後設資料,指的是諸如回應的作者、發表時間、樓層數、文字長度等這類「資料的資料」。至於回應的內容本身,則不在我們這次分析的範疇之內。

時機、時機、時機

從時間切入我們的樣本,可以發現狄卡上的回應多在中午過後發表,高峰是晚上十點至隔日凌晨一點。午夜是命運女神寄送卡片的時間,也是狄卡最熱鬧的時候。不過,若細分熱門與一般回應,會發現兩者的時間分布幾乎沒有差異。這意味著,並沒有一個特殊的「人氣時段」,可以讓選在這個時段發表的回應更容易獲得人氣。

熱門回應與一般回應的發表時間分布圖

不過,這並不代表從時間下手是死路一條。我們可以從發表時間衍生出其他與時間相關的要素,例如發送回應的時機也是一個值得考慮的變量。距離文章發表時間後愈接近的回應,或者說是樓層比較低的回應,會不會更容易得到大家的青睞?

答案是肯定的。

相較於所有的回應,熱門回應明顯更集中在低樓層、早發表的群集中。在不納入熱門回應的情況下,文章發表後兩個小時內出現的回應數量約占所有回應的 14%,然而,同樣的數字在熱門回應中卻是驚人的 80%。換句話說,在熱門區塊中的回應,有八成都是在文章出現後兩個小時以內發表的。同時間,熱門回應在樓層的分布也是明顯的右偏,90% 的熱門回應出現在前十樓。就算限制在回應數超過 200 則的文章,前十樓的佔比依然高達 81%。

在探索熱門回應配方的旅途中,我們得到了第一個發現:在文章出現後兩個小時以內、前十樓發送的回應,有非常高的比率可以登上該篇文章的熱門回應。

文章回應間隔時間和樓層的分布

我們還可以觀察到另外一個特別的現象。在兩小時內的高峰結束以後,回應的數量會在第三個小時突然銳減後再逐漸緩慢上升,到第 36 小時出現第二個高峰之後又陡然下降。文章發表一旦超過了 36 小時後就幾乎不會有任何新回應。回應的發表時機分布乍看之下十分類似失效率和死亡率研究中常見的浴缸曲線

這個現象的成因是因為狄卡有一個 36 小時內的熱門文章列表和一個按照文章發表時間排序的最新文章列表,這條浴缸曲線其實是兩個密度函數組合的結果。

在發表後最初的兩個小時中,文章可以很容易的在最新文章列表中被發現,產生大量的回應。隨著文章的年齡增長,在最新列表逐漸下沉離開常被瀏覽區段的同時,文章如果已經匯集了足夠人氣,則可以在熱門列表上獲得新的能見度,並在熱門列表中逐漸爬升,吸引更多的目光和激發更多的回應。但是一旦超出 36 小時的時限,文章從熱門列表消失,討論的熱度即迅速消退。儘管狄卡會在文章每次出現新回應時發送通知給所有曾經參與討論的使用者,但是從這裡可以發現,通知對於吸引討論人潮的能力遠不及文章停留在列表中有效。

不過,浴缸曲線並沒有在熱門回應的分布中出現,表示文章雖然會在熱門列表中逐漸吸取更多的人氣,但是一開始就出現的熱門回應卻往往能夠持續雄踞在回應的熱門區塊當中,不斷獲得更高的愛心數。

一張圖勝千言萬語

除了時間是一個很重要的解釋變數以外,在瀏覽狄卡的過程中,也很容易發現熱門回應中有不少回應的內容是圖片而不是文字。我們可以用同樣的分析方法,檢視圖片是否是另一個構成熱門回應的要素。

在我們的 1,911,563 篇回應樣本中有 3.41% 含有圖片。如果圖片不是一個重要的因子,那這個比例在一般回應和熱門回應中應該類似;反之,則暗示圖片很可能是一個重要的差異。那麼結果如何呢?熱門回應有包含圖片的佔 7.08%,一般回應則只有 3.23% 包含圖片;從另一個角度看,含有圖片的回應裡有 9.68% 是熱門回應,同樣高於文字回應中 4.48% 是熱門回應的比例。

將回應依照有無包含圖片區分後一般回應與熱門回應的組成比例

這樣的差異很明顯地告訴我們圖片與熱門回應之間有著關聯性──包含圖片的回應比較有可能是熱門回應──但是此時我們還不能排除這其實只是時間在背後的影響:或許比較早發表的回應有比較高的比例含有圖片,較晚看到文章的人因為梗圖被用掉了,所以後出現的回應含有圖片的比例比較低。

檢查樓層與每層樓圖片回應佔比兩者的關聯性可以幫助釐清這個疑惑。在前 50 樓,圖片出現的比例與樓層數一同升高,有正向的關聯性,愈接近 50 樓的回應含有圖片的機率愈高;50 至 250 樓之間,兩者之間有略為的負相關,愈高的樓層愈不容易有圖片回應;250 樓以後,圖片出現比例和樓層之間就沒有呈現任何顯著的關聯性。

回應樓層與各樓層圖片回應所佔的比例,每一點代表一層樓

這與我們先前的假設並不符合。除了 50 至 250 樓以外,回應含有圖片的比例和樓層數都不是負相關,在熱門回應集中程度最高的前十樓,兩者甚至是高度正相關。同時,當我們控制時間以後(篩選前十樓內出現的回應),熱門回應中有無圖片的比例依然懸殊:含有圖片的回應有 38% 是熱門回應,文字回應則是 17%。顯見圖片是時機之外,另一個解釋熱門回應成因的重要變數。

話題

加上校版,狄卡有超過一百個以上的各式看版,每個看版不只討論的話題不相同,還多有自己的文化與風格。這值得讓我們將剛才的發現結果細分成不同看版,因為讀者與回應的互動在不同看版之間也有可能大相徑庭,或許在某些看板中,回應發表的先後順序、有沒有圖片,並不會影響得到愛心的可能性。

在我們下鑽資料到看版層級時要小心樣本數不足的問題。隨著群集劃分得愈來愈細,每一個群集內的樣本數可能會在我們不注意的情況下減少到讓分析結果失去意義的程度。因此,我們只挑選 2016年6月至8月間有五百篇文章以上的看版,確保每一個群集都有充足的樣本數。

我們先前的假設在依照看版細分後得到了證實,不同的看版確實有不同對話方式。寵物、星座、手作是三個發表了「文章發表後兩個小時以內送出、前十層樓、含有圖片」這樣的回應後,最有可能上熱門的看版,皆有超過 60% 的機率;中原大學校版、時事、工作是(五百篇文章以上)三個機率最低的看版。但即使如此,在這三個看版發表滿足條件的回應依然有三分之一左右的機率可以進入熱門區塊,遠高於未滿足條件情況下的 4%-6%。

依照是否符合「文章發表後兩個小時以內送出、前十層樓、含有圖片」條件區分,各看版的回應組成比例

不過,這並不代表在每個看版中、每篇文章裡的熱門回應區塊都給「文章發表後兩個小時以內送出、前十層樓、含有圖片」的回應佔滿了。例如在星座版,發表滿足上述條件的回應有 67% 的機率上熱門,是所有(五百篇文章以上)看版的第二名。但是在星座版的所有熱門回應中,這類型的回應卻僅佔 0.59%,平均每 170 則熱門回應才會有一則符合條件。

「前十樓、文章出現後兩個小時以內出現、含有圖片」的回應在不同看版佔熱門回應的比例

這樣的結果表示,雖然程度不同,但是在狄卡上的各個看版內,早發表、有圖片的回應往往比較受到歡迎。不過,各個看版的生態卻各異其趣,這類型的回應並不是在每個看版的文章中都很常見,或許在某些主題,透過文字、花點時間沈澱想法,是更吸引人的交流方式。

男生女生

最後談到性別。在狄卡的介面上,發送的回應會根據作者的性別顯示不同顏色的圖示區別,男、女的差異頗為醒目。加上狄卡有許多圍繞兩性、戀愛話題的討論內容,因此在探討熱門回應的成因時,性別也是一個不容忽視的要素。

以性別區分,我們樣本中的熱門回應作者是女生的數目是男生的 1.25 倍,乍看之下女生發表的熱門回應比較多。不過雖然狄卡的使用會員男、女人數接近(樣本中文章作者的男、女比為 1:1.125),但是女生回應文章的次數卻遠多於男生,約是男生的 1.5 倍。所以依照比例來看,實際上男生的回應中熱門回應佔 5.2%,略高於女生的 4.3%,顯示男生有比較高的機會創造出熱門回應。

將回應依照作者性別區分後熱門回應與一般回應的組成比例

我們也可以結合前一段所提的看版文化差異,檢視男、女回應的熱門程度在不同看版之間的差異。這裡的情況與狄卡整體的情況類似,除了西斯、成功大學校版、中原大學校版是特例以外,其他所有(五百篇文章以上)的看版都是男生的回應比女生吃香,顯然藍色的頭像有著特殊的魅力。在差異最大的時事版,男生的回應上熱門的比率較女生高出 63%,或是 2.12 個百分點

依照看版區分後,男生回應上熱門相較於女生提升(下降)的機率

普遍來說,在回應這檔事情上,男生的人氣明顯要比女生來的高。不過我們沒有足夠的證據知道,這是來自於頭像的差異(讀者喜歡男生寫的回應),還是文字表達的不同(讀者喜歡男生的回應內容)。其次,性別對熱門回應的差異雖然顯著,但是比起我們先前調查的其他變數,影響程度卻輕微的多。即使女生在寵物版撰寫熱門回應的的機會比男生低了近四成,但是女生在寵物版上熱門回應的機會(6.61%)還是高於男、女差異不到一成的星座版(4.70%)。

到這裡,我們得到熱門回應的勝利方程式了!

要成功站上熱門回應頒獎台,在新文章發表之後的兩個小時以內、前十層樓回應、並且加上一張應景的圖片最有機會。如果妳是女生,在寵物和星座版回應可以最大化熱門回應的機率,如果你是男生,恭喜,你成為熱門回應的機會本來就比較高。滿足了這些條件,一篇回應約有 52.82% 的機會在熱門回應區塊中閃耀,相較沒有篩選時的 4.66% ,有超出十倍以上的成長。

當然,在這個簡單的分析中我們並沒有找出所有影響熱門回應的因子,只解釋了大約一半的成因。剩下的部分,可能跟我們沒有探討到的回應內容本身有很大的關係,譬如:內容是否詼諧、觀點是否清晰、文筆是否優美等。要攻克這剩下的 50%,我們或許只能從繆思那兒尋求解答(在 Twitter 上 @馬修·貝勒米可能有幫助,可能沒有)。

另一方面,雖然我們只用了非常簡單的分析方式,並沒有使用諸如羅吉斯迴歸決策樹貝葉斯分類器等進階的研究方法,但是從我們得到的結果依舊可以得知,狄卡的現況是先到者的意見很容易壟斷熱門回應的內容。

在狄卡,我們的目的是讓每一個述說故事的人,不論是在文章中、還是回應裡,都可以找到一個發光發熱的舞台。如何讓比較晚發聲的意見也能被聽見、被看見、被了解、被討論,創造更多元的聲音,將是我們持續不斷努力的方向。

David 是狄卡的資料工程師,正努力的想方法在前十樓回應

Dcard 廣大徵才中唷!
心動的朋友歡迎加入Dcard成為我們的夥伴請到 👉🏼https://join.dcard.today/

--

--