人工智慧與工人智慧如何協助判斷粉絲團屬性與標籤?

人的判斷是最準確的,因為人可以考慮的事相當細微,但也是最不準確的,因為人能夠考慮的事相當有限,因此透過人工智慧/演算法的延伸建議,加上工人/眾人智慧的決策往往是最有價值的。

在 “專頁儀表板” 的開發時,就已經預設會把粉絲團專頁貼標籤,只是要把上萬個粉絲團貼標籤談何容易,但這又是相當重要的事,為甚麼呢?

  1. 粉絲團的屬性相差很大,若沒有做區隔與聚焦,是無法比較參考的。
  2. 粉絲團的屬性應該不只一種,因為很多事情不可能夠只靠單一角度來聚焦,甚至有些臉書的分類有時就很模糊,有時確很精確到很難適從,就像是寵物用品店是屬於地方商家,寵物服務還是寵物資訊?
  3. 除了類別外,更希望能夠知道其立場,甚至 “議題方向”,就像是一開始的確就刻意挑出性別相關的粉絲團,除了跟宗教有一定關聯外,更想知道的是知道這些是 “萌萌”,那些是 “同同”。
  4. 能否透過專頁儀表板能夠趨近與探知 “民意” ,是除了做出給社群編輯一個很好工具外的另一件很重要的目標。

只是貼標籤這事情有這麼簡單嗎?我通常會把 “工人” 的操作分成幾個不同層次的困難點:

  1. 點擊確認 (1x):最簡單的方式就是確認這個選項是不是對的。
  2. 選項(3x):瀏灠幾種可能性選擇出最有可能的。
  3. 問答輸入(10x):若是有已知的題目,輸入答案當然比較辛苦一些。
  4. 閱讀(20x):若本身對這題目不熟,還須要閱讀去找答案時。
  5. 搜尋(30x):當然若是不知道答案,只好去搜尋,此時的工就差很多了。
  6. 發想(50x):最困難的是連問題與答案都不知道,要去發想時困難度會最高。

就像前面所說的,人工智慧/資料探勘最大的好處就是能夠較完整,或是較延伸的方式去找到可能性,但有時準確度須要一定的調校與訓練,這才是最麻煩的,若是靠系統與演算法去做搜尋可能性,最後讓人去做選項或確認,就可以大幅降低對 “工人/人力” 的須求,甚至能降低人對背景知識的不足。

因此在專頁儀表板在做標籤時,就做了幾套系統讓工作人員只要點擊確認及找出選項就好,盡量避免之後的輸入,閱讀,搜尋。

0. 若工作人員本來就知道這粉絲團就可以直接點擊確認,但若能夠把這幾種 可能性變成只是兩三個點擊完成。

  1. 從標題與描述做簡單的字串判斷,事實上這成功率只有 20%,但有時已經簡化不少可能性,計算速度極快。
  2. 抓取這粉絲專頁按讚的關係,被按讚的關係,通常這關係是具有相同標籤的才會有,這準確度可達 70% 以上,但有些類似的粉絲團是屬於競爭關係,反倒是算不出來,只要靠既有資料庫及多抓一次 API 資料就做得到。
  3. 抓取這粉絲專頁文章,從語意做判斷,尤其是找出類似的粉絲團有那些,通常透過語意關連會結合類似議題,類似立場,類似用語的粉絲團,也是從類似粉絲團找到標簽,這個較為複雜,因為抓文章與計算往往須要 5~15 秒,這準確度也可以到 80% 以上。
  4. 既然抓到文章了,就可以知道分享的粉絲團,因此也可以從粉絲團分享的屬性做判斷,而這個只須要抓文章就好,所以是在 3 秒內可以完成,準確度也可以到 70% 的,只是如同用按讚分析,覆蓋率較低。

上面大家可以發現一件事,往往計算越久會越準確,覆蓋率可能性也會提高,但從瞬間,但抓一次 API,到抓文章,到比對,各有其時間須求,這些都可以做為計算出 “候選可能性” 做為給再一次人的選擇。

重點是如何把上面的事情給自動流程化,讓工作人員之後只要靠點擊確認就可以,這樣不只把判斷精準度提升,更可以加快效率。

而專頁儀表板的確有這樣的前後台,在這邊我們做個範例好了,像在專頁儀表板討論到藍色力量,雖然系統無法從 “藍色” 就決定是泛藍,但我們來看其有按讚的粉絲團是那些:

從這邊就可以看到其分布大概是如此:

也就是這個粉絲團從按讚與被按讚的,都是泛藍相關的,所以系統後台就會出現:

上面這個是大家看不到的後台,大家就會發現算出來的前兩名就是被人確認的前兩名,幾乎是完全準確,甚至我們來看文字雲圖:

其文字雲跟其他粉絲團交疊出來的結果是:

從這邊就可以看得出來就議題相近的粉絲專頁準確度甚至比按讚的還準確,若是加總會變成這樣:

我想到這邊應該沒人敢否認這個粉絲團是泛藍社論與否了。

這邊只是一個範例,事實上這些演算法背後有很多細節來增加其準確度,包含過濾錯誤的資訊,當然這個粉絲專頁比較好判斷,不用計算就可以知道,但相對的有些是人力無法判斷或是很難判斷的,這邊就可以用輔助的方式派上用場了。

當然這樣的標籤是個輔助系統,甚至是再延伸,再利用,這邊還沒有提到如何去 “擴展” 那些粉絲團可以標上這個標籤,這個演算法就有機會再說了。