Python機器學習應用-【AI上字幕】與【情感分析】個案!(附程式碼與Demo)

行銷資料科學
Marketingdatascience
6 min readJan 22, 2019

AI上字幕?什麼東西?

我們先別管什麼叫做【AI上字幕】,直接來看看案例吧!

案例情境1 — 動畫影片製作

我們就以某數位媒體 — 影片製作個案為例,其個案的資訊如下:

  1. 產品:行銷用之影片(包含動畫等多元商業影片)
  2. 通路:網路媒體為主
  3. 價格:人工影片字幕 NT 6,000–10,000 / 1小時
  4. 銷售:基於影片及字稿時效性,對象須節省時間,上架影片或字稿
  5. 難題:
  • 台灣觀眾普遍喜愛有上過字幕的影片,但人工上字幕相對無生產力,也不希望團隊將時間損耗在字幕上。
  • 如與字幕外包商一來一往通常就要1–3天的工作天,如遇週五時段外包,更又多浪費2天的時間。
  • 對於影片製作商來說,時間就是金錢,一支少2–3天的發表時間的影片,等於至少要短缺$7,000–10,000 元的營收。更遑論每個月平均產出20支影片所造成約$140,000–200,000元短缺的營收金額。

可交付成果1 — 影音檔

經過多方嘗試, 最終使用Python完成本案!並產出重要的可交付成果:影音檔與字幕!

圖1顯示 64秒的影片僅花一半,約29秒的時間就完成辨識!同樣的,如果擁有1小時的影片,即僅需要花約一半(30分鐘)的時間就可以完成AI上字幕,再者,這一半的時間是電腦自動進行AI上字幕,所以我們就可以充分利用這一半的時間,做其他有生產力的事情!

AI上字幕的這一半的時間具體來說做了什麼?(本範例的29秒或30分鐘)

  1. 完成AI上字幕的srt檔,為客戶提供不同播放器及線上串流字幕通用檔
  2. 產出影片語音檔(wave檔),供客戶在不同場合使用語言檔
  3. 產出逐字稿(docx)與字詞改善矩陣(xlsx)
  4. 產出情緒分析與重要字詞文件(docx)
  5. 這段機器學習的時間內,人類還可以做其他更有生產力的事情~!
圖1. 64秒的影片僅花29秒就完成,共產生了5種成果

以下動畫影片則為我們其中之一的範例檔案,歡迎大家到下述的youtube影片點擊觀看成效!

圖2. 讀者可很清楚看到機器AI自動產生的字幕與人工產生相差無幾,僅差一些時序上及斷字上的優化

光看圖片不準,讓我們來看看影片範例吧!

觀看影片前,提醒讀者將字幕打開

然後將機器AI自動產生的字幕以鼠標向上移動,這樣就可以看清楚上下兩字幕囉!

動畫影片AI字幕demo

如果對影片內容及感興趣,可以參考:

用 Python 打造自己的股票小秘書課程網址

https://hahow.in/cr/stock-secretary

觀看完影片後,大家其實可理解現今機器學習雖不能100%「取代」人類,但至少節省了人類大約75%-85%的工作時間,相對提供人類一個不錯的解決方案!

可交付成果2— 字幕檔

字幕檔也(圖3.)會理所當然的由Python結合機器學習完成哦!

圖3. AI字幕檔

可交付成果3—情緒分析與重要字詞文件

除了AI自動上字幕與srt字幕檔外,我們亦為本個案提供自動生成之逐字稿(docx)、文字雲與字詞改善矩陣(xlsx),供內、外部人員修改做參考~!

可交付成果3 — 情緒分析與重要字詞文件

最後,我們還特別製作情緒分析及字詞重要性文件,讓管理者能夠以重要性分析及情緒分析,判別文章中重要字詞,作為改善策略。該部分尤其受到客服產業重視,讓我們稍微換個思考模式,其實就可發現情緒分析與重要字詞可以當作顧客的反饋,進而改善客服策略

假設來說(見圖4):我們使用情緒分析與字詞重要性搭配後,可以快速看出客服當天的幾個用戶在【興趣】上明顯是呈現負面的狀況(圖4.左圖負面字詞),並且對於【宗教】先相關議題非常的反感(圖4.右圖的重要性分析)。所以客服單位即能找出該位客服人員在回答用戶上不適當的地方,立即提醒該客服人員不該提及敏感的宗教議題,而不造成用戶反感~!

圖4. 假設某客服人員回答用戶問題時,與用戶交流時所產生的負面字詞與重要性

或許有人會說:【這僅是動畫影片製作而已! 如何換成真正的課堂或訪問影片呢?】

案例情境2 —線上課程影片製作

我們就直接來看看課堂影片AI上字幕的成果吧!我們以【用 Python 打造自己的股票小秘書】的範例課程中,可以發現字幕效果非常不錯,這也證實了AI上字幕的確切效果!

結語

能做到自動化上字幕的方法,對數位媒體產業,必定能夠節省大量時間,並且能夠加以利用寶貴的時間去創造更大的價值。在資訊蓬勃發展的時代,這樣的自動化工具在數位媒體產業必然有極其可觀的市場。

不過,這一福音不該只在數位媒體業中被利用,則應該讓對字幕或逐字稿有需求者使用,不必再花費無謂的時間與精力在機器能一鍵做到的事情上。所以我們在整合多方的需求後,推出了一套相關的課程,如果您有該方面的困擾與需求,希望能夠了解更多關於「自動化上字幕」的資訊,歡迎點擊下方連結(程式碼附於最後)

作者:鍾皓軒(臺灣行銷研究有限公司 創辦人)

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

您可能有興趣:

附上Python部份程式碼:

附上專案實做部份程式碼,歡迎參考!

--

--

行銷資料科學
Marketingdatascience

Marketing data science. 台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。粉絲專頁:https://www.facebook.com/MarketingDataScienceTMR