RPA 功能教學:一鍵爬蟲抓資料 UiPath Table Extraction

Tzu Hsuan Wang
Aiworks
Published in
6 min readAug 21, 2024

在學習 RPA 過程中,我們常會對 UiPath 等軟體的各項功能、參數感到混亂,因此本文將會針對這些功能參數進行教學,和大家介紹什麼是「Table Extraction」功能。

有些初學者可能對「爬蟲」(web crawler)不熟悉,簡單來說,爬蟲是設計一個程式機器人,使其按照一定的規則自動抓取網頁上的資訊,協助使用者快速查詢,並進行後續分析討論。爬蟲的應用相當多元且便利,而我們也可以透過 RPA 來進行爬蟲, UiPath 更有 Table Extraction 功能可讓我們快速抓取網頁資訊!

Table Extraction 功能簡介

Table Extraction 為 UiPath 內建功能,我們可透過此功能將想抓取的網頁資訊,一列一列自動抓取到想儲存的地方,也可透過相關設定,讓 RPA 持續換頁抓取所需要的內容並調整數量。

不同於我們之前所介紹的其他功能,我們必須在 UiPath 介面上方的 Design 欄位中的選項列表,才能找到 Table Extraction 功能,如下圖所示:

功能參數說明

點選 Table Extraction,便可看到下圖畫面,操作上非常簡單。

首先,點選「Add new column」,跳出紅色的選取框後,我們可以開始抓取所需要的網頁資訊,選取後便可看到 Table Extraction 跳出剛剛抓取的網頁字樣,下方也仍有 Add new column 的選項,讓使用者依需求繼續抓取網頁的各種字樣。

只要指定一列,UiPath 就能自動抓取該網頁中相同位置的欄位名稱,不需要一一指定每欄的網頁資訊,大量省下重複作業的時間。

當我們需要抓取的網頁資訊不只一頁時,可以點擊下方的「Extract data from multiple pages」,此時就會出現「Next button」功能,讓使用者可以指定抓取下一頁的欄位資訊。

指定完成後按下「Save & close」,就會看到主畫面產生 Extract Table Data 的 Activity,並將我們所抓取的網頁資訊自動生成一個表格變數以便匯出。

除此之外,我們還可以在「Properties」進行各項設定,例如可以指定「Number of items」,也就是告訴 UiPath 要爬取幾頁的網頁資訊;又或是可以設定「delay between pages」,來調整 UiPath 的翻頁時間,避免有時翻得太快,來不及將網頁資訊爬下來的風險。

RPA 實作案例

接下來,我們一起來看看 Table Extraction 的練習範例,讓大家能更理解這個功能!

假設我們今天想在人力銀行網站上搜尋專案經理相關職缺,並且想找到排序前三頁的專案經理職缺、公司和所在地點,我們可以如何使用 Table Extraction 功能幫我們抓到資料呢?

Step 1:打開欲抓取的網頁

首先,打開 104 人力銀行的網頁,在搜尋欄中輸入想搜尋的職缺「專案經理」。

Step 2:Table Extraction

點擊 UiPath 的 Table Extraction 功能,抓取我們所需要的相關資訊後,就可以看到我們在搜尋頁中抓到 3 個欄位和 40 列的職缺資料。

Step 3:Next button

若想要抓取多頁資訊,只需點選 Extract data from multiple pages,就能讓 UiPath 在抓完第一頁之後,跳轉到下一頁繼續抓取隔頁資訊。

Step 4: 調整設定

儲存後,就能看到 UiPath 的 Sequence 畫面中,已經多出剛剛指定的網頁頁面,以及所抓取的特定網頁資訊了。

因為要抓取的不只有一頁職缺資訊,可以先將 Property 中的 delay between pages 設為 1 秒,並將 Number of items 指定為 3,讓 UiPath 抓取 3 頁資訊。

Step 5: Write Range Workbook

最後,我們便可將這些方才所抓取的資料進行建檔,這時我們使用 Write Range Workbook 功能,將剛剛 Table Extraction 功能的 ExtractDataTable 表格變數回填至指定的 Excel 頁面和欄位。

執行完成後,就會看到 104 人力銀行網站搜尋頁中有關「專案經理」的職缺名稱、公司、地點都成功由 UiPath 回填到指定的 Excel 中。

結語

大家實際操作後覺得 Table Extraction 功能的實用度怎麼樣呢?小編個人認為,這功能的表現至少可以打上五顆星!在工作時執行業務的過程裡,我們經常會需要針對不同網頁搜尋結果進行資訊擷取和整理,可能需要花上大量的時間一行一行複製、貼上,又或是請工程師特別為此去寫一個爬蟲功能,不僅消耗時間,也浪費人力成本和精神。但如果能透過 Table Exaction 功能來解決,絕對是更有效率又省時的好選擇!

希望大家理解 RPA 功能帶來的好處後,能幫助工作更順暢、自動化,一起 Working smarter!

本文由 RPAI 數位優化器授權刊登
原文連結請見:https://vocus.cc/article/63444fc5fd89780001b61b05

探索更多相關課程:

AI 人資:打造高效團隊智能辦公實戰班:https://bit.ly/47kwsnW
流程自動化專案實踐班:https://bit.ly/4ejeqoi

--

--