以常用的Email為例:
[a-zA-Z0–9.+_]+@[a-zA-Z0–9.]+\.(com|org)
看起來有點可怕,但其實可拆開來看
首先先拆「+」
「+」的意思是「這些字元可以出現任意次數,但是至少要出現一次」
語法參考網站
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#get-text
find: 找到就停了,所以只會有一筆資料
居然這次遇到的問題是IDE的智慧選字不太智慧囧..
不知道是不是Xcode太強大了
實在不習慣VSCode的IDE dot下去沒有出現一大片function選單
不能理解以前人用記事本寫Code是什麼概念….
網址如下:
參考網站:Python的文件網站
iOS app上架囉
https://itunes.apple.com/tw/app/id1361474378
appStore搜尋「捐血」即可
v1.1
捐血資料會存到本機,不用每次都去撈資料了
預計還要修改的功能:
主要跟前面(Day3)一樣,利用find找出適當的tag
此篇先單純能爬出所需資料
如何轉成dict後續再研究
網站上的資料是
練習題為L1 No39,主要就是從page這個字串中,擷取網址內容
已知工具:
String.find(“someWord”) #可以取得someWord的index
String.find(“someWord”, Index) #可以取得在以index為首,someWord的Index
因為wiki有些是內部連結,有些是外部連結
在觀察html後可發現內文都是在body的部份,又連結都是a的tag
可以先第一批過濾內部連結
又再觀察撈的到資料後,可發現有些連結是備註或是編輯的連結,因此藉由正規表示式,只撈有http:字樣的,即可完成