爬蟲實用技巧

2021-10-12 01:18:49 字數 1842 閱讀 4136

小技巧

href

="kewen.htm"

target

="_blank"

>

課文原文a

>

python**:

rr2 = re.

compile

(r'課文原文'

)ts = rr2.findall(response.text)

這樣,就定位到"kewen.htm"啦,ts仍然是乙個列表。

def

combineurl

(url1,url2)

:#將相對url轉換成絕對url

return url

文字的獲取是爬蟲最基本的功能,直接從網頁中獲取文字。

可以直接用xpath獲取,得到鏈結後,訪問某個標籤下的所有文字。如下圖所示,訪問class屬性值為unnamed1的td標籤下的所有文字。

def

getjiaoancontent

(base_url)

:#獲取教案內容

% i #將i補全為三位數字"000"

列表轉換為字串只需要一行語句即可

jiaoan=

"".join(

map(

str, jiaoans)

).strip(

)

Linux 實用技巧

值得一提的是vim是慈善軟體 charityware 如有贊助或評比得獎,所得將全部救助烏干達孤兒,軟體使用是免費的,歡迎手頭有點閒錢的使用者捐款贊助,如果沒銀子也沒關係,至少當有評比活動時 有獎金可拿的那種 應用技巧一 快速注釋 1 連續行注釋 使用vim vi編輯shell指令碼,在進行除錯的時...

vim實用技巧

以前習慣於eclipse,sourceinsight,vim用的不是很熟悉,在現在的公司中,vim是一種必備的技巧,慢慢,從難受到得心應手,vim還是比較好用的,下面記錄一點實用的技巧 1 vim ctags cscope是乙個強大的比擬於sourceinsight的字元介面的工具 2 ctrl 跳...

SQL PowerDesigner實用技巧

1,name code的轉變 我們設計資料庫的時候,軟體會自動把name的資料複製到code中,但我想設計時直接把 欄位名稱與含義寫在name中,這樣對設計時間的浪費是很少的 如我們以 欄位名 中文含義 來寫name,讓軟體自動複製前面的 欄位名到 code中.讓中文函義 自動複製到 comment...