datawhale爬蟲（正則入門and第乙個爬蟲）

1.正規表示式基礎介紹

import re
result=re.findall('a..',text)#.為乙個字元，輸出可以為abc aac 等等
result=set(result)
print(result)
result=re.findall(' a.. ',text)#如上，輸出3個，但是前後都有空格
result=set(result)
print(result)
result=re.findall(' a[a-z][a-z] ',text)#[ ]控制範圍如**所示[a-z]為從a到z的字母 ，可以為b c等等
result=set(result)
print(result)
result=re.findall(' (a[a-z][a-z]) ',text) # （）括起來後，則只輸出（）裡面的東西
result=set(result)
print(result)
result=re.findall(' *([aa][a-z][a-z]) ',text)# *則是和.一樣，但是他可以為空，即為不輸出
result=set(result)
print(result)
result=re.findall(' a[a-z][a-z] |a[a-z][a-z] ',text)# | 這裡即為或者
result=set(result)
print(result)
上面**中的text是我隨便找的乙個文件，大家也可以自行輸入

re.match和re.search:

import re
ret_match = re.match("c", "abcde"); # 從字串開頭匹配，匹配到返回match的物件，匹配不到返回none
if (ret_match):
print("ret_match:" + ret_match.group());
else:
print("ret_match:none");
ret_search = re.search("c", "abcde"); # 掃瞄整個字串返回第乙個匹配到的元素並結束，匹配不到返回none
if (ret_search):
print("ret_search:" + ret_search.group());

基礎正規表示式，先介紹到這裡，後面會繼續講解，下面開始我們的第乙個實際專案，第乙個爬蟲：

豆瓣電影top250

要求：影片名稱，排名，國家，導演等：

1.建議首先將原始碼爬取下來儲存為檔案，這樣方便自己多次爬取，並且速度快。

with open('e:\\豆瓣top250_html.txt', 'w+',encoding="utf-8") as f:
f.write(html)

for i in pages:
i=i*25
i=str(i)
url=''+i+'&filter='
將我們所需要的**儲存下來，後面再次使用；

3.分析網頁原始碼

很容易看出，我們所需要的資料，他們的頭標籤如上，於是，我們可以寫出如下：

for i in soup.find_all('span', class_="title"):  # 名字
print(i.text)
for i in soup.find_all('p', class_=""): # 看過的總人數
print(i.text)

datawhale爬蟲task 1之正規表示式

任務一 3天 1.1 學習get與post請求學習get與post請求，嘗試使用requests或者是urllib用get方法向發出乙個請求，並將其返回結果輸出。如果是斷開了網路，再發出申請，結果又是什麼。了解申請返回的狀態碼。了解什麼是請求頭，如何新增請求頭。1.2 正規表示式學習什麼是正規表...

datawhale爬蟲（xpath爬取丁香網評論）

1.xpath基礎學習前面我們介紹了 beautifulsoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 xpath 語法，同樣是效率比較高的解析方法。如果大家對 beautifulsoup 使用不太習慣的話，可以嘗試下 xpath。xpath 是...

爬蟲入門正規表示式

1.普通字元作為原子 import re str leadingme path me res re.search path,str 2.非列印字元作為原子 n換行符,t製表符等 3.通用字元作為原子 w 字母，數字，下劃線 w 除字母，數字，下劃線字元 d 十進位制數 d 除十進位制數數字 s 空白...

datawhale爬蟲（正則入門and第乙個爬蟲）

datawhale爬蟲task 1之正規表示式

datawhale爬蟲（xpath爬取丁香網評論）

爬蟲入門 正規表示式

相關推薦

爬蟲入門正規表示式