python抓頁面基礎知識

2021-07-23 14:57:07 字數 593 閱讀 5504

python抓頁面基礎知識

1.定義函式根據url獲得頁面

def getpagecontent(self,url):

request = urllib2.request(url)

response = urllib2.urlopen(request)

return response.read().decode('utf-8')

2. 正規表示式匹配,re.s是dotall模式,意思是.表示所有字元的意思包括換行,()是分組的意思

pattern = re.compile('.*?.*?'+

'(.*?)',re.s)

content = re.findall(pattern, pagecontent)

3.第二步中的content是陣列,通過迴圈將資料寫到檔案,item是tuple型別使用使用,item[0]為第一列資料,item[1]為第二列,以此類推。

f = open('1.txt','a+')

for item in content:

f.writelines((str(item[0])+str(item[1])+item[2].encode('utf-8'),f)

Python 基礎知識

來自 一 識別符號 1.python 中的識別符號是區分大小寫的。2.標示符以字母或下劃線開頭,可包括字母,下劃線和數字。3.以下劃線開頭的識別符號是有特殊意義的。以單下劃線開頭 foo 的代表不能直接訪問的類屬性,需通過類提供的介面進行訪問,不能用 from import 而匯入 以雙下劃線開頭的...

python基礎知識

一.隨機數的生成 都需要 import random 1.用於生成乙個指定範圍內的隨機浮點數。print random.uniform 10,20 print random.uniform 20,10 2.生成乙個指定範圍內的整數。下限必須小於上限制 print random.randint 12,...

python基礎知識

py基礎學習 1.命令列輸入python命令式,例如python test.py c m install sys.argv test.py c m install 2.切片,str 0 5 1 含頭不含尾,表示倒序切 3.unicode和encode unicode str,utf 8 將utf 8...