requests二次爬取全國郵編

2021-09-07 08:49:37 字數 1200 閱讀 7307

全國郵編的**:

我們這次是爬取 每乙個省裡面的所有郵編資訊

這裡要進行二次爬取,才能完全獲取完資料.

import requests,re

#**ip

proxy=

#偽裝頭資訊

headers=

#根據正常跳轉獲取** 分析**,再進行拼接

# url=""

url=

""response=requests.get(url,headers=headers,proxies=proxy)

#**編碼為gbk 所以解碼為gbk不再是utf-8

html=response.content.decode(

'gb2312'

)#提取每個省的連線id碼 用於第二次拼接url 請求

rec=re.

compile

(r'(.*?)'

)ret=rec.findall(html)

for i in ret:

print

("地區:"

+i[-1]

+" "

+"編號:"

+i[0])

print()

msg=

input

("請輸入要查詢地區的編號:"

)#拼接url

url_yz=

""%msg

response=requests.get(url_yz,headers=headers,proxies=proxy)

html_place=response.content.decode(

'gbk'

)# print(html_place)

# \u4e00-\u9fa5

# 正則中這個代表匹配所有中文字元

rec_place=re.

compile

(r'([\u4e00-\u9fa5]*?)

(.*?)

(.*?)')

ret_place=rec_place.findall(html_place)

for i in ret_place:

print

("市縣區名:"

+i[0]+

+i[1]+

" 長途區號:"

+i[-1]

)

這樣就可以完全把所有省市郵編都爬取完畢了

Spark RDD 二次分組排序取TopK

用spark求出每個院系每個班每個專業前3名。資料格式 id,studentid,language,math,english,classid,departmentid,即id,學號,語文,數學,外語,班級,院系1,111,68,69,90,1班,經濟系 2,112,73,80,96,1班,經濟系 3...

武漢Revit二次開發全國學習班 總結

8月26,27日兩天,autodesk adn在湖北工業大學舉辦了一次autodesk產品二次開發培訓.會議通知請見此培訓通知和詳情 與會者來了約70人.這是迄今培訓一次最多的學員.課程在武漢舉行,但是參與者來自全國,有從大連,貴州,上海,南京,長沙,南昌.等地來的同學.這次培訓的學員多,出勤率高,...

zklcdc二次開發qduoj闆娘拉取和刪除教程

1.拉取model模型資料 git clone cd live2d models 國內使用者使用以下命令拉取model倉庫資料 git clone cd live2d models 2.將 live2d models 資料夾下的所有檔案複製到此資料夾 cp r live2d models model...