爬蟲學習Day2

2021-10-12 01:24:58 字數 1809 閱讀 9054

import requests

if __name__ == "__main__":

url = ''

city = input("enter a city:")

data =

headers =

response = requests.post(url=url,data=data,headers=headers)

page_text = response.text

filename = city+'.html'

with open(filename,'w',encoding='utf-8') as fp:

fp.write(page_text)

print(filename,'儲存成功!!!')

# 批量獲取不同企業的id值

url = "itownet/portalaction.do?method=getxkzslist"

headers =

id_list = #儲存企業id值

all_data_list = #儲存所有企業的詳情資料

# 引數的封裝

for page in range(1,6):

data =

json_ids = requests.post(url = url,data = data,headers = headers).json()

for dic in json_ids['list']:

# 獲取企業詳情資料

post_url = 'itownet/portalaction.do?method=getxkzsbyid'

for id in id_list:

data =

detail_json = requests.post(url = post_url ,data=data,headers = headers).json()

# 持久化儲存all_data_list

fp = open('./alldata.json','w',encoding='utf-8')

json.dump(all_data_list,fp=fp,ensure_ascii=false)

print('over!!')

自學爬蟲 day2

我們匯入了 web 驅動模組 from selenium import webdriver 無形的瀏覽器phantomjs 將 python 物件轉化為 json是這樣的 json.dumps 將json資料轉化為python物件是這樣的 json.loads python從未縮排的非函式非類的 開...

day2 爬蟲實現登入

import requests 爬登入後的頁面第一種方法 登入之後獲取cookie進行登入 獲取登入後的url url 設定響應頭,獲取登入的cookie headers reponse requests.get url url,headers headers print reponse.text ...

機器學習 day2

歸一化 將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到 預設為 0,1 之間 問題 如果資料中異常點過多,會有什麼影響?最大值最小值會受影響。方差考量資料的穩定性。標準化 將所有資料進行變換到平均值為0,標準差為1之間。standardsc...