爬蟲學習 Requests 正規表示式爬取貓眼電影

`p14 requests+正規表示式

import requests
from requests.exceptions import requestexception
def get_one_page(url):
try:
headers = 
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return none
except requestexception:
return none
def main():
url = ''
html = get_one_page(url)
print(html)
if __name__ == '__main__':
main()

import requests
from requests.exceptions import requestexception
import re
def get_one_page(url):
try:
headers = 
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return none
except requestexception:
return none
def parse_one_page(html):
pattern=re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)
.*?releasetime">(.*?)
' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)
items=re.findall(pattern,html)
for item in items:
yield 
#print(items)
def main():
url = ''
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__ == '__main__':
main()

import requests
from multiprocessing import pool
import json
from requests.exceptions import requestexception
import re
#獲取網頁資訊
def get_one_page(url):
try:
headers = 
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return none
except requestexception:
return none
#抓取網頁中需要的資訊
#圓括號中代表我們需要抓取的資料
#需要熟知re庫中compile和findall方法
def parse_one_page(html):
pattern=re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)
.*?releasetime">(.*?)
' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)
items=re.findall(pattern,html)
#建立字典結構使其規則輸出 [x:]的意思是刪除item[y]組中前x個字元
for item in items:
yield 
#print(items)
#寫入到檔案
def write_to_file(content):
with open('result.txt', 'a',encoding='utf-8')as f:
f.write(json.dumps(content, ensure_ascii=false)+'\n')
f.close()
#主函式
def main(offset):
url = '?offset='+str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
if __name__ == '__main__':
pool = pool()
pool.map(main,[i*10 for i in range(10)])

python爬蟲學習 requests模組

python中原生的一款基於網路請求的模組，功能非常強大，簡單便捷，效率極高。作用模擬瀏覽器發請求。如何使用 requests模組的編碼流程指定url 發起請求獲取響應資料持久化儲存環境安裝 pip install requests 練習 1.爬取搜狗首頁的頁面資料需求爬取搜狗首頁資料...

天蛛爬蟲學習筆記 Requests爬蟲例項

定義乙個爬蟲的通用框架 import requests defgethtmltext url 爬蟲通用框架,try 捕捉到錯誤後會執行except的語句 r requests.get url r.raise for status 返回值若為200，則表示正常訪問繼續執行，否則會返回httperro...

爬蟲筆記 Requests

requests庫是能夠處理獲取url 鏈結中的資訊的乙個第三方庫一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫二 requests下的主...

爬蟲學習 Requests 正規表示式爬取貓眼電影

python爬蟲學習 requests模組

天蛛爬蟲學習筆記 Requests爬蟲例項

爬蟲筆記 Requests

相關推薦