爬蟲學習 Requests 正規表示式爬取貓眼電影

2021-09-27 01:50:18 字數 2782 閱讀 7321

`p14 requests+正規表示式

import requests

from requests.exceptions import requestexception

def get_one_page(url):

try:

headers =

response = requests.get(url, headers=headers)

if response.status_code == 200:

return response.text

return none

except requestexception:

return none

def main():

url = ''

html = get_one_page(url)

print(html)

if __name__ == '__main__':

main()

import requests

from requests.exceptions import requestexception

import re

def get_one_page(url):

try:

headers =

response = requests.get(url, headers=headers)

if response.status_code == 200:

return response.text

return none

except requestexception:

return none

def parse_one_page(html):

pattern=re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime">(.*?)

' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)

items=re.findall(pattern,html)

for item in items:

yield

#print(items)

def main():

url = ''

html = get_one_page(url)

for item in parse_one_page(html):

print(item)

if __name__ == '__main__':

main()

import requests

from multiprocessing import pool

import json

from requests.exceptions import requestexception

import re

#獲取網頁資訊

def get_one_page(url):

try:

headers =

response = requests.get(url, headers=headers)

if response.status_code == 200:

return response.text

return none

except requestexception:

return none

#抓取網頁中需要的資訊

#圓括號中代表我們需要抓取的資料

#需要熟知re庫中compile和findall方法

def parse_one_page(html):

pattern=re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">(.*?).*?star">(.*?)

.*?releasetime">(.*?)

' +'.*?integer">(.*?).*?fraction">(.*?).*?',re.s)

items=re.findall(pattern,html)

#建立字典結構使其規則輸出 [x:]的意思是刪除item[y]組中前x個字元

for item in items:

yield

#print(items)

#寫入到檔案

def write_to_file(content):

with open('result.txt', 'a',encoding='utf-8')as f:

f.write(json.dumps(content, ensure_ascii=false)+'\n')

f.close()

#主函式

def main(offset):

url = '?offset='+str(offset)

html = get_one_page(url)

for item in parse_one_page(html):

print(item)

write_to_file(item)

if __name__ == '__main__':

pool = pool()

pool.map(main,[i*10 for i in range(10)])

python爬蟲學習 requests模組

python中原生的一款基於網路請求的模組,功能非常強大,簡單便捷,效率極高。作用 模擬瀏覽器發請求。如何使用 requests模組的編碼流程 指定url 發起請求 獲取響應資料 持久化儲存 環境安裝 pip install requests 練習 1.爬取搜狗首頁的頁面資料 需求 爬取搜狗首頁資料...

天蛛爬蟲學習筆記 Requests爬蟲例項

定義乙個爬蟲的通用框架 import requests defgethtmltext url 爬蟲通用框架,try 捕捉到錯誤後會執行except的語句 r requests.get url r.raise for status 返回值若為200,則表示正常訪問 繼續執行,否則會返回httperro...

爬蟲筆記 Requests

requests庫是能夠處理獲取url 鏈結 中的資訊的乙個第三方庫 一 requests安裝 windows進入cmd命令列 pip install requests 我們可以開啟idle來檢視是否成功的安裝。沒有提示錯誤資訊表示我們已經成功地安裝好了requests庫 二 requests下的主...