python爬取網業資訊案例

2022-06-22 15:33:12 字數 3765 閱讀 6986

**如下:

import

json

import

osimport

shutil

import

requests

import

reimport

time

requests.packages.urllib3.disable_warnings()

#通過url請求介面,獲取返回資料

defgetpage(url,headers):

try:

response = requests.get(url=url, headers=headers, verify=false)

response.encoding = '

utf-8

'if response.status_code == 200:

#print (response.text)

return

response.text

else

:

print('

請求異常:{} status:{}

'.format(url, response.status_code))

except

exception as e:

print('

請求異常: {} error: {}

'.format(url, e))

return

none

#刪除檔案的重複行

deffile2uniq(file,destpath):

sum =0

sum_pre =0

addrs =set()

with open(file, 'r

',encoding='

utf8

') as scan_file:

for line in

scan_file.readlines():

sum_pre += 1

#addr = get_addr(line)

#line.decode('utf8')

addrs.add(line)

scan_file.close()

with open(destpath, 'w

',encoding='

utf8

') as infile:

while len(addrs) >0:

sum += 1infile.write(addrs.pop())

infile.close()

if(os.path.exists(file)):

os.remove(file)

try:

os.rename(destpath, file)

except

exception as e:

print

(e)

print ('

rename file fail\r')

else

:

print ('

rename file success\r')

#print(addrs)

print("

去重之前文字條數:

"+str(sum_pre))

print("

去重之後文字條數:

"+str(sum))

return

sum_pre,sum

#通過正規表示式提取頁面內容

defparsehtml(html):

#pattern = re.compile(r'.+\s(.+)', re.i) # 不區分大小寫 匹配**名稱

#不區分大小寫 獲取完整公司名

pattern = re.compile(r'

.+\s(.+)

', re.i)

#獲取**公司

#pattern = re.compile(r'\t(.+)[\s]+

.+.+

', re.i)

#pattern = re.compile(r'\t(.+)\s\t\t\t\t\t\t\t

.+.+

', re.i) # 不區分大小寫

#pattern = re.compile(r'\s\s.+

\s(.+)[\s]+

\s(.+)', re.i) # 不區分大小寫 匹配**名稱

Python爬取拉勾網招聘資訊

最近自學研究爬蟲,特找個地方記錄一下 就來到了51cto先測試一下。第一次發帖不太會。先貼個 首先開啟拉勾網首頁,然後在搜尋框輸入關鍵字python。開啟抓包工具。因為我的是mac os,所以用的自帶的safari瀏覽器的開啟時間線錄製。通過抓取post方法,可以看到完整url 然後可以發現post...

python爬蟲 爬取豆瓣網電影資訊

豆瓣網 如下 import requests import urllib.request if name main 指定ajax get請求的url 通過抓包進行獲取 url 定製請求頭資訊,相關的頭資訊必須封裝在字典結構中 headers import requests import urllib...

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...