**如下:
importjson
import
osimport
shutil
import
requests
import
reimport
time
requests.packages.urllib3.disable_warnings()
#通過url請求介面,獲取返回資料
defgetpage(url,headers):
try:
response = requests.get(url=url, headers=headers, verify=false)
response.encoding = '
utf-8
'if response.status_code == 200:
#print (response.text)
return
response.text
else
:
print('
請求異常:{} status:{}
'.format(url, response.status_code))
except
exception as e:
print('
請求異常: {} error: {}
'.format(url, e))
return
none
#刪除檔案的重複行
deffile2uniq(file,destpath):
sum =0
sum_pre =0
addrs =set()
with open(file, 'r
',encoding='
utf8
') as scan_file:
for line in
scan_file.readlines():
sum_pre += 1
#addr = get_addr(line)
#line.decode('utf8')
addrs.add(line)
scan_file.close()
with open(destpath, 'w
',encoding='
utf8
') as infile:
while len(addrs) >0:
sum += 1infile.write(addrs.pop())
infile.close()
if(os.path.exists(file)):
os.remove(file)
try:
os.rename(destpath, file)
except
exception as e:
(e)
print ('
rename file fail\r')
else
:
print ('
rename file success\r')
#print(addrs)
print("
去重之前文字條數:
"+str(sum_pre))
print("
去重之後文字條數:
"+str(sum))
return
sum_pre,sum
#通過正規表示式提取頁面內容
defparsehtml(html):
#pattern = re.compile(r'.+\s(.+)', re.i) # 不區分大小寫 匹配**名稱
#不區分大小寫 獲取完整公司名
pattern = re.compile(r'
.+\s(.+)
', re.i)
#獲取**公司
#pattern = re.compile(r'\t(.+)[\s]+
.+.+
', re.i)
#pattern = re.compile(r'\t(.+)\s\t\t\t\t\t\t\t
.+.+
', re.i) # 不區分大小寫
#pattern = re.compile(r'\s\s.+
\s(.+)[\s]+
\s(.+)', re.i) # 不區分大小寫 匹配**名稱
Python爬取拉勾網招聘資訊
最近自學研究爬蟲,特找個地方記錄一下 就來到了51cto先測試一下。第一次發帖不太會。先貼個 首先開啟拉勾網首頁,然後在搜尋框輸入關鍵字python。開啟抓包工具。因為我的是mac os,所以用的自帶的safari瀏覽器的開啟時間線錄製。通過抓取post方法,可以看到完整url 然後可以發現post...
python爬蟲 爬取豆瓣網電影資訊
豆瓣網 如下 import requests import urllib.request if name main 指定ajax get請求的url 通過抓包進行獲取 url 定製請求頭資訊,相關的頭資訊必須封裝在字典結構中 headers import requests import urllib...
爬取豆瓣網電影資訊
coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...