Python抓取彩票排列3全部歷史資料

python爬蟲好久沒用都生疏了，剛好朋友要排列三資料，就用這個練手，

去體彩官網

不閒聊，直接上**

import requests

from requests.exceptions import requestexception

import csv

from bs4 import beautifulsoup as bs

def write_to_file(item):

file_name = 『pls.csv』

# 『a』為追加模式（新增）

# utf_8_sig格式匯出csv不亂碼

with open(file_name, 『a』, encoding=『utf_8_sig』, newline=』』) as f:

fieldnames = [『期號』, 『中獎號碼』, 『開獎日期』]

w = csv.dictwriter(f, fieldnames=fieldnames)

w.writerow(item)

url = "" + str(i) + ".jspx?_ltype=pls"
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
print('return code is %s' % (str(response.status_code)))
return none
except requestexception:
print('訪問異常')

def parse_one_page(get_html):

pls = {}

data = bs(get_html, 『lxml』)

data = data.find(『tbody』).find_all(『tr』)

for content in data:
all_tr = content.find_all('td')
pls['期號'] = all_tr[0].get_text()
pls['中獎號碼'] = all_tr[1].get_text()
pls['開獎日期'] = all_tr[10].get_text()
write_to_file(pls)

def crawler():

for i in range(1, 275):

parse_one_page(get_page(i))

ifname== 『main』:

crawler()

測試結果，一條不差

我按朋友的要求，只取了期號，中獎號碼，開獎日期

有需要其他列的資料，自己修改下就能用

利用Python抓取和解析網頁 3

對搜尋引擎檔案索引文件轉換資料檢索站點備份或遷移等應用程式來說，經常用到對網頁即html檔案的解析處理。事實上，通過python語言提供的各種模組，我們無需借助web伺服器或者web瀏覽器就能夠解析和處理html文件。三從html文件中提取文字處理html文件的時候，我們常常需要從其...

Python3 urllib抓取指定URL的內容

python爬蟲主要使用的是urllib模組，python2.x版本是urllib2，很多部落格裡面的示例都是使用urllib2的，因為我使用的是python3.3.2，所以在文件裡面沒有urllib2這個模組，import的時候會報錯，找不到該模組，應該是已經將他們整合在一起了。下面是乙個簡單的 ...

python3 urllib爬蟲抓取記錄

import re import os from urllib import request 抓取整個頁面下來 data request.urlopen read decode 正則提取所有文章標題，ruler re.compile re.s match ruler.findall data 把抓取...

Python抓取彩票排列3全部歷史資料

利用Python抓取和解析網頁 3

Python3 urllib抓取指定URL的內容

python3 urllib爬蟲抓取記錄

相關推薦