Python抓取彩票排列3全部歷史資料

2021-10-05 14:51:52 字數 1542 閱讀 6491

python爬蟲好久沒用都生疏了,剛好朋友要排列三資料,就用這個練手,

去體彩官網

不閒聊,直接上**

import requests

from requests.exceptions import requestexception

import csv

from bs4 import beautifulsoup as bs

def write_to_file(item):

file_name = 『pls.csv』

# 『a』為追加模式(新增)

# utf_8_sig格式匯出csv不亂碼

with open(file_name, 『a』, encoding=『utf_8_sig』, newline=』』) as f:

fieldnames = [『期號』, 『中獎號碼』, 『開獎日期』]

w = csv.dictwriter(f, fieldnames=fieldnames)

w.writerow(item)

url = "" + str(i) + ".jspx?_ltype=pls"

response = requests.get(url, headers=headers)

if response.status_code == 200:

return response.text

else:

print('return code is %s' % (str(response.status_code)))

return none

except requestexception:

print('訪問異常')

def parse_one_page(get_html):

pls = {}

data = bs(get_html, 『lxml』)

data = data.find(『tbody』).find_all(『tr』)

for content in data:

all_tr = content.find_all('td')

pls['期號'] = all_tr[0].get_text()

pls['中獎號碼'] = all_tr[1].get_text()

pls['開獎日期'] = all_tr[10].get_text()

write_to_file(pls)

def crawler():

for i in range(1, 275):

parse_one_page(get_page(i))

ifname== 『main』:

crawler()

測試結果,一條不差

我按朋友的要求,只取了期號,中獎號碼,開獎日期

有需要其他列的資料,自己修改下就能用

利用Python抓取和解析網頁 3

對搜尋引擎 檔案索引 文件轉換 資料檢索 站點備份或遷移等應用程式來說,經常用到對網頁 即html檔案 的解析處理。事實上,通過python語言提供的各種模組,我們無需借助web伺服器或者web瀏覽器就能夠解析和處理html文件。三 從html文件中提取文字 處理html文件的時候,我們常常需要從其...

Python3 urllib抓取指定URL的內容

python爬蟲主要使用的是urllib模組,python2.x版本是urllib2,很多部落格裡面的示例都是使用urllib2的,因為我使用的是python3.3.2,所以在文件裡面沒有urllib2這個模組,import的時候會報錯,找不到該模組,應該是已經將他們整合在一起了。下面是乙個簡單的 ...

python3 urllib爬蟲抓取記錄

import re import os from urllib import request 抓取整個頁面下來 data request.urlopen read decode 正則提取所有文章標題,ruler re.compile re.s match ruler.findall data 把抓取...