19 2 Python入門之編寫爬蟲實戰

2021-08-15 08:55:15 字數 2155 閱讀 4495

準備:

beatiful soup庫:該庫可以從html或xml檔案中提取資料,通過轉換器實現常規的文件導航,查詢,修改等操作,該庫需要安裝後使用

目標:

實現過程:

首先使用前先使用urllib.request模組從指定**上讀取html檔案

>>>import urllib.request

>>>from bs4 import beatifulsoup

>>>url = ""

>>>response = urllib.request.urlopen(url)

>>>html = response.read()

>>>soup = beatifulsoup(html,"html.parser")

beatifulsoup需要兩個引數,第乙個引數是所提取資料的所在html或xml檔案,第二個引數是指定解析器,然後使用find_all(href = re.compile("view"))方法來讀取所有包含「view」關鍵字的鏈結(使用正規表示式知識),使用for語句迭代讀取

>>>import re

>>>for each in soup.find_all(href = re.compile("view")):#???

print(each.text,"- >","".join(["",\each["href"]]))

最終**為

for each in soup.find_all(href = re.compile("view")):#???

print(each.text,"- >","".join(["",each["href"]]))

import urllib.request

from bs4 import beatifulsoup

import re

def main():

url = ""

response = urllib.request.urlopen(url)

html = response.read()

soup = beatifulsoup(html,"html.parser")

for each in soup.find_all(href = re.compile("view")):#???

print(each.text,"- >","".join(["",each["href"]]))

if _ _name_ _ == "_ _main_ _": #只有單獨執行該.py檔案才會執行main()

main()

**清單

import urllib.request

import urllib.parse

from bs4 import beatifulsoup

import re

def main():

keyword = urllib.parse.urlencode() #?

response = \

urllib.request.urlopen("/search/word?%s"%\

keyword)

html = response.read()

soup = beatifulsoup(html,"html.parser")  #操作檔案中資料,如查詢等

for each in soup.find_all(href = re.compile("view")):

content = ''.join([each.text])

ur12 = ''.join(["",each["href"]])

response2 = urllib.request.urlopen(ur12)

html2 = response2.read()

soup2 = beatifulsoup(html2,"html.parser")

if soup2.h2:

content = ''.join([content,soup2.h2.text])

content = ''.join([content,"->",ur12])

print(content)

if _ _name_ _ == "_ _main_ _": #只有單獨執行該.py檔案才會執行main()

main()

上述程式某些語句語法待繼續學習

python入門 資料爬取

很多人剛開始學習python的時候,都會聽到python能做爬蟲 資料分析等,但是為什麼要用它來做爬蟲有所不知,今天我們就來好好聊聊。做爬蟲的需求一般都是出自於實際應用的需要,比如某某 上有你喜歡的mm,你想把這些高畫質 儲存到本地。比如做安全掃瞄時,一般 都會封ip,那這個時候就需要在 爬取多個 ...

python入門 之教你編寫自動獲取金幣指令碼

來收割金幣。使用burp抓取一下提交的包,如下圖所示 因此我們的目的是寫乙個自動提交心情的python指令碼,提交包中需要包含必要的cookie資訊,隱藏的radom字串,心情文字內容,和檔案,經測試發現檔案可為空。表單中只包含前兩項就可以成功增加金幣,這就更加省事了。文末附有完整python 接下...

Python爬蟲 編寫簡單爬蟲之新手入門

最近整理了一下python的基礎知識,大家一般對 爬蟲 這個詞,一聽就比較熟悉,都知道是爬一些 上的資料,然後做一些操作整理,得到人們想要的資料,但是怎麼寫乙個爬蟲程式 呢?相信很多人是不會的,今天寫乙個針對新手入門想要學習爬蟲的文章,希望對想要學習的你能有所幫助 廢話不多說,進入正文!1 首先 使...