python3爬蟲的例項

2021-09-25 10:40:03 字數 730 閱讀 3218

import requests

from bs4 import beautifulsoup

response = requests.get(url = '')

#print(response.text)

#將網頁的資訊儲存為soup物件進行下一步處理,features是使用的處理引擎,預設的有html.parser,需要安裝的是lxml

soup = beautifulsoup(response.text,features='html.parser')

#尋找網頁中指定id的塊

target = soup.find(id = 'auto-channel-lazyload-article')

#print(target)

#查詢li標籤部分

#li_list = target.find('li') find只查詢到第一條記錄

li_list = target.find_all('li') #find_all 查詢所有的li

#使用迴圈進行全部輸出

for i in li_list:

a = i.find('a')

if a:#處理有的i中不含有a標籤的問題

print(a.attrs.get('href'))#得到a標籤下的href

txt = a.find('h3')#得到a標籤下的h3標籤

print(txt)#將資訊進行輸出

筆趣閣小說 python3爬蟲例項

import urllib.request import re from bs4 import beautifulsoup as bs def urlopen url req urllib.request.request url html urllib.request.urlopen req htm...

Python3 爬蟲例項(一) 簡單網頁抓取

在著手寫爬蟲之前,要先把其需要的知識線路理清楚。http是hyper text transfer protocol 超文字傳輸協議 的縮寫。它的發展是全球資訊網協會 world wide web consortium 和internet工作小組ietf internet engineering ta...

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...