python網路爬蟲入門(二)

2021-09-22 02:09:34 字數 955 閱讀 3802

一、python爬取10頁250條資料中的所有「書單」模組案例方法一:

#encoding=utf-8

import requests

from bs4 import beautifulsoup

i=-25

while (i<225):

i=i+25

c=str(i)

resp = requests.get(''+c+'')

soup = beautifulsoup(resp.text, 'lxml')

alldiv = soup.find_all('div', class_='pl2')

for a in alldiv:

names = a.find('a')['title']

print(names)

二、python爬取10頁250條資料中的所有「書單」模組案例方法二:

# -*- coding:utf-8 -*-

import requests

from bs4 import beautifulsoup

# 定義函式

def pt(c):

print("進入了該方法")

print("c:"+c)

resp = requests.get(''+c+'')

soup = beautifulsoup(resp.text, 'lxml')

alldiv = soup.find_all('div', class_='pl2')

for a in alldiv:

names = a.find('a')['title']

print(names)

i = -25

while (i < 225):

i = i + 25

a = str(i)

pt(a)

python網路爬蟲 入門(二)

可以替代人工從網頁中找到資料並複製貼上到excel中,這種重複性的工作不僅浪費時間還一不留神還會出錯 解決無法自動化和無法實時獲取資料 對於這些公開資料的應用價值,我們可以使用kyc框架來理解,know your company 了解你的公司 know your competitor 了解你的競手 ...

爬蟲二 Python爬蟲入門二

1.認識爬蟲 1.1 什麼是爬蟲 爬蟲 一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。1.2 python的爬蟲架構 網頁解析器 將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式 直觀,將網頁轉成字串...

python網路爬蟲入門

from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup 安裝該庫 pip3 install beautifulsou...