從零開始學抓取

2021-09-19 19:50:33 字數 667 閱讀 4241

昨天突然遇到了乙個需要統計某個**所有頁面單詞數的任務,於是從零開始學起python搞抓取。

看了一下資料,需要用到下面幾個庫:

import requests

from bs4 import beautifulsoup

import lxml

import re

url = ""

homepage = requests.get(url).text

#檢查返回頁面的內容

#print (homepage)

soup = beautifulsoup(homepage,'lxml')

for linkpage in soup.find_all('a'):

linkpage2 = linkpage.get('href')

#檢查有哪些連線

#print(linkpage.get('href'))

if linkpage2.startswith(url):

#正規表示式刪除末尾的錨位

print(re.sub(r'\#.*',"",linkpage2))

elif linkpage2.startswith("/"):

print(url + re.sub(r'\#.*',"",linkpage2))

零開始學python 從零開始學Python

第1章 python入門 1 1 1 什麼是python 1 1 2 python語言有什麼特點 2 1 3 python可以幹什麼 4 練一練 5 第2章 準備開發環境 6 2 1 在windows上安裝python開發環境 6 2 2 選擇和安裝開發工具 11 練一練 17 第3章 基本概念 1...

從零開始學android

相對布局管理器指的是參考某一其他控制項進行擺放,可以通過控制,將元件擺放在乙個指定參考元件的上 下 左 右等位置,這些可以直接通過各個元件提供的屬性完成。下面介紹一下各個方法的基本使用 no.屬性名稱 對應的規則常量 描述1 android layout below relativelayout.b...

從零開始學 樹

在之前做二級的題的時候,偶爾會碰見二叉樹,很自然的就想起了樹,那麼什麼是樹呢?這裡說的可不是外面的參天大樹,而是有實際概念的樹,下面就來介紹一下樹。樹是由n n 0 個結點組成的有限集合。若n 0,稱為空樹 若n 0,則 1 有乙個特定的稱為根 root 的結點。它只有直接後繼,但沒有直接前驅 2 ...