百度貼吧爬蟲練習

2022-02-07 05:30:36 字數 1305 閱讀 6614

在互動平台列印貼吧內的的鏈結位址

1

#coding:utf-823

importre4

import

urllib //導入庫56

defgethtml(url):

7 page=urllib.urlopen(url) //開啟鏈結的頁面

8 html=page.read()  //讀取鏈結的原始碼

' //正則

13 imgreg=re.compile(reg)  //編譯正則

14 imglist=re.findall(reg,html)  //在原始碼中查詢正則相對應的資源

15return

imglist  //返回

1617 html=gethtml("

")18正則解釋:

1.是匹配除換行符\n外的字元

2*是匹配前乙個字元0次或n次

3+或*後跟?表示非貪婪匹配,即盡可能少的匹配,如*?重複任意次,但盡可能少重複

4.*? 表示匹配任意數量的重複,但是在能使整個匹配成功的前提下使用最少的重複

百度貼吧爬蟲

encoding utf 8 import urllib.request import urllib.parse import time import random def load page url 通過url來獲取網頁內容jfa param url 待獲取的頁面 return url對應的網頁內...

3 百度貼吧爬蟲

被寫檔案坑了一晚上,因為自己寫了writefile 但是呼叫的是writefile 剛好python裡面有writefile 所以剛好不報錯!coding utf 8 created on 2018 7月12號 author sss 型別 get請求 from pip.vendor.distlib....

爬蟲 百度貼吧相簿

import requests from lxml import etree from fake useragent import useragent import os from selenium import webdriver urls name defget urls input ua us...