使用beautifulsoup寫的第乙個小爬蟲程式

2021-06-28 21:57:43 字數 1331 閱讀 8225

昨天才剛學的這個爬蟲的第三方庫,被它的強大所震撼,以下為自己寫的爬蟲的程式:

# coding=utf-8

import urllib2

from bs4 import beautifulsoup

import re

url = ""

response = urllib2.urlopen(url)

soup = beautifulsoup(response)

temp = soup.find_all(name="a",attrs=)

print len(temp)

for i in range(1,len(temp)):

temp_key =

temp_value =

sub_url = url+ temp[i].get('href')

print sub_url

sub_response = urllib2.urlopen(sub_url)

sub_soup = beautifulsoup(sub_response)

name = (sub_soup.find(name="span",attrs = )).string

date = (sub_soup.find(name="span",attrs =)).string

thehead = name+"("+date+")"#thehead是說明星座運勢及日期的

print thehead

temp1 = sub_soup.find(name = "div",attrs = )

print temp1.text #temp1為運勢主體內容

temp2 = (sub_soup.find(name="div",attrs = )).text #temp2為其運勢中需注意的

print temp2

執行時會出現這個錯誤:warning:root:some characters could not be decoded, and were replaced with replacement character.

使用網上的引入sys模組並重寫編碼的那個方法並不可行,引入並重寫後,發現程式執行後根本沒有內容被讀寫出來,希望哪位看到的朋友若知道如何解決能給以提示下,謝謝

後續~~~~

解決方法已找到,就是要在

sub_soup = beautifulsoup(sub_response)
這一句中,加入

from_encoding,具體為

sub_soup = beautifulsoup(sub_response,from_encoding="gbk")

BeautifulSoup 安裝使用

linux環境 1.安裝 方法一 解壓 tar xzvf beautifulsoup4 4.2.0.tar.gz 安裝 進入解壓後的目錄 python setup.py build sudo python setup.py install 方法二 快速安裝 ubuntu sudo apt get i...

BeautifulSoup使用相關知識

1基礎使用,獲取某一 內容的h1標籤 2複雜html解析 print name.get text get text 清除標籤,只保留內容 4通過網際網路採集 外鏈 from urllib.request import urlopen from bs4 import beautifulsoup imp...

使用BeautifulSoup解析HTML

通過css屬性來獲取對應的標籤,如下面兩個標籤 可以通過class屬性抓取網頁上所有的紅色文字,具體 如下 from urllib.request import urlopen from bs4 import beautifulsoup html urlopen bsobj beautifulsou...