爬蟲小試第一天

2021-07-16 09:22:03 字數 1019 閱讀 9221

第乙個遇到的問題時編碼的問題:

data = "\u5468\u6069\u5e73"

print data.encode('utf-8')

print data.decode('utf-8')

print data.decode('unicode_escape')

print u"\u5468\u6069\u5e73"

輸出的結果是:

\u5468\u6069\u5e73

\u5468\u6069\u5e73

周恩平周恩平

網上查閱資訊得到:

web資訊中常會遇到「\u4f60\u597d」型別的字元。首先』\u『開頭就基本表明是跟unicode編碼相關的,「\u」後的16進製制字串是相應漢字的utf-16編碼,decode('unicode_escape')能將此種字串解碼為unicode字串。

還有decode將其他編碼的字串轉成unicode編碼如:str1.decode('gb2312')是將gb2312編碼的str1轉換成unicode編碼

encode將unicode編碼的字串轉成其他編碼的字串:str2.encode('gb2312')是將unicode編碼的str2轉成gb2312編碼

將頁面上所有回答者的名字採集下來:

import urllib2

from bs4 import beautifulsoup

html = urllib2.urlopen('')

bsobj = beautifulsoup(html, 'html.parser')

names = bsobj.findall("", )

namelist =

for name in names:

if 'data-author-name' in name.attrs:

for it in namelist:

print it.encode('utf-8')

爬蟲第一天(1)

import urllib2 發請求的模組 base url 定義url 執行urlopen方法,傳入乙個url,返回乙個response物件 response urllib2.urlopen base url,timeout 60 data 有資料傳送是post請求,沒有則是get timeout...

jsoup爬蟲 第一天

org.jsoup jsoup 1.9.2 document doc jsoup.connect url header accept header accept encoding gzip,deflate header accept language zh cn,zh q 0.8,en us q 0...

python爬蟲(第一天)

網易雲課堂的 丘祐瑋綜述 如何爬網頁資料 使用chorme,右鍵 檢查 pip 安裝 requests pip 安裝 beautifulsoup4 pip 安裝 jupyter 執行jupyter notebook import requests res requests.get res.encod...