成功抓取豆瓣讀書的所有書籍

2022-01-19 22:30:51 字數 706 閱讀 5199

判斷是不是「 出版年:」

//*[@id="info"]//span[@class="pl"]/text()

因為id="info"裡面的span有巢狀的span,所以:

2個//的含義: bookstore//book 選擇屬於 bookstore 元素後代的

所有book 元素,而

不管它們位於 bookstore 之下的

什麼位置

。譯者:劉姿君

有意義的都有屬性 class="pl"

來組合行內元素,以便通過樣式來格式化它們。

注釋:span 沒有固定的格式表現。當對它應用樣式時,它才會產生視覺上的變化。

如果不對 span 應用樣式,那麼 span 元素中的文字與其他文字不會任何視覺上的差異。

.xpath('string(.)')

可以取出當前節點下的所有文字內容(不包括標籤內部的)

提取出來的有空格,如何去除

strip()

把頭和尾的空格去掉

a.strip()

[u' 2008-9'] 'list' object has no attribute 'strip'

data truncated for column,這個可能是資料有空格什麼的,就是格式不對。可以用strip()處理下。

出版年:

2023年09月04日, 需要把year欄位的值的長度放大一些

爬取豆瓣讀書的書籍(一)

環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器 爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟 並傳送請求 4 用urlret...

Python 爬蟲 抓取豆瓣讀書TOP250

coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...

Scrapy框架抓取豆瓣電影的小爬蟲學習日記(三)

獲取到影片資訊之後,下一步就是要把獲取到的資訊進行儲存了。網上很多的案例都是儲存成json格式,這裡我想用mysql伺服器來儲存。1 首先安裝好mysql資料庫,建好filminfo表和字段。2 在items.py檔案中新增你需要儲存到資料庫中的資訊,定義相對應的class,生成item類物件。cl...