成功抓取豆瓣讀書的所有書籍

判斷是不是「出版年:」

//*[@id="info"]//span[@class="pl"]/text()

因為id="info"裡面的span有巢狀的span,所以：

2個//的含義： bookstore//book 選擇屬於 bookstore 元素後代的

所有book 元素，而

不管它們位於 bookstore 之下的

什麼位置

。譯者:劉姿君

有意義的都有屬性 class="pl"

來組合行內元素，以便通過樣式來格式化它們。

注釋：span 沒有固定的格式表現。當對它應用樣式時，它才會產生視覺上的變化。

如果不對 span 應用樣式，那麼 span 元素中的文字與其他文字不會任何視覺上的差異。

.xpath('string(.)')

可以取出當前節點下的所有文字內容（不包括標籤內部的）

提取出來的有空格，如何去除

strip()

把頭和尾的空格去掉

a.strip()

[u' 2008-9'] 'list' object has no attribute 'strip'

data truncated for column，這個可能是資料有空格什麼的，就是格式不對。可以用strip（）處理下。

出版年:

2023年09月04日，需要把year欄位的值的長度放大一些

爬取豆瓣讀書的書籍（一）

環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟並傳送請求 4 用urlret...

Python 爬蟲抓取豆瓣讀書TOP250

coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...

Scrapy框架抓取豆瓣電影的小爬蟲學習日記（三）

獲取到影片資訊之後，下一步就是要把獲取到的資訊進行儲存了。網上很多的案例都是儲存成json格式，這裡我想用mysql伺服器來儲存。1 首先安裝好mysql資料庫，建好filminfo表和字段。2 在items.py檔案中新增你需要儲存到資料庫中的資訊，定義相對應的class，生成item類物件。cl...

成功抓取豆瓣讀書的所有書籍

爬取豆瓣讀書的書籍（一）

Python 爬蟲 抓取豆瓣讀書TOP250

Scrapy框架抓取豆瓣電影的小爬蟲學習日記（三）

相關推薦

Python 爬蟲抓取豆瓣讀書TOP250