使用selenium爬取小說以及一些注意事項和坑

2021-10-02 22:47:32 字數 745 閱讀 7632

目標,使用selenium爬取下面**中的**

一,分析**

2, 分別使用selenium的不同選擇方式,進行定位,(當然使用xpath最為簡單)

3,xpath的乙個小技巧(快速確定路徑,最好使用以chrome為核心的瀏覽器)

二,開始爬取

三,注意事項以及selenium的一些坑

提取碼:t4s1

2,如果瀏覽器沒有在登錄檔中註冊,webdriver要手動指定瀏覽器位置

3,使用find_element_by_link_text獲取包含指定文字的標籤,之前測試過a標籤,但是沒有get_attribute()方法(盡量使用xpath或者id,class選擇器)

4,跳轉頁面時,如果時a標籤鏈結的,是不能使用click()方法進行跳轉的,必須獲取a標籤裡面的鏈結,然後使用dirver.get()進行跳轉

5,爬蟲爬取時要盡量隔一定的時間進行請求,一方面為了不會使目標伺服器增加負擔,另一方面也是為了使**反爬蟲發現,並且利於webdriver載入網頁。

6,pycharm只會部分顯示print輸出,如果是有大段輸出,會除去一部分,往往這樣會造成爬取出的結果顯示不全,會讓人以為爬蟲出錯。

使用selenium爬取小說以及一些注意事項和坑

目標,使用selenium爬取下面 中的 一,分析 2,分別使用selenium的不同選擇方式,進行定位,當然使用xpath最為簡單 3,xpath的乙個小技巧 快速確定路徑,最好使用以chrome為核心的瀏覽器 二,開始爬取 三,注意事項以及selenium的一些坑 提取碼 t4s1 2,如果瀏覽...

使用aiohttp非同步爬取小說

哈嘍,在這個寂寞的下午來看看這篇很水的文章 使用aiohttp爬取 首先,簡單說下同步和非同步。個人理解蛤,舉個例子 同步就是,你去買泡麵,買完得等商家算錢,算完錢了,你才能離開店鋪。非同步就是,晚上吃個泡麵,先燒個水,那麼在等水開的時候,就可以撕泡麵的包裝,醬料包,然後等到水開了泡就是了 苦逼單身...

requests爬取小說

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存 將國風中文網制定頁的 的題目 作者 最近更新章節和時間抓取下來儲存到本地 小夥伴們,今天我們用的利劍是requests xpath 第一步 匯入模組 import requests from lxml import etree im...