使用selenium爬取小說以及一些注意事項和坑

目標，使用selenium爬取下面**中的**

一，分析**

2, 分別使用selenium的不同選擇方式，進行定位，（當然使用xpath最為簡單）

3，xpath的乙個小技巧(快速確定路徑，最好使用以chrome為核心的瀏覽器)

二，開始爬取

三，注意事項以及selenium的一些坑

提取碼:t4s1

2，如果瀏覽器沒有在登錄檔中註冊，webdriver要手動指定瀏覽器位置

3，使用find_element_by_link_text獲取包含指定文字的標籤，之前測試過a標籤，但是沒有get_attribute（）方法（盡量使用xpath或者id，class選擇器）

4，跳轉頁面時，如果時a標籤鏈結的，是不能使用click()方法進行跳轉的，必須獲取a標籤裡面的鏈結，然後使用dirver.get()進行跳轉

5，爬蟲爬取時要盡量隔一定的時間進行請求，一方面為了不會使目標伺服器增加負擔，另一方面也是為了使**反爬蟲發現，並且利於webdriver載入網頁。

6，pycharm只會部分顯示print輸出，如果是有大段輸出，會除去一部分，往往這樣會造成爬取出的結果顯示不全，會讓人以為爬蟲出錯。

目標，使用selenium爬取下面中的一，分析 2,分別使用selenium的不同選擇方式，進行定位，當然使用xpath最為簡單 3，xpath的乙個小技巧快速確定路徑，最好使用以chrome為核心的瀏覽器二，開始爬取三，注意事項以及selenium的一些坑提取碼 t4s1 2，如果瀏覽...

哈嘍，在這個寂寞的下午來看看這篇很水的文章使用aiohttp爬取首先，簡單說下同步和非同步。個人理解蛤，舉個例子同步就是，你去買泡麵，買完得等商家算錢，算完錢了，你才能離開店鋪。非同步就是，晚上吃個泡麵，先燒個水，那麼在等水開的時候，就可以撕泡麵的包裝，醬料包，然後等到水開了泡就是了苦逼單身...

1.url解析 2.傳送請求 3.接收返回 4.進行解析 5.儲存將國風中文網制定頁的的題目作者最近更新章節和時間抓取下來儲存到本地小夥伴們，今天我們用的利劍是requests xpath 第一步匯入模組 import requests from lxml import etree im...