pyquery爬取天蠶土豆經典玄幻三部曲

2021-10-05 11:08:29 字數 4268 閱讀 6187

這只是原始碼,沒什麼意思,有意思的在這裡:震驚!我用python分析了天蠶土豆的玄幻三部曲竟然發現…

import re

import threading

from pyquery import pyquery as pq

headers =

# 獲取鏈結和標題

defget_href_and_title

(url)

: lists =

html = pq(url, headers, encoding=

"utf-8"

) i =

0for item in html(

"#list > dl > dd"

).items():

i +=

1if i >9:

(""+ item(

'a')

.attr(

'href'

), item.text())

)if item.text()==

"第一千六百二十三章 結束,也是開始。"

:break

return lists

# 獲取**網頁內容

defget_one_page

(url)

: contents1 =

"".join(

re.findall(

"(.*?)[\(|(]"

, pq(url, headers, encoding=

"utf-8")(

"#content"

).text(

).replace(

"\n",""

))) contents2 = pq(url, headers, encoding=

"utf-8")(

"#content"

).text(

).replace(

"\n",""

)return contents1 if contents1 !=

""else contents2

defmain()

:for item in get_href_and_title(

"/57_57672/"):

chapter_url, chapter_title = item

if chapter_title[0]

!="第"

:continue

with

open

('c:\天蠶土豆\doupocangqiong\{}.txt'

.format

(chapter_title)

,"w"

, encoding=

"utf-8"

)as f:

f.write(get_one_page(chapter_url)

)print

(chapter_url, chapter_title)

if __name__ ==

'__main__'

: threading.thread(target=main())

.start(

)

import re

import threading

from pyquery import pyquery as pq

headers =

# 獲取鏈結和標題

defget_href_and_title

(url)

: lists =

for item in pq(url, headers)

("#list > dl > dd"

).items():

if item.text()[

0]!="第"

:continue

(""+ item(

'a')

.attr(

'href'

), item.text())

)return lists

# 獲取**網頁內容

defget_one_page

(url)

:return

"".join(re.findall(

, pq(url, headers, encoding=

"utf-8")(

"#content"

).text(

).replace(

"\n",""

)))def

main()

:for item in get_href_and_title(

"/15/15/"):

chapter_url, chapter_title = item

with

open

('c:\天蠶土豆\wudongqiankun\{}.txt'

.format

(chapter_title)

,"w"

, encoding=

"utf-8"

)as f:

f.write(get_one_page(chapter_url)

)print

(chapter_url, chapter_title)

if __name__ ==

'__main__'

: threading.thread(target=main())

.start(

)

import re

import threading

from pyquery import pyquery as pq

headers =

# 獲取鏈結和標題

defget_href_and_title

(url)

: lists =

html = pq(url, headers, encoding=

"gbk"

)for item in html(

"#main > div > dl > dd"

).items():

if item(

'a')

.attr(

'href')is

none

:continue

(item(

'a')

.attr(

'href'

), item.text())

)return lists

# 獲取**網頁內容

defget_one_page

(url)

: contents1 =

"".join(re.findall(

"(.*?)[(|(]"

, pq(url, headers, encoding=

"gbk")(

"#booktext"

).text(

).replace(

"\n",""

))) contents2 = pq(url, headers, encoding=

"gbk")(

"#booktext"

).text(

).replace(

"\n",""

)return contents1 if contents1 !=

""else contents2

defmain()

:for item in get_href_and_title(

""):

chapter_url, chapter_title = item

if chapter_title[0]

!="第"

:continue

with

open

('c:\天蠶土豆\dazhuzai\{}.txt'

.format

(chapter_title.replace(

"?","")

.replace(

"?","")

),"w",

encoding=

"utf-8"

)as f:

f.write(get_one_page(chapter_url)

)print

(chapter_url, chapter_title)

if __name__ ==

'__main__'

: threading.thread(target=main())

.start(

)

都是乙個套路,**可以直接拿來用。

Python爬取小說 2 單章節爬取

coding utf 8 urlopen 開啟 request 請求 from urllib.request import urlopen,request 匯入gzip包 解壓gzip 封裝請求 req request url path,headers headers 開啟鏈結 conn urlop...

python動態爬取知乎 python爬取微博動態

在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...

爬取電影資源之網頁爬取篇(python)

6v電影網的主頁分為三列,如下圖所示。該網每天會推薦一些電影 如上圖中的 今日推薦 電影質量還算可以,大部分電影評分還行。所以這部分及是我們現在要提取的部分。然後我們檢視其原始碼,找到該部分的 還是很好找的,網頁結構比較簡單 見下圖 為了驗證找到的 區域是否為我們需要的,可以把圖中框出的 複製到乙個...