用Python抓漫畫

2021-06-16 05:24:58 字數 1740 閱讀 3635

今天看漫畫的時候(一般是周四更新)突然想何不把漫畫抓下來看呢。於是,我看了一下網頁原始碼,發現它每張會附帶乙個隨機數,猜都沒得猜,比如,火影第524話的第1頁

001_3760.png。沒辦法,繼續看原始碼。居然發現有個js檔案包含了這一話所有的**

接下來的問題是乙個古老的問題,用什麼語言呢?我決定嚐嚐鮮,python吧,不說它擅長網路事務麼。搜了一下,決定用urllib庫。

先把js檔案抓下來:

解釋一下,由於是js檔案,而且有中文編碼,所以用quote()先編個碼。這時,漢字不管它,但有些符號也跟著變了,比如,空格是「%20」,冒號是「%3a」,……,詳見表。

這裡多虧了urlretrieve(url, filename)老兄,它負責把url所指的東西抓下來寫進filename裡。

順便複習一下正規表示式:

python正規表示式

python的正規表示式模組叫re。

常用的函式有這麼幾個:

詳見官方說明和python正規表示式操作指南

p.s. 有個哥們寫了個比較詳細的urllib介紹。

p.p.s. mac上看漫畫推薦****** comic

完整**:

Android用python抓systrace方法

1.先說使用方法,參考的這篇文章 這其中的抓systrace方法 進入android sdk platform tools systrace目錄下 python systrace.py b 8000 t 5 o systrace.html 3.本以為這樣就可以了,結果執行python systrac...

用漫畫的形式展現 URL和HTTP

http請求內容 請求頭 get post等傳送請求 其他 head put delete option host 位址 user agent cookie 通行證 head 與get請求類似,不同在與伺服器只返回http頭部資訊,沒有頁面內容 put 上傳指定url的描述 delete 刪除指定資...

用漫畫的形式展現 什麼是web

web主要經歷了web1.0和web2.0的階段。全球資訊網的初期都是web1.0的時代 靜態頁面。在不同的時代,流行的web安全問題也不太相同。在web1.0時代,web安全主要是 web1.0 sql注入 上傳漏洞 檔案包含 掛馬 暗鏈 命令執行等,主要危害web伺服器 web2.0 xss c...