python2 7爬蟲實戰小專案

2021-08-15 09:41:14 字數 562 閱讀 2789

爬蟲原理和思想

本專案實現的基本目標:在捧腹網中,把搞笑的都爬下來,注意不需要爬取頭像的,同時,將命好名放在當前的img檔案中。

爬蟲原理和思想

爬蟲涉及到額度基本知識

1 導入庫/模組

該**是用於讀取網頁

exp:

使用urllib.urlopen()開啟捧腹網

使用read()讀取,如**比較龐大,也可以使用readline()按行讀取

3 re.compile()和re.findall()

re.complie()的作用是把正規表示式編譯成正規表示式物件,使其執行更有效率

re.findall()的作用是匹配資訊,輸入的是字串,返回的是列表

爬蟲實戰

程式成功執行後,本人感覺只是爬取靜態圖不夠過癮,感覺捧腹網的**才比較有趣,所以嘗試修改程式。

修改的地方有兩個,乙個是content()函式中的匹配,乙個是download()函式的儲存檔案格式

python2 7換行 Python2 7基礎語法

1.建立檔案xx.py usr bin python3 print hello,world 2.linux下執行 python hello.py 3.編碼 預設字串unicode 設定編碼 coding utf 8 4.識別符號 第乙個字元必須是字母表中字母或下劃線 識別符號的其他的部分有字母 數字...

python2 7是什麼 python2 7是什麼

pyton2.7是python在2010年發布的乙個版本。python 是乙個高層次的結合了解釋性 編譯性 互動性和物件導向的指令碼語言,具有很強的可讀性,相比其他語言經常使用英文關鍵字,其他語言的一些標點符號,它具有比其他語言更有特色語法結構。下面來解釋一下python這門語言 python是一種...

爬蟲小專案

將爬取到的資料儲存在csv檔案中 由於習慣 作者會將獲取到的資料儲存 然後在儲存的檔案中進行匹配 這樣會降低程式執行時間 import requests from lxml import html from bs4 import beautifulsoup url headers res reque...