python爬蟲第乙個爬蟲

1.本地安裝了nginx, 在預設的html目錄下建立測試html**：

**如圖，即index.html導向a,b,c 3個html,a.html又可以導向aa,bb兩個html,c.html可以導向cc.html。

2.修改nignx配置使得本地可以訪問寫的kmtest裡的index.html。

參考文件

nginx預設訪問html目錄下的index，我在html下新建立了kmtest，然後kmtest裡建立了測試用的index.html。修改完conf下的nginx.conf完之後，記得重啟nginx生效。

3.然後訪問本地http://localhost:1024/，發現自己寫的html已經生效。

到此，準備工作已經完成，開始編寫爬蟲指令碼。

二.爬蟲指令碼

1.如圖

#!/usr/bin/env python3
#-*-coding=utf-8-*
__author__='km'
import urllib.request
from re import *
def download(url):
result = urllib.request.urlopen(url=url)
#注意這裡是result.read()，而非response.read()
content = result.read()
# 解碼
htmlstr = content.decode('utf-8')
#print('1:',htmlstr) 除錯
return htmlstr
def analyse(htmlstr):
#獲取所有的a節點
alist = findall(']*>',htmlstr)
result = 
#print(alist) 除錯 輸出：
#["", "", ""]
#遍歷a節點
for a in alist:
#從a節點中提取herf屬性的值，比如a.html
g = search('herf[\s]*=\s]*\'"]([^>\'""]*)[\'"]',a)
if g != none:
#獲取herf的值，即a.html
#print('3',url) 除錯，輸出類似：http://localhost:1024/a.html
return result
def crawler(url):
print(url)
html = download(url)
urls = analyse(html)
#對每乙個url遞迴呼叫

2.執行結果：

ps：備註下search()和re.search()的區別。

Python 第乙個爬蟲

1 import urllib.request 2importre3 4class downpic 56 def init self,url,re str 7 self.url url 8 self.re str re str910 defgethtml self,url 11 page urlli...

第乙個爬蟲

很多人學習python的目的就是為了學習能夠實現爬蟲的功能，這裡，我使用了scrapy框架來實現了乙個簡單的爬蟲功能,這裡我簡單的介紹一下scrapy專案的建立，和執行。1，第一步是安裝scrapy，我相信到了這一步，大多數人都已經會安裝第三方庫檔案了，這裡主要是使用命令pip install sc...

第乙個爬蟲

一程式測試二開啟360網頁三 html計算四中國大學排名爬取年費2018 五函式介紹總結 1.requests 庫的網頁請求函式函式說明 get url timeout n 對應http的get方式，設定請求超時時間為n秒 post url,data 對應http的post方式，...

python爬蟲 第乙個爬蟲

Python 第乙個爬蟲

第乙個爬蟲

第乙個爬蟲

相關推薦

python爬蟲第乙個爬蟲