Python學習前傳 Python網路爬蟲

2021-08-16 18:29:35 字數 2136 閱讀 6643

原來一直是linux c 開發,現在開始學習另一門面向過程的語言 —— python。

學習一門語言,重要的在於思想,現在就以linux c 開發者的角度來學習python。我們先不講python基礎,我們直接來看一段網路爬蟲**,看一下python語言的特點。那麼什麼是網路爬蟲呢?網路爬蟲,又稱為網路蜘蛛(webspider),非常形象的乙個名字。如果你把整個網際網路想象成類似於蜘蛛網一樣的構造,那麼這只爬蟲,就是要在上面爬來爬去,以便捕獲我們需要的資源。

import urllib.request

import urllib.parse

import re

from bs4 import beautifulsoup

def main():

keyword = urllib.parse.urlencode()

response = urllib.request.urlopen("" % keyword)

html = response.read()

soup = beautifulsoup(html, "html.parser")

for each in soup.find_all(href = re.compile("view")):

content = ''.join([each.text])

url2 = ''.join(["", each["href"]])

response2 = urllib.request.urlopen(url2)

html2 = response2.read()

soup2 = beautifulsoup(html2, "html.parser")

if soup2.h2:

content = ''.join([content, soup2.h2.text])

content = ''.join([content, " -> ", url2])

print(content)

if __name__ == "__main__":

main()

我們可以在idle下使用f5快捷鍵執行程式,看一下效果:

importerror: no module named request,說明我們沒有安裝request這個模組

可以在cmd下執行pip intall requests命令安裝requests模組

安裝成功後,有如下列印:

如果沒有安裝pip,還需要進入命令列,然後把目錄切換到python的安裝目錄下的script資料夾下,執行easy_inatall pip

其實這樣並不能解決問題,還是會出現問題

這是python27的問題,我們重新安裝下python34,在python34下執行,就不會出現這個問題了。

好了,看一下效果吧,博主昨晚剛看完《黑豹》,大場面太少,黑妹子太跳戲。。5.5分。。開玩笑,看一下輸入「黑豹」的效果:

我們看下在網頁中的效果:可以看到(美國漫威漫畫旗下超級英雄)這個子標題

還有個小問題,黑豹電影在爬蟲中居然沒有爬到。。這是什麼原因。

還有個問題,爬蟲結果正常,但最後出現了如下錯誤,暫未分下,大家可以看一下

Python學習筆記 1 1 2 認識Python

一.課程目標 二.詳情解讀 1.初識pythonpython語言是一種高階程式語言,它於1991年由吉多.範羅蘇姆 guido van rossum 發明。目前主要應用於web開發 gui開發 網路爬蟲 資料科學 人工智慧等領域。python官方 python語言也是一種多正規化程式語言,即物件導向...

字典 Python基礎前傳(9)

jacky說科學存在的邏輯只有兩個 1.解釋問題 2.解決問題 我們明白了科學的邏輯,我們理解任何的知識和技能,都是很簡單的 user info 而list相反 user info name 迴圈for i in user info print i user info.keys user info....

字典 Python基礎前傳(9)

jacky說科學存在的邏輯只有兩個 1.解釋問題 2.解決問題 我們明白了科學的邏輯,我們理解任何的知識和技能,都是很簡單的 user info 而list相反 user info name 迴圈for i in user info print i user info.keys user info....