簡單的爬蟲

2021-08-08 10:05:40 字數 1290 閱讀 5576

參考xlzd的知乎專欄

# encoding=utf-8

from bs4 import beautifulsoup

import requests

import codecs

download_url = ''

#requests模擬http協議中的get請求,用於獲取目標**的原始碼

def download_page(url):

return requests.get(url).content

#獲取**源**

#bbeautiful是乙個可以從html檔案中提取資料的python庫

def parse_html(html):

#接受html原始碼作為輸入

soup = beautifulsoup(html,"html.parser")

#建立beautifulsoup物件

movie_list_soup = soup.find('ol', attrs=)

#通過剛才的物件查詢有序列表

movie_name_list=

#初始化列表

for movie_li in movie_list_soup.find_all('li'):

detail = movie_li.find('div', attrs=)

movie_name = detail.find('span', attrs=).gettext()

#以上請參考**原始碼

#迴圈去尋找每個列表子項並將其加入到列表當中去

next_page = soup.find('span', attrs=).find('a')

if next_page:

return movie_name_list, download_url + next_page['href']

return movie_name_list,none

#print movie_name

def main():

url = download_url

with codecs.open('movies', 'wb', encoding='utf-8') as fp:

while url:

html = download_page(url)

movies, url = parse_html(html)

fp.write(u'\n'.format(movies='\n'.join(movies)))

if __name__ == '__main__':

main()

簡單的爬蟲

這幾天來一直在做爬蟲的工作,除了因為開始因為不熟悉爬蟲所以學的時候比較花時間之外,其他大多數時候都還是比較順利,中間除了遇到xpath的問題,其他就還好。就我目前的理解而言爬蟲總共是分為三個步驟。1.通過url獲取網頁 2.獲取網頁之後對網頁進行解析 3.將解析之後需要的內容存貯起來 獲取網頁 這一...

簡單的爬蟲

好久沒有上傳新的部落格了,上上週寫出了爬蟲,但是因為偷懶和末考,一直到今天才回來寫有關這個爬蟲的部落格。原來不了解爬蟲的時候感覺爬蟲好高大上啊,做了之後才發現.哦,好簡單.還有,在這裡要感謝一下虎撲大大,感謝他沒有封我的ip.其實爬蟲很簡單,用到了httpclient還有htmlparser.對ht...

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...