python簡易爬蟲製作

2021-07-23 22:39:35 字數 1330 閱讀 4886

編譯環境:pycharm 4.5.3

python版本:3.5.1

以knewone為例:

frombs4importbeautifulsoup

importrequests

importtime

url=''web_data=requests.get(url) #利用requests訪問網頁

soup=beautifulsoup(web_data.text,'lxml') #解析網頁

titles=soup.select(' section.content > h4 > a ') #網頁元素定位

imgs=soup.select('a.cover-inner > img')

fortitle,imginzip(titles,imgs): #少部分資料可以先用字典封裝,大資料再考慮用資料庫

data=

print(data)

此外,發現knewone的「產品」頁面為乙個非同步載入網頁,那麼,如何爬取一頁所有的資訊呢?
defget_info(url,data=none):

web_data=requests.get(url)

soup=beautifulsoup(web_data.text,'lxml')

titles=soup.select(' section.content > h4 > a ')

imgs=soup.select('a.cover-inner > img')

if(data==none):

fortitle,imginzip(titles,imgs):

data=

print(data)

defget_mor_pages(start,end):

foroneinrange(start,end):

get_info(url+str(one))

Python簡易爬蟲

服務端 from flask import flask,request import os defshow if os.path.exists students.txt st st st fobj open students.txt rt encoding utf 8 while true 讀取一行...

Python的簡易爬蟲

上 coding utf 8 import requests url wd joyful url url wd 獲取鏈結到的頁面 html,就跟你右鍵瀏覽器檢視源 差不多 r requests.get url 轉字串 string r.text def find string 定義兩個變數 分別表示...

2015 12 25Python 簡易爬蟲

使用python2.7.11版本 建立新的python file usr bin env python 指定用什麼直譯器執行指令碼以及直譯器所在的位置 coding utf 8 指定檔案編碼為utf 8 import urrlib2 if name main 提供乙個入口 設定 request 的u...