Python爬蟲系列(一)初期學習爬蟲的拾遺與總結

2021-07-30 15:33:28 字數 2277 閱讀 9176

1、為了省去時間投入學習,推薦直接安裝整合環境 anaconda

2、ide:pycharm、pydev

3、工具:jupyter notebook(安裝完anaconda會有的)

1、瘋狂的python:快速入門精講(python2.x,可體驗到與python3.x的差異)

看完這些課程,自己對python有乙個感覺和掌握,可以繼續看一些高階教程

3、python3大全(pasword:bf3e)

1、python網路爬蟲實戰(完整的看下來,收穫不小)

2、python3爬蟲三大案例實戰分享(非常好的課程,很多乾貨)

1、python爬蟲的最佳實踐

2、python網路爬蟲實戰專案**大全

3、零基礎製作乙個python 爬蟲

4、python爬蟲入門

5、python3(csdn部落格)

7、抓取鬥魚tv的房間資訊

1、python爬蟲小白入門

2、輕鬆自動化---selenium-webdriver(python)

3、python 正規表示式 re 模組簡明筆記

4、【python 筆記】selenium 簡介

5、python爬蟲入門(7):正規表示式

(大家可以關注寫這些文章的作者,一般他們有python文集,大家可以收藏下有參考價值的文章)

爬取頁面

我直接把原始碼貼在這裡了,是參考python網路爬蟲實戰課程做下來的

import re

import json

import requests

commenturl='

channel=gn&newsid=comos-{}&\

group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700'

def getcommentcounts(newsurl):

#獲取新聞id

m=re.search('doc-i(.+).shtml',newsurl)

newsid=m.group(1)

comments=requests.get(commenturl.format(newsid))

#將資訊解析為json格式

新聞內文資訊抽取函式

import requests

from datetime import datetime

from bs4 import beautifulsoup

def getnewsdetail(newsurl):

result={}

res=requests.get(newsurl)

res.encoding='utf-8'

soup=beautifulsoup(res.text,'html.parser')

result['title']=soup.select('#artibodytitle')

timesource=soup.select('.time-source')[0].contents[0].strip()

result['dt']=datetime.strptime(timesource,'%y年%m月%d日%h:%m')

Python 爬蟲系列(一)

1 為了省去時間投入學習,推薦直接安裝整合環境 anaconda 2 ide pycharm pydev 3 工具 jupyter notebook 安裝完anaconda會有的 1 瘋狂的python 快速入門精講 python2.x,可體驗到與python3.x的差異 看完這些課程,自己對pyt...

python爬蟲系列(一)

整理這番外篇的原因是希望能夠讓爬蟲的朋友更加理解這塊內容,因為爬蟲爬取資料可能很簡單,但是如何高效持久的爬,利用程序,執行緒,以及非同步io,其實很多人和我一樣,故整理此系列番外篇 程式並不能單獨和執行只有將程式裝載到記憶體中,系統為他分配資源才能執行,而這種執行的程式就稱之為程序。程式和程序的區別...

Python爬蟲學習系列教程

python版本 2.7 1.python爬蟲入門一之綜述 2.python爬蟲入門二之爬蟲基礎了解 3.python爬蟲入門三之urllib庫的基本使用 4.python爬蟲入門四之urllib庫的高階用法 5.python爬蟲入門五之urlerror異常處理 6.python爬蟲入門六之cook...