Python抓取豆瓣《白夜追兇》的評論並且分詞

2022-06-03 01:03:09 字數 1748 閱讀 6152

相關**提交到github上

個人github上相關python的專案:

#-*-coding:utf-8-*-

import requests

from lxml import etree

import jieba

header =

def getpagenum(url):

if url:

req = requests.get(url,headers=header)

html = etree.html(req.text)

pagenum = html.xpath(u"//div[@class='paginator']/a[last()]/text()")[0]

return pagenum

def getcontent(url):

if url:

req = requests.get(url, headers=header)

html = etree.html(req.text)

data = html.xpath(u"//div[@class='short-content']/text()")

return data

def geturl(pagenum):

dataurl=

for i in range(1,int(pagenum)):

if pagenum >= 1:

url ="" %(((i - 1) *20),)

return dataurl

if __name__ == '__main__':

url = ""

pagenum =getpagenum(url)

data = geturl(pagenum)

datas =

dic = dict()

for u in data:

for d in getcontent(u):

jdata = jieba.cut(d)

for i in jdata:

if len(i.strip()) > 1:

for i in datas:

if datas.count(i) > 1:

dic[i] = datas.count(i)

for key,values in dic.items():

print "%s===%d" %(key,values)

c:\anaconda2\python.exe d:/pycharmprojects/learnpy/lesson01/spriderdouban.py

building prefix dict from the default dictionary ...

loading model cost 0.379 seconds.

prefix dict has been built succesfully.

結合體===2

星期一===2

出來===21

第二===2

還要===3

應該===28

劉副隊===3

案件===33

發生===7

成分===3

誠然===2

驚喜===7

兩天===5

正常===10

全劇===4

看似===2

關係===5

坐等===2

彷彿===2

有理有據===2

python 抓取https豆瓣電影資訊

1 豆瓣 為https,python需要模擬瀏覽器行為,新增請求頭資訊,2 開啟開發者工具,對資訊進行提取 2.1定位到電影資訊頭,先把關注的資訊提取出來 table re.findall r 顯示全部影片 data,re.s print table firsttable table 0 2.2 提...

抓取豆瓣2023年電影 分類 python

嗯,這次簡單點 突然很想看電影,於是就抄起了python搞了一發豆瓣的電影年度清單,順便統計了評分排名和分類之類的。還算簡單吧 16年電影都在這個鏈結 大概 83 ad e9 97 a8 sort time page limit 365 page start 0 這裡其實是可以get傳輸直接訪問豆瓣...

Python 爬蟲 抓取豆瓣讀書TOP250

coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...