新浪新聞按關鍵字抓取例項

2021-06-26 06:06:45 字數 1438 閱讀 8537

import urllib2

import requests

#import mysqldb

import webbrowser

import string

import re

from beautifulsoup import beautifulsoup

def gethtml(page):#獲取**內容

page=str(page)

html=requests.get(""+page).text

return html

def getpage():#獲得網頁總數

html=requests.get("").text   #**

soup=beautifulsoup(''.join(html))

a=soup('div',)

race=

c=""

race=str(a).split("新聞")[1].split("篇")[0].split(",")   #獲取**有多少頁碼

b=len(race)

for i in range(b):

c+=race[i]

b=string.atoi(c)/20

return b

def getcontents(html):#獲取指定新聞內容

soup=beautifulsoup(''.join(html))

rs=re.compile("fgray_time")

html=soup.findall('span',attrs=)

rs=re.compile("box-result clearfix")

contents=soup.findall('div',attrs=)

for c in html:

length=len(c.text.split(' '))

if length==3:

source=c.text.split(' ')[0]#新聞**

time=c.text.split(' ')[1]+' '+c.text.split(' ')[2]#新聞發表時間

print source

print time

else:

time=c.text#新聞發表時間

source=''#新聞**

print time

for i in contents:

title= i.h2.a.text#新聞標題

content= i.p.text#新聞簡介內容

##    print html

if __name__=="__main__":

count=getpage()

print 111

for i in range(count):

print getcontents(gethtml(i))

print 222

新浪新聞按keyword抓取例項

import urllib2 import requests import mysqldb import webbrowser import string import re from beautifulsoup import beautifulsoup def gethtml page 獲取 內容...

高亮顯示關鍵字例項 替換搜尋關鍵字例項

票房第一的審死官,主演 周星馳,梅艷芳票房第二的家有喜事,主演 周星馳,張國榮票房第三的鹿鼎記,主演 周星馳,林青霞票房第四的武狀元蘇乞兒,主演 周星馳,張敏票房第五的鹿鼎記2,主演 周星馳,林青霞 在這一年,香港電影票房前五的作品都由周星馳主演。而在之後周星馳的導演歲月裡,票房也是一度創造了神話。...

python global關鍵字使用例項

python中定義函式時,若想在函式內部對函式外的變數進行操作,就需要使用global關鍵字 實現步驟 1 在外部宣告全域性變數 不加global 2 在想要操作此變數的地方再次以 global宣告該變數,必須在函式內部宣告,在外部使用global是不會起作用的 3 在每個想要修改此變數的地方都必須...