爬蟲大作業

2022-06-04 04:42:10 字數 1906 閱讀 1734

1.選乙個自己感興趣的主題(所有人不能雷同)。

答:爬取李冰冰微博主頁資訊

2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。

3.對爬了的資料進行文字分析,生成詞云。

4.對文字分析結果進行解釋說明。

答:文字獲取到的字元資訊並不是我們想要的效果,因此,為了達到我們想要的效果,我就將所獲取到的文字資訊,生成乙個詞雲圖,這樣我們就可以比較直觀地看出,廣州大學地新聞網地資訊主要在強調些什麼,從而達到此次爬取的目的。

5.寫一篇完整的部落格,描述上述實現過程、遇到的問題及解決辦法、資料分析思想及結論。

答:首先要有信心。雖然可能你看了幾個小時也沒在螢幕上打出乙個三角形,或者壓根兒就沒能把程式執行起來。但相信我,幾乎所有程式設計師一開始都是這麼折騰過來的。

盡量不要系統地去啃一些東西,找乙個實際的專案,直接開始就好。

6.最後提交爬取的全部資料、爬蟲及資料分析源**。

#

-*- coding: utf-8 -*-

import

requests

from bs4 import

beautifulsoup as bs

if__name__ == '

__main__':

url = "

"#html = getreq(url)

info =gettext(url)

print

(info)

for i in

info:

print

(i) f = open('

i.txt

', '

a+',encoding='

utf-8')

f.write(i)

f.write('\n

')f.close()

defgettext(url):

header =

html = requests.get(url, headers=header).content

soup = bs(html, '

html.parser')

info = soup.select('

div.newlist.black01 a')

a =for i in

info:

print

(i.text)

return

aimport

jieba

import

pilfrom wordcloud import

wordcloud

import

matplotlib.pyplot as p

import

osinfo = open('

i.txt

', '

r', encoding='

utf-8

').read()

text = ''

text += '

'.join(jieba.lcut(info))

wc = wordcloud(font_path='

c:\windows\fonts\stzhongs.ttf

', background_color='

white

', max_words=50)

wc.generate_from_text(text)

p.imshow(wc)

#p.imshow(wc.recolor(color_func=00ff00))

p.axis("

off"

)p.show()

wc.to_file(

'詞云.jpg

')

爬蟲大作業

1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 impo...

爬蟲大作業

1.選乙個自己感興趣的主題。2.用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3.對爬了的資料進行文字分析,生成詞云。4.對文字分析結果進行解釋說明。5.寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6.最後提交爬取的全部資料 爬蟲及資料分析源 codi...