寒假自學進度11

2022-02-20 23:35:38 字數 1437 閱讀 6571

2,資料清洗:對熱詞資訊進行資料清洗,並採用自動分類技術生成自動分類計數生成資訊領域熱詞目錄。

5,資料視覺化展示:① 用字元雲或熱詞圖進行視覺化展示;② 用關係圖標識熱詞之間的緊密程度。

6,資料報告:可將所有熱詞目錄和名詞解釋生成 word 版報告形式匯出。

再運用xpath獲取相應的位置的解釋,輸出即可。需要注意的是,要運用xpath的獲取乙個標籤下的所有文字的知識點。

**如下:

import

requests

from lxml import

etree

defcliming(line):

line1=line.replace('

\n',''

)

print

(line1)

url = "

"+str(line1)

print

(url)

head =

r = requests.get(url,headers =head)

print

(r.status_code)

html = r.content.decode("

utf-8")

#print(html)

html1 =etree.html(html)

#print(html1)

content1 = html1.xpath('

//div[@class="lemma-summary"]')

#print(content1[0])

if len(content1)==0:

#custom_dot para-list list-paddingleft-1

content1 =html1.xpath('

string(//ul[@class="custom_dot para-list list-paddingleft-1"])')

print

(content1)

if len(content1)==0:

pring(

'未找到解釋')

content1 = '

未找到解釋

'else

: content2 =content1[0].xpath ('

string(.)

').replace('

','').replace('

\n','')

print

(content2)

if__name__ == '

__main__':

for line in open("

words.txt

",encoding='

utf-8'):

#print(line, end = '')

climing(line)

寒假自學進度4

今天主要學習了spark執行基本流程rdd概念rdd 中的依賴關係spark劃分rdd 在 spark 架構中的執行過程 以及完成實驗一linux系統常用命令 spark執行基本流程 sparkcontext 會向資源管理器註冊並申 請執行 executor 的資源 2 資源管理器為 executo...

寒假自學進度1

今天主要學習了對spark的初步認識以及相應名詞的理解 包括spark特點 scala特性 bdas架構 spark元件的應用場景 spark基本概念 spark執行架構 spark架構設計的優點 spark各種概念之間的相互關係 hadoop 是基於磁碟的大資料計算框架 spark是基於記憶體計算...

寒假自學進度十一

hadoop和apache spark究竟有什麼異同。首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更多是乙個分布式資料基礎設施 它將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器...