大資料學習筆記1

2021-07-11 15:04:58 字數 625 閱讀 2841

文件分類

通常文件中最常出現的詞都是無意義的常用詞,而關於主題的詞語通常出現的並不多,但又不是所有少見的詞都有用。

1.找出跟主題相關的重要詞彙;

2. 計算tf.idf,度量給定詞語在少數文件中反覆出現程度的形式化指標稱為tf.idf(term frequency, inverse document frequency)

tf_ = f_/max_kf_

f_表示詞項i在文件j中出現的頻率,而max_kf_表示最大詞項x出現在j中的頻率

idf_i = log2n/n_i

詞項i在文件集中的n_i篇文件中出現

具有最高tf.idf得分的那些詞項通常都是刻畫文件主題的最佳詞項

自然對數e

常數e=2.7182818

1. x趨近於無窮大時,(1+1/x)^x = e

冪定律

兩個變數之間在對數空間下呈現線性關係,稱為冪定律(power law)

大資料筆記1

spark實現平行計算 把超大的資料集合分成n個分塊的資料集,用m個執行器 mspark是一種分布式並行處理計算框架,與hadoop聯合使用,增強hadoop的效能,增加記憶體快取 流資料處理 圖形處理等高階的資料處理能力。spark的中間結果儲存在記憶體上,在迭代計算方面擁有更好的效能,而mapr...

大資料學習筆記 城市計算 1

線資料 這幅圖展示了北京的路網。其中,紅色的線表示連線北京和其他城市的高速公路,藍色的線表示北京的環路,黑色的線表示北京的主幹道。有了連續幾年的資料,你們可以看到乙個城市的路網是如何擴張的。第二部分大資料報括五個其他資料來源 氣象資料,如颳風 溫度 濕度等 交通流 人的移動性資料 興趣點的資料,如這...

大資料學習筆記

大資料處理是雲計算中非常重要的領域,自google公司提出mapreduce分布式處理框架以來,以hadoop為代表的開源軟體受到越來越多公司的重視和青睞。本文將講述hadoop系統中的乙個新成員 impala。impala架構分析 impala是cloudera公司主導開發的新型查詢系統,它提供s...