資料預處理五 六章複習

2021-10-07 04:31:49 字數 1683 閱讀 3853

1、常用網路爬蟲的策略有哪些

2、簡述通用網路爬蟲的工作過程

3、分布式網路爬蟲按通訊方式分為哪幾種方式

4、python的urllib庫包括哪些模組,各自可以完成什麼功能

(1) ulib.request模組。ullib.request用來傳送request和獲取request的結果。

(2)urlib.eror模組。可以捕獲由rlib.request產生的異常並返回錯誤原因。

(3) urlib.parse模組。urlib.parse模組定義了-乙個標準介面,把url字串拆分成元件,並能把元件合成url或者將相對url轉換為給定的基url的絕對url

(4) urllb.robotparser模組。-般來說,**都會定義mobots.t檔案,該檔案主要用來規定網路爬蟲爬取該**時存在的限制。

5、簡述beautifulsoup庫的作用

beautifulsoup是乙個可以從html 或xmi檔案中提取資料python庫。bcautifulsup 提供-些簡單

的python式的函式用來處理導航、搜尋、修改分析構等功能。它同時也是乙個工具箱,通過解析文件

為使用者提供需要抓取的資料。統一將輸出文件轉換為utf- 8編碼。

6、常用網頁更新策略

1、歷史參考策略是最直觀的一種更新策略,利用泊松過程來對網頁的變化進行建模,根據每個網頁過去的變動情況,利用模型**將來何時內容會再次發生變化,以此來指導爬蟲的抓取過程。

2、使用者體驗策略儲存網頁的多個歷史版本,並根據過去每次內容變化對搜尋質量的影響,得出乙個平均值,以此作為判斷爬蟲重新抓取該網頁時機的參考依據,對於影響越厲害的網頁,則越優先排程重新抓取。

3.聚類抽樣策略

可以根據屬性將網頁歸類,同一類別內的網頁具有相同的更新頻率。為了計算某個類別的更新週期,只需對類別內網頁進行取樣,以這些取樣網頁的更新週期作為該類別內所有網頁的更新週期。

1、針對不同的資料型別,資料相似性和相異性常用的計算方法有哪些。

見課本2、資料清洗的主要任務是什麼,常用的資料清洗技術有哪些

資料清洗是進行資料預處理的首要方法。通過填充缺失的資料值、光滑噪音資料、識別和刪除群點

糾正資料不一致等方法,從而達到糾正錯誤、標準化資料格式、清除異常和重複資料的目的。

3、資料規約的目的是什麼,常用的規約技術包括哪些

資料歸約技術可以用來得到資料集的歸約表示,使

得資料集變小,但同時仍然近於保持原資料的完整

性。也就是說,在歸約後的資料集上進行挖掘,依然

能夠得到與使用原資料集近乎相同(或幾乎相同)

的分析結果。

技術:小波變換,主成分分析,屬性子集選擇,回歸和對數線性模型,直方圖,聚類,抽樣,資料立方體聚集。

4、抽樣也可以看做是一種資料規約技術,常用於資料規約的抽樣方法包括哪些

抽樣也可以看作是一種資料歸約技術。抽樣技術允許用小的隨機樣本(子集)表示大型資料集。常用

於資料歸約的抽樣方法包括無放回簡單隨機抽樣、有放回簡單隨機抽樣、簇抽樣以及分層抽樣等方

法。10、11、12計算題見課本

第六章預處理

在程式設計中,為了方便,有的時候我們會使用巨集定義,首先,我們要明確一點,巨集定義與函式式不同的,巨集定義的功能就是替換,在編譯時替換掉 裡面的使用巨集的地方。如求兩個數中大的乙個 define max x,y x y x y 在使用巨集定義時間,我們要注意幾點 1.定義時中間不能有空格,如 def...

工程導論五六章讀書心得

第五章主要講述了工程創造的一般方法,主要包括創造產品的一般流程和技術推動的產品開發。一般流程包過發現需求並定義問題 組織開發 創造 團隊 確定約束條件和設計要求和尋求解決方案 方案設計 這四步主要過程,方案論證階段的第五步至第八步主要是分析每個潛在方案 選出最佳方案 書面描寫方案 和把方案提交給管理...

軟體project 之第五 六章總結

軟體project的前幾章各自是軟體計畫 需求分析 軟體設計。整體的都規劃好了以後,就該著手去實踐了。所謂的理論體系足夠強大了以後,實踐就顯得尤為輕鬆。我們設計軟體,實踐當然就是用我已經計畫好的語言去編寫我們須要做的軟體,那麼,這個過程就叫做 程式編寫 總結下來就是首先我們編敲 之前要有一些主要的東...