百度筆試準備

2021-10-03 20:29:20 字數 947 閱讀 1085

分箱:分箱方法是一種簡單常用的預處理方法,通過考察相鄰資料來確定最終值。所謂「分箱」,實際上就是按照屬性值劃分的子區間,如果乙個屬性值處於某個子區間範圍內,就稱把該屬性值放進這個子區間所代表的「箱子」內。把待處理的資料(某列屬性值)按照一定的規則放進一些箱子中,考察每乙個箱子中的資料,採用某種方法分別對各個箱子中的資料進行處理。在採用分箱技術時,需要確定的兩個主要問題就是:如何分箱以及如何對每個箱子中的資料進行平滑處理。

分箱的方法:有4 種:等深分箱法、等寬分箱法、最小熵法和使用者自定義區間法。

統一權重,也成等深分箱法,將資料集按記錄行數分箱,每箱具有相同的記錄數,每箱記錄數稱為箱子的深度。這是最簡單的一種分箱方法。

統一區間,也稱等寬分箱法,使資料集在整個屬性值的區間上平均分布,即每個箱的區間範圍是乙個常量,稱為箱子寬度。

使用者自定義區間,使用者可以根據需要自定義區間,當使用者明確希望觀察某些區間範圍內的資料分布時,使用這種方法可以方便地幫助使用者達到目的

陣列與線性表的區別:

只有一位陣列是一種線性表

大頂堆公升序的實現:通俗易懂

百度筆試題

一 選擇題 15分 共10題 1.在排序方法中,關鍵碼比較次數與記錄地初始排列無關的是 a.shell排序 b.歸併排序 c.直接插入排序 d.選擇排序 2.以下多執行緒對int型變數x的操作,哪幾個需要進行同步 a.x y b.x c.x d.x 1 3.void func 中,變數val的記憶體...

百度筆試題

一 選擇題 15分 共10題 1.已知乙個線性表 38,25,74,63,52,48 採用的雜湊函式為hash key key mod 7,將元素雜湊到表長為7的雜湊表中儲存。請選擇後面兩種衝突解決方法分別應用在該雜湊表上進行等概率成功查詢的平均查詢長度,拉鍊法 線性探測法 a.1.0 b.1.5 ...

百度筆試題

1 完成函式 size t foo unsigned int a1,size t al1,unsigned int a2,size t al2 其中a1和a2都為無符號陣列,al1和al2為陣列的長度,陣列的長度為偶數。無符號陣列由一對數字區間組成。如下例 a1 為 0,1,3,6,10,20 a2...