資料離散化

2021-10-17 22:16:37 字數 776 閱讀 8386

資料離散化是乙個非常重要的思想。

當以權值為下標的時候,有時候值太大,存不下。 所以把要離散化的每乙個陣列裡面的數對映到另乙個值小一點的陣列裡面去。

簡單說:離散化是在不改變資料相對大小的條件下,對資料進行相應的縮小。例如:

原資料:1,999,100000,15;處理後:1,3,4,2;

原資料:,,;處理後:,,;

但是離散化僅適用於只關注元素之間的大小關係而不關注元素本身的值!

1、排序 :一般使用sort對陣列或結構體排序

2、去重:unique()

3、索引:lower_bound()進行二分查詢(lower_bound 和 二分資料:資料1 ,資料2)

相關函式用法詳見小知識(隨筆

#include

using

namespace std;

int lsh[

1000

],lshcopy[

1000

],now[

1000];

intmain()

sort

(now,now+n)

;int d=

unique

(now,now+n)

-now;

for(

int i=

0;i輸入:4 1 999 100000 15

輸出:1 3 4 2

*/return0;

}

資料離散化

離散化有兩種方法 第一種,先看一段 const int n 1e5 7 int t n a n int main 在這段 中,a經過離散,範圍就變成了m。解釋一下,unique是c 自帶的乙個函式,表示對乙個數列去重,然後返回不重複的元素個數,當然在後面要減去首位址。那麼這種離散化對於有重複元素的數...

資料離散化

一 概述 資料離散化是乙個非常重要的思想。為什麼要離散化?當以權值為下標的時候,有時候值太大,存不下。所以把要離散化的每乙個陣列裡面的數對映到另乙個值小一點的陣列裡面去。打個比方,某個題目告訴你有10 4個數,每個數大小不超過10 10,要你對這些數進行操作,那麼肯定不能直接開10 10大小的陣列,...

資料離散化

今天執行 資料離散化 部分 時出錯,環境python3.6 pycharm,網上各種查詢資料後發現原 主要是三個地方需要修改 下面紅色部分,原有問題 被注釋掉了 修改並新增了部分注釋。coding utf 8 資料規範化 import pandas as pd datafile data discr...