資料分析之Excel篇(一) 常見的文字清洗函式

2021-09-26 14:09:04 字數 3062 閱讀 6667

常見的文字清洗函式:

find函式的含義:對要查詢的文字進行定位,以確定其位置。

find函式的語法格式:

=find(find_text,within_text,start_num)

解釋:find(要查詢的文字,文字所在的單元格,從第幾個字元開始查詢 [可選,省略預設為1,從第乙個開始查詢])。

應用:

注意,i要用雙引號,且在英文狀態下輸入。如果數值型資料則不需要。find函式進行定位時,總是從指定位置開始,返回找到的第乙個匹配字串的位置,而不管其後是否還有相匹配的字串,所以沒有返回第二個i的位置,即7。

如果start_num大於1,不是從第乙個數字開始查詢,但還是會計算跳過的字元,從文字開頭計算。所以返回的是7。

注意:find函式是區分大小寫的

如圖,baidujingyan中返回的值是7。

left函式的含義:對單元格內容進行擷取。從左邊第乙個字元開始擷取,擷取指定的長度。

find函式的語法格式:

=left(text,num_chars) 

解釋:text代表用來擷取的單元格內容,num_chars代表從左開始擷取的字元數。

應用:

注意:關於left函式,有幾個需要注意的點

1、num_chars的值必須大於等於0,小於0時直接報錯。

2、如果省略num_chars,num_chars的值就預設為1。

3、如果num_chars大於文字長度,則返回所有文字。

4、空格也作為字元返回結果。

left和find函式的聯合使用:

利用left和find函式聯合使用,便提取出了表中的qq號,即字元「@」之前的文字。

right函式將從文字的右側擷取文字內容,其用法與left函式基本相同。而mid函式則多乙個引數。

mid函式的語法格式:

mid(text, start_num, num_chars)

解釋:從text所示的字串中,從左邊開始數,第start_num個位置開始,擷取num_chars個的字元。

應用:

substitute函式的含義:對指定的字串進行替換。

substitute函式的語法格式:

=substitute(text,old_text,new_text,[instance_num])

解釋:=substitute(需要替換的文字,舊文字,新文字,第n個舊文字)。引數instance_num 為一數值,用來指定以 new_text (新文字)替換第幾次出現的 old_text(舊文字)。引數instance_num 可省略,這表示用 new_text(新文字)替換掉所有的old_text(舊文字)。​​​​​​​

應用:

如圖,結合mid函式,實現了隱藏號碼中間三位的需求。類似用法還可以使用replace函式。

concatenate函式的含義:把多個字元文字或數值連線在一起,實現合併的功能。

concatenate函式的語法格式:

=concatenate(text1, [text2], ...)

解釋:text1,text2可以是文字或者數值。最多為 255 項,但是項與項之間必須用逗號隔開。

應用:

concatenate作用相當於「&」。如圖所示。當引數少的時候,使用&比較簡便:

trim函式的含義:trim函式主要用於把單元格內容前後的空格去掉,但並不去除字元之間的空格。

trim函式的語法格式:

=trim(text)

應用:

trim函式作為輔助函式,還有另外一種用法,如圖在a1中(a1常規狀態)錄入12位以上數字,a1就會以科學計數的方式顯示出來,這不是我們想要的結果,我們想要b1所示的結果,這時,我們在b1單元格輸入公式:=trim(a1),回車,就可以看到全部顯示出來了。

len函式的含義:返回文字串的字元數。

len函式的語法格式:

=len(text)

應用:

注意,空格也計算在文字長度之內:

Excel資料分析

資料分析主要有以下五個步驟 1 提出問題 2 理解資料 3 資料清洗 4 構建模型 5 資料視覺化 一 提出問題 為了更好了解上海二手房市場,提出以下幾個問題 1 上海房價均價如何 2 哪些地區提供 量較多 3 戶型分布如何 二 理解資料 本次練習選取的資料為上海二手房資訊,於網上,共9個字段,總計...

資料分析之sql篇

剛才在琢磨客戶分析的時候,突然想到乙個假設,如果某個客戶的續約率很高,那麼證明他在產品的使用上效果是很好的,如果這些些產品的組合十分有效,那麼檢視其他類似的客戶的續約率,做一次論證應該是有意義的。於是就有了下面的一段sql,雖然自認資料庫功底尚可,當初頭疼的not exists如今依然有點拐不過來彎...

Python資料分析之Pandas篇

windows下pip安裝pandas pip install pandas 執行環境 先導入pandas模組 import pandas as pd 1.1 宣告series物件 以下 皆在ipython中演示 呼叫series 建構函式,建立series物件 呼叫構造建構函式series 時可以...