資料分析SQL問題整理

2021-10-05 18:31:10 字數 1631 閱讀 8504

1.視窗函式

參考文章

2. 各種連線方式的區別?

inner_join:內連線,只有兩個表共有的列值對應的行才能匹配出行資料。

left join/right join/all join:(左,右,全)外連線,以left join 為例,如果指定了需要匹配的列名,左表的資料都會提取出來,若右表有符合條件資料則匹配出來,若右表無符合條件資料,右表的值以空值的形式匹配出來。

cross join:交叉連線,結果是笛卡爾積,就是第乙個表符合查詢條件的行數乘以第二個表符合查詢條件的行數。

3. 索引的作用?

為了提高資料庫查詢資料的速度而增加的標誌符號(通過建立唯一性索引,可以保證表中每一行資料的唯一性)。索引主要建立在:經常搜尋的列;主鍵所在列;外來鍵所在列。

索引包括聚集索引與非聚集索引,它們的區別在於索引記錄的順序表記錄的順序是否一致。

4. on 和 where 的區別?

資料庫在連線多張表返回記錄時,都會生成乙個中間臨時表。

5. 連線多個select

6. 主鍵與外來鍵

7. 字串常見操作

info表:

locus

idjournal

ab086827

1unpublished

ab086827

2submitted (20-jun-2002)

af040764

23unpublished

af040764

24submitted (31-dec-1997) 函式

用法output

null值情況

concat()

concat(『first name』,『last name』)

first namelast name

concat(id, 『null』, sub)=null

concat_ws()

concat_ws(』_』,『first name』,『last name』)

first name,last name

concat_ws(』,』 ,『first name』, null, 『last name』)=first name,last name

group concat()

select locus,group_concat(id)

from info

where locus in(『ab086827』,『af040764』)

group by locus

ab086827:1,2

af040764:23,24

substr(string, start_position, [ length ] )

substr(『this is a test』, 6, 2)

issubstr(『this is a test』, 6)

is a test

substr(『techonthenet』, -6, 3)

theregexp()

參考文章:

8. in/exist的聯絡與區別

子查詢過程中,in和exist函式效率比較

9.表中插入資料?

10.刪除表中資料

Python資料分析整理

成都找了份實習工作,之前本來是打算先熟悉下spss的使用,但是公司要分析的基本是百萬左右的資料,於是邊學習邊整理下資料吧。重新把 機器學習實戰 裡面的東西過一遍,和資料基本都是書上的,同時也加了些自己的 python 3.7.6 sklearn 0.0 pandas 1.0.5 matplotlib...

資料分析入門整理(一)

資料分析方法 1 商業智慧型 2 分析 3 資料探勘 資料分析師常用工具 sqlhadoop sa cel rtableau spss 資料分析流程 業務理解 資料分析的七點,最為重要的環節 資料收集 多渠道獲取結構化與非結構化資料 資料處理 資料清洗 資料整理 資料加工 資料分析 現狀 原因分析,...

資料分析邏輯整理 餐廳資料

1 先導包 import numpy as np 匯入numpy的包 import pandas as pd 匯入pandas的包 from matplotlib import pyplot as plt plt.rcparams font.sans serif simhei 支援中文 指定預設字型...