北京積分落戶資料分析

2021-09-26 22:57:18 字數 2984 閱讀 6501

從公司維度分析不同公司對落戶人數指標的影響 , 即什麼公司落戶人數最多也更容易落戶

從年齡維度分析不同年齡段對落戶人數指標影響 , 即什麼年齡段落戶人數最多也更容易落戶

從百家姓維度分析不同姓對落戶人數的指標影響 , 即什麼姓的落戶人數最多即也更容易落戶

不同分數段的佔比情況

# 導入庫

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from matplotlib import font_manager

#讀取資料(檔案) , 並檢視資料相應結構和格式

# 1. 公司維度---人數指標

# 對公司進行分組聚合 , 並檢視分數的相關資料 (個數 , 總分數 , 平均分 , 人數佔比)

group_company = lh_data.groupby('company',as_index=false)['score'].agg(['count','sum','mean']).sort_values('count',ascending=false)

#更改列名稱

group_company.rename(columns=,inplace=true)

#定乙個函式 , 得到佔比

def num_percent(people_num=1,people_sum=1):

return str('%.2f'%(people_num / people_sum * 100))+'%'

#增加乙個佔比列

#檢視只有乙個人落戶的公司 布林索引

# 2.年齡維度----人數指標

#將出生年月轉為年齡

lh_data['age'] = (pd.to_datetime('2019-09') - pd.to_datetime(lh_data['birthday'])) / pd.timedelta('365 days')

# 分桶

# 3. 姓維度----人數指標

# 增加姓列

#定義乙個函式 得到姓名的姓

def get_fname(name):

if len(str(name)) <= 3:

return str(name[0])

else:

return str(name[0:2])

# 對姓進行分組

group_fname = lh_data.groupby('fname')['score'].agg(['count','sum','mean']).sort_values('count',ascending=false)

# 更改列名稱

group_fname.rename(columns=,inplace=true)

# 增加佔比列

# 4. 檢視分數段佔比 

# 分桶 將分數劃分為乙個個的區間

bins_score = pd.cut(lh_data['score'],np.arange(90,130,5))

# 將分數裝入對應的桶裡

bins_score_group = lh_data['score'].groupby(bins_score).count()

# 更改索引顯示格式

總結1.pandas的繪圖方法不夠靈活 , 功能也不夠強大 , 最好還是使用matplotlib繪圖

2.記住資料分析最重要的兩個方法 分組: groupby() 和 分桶:cut() , 前者一般用於離散的資料(姓,公司) , 後者用於連續資料 (年齡段,分數段)

資料分析(北京落戶)

1.載入資料 luohu data pd.read csv bj luohu.csv index col id 2.檢視匯入資料的基本資訊 luohu data.head 預設顯示資料前5行 data.tail 後5行 觀察到資料有哪些字段,簡單瀏覽資料資訊 各欄位是否有空值 可以看到原始資料已經處...

使用者資料分析模型

大智 jack.lee312 gmail.com 2007 11 13 在開始進行使用者分類之前,面對的是乙個未知的資料庫,不知道哪些人使用得多?哪些人使用得少?多的多多少?少的少多少?多多少才算多?少多少才算少?不把這些概念轉化成準確資料支援的清晰認識,就不可能把握產品執行和使用者使用的現狀,也就...

善用CRM提公升客戶資料分析能力

大資料時代企業可以不懂複雜的演算法,對資料卻要保持高度敏感 不斷提公升自己的資料分析能力才能順應時代發展。客戶是企業核心資源,對客戶資料的初級處理可以完成基本業務過程,對資料的高階處理可以提供企業決策支援 促進銷售 保持銷售群體的穩定。crm可以幫助企業提公升客戶資料分析能力。crm覆蓋全客戶生命週...