python分層抽樣抽樣方法分層抽樣

接著上文說，簡單隨機抽樣法和分層抽樣法的對比有過乙個經典的例子。2023年美國****，《文學文摘》雜誌對結果進行了調查**。他們根據當時的**號碼簿及該雜誌訂戶俱樂部會員名單，郵寄一千萬份問卷調查表，**約240萬份，結論是蘭登取勝，而蓋洛普也組織了抽樣調查，進行民意測試。他的**與《文學文摘》截然相反，認為羅斯福必勝無疑。結果，羅斯福贏得了2770萬張民眾選票，從此蓋洛普名聲大噪，而蓋洛普採用的就是分層抽樣法。

喬治·蓋洛普

分層抽樣法是從乙個可以分成不同子總體(或稱為層)的總體中，按規定的比例從不同層中隨機抽取樣本的方法，可以避免對樣本**集中於某一群體，能夠更客觀地反映全體投票者的傾向。蓋洛普根據白人和黑人的比例，窮人和富人的人口比例，調整調查樣本的比例，將人口分為不同層次，按照層次比例分配樣本數，而後在每個層次內使用隨機抽樣的方式進行調查。

具體來說，確定各層樣本數的方法有三種：

第一是分層定比。即各層樣本數與該層總體數的比值相等。例如，樣本大小n=50，總體n=500，則n/n=0.1 即為樣本比例，每層均按這個比例確定該層樣本數。這種方法存在的問題在於，某些事情所佔比例雖低但影響巨大，例如信用卡信用評級，逾期使用者是少數，但確實研究重點，要是按照比例抽樣會造成樣本不足。

第二，非比例分配法。當某個層次包含的個案數在總體中所佔比例太小時，為使該層的特徵在樣本中得到足夠的反映，可人為地適當增加該層樣本數在總體樣本中的比例。正如信用卡信用評級一樣，需要提高逾期使用者的抽樣比例，增加獲得的資訊量。

第三，奈曼法。即各層應抽樣本數與該層總體數及其標準差的積成正比。這個方法是考慮抽樣成本的方法，核心思想是用最少的抽樣成本獲得最全面的資訊，標準差小的層可以少抽樣，反之則要擴大抽樣量，力求獲得更多有用的資訊。

分層抽樣法的難點首先是在於總體資訊獲得的難度，這一方法前提要獲得總體一定的統計資訊，用以進行分層，而對於很多調查來說，總體資訊是不可知或者難以獲得的。其次，是資料分層的依據難以確定，分層依據是否有足夠的區分度，各層內部是否具有足夠共性，這都是難點。

行思知識工坊為本人個人工作室，本人軟體工程碩士，擁有db2資料庫認證，軟考軟體設計師、資訊系統專案管理師資格、**企業人力資源管理師資質，多年實戰經驗，提供基於python、r和excel的資料分析服務、人力資源管理諮詢、wps模板製作、php程式開發、資料庫調優、資訊系統專案管理諮詢等服務。

python分層抽樣抽樣方法分層抽樣

Python實現分層抽樣

記錄抽取及隨機抽樣及分層抽樣

分層抽樣原理及Oracle實現

python分層抽樣 抽樣方法 分層抽樣

Python實現分層抽樣

記錄抽取及隨機抽樣及分層抽樣

分層抽樣原理及Oracle實現

相關推薦

python分層抽樣抽樣方法分層抽樣