2019MCM 美賽C題思路

2021-09-10 06:06:41 字數 2642 閱讀 8947

# 美賽c題分析

github 傳送門:

c.1 題目解讀:

任務一:描述各類毒品在各州各縣隨時間的傳播和特徵。

>>>>傳播:由於無法得知最早的時間點,因此我們假設所有州/縣的毒品數量等於報告案件數量。

描述傳播即判斷毒品進出口方向(某毒品是流入還是流出該州/縣)。

獲取各縣經緯度資訊,考慮求梯度(區域性與全域性);

再做另外乙個假設:

(1)該州毒品不受外界影響。

對各縣毒品量歸一化,使得a縣的變化量必然與其他縣的總變化量相反,計算各縣的年際變化量,用向量表示毒品的大致流向

(2)該州毒品受外界影響。

求出每年的毒品總數的變化值,並相應地減去每年該州的外來影響,再應用(1)

>>>>特徵:給定時空狀態下,各類毒品的統計量,如單一毒品在各地區的分布、單一地區各毒品的比例等。

這裡可以補上剛說的熱力圖了。

什麼?你說缺資料的地區怎麼辦?

用均值填充啊!

或者萬一你看出來美國郵編和地理位置的關係的話也可以手動匹配上去【滑稽臉】

建議的幾個分析方向:變化趨勢,變化幅度,存量規模,毒品餅圖,毒品相關性分析(其他毒品-主要毒品)等。

任務二:定位各州內部,各種毒品的起源地。

>>>>起源地:以州/縣中該種毒品的數量排序認為是毒品的發展水平,發展水平最高的起源最早

毒品的數量指標可以考慮3種情形:

(1)絕對數量

(2)相對數量(佔總毒品的比例或佔當地人口的比例)

(3)主成分(消除毒品間存在替代關係的影響)

如果考慮按時間回歸,還可以對每種毒品建立回歸模型,取在時間t坐標軸負方向的交點作為起源時間,起源時間最早(或是負無窮)的是最早起源點。

不過因為取樣點實在太少(7個),所以時間序列一般都不怎麼準,不過依然是建模的可行方向,可以跑一下lstm或者最小二乘什麼的。

但是無論哪種計算方法,都存在非單一結果的可能(多個起源縣),

我原想直接通過zipcode定位各縣經緯度,按毒品數取加權平均得到毒品分布的幾何中心,這一點通過r或python,甚至線上html都可以實現(已驗證)

但是無奈部分zipcode對應的縣在開源資料庫中無對應地區(如42005),因此放棄通過熱力圖直接看答案的可能~

不過這種方法依然是美賽允許的答案,並且較為簡單和易於理解。

任務三:判斷某種毒品在報告了多少案例(閾值)的情況下可以認為當地「存在」該毒品

>>>>毒品也是商品,用經濟學角度分析也可以,但我不太會【再次滑稽】

>>>>(1)考慮與該毒品相關性較高的種類一起分析,當它們的總消費量下降到某個閾值的時候可以認為是處於消亡階段(閾值自己定)

(2)直接回歸,如果與時間t正方向有交點就認為該時間會消失,再看圖取乙個差不多的值作為閾值

(3)求任務二中毒品數量上公升期的曲線上導數最大的點,對應y值為閾值。

(4)隨便你怎麼說了,有理有據就行,有理沒據也湊合,上面僅供參考。

任務四:預測各州出現(在當地未出現的)新毒品的可能性。

>>>>在2023年,42號州的毒品種類激增,可以把類似情況重點分析。

分析的主要依據可能包括:

(1)超過了任務三中設定的閾值(僅適用於已出現的毒品)

(2)鄰縣毒品已存在或者將超過閾值,且流動方向與該縣相對位置夾角小於90,或者不需要夾角條件。

(3)州內存在但該縣還沒有的毒品,在州內數量未衰減,且流動方向指向該縣。

(4)其他州存在但該州未存在的毒品,流向指向該州

(5)計算該縣/該州毒品總數和種數的變化,如果兩者(尤其是後者)持續上公升,那麼必然出現新毒品(但不知道是什麼)

*(2)-(5)需要gps資訊會更好

c.2 題目解讀:

任務一:判斷社會經濟學資料與毒品的相關性。

>>>>這個任務比較簡單,做個pca和相關性矩陣就好了。

任務二:新增社會經濟學資料,改進c.1的模型

>>>>必然需要的資料:與人口、經濟水平相關的資料

>>>>可能需要的資料:自己新構造的指標,指標實在太多了(近600個),必然需要特徵融合

>>>>如何改進c.1的模型?

(1)把所有的數量指標都考慮進經濟學因素,比如計算人均毒品案件數量

(2)把經濟學指標新增進回歸模型/決策樹的自變數

(3)設定回歸模型懲罰項,避免過擬合(雖然這點資料很難過擬合,一般都收斂不了,等待打臉)

(4)如果你使用了automl,auto_keras,easydl之類的自動回歸機器當我什麼也沒說,丟進變數訓練就是了

(5)注意對比模型效果,理論上應該有巨大提公升,如果沒有就操作一下【滑稽臉】

任務三:解釋模型

>>>>這道題到底要你做什麼?

可能改進模型並不是最重要的,而是前面的"computing model to explain"。

你也需要給出你的因素與毒品變化趨勢之間的解釋,並且應當具體到最重要的幾個或十幾個變數上。

這樣的解釋更可能不需要數值上的解釋,而是結合經濟學模型以及社會因素的解釋,

畢竟數值上的解釋無異於解決問題,而c題的第二個核心在於「如何給出相應的抑制性政策」。

(第乙個核心是毒品的變化趨勢)

c.3 題目解讀:

任務一:模型測試

>>>>給出虛擬的2023年各項指標,測試模型效果

理論上各項毒品數值應當下降,或者可以根據前兩個任務中預測的毒品變化趨,去測試2016+nn年的情況(n不應過大)

2021美賽D題思路

團隊為建模國一獲得者,有豐富建模經驗,因為需保證建模思路的完整性,更新較慢,怕被d 新號。問題一 使用impact data資料集或其中的一部分來建立 影響力的 多個 定向網路,將影響者連線到追隨者。開發可捕獲此網路中 影響力 的引數。通過建立定向影響者網路的子網來探索 影響力的子集。描述此子網。您...

2021美賽建模 A題真菌思路

a題是研究不同種類的真菌在不同的內部 外部條件下,對枯枝落葉和木質纖維的分解作用的問題。題目中的一些重點為生長緩慢的真菌菌株往往能夠更好地在濕度和溫度等環境變化的情況下適應和生長,而生長較快的菌株往往對同樣的變化不那麼容易適應 生長速率和耐濕性與分解速率之間的關係 主要目標是在給定的土地上模擬木本纖...

2019山東省賽C題(c )

原題 題目大意 乙個點 x,y 在座標軸上按如下規則移動 預設最初點為 0,0 輸入 第一行是整數t,有t組樣例 每組樣例中,第一行是整數n m,代表有n個操作,m次執行這n個操作,第二行是字串,是要執行的操作 輸出 對每組樣例,在一行中輸出 x y 的最大值 思路 對一組樣例來說,每次執行的n個操...