滴滴演算法大賽演算法解決過程方案設計

上面兩篇文章講了一些分析情況，整個模型變得很不確定了

資料分析：

擬合演算法：

滴滴演算法大賽到底需要什麼樣子的答案？

我一開始的想法是建立乙個模型，通過天氣，poi，交通擁堵的引數來推導出訂單數和gap數。

但是通過現有的資料發現，這個模型很難建立。

其實看一下題目，這是乙個**題：

給定每個區域在時間片tj,tj-1...的各項資料，**gapi,j+1, ∀di∈d。

如果不是想研究機器學習的話，其實也沒有必要（或者沒有可能）建立乙個完整的模型。

我們只需要知道，資料的發展趨勢，例如這個時間點是 n ，按照經驗，後乙個時間點的趨勢是上公升還是下降，幅度大約多少即可。

前幾天一直在尋找那些因素制約著訂單數。

9點整和18點整全區域訂單分析圖

訂單的總量在不同日期，表現出極大的不同。但是，接單量和司機數有關係，司機數則是比較穩定的，9點的司機數大約是5000人，18點為4500人。（前三個資料是 01-01 到 01-03 節假日，01-09 ，01-10，01-16，01-17 分別是節假日，所以早晨的需求比較少）

通過分析，我們應該可以整理出一張司機數和時間段的對應函式。（節假日和非節假日區分開來）

如果我們按照節假日和非節假日去看分時接單量

上面說了，日期別的訂單差異量很大，但是我們是否可以考察一下，每個時段的訂單變化率是否有規律可循呢？

例如在 100個時間片上訂單時 n，則101個時間片上，根據統計一般會增加 1.5%的話，則可以**101個時間片上的訂單時 1.05 * n;

當然如果就這麼計算的話，可能會接近於正確答案，但是完全沒有使用poi，天氣，交通等資料，基本上是不可能獲獎的。。。

不過，我們可以先來試試看，是不是可以找到規律呢。從圖表上看，我們應該可以統計出，每個時間點上資料的變化率。

週三的變化：

從第乙個週三到第二個週三的變化

從第乙個週三到第二個週三的變化率

訂單變化率：（這個時間片 - 上個時間片）/ 上個時間片

這樣的話，我們大概可以對於各個時間片之間訂單的變化率做乙個統計平均表。

假設時間片 n 的訂單數字 order ，下乙個時間片n+1的訂單數為 nextorder，則變化率 k = （nextorder - order） / order。

我們可以計算出全區域的每個時間片的變化率，也可以算出單個區域的每個時間片的變化率。

每個區域的訂單比例

有些區域訂單多，有些區域訂單少，這個比例是否會隨著時間變化而變化呢？

放心，基本上每個區域的訂單比率很固定的。

題目裡面告訴了我們所需測試gap的時間片的前三個時間片的資料。結合變化率的概念，其實我們可以計算出待**的時間片的訂單量。

還有乙個問題是接單量怎麼考慮，我的想法是將這三個已知時間片的接單量的平均值作為新的接單量。

（有一種情況，例如乙個時間片裡有50個訂單，但是有1個gap，這個時候其實不能認為接單量只有49，而應該認為這個區域的基本上是公供需平衡的。1個gap有可能是偶然因素。所以我這裡認為5個gap以下都是供需正常的。）

最後公式是：

這種方法計算出來的結果可能接近於答案，也可能遠離答案。但是完全沒有體現出機器學習的作用，所以本人覺得肯定是有問題的。這裡只是給出一種解決方案。接下來，開始思考正統的解決方案。

滴滴演算法大賽演算法解決過程 方案設計