第12組 團隊Git現場程式設計實戰

2022-05-11 08:56:27 字數 2685 閱讀 4063

組內有三人去考證了,只剩下6人

組員分工

貢獻比例

王永福前後端,爬蟲,部落格主體

30%孫承愷

建模,演算法設計,統籌

18%邱暢傑

爬蟲15%

徐祖豪前端資料視覺化

13%張凌昕

前端資料視覺化,部分部落格

11%丁樞桐

資料視覺化,聚類演算法

根據題目要求,我們需要爬取相關資料,根據對題目的分析,以及對美團和大眾點評、高德地圖的前期調研,我們認為可以將前三個評測目標劃為一組,資料一起爬取,因為它們需要的字段比較相似(可以見上面的資料截圖);第四個目標我們在美團上找不到資料,大眾點評難以爬取,因此轉向高德poi搜尋爬取。

美團的資料主要從手機版網頁爬取(pc版網頁沒有經緯度且需要計算token),使用chrome developer tools模擬手機訪問網頁抓取資料進行分析,發現cookie只需要設定ciuuid即可爬取,其他仿照抓取到的請求設定。

爬取時需要注意美團反爬技術非常硬,需要不斷更換ip和id,否則沒一會就會白給,早上我們已經白給好多次了。我們的爬蟲理論上具備獲取所有資料的能力,但由於瘋狂白給,最後只獲取了少量資料用於製作demo。

另外高德api雖然不反爬,但是api有呼叫配額限制,爬多了也會白給。建議多準備幾個key

獲取到資料後,需要對資料進行預處理以進行展示,對於不同的評測目標,採取不同的方法

將美團爬取到的資料按銷量降序排列,按商圈聚類,然後根據全域性排名,分階梯對每乙個商鋪賦權,再將商圈內的商鋪權值求和,排序,得到最受歡迎的商圈。

這個比較簡單,直接按人均消費所屬階層聚類,組內排序,第一關鍵字評分降序,第二關鍵字人均**公升序。

兩條路:

對每家商鋪賦權並按經緯度聚類,生成聚類圖,由於演算法比較複雜且資料序列化困難,故web端不採用此方法生成的資料,此方法生成的圖可用clustering中的**生成

將原始資料提取經緯度直接在地圖上打熱力圖。此方法較為簡單,web前端採用此方法。理論上雖有失偏頗,但是由於我們爬取的原始資料按銷量和評分降序,因此爬到的都是排名靠前的,說是最佳美食聚集地應該也沒什麼問題吧(逃

從高德地圖爬取的資料參照第乙個評測目標相似的方法處理

主要採用了vue框架來管理檢視路由,antv進行視覺化展示,展示效果可見截圖。地圖部分採用了高德地圖js sdk

理論上不需要這部分,但是沒用網路感覺很low,為了高階一點,也為了可擴充套件性,用flask加了個服務端,動態提供資料

跟資料視覺化一起做了,頁面上的東西基本都是有互動的,餅圖有tooltip,點選下面的圖例可以取消顯示某一類,做到部分展示。地圖可以旋轉,改變俯仰角,熱力圖是3d的

可以在視覺化上做一些炫酷或者高階的互動,比如說:

如果能爬到大量資料

做一整個推薦平台,同時收集使用者資料

資料**反爬機制過強

資料視覺化不熟練,前端不熟練,python不熟練

人少找**池,找開源專案

撿起來學

一人頂倆

對用web前端進行資料視覺化的方法不熟悉,只能當場找模板現學

現場學習

現場學習

在這次現場程式設計中我主要負責的是前端這一塊,在寫餅圖的時候,我剛剛開始不是很懂g2,並且在挑選餅圖形式的時候,比較不知道挑選哪個比較好

多看一些模板,並且有的模板上會給一些注釋,讓我更了解g2的一些使用方法,用起來更容易。在餅狀圖格式的挑選上,先是選了乙個不是太好看的,後來又選了乙個比較合適的。

有幾個組員要去考教資,現場程式設計只有六個人

前端技術太久沒複習,不太熟悉

好在提前知道有幾個同學會缺席,所以事先分配了任務,進展還算順利

現場學習

短時間的分析和設計很令人煩躁,api介面沒開放增加工作量

化繁為簡

資料難以爬取,token演算法未知

對於美團爬取手機版頁面,採用**池

對於大眾點評,放棄

第12組 團隊Git現場程式設計實戰

組內有三人去考證了,只剩下6人 組員分工 貢獻比例 王永福前後端,爬蟲,部落格主體 30 孫承愷 建模,演算法設計,統籌 18 邱暢傑 爬蟲15 徐祖豪前端資料視覺化 13 張凌昕 前端資料視覺化,部分部落格 11 丁樞桐 資料視覺化,聚類演算法 根據題目要求,我們需要爬取相關資料,根據對題目的分析...

第12組 團隊Git現場程式設計實戰

組內有三人去考證了,只剩下6人 組員分工 貢獻比例 王永福前後端,爬蟲,部落格主體 30 孫承愷 建模,演算法設計,統籌 18 邱暢傑 爬蟲15 徐祖豪前端資料視覺化 13 張凌昕 前端資料視覺化,部分部落格 11 丁樞桐 資料視覺化,聚類演算法 根據題目要求,我們需要爬取相關資料,根據對題目的分析...

第05組 團隊Git現場程式設計實戰

成員 分工潘海東 採集資料 陳蘇蘇 嚴欣 解析整理美食前10資料 方瑞雄 翁世豪 解析整理價效比前10資料 餘廷龍 鄭裕恆 王玥 馬麗華 解析整理服飾前10資料 劉詩琳前端設計 張萬聰資料整理和視覺化 部落格編寫 鄭裕恆最受歡迎商圈視覺化 點選 最受歡迎商圈 可見測評 點選 各價位餐廳推薦 可見四種...