(工作總結 途家業務)關於途家網爬蟲的一點總結

2022-07-10 16:42:12 字數 829 閱讀 7886

由於公司民宿的業務需求,需要

- 在未登入情況下基於爬蟲針對途家網的**的房態、**、**資訊、上下架情況等進行實時追蹤,

- 在登入情況下,同步房東端的**、訂單、賬單等資訊;

- 在登入情況下,完成房東**的開關房、上下架、改價、改庫存等操作;

- 完成自動登入獲取cookie的操作;

**其中房態與**為業務核心**

1.pc網頁階段;

2.手機h5階段;

5.佛系階段;

1.pc網頁階段:

*此時期,所有爬蟲模組均為基於scrapy的單機式爬蟲,業務量規模較小,所有介面均為途家網網頁端介面;

*工作難點在於介面的js加密的逆向,破解tjh等相關引數的生成方式,debug時會有無限死迴圈函式導致chrome卡死,最終解決方案是一步一步單步除錯,完全破解加密引數,使用python重寫js的加密邏輯,也可以使用execjs呼叫js核心**;

2.手機h5階段:

*基於pc介面破解的方式存在兩個弊端,一是途家tjh加密版本經常公升級,導致爬蟲也失效;二是會產生假的資料,髒資料會汙染生產環境。在某個版本後發現途家h5端雖有加密引數但是加密引數不生效,遂改成此介面,但不久h5介面亦有加密引數,因此該階段只是過渡,此時業務量一般;

*此階段業務量繼續飛速擴張,**數量已達數萬套,同時對多個模組進行了改造,自建了分布式的系統以保證及時性

5.佛系階段:

* 可以看出途家做了極多的反爬措施,無論是假資料、js加密,還是各種極高耦合性的加密引數,還是ip或者登陸校驗,以至於現在取消了pc網頁端的情況,但目前來看都不是很難攻克。

工作總結 2010 3 16

在cuda中,一般的資料複製到的顯示卡記憶體的部分,稱為global memory。這些記憶體時沒有cache 的,而且,訪問global memory所需要的時間 即latency 是非常長的,通常是數百個cycles.如果我們的程式只有乙個thread,所以每次它讀取global memory的...

找工作總結

算一算,從2008年9月份開始找工作,到2009年12月現在已經有3個月了 找工作,算是人生一段特殊的經歷吧,知道了很多公司,認識了很多人,也學習到了很多東西,對這個社會也認識的更清楚了。從一開始的自信,以為很多崗位都是為自己量身打造,卻一次次被bs,讓我很受打擊。特別是幾個好公司的筆試都沒有通過,...

2011工作總結

1 編碼能力 實踐中,開始注重模型的概念。所謂模型打個比方 要做一台電視機,首先搞清楚你想怎麼使用它,目的是讓它看起來更方便易用。根據常規經驗判斷,電器需要電源 需要訊號,這兩點是必不可少。ok,那畫個草圖,電視要顯示,那我給它準備乙個顯示的東西,現實生活中,有以下標準可選 液晶顯示器,投影顯示器 ...