Project 1 階段性總結續文

2021-09-13 09:08:18 字數 610 閱讀 1849

爬取的專案大概有200多萬資料,基本都是做資料補全。目前已經接近尾聲,還是遇到不少問題,感覺還是要總結一下才對得起花費的時間。

爬蟲過程,最好將整個頁面也拿下來

這次爬蟲吃了大虧。同一資料爬取了3次,因為每次拿到的資料和網頁不一致。後來採取了儲存整個網頁這個辦法,這樣,在資料驗收的時候,當發現爬取下來的資料和**上的資料不一致的時候,只需要檢查拿取下來的整個頁面就可以了。這樣即使爬取的資料和當前網頁資料不一致,也有據可依。資料不一致很有可能是由於資料從不同伺服器返回,原資料或者當前資料被伺服器反爬了所導致的。

每乙個欄位的補全,最好制定好計畫

感覺自己這次資料補全的挺混亂的,都是邊爬取邊發現自己錯誤,然後採取措施去解決。這樣感覺很耗費時間。後面的專案一定要多總結前期專案經驗,提前制定好計畫。

由於爬取速度過快,導致的403和503等錯誤不能忽視

被這兩個狀態虐慘了,自己高速爬取時完全無視這兩個狀態,導致拿下來的資料都是空的。爬資料很簡單,但想做好爬蟲並沒那麼容易,也還是需要反爬技術滴。

好了,大概就是這些了。希望後面不斷總結專案經驗,不斷進步!爬蟲過程,最好將整個頁面也拿下來,這個應該才是我此次學習到得最重要的一條!!!!

2011 07 31 階段性總結

這個blog好久沒有上來看了,看到原來寫的一些文章,發現現在的 風格完全變了個樣兒,大半年沒有寫博文了,主要還是比較忙的原因,現在發現對於一些題目的理解,不能只侷限於對某一題的做法的理解,要把相似問題轉化為模型,這樣我們才能在比賽中獲得比較好的成績。這半年可以說自己的 風格完全變了,我覺得 要有可讀...

階段性總結

今天聽學長交流了一些人生的經驗,便有了一些感觸,加上對自己最近的學習狀態的總結,就寫一篇部落格給自己一點指示。最近渾渾噩噩的,有幾次考試也沒考好,考後也沒總結。晚自習本想刷一些題,複習一下,或是學習一點技術。看見其他同學在打擺,便動搖了。最後心中也只是徒留深深的罪惡感。所以我也是時候對自己的未來進行...

階段性總結

感覺上個星期還挺痛苦的,因為要練演算法,每個人都告訴我說演算法很重要很重要,但是演算法對我來說就像是一根很亂的神經,一觸就炸了,可我的驕傲還不允許我放棄。在leetcode上練習的時候是直接告訴用什麼方法,在寫藍橋杯演算法的時候就像是閱讀理解,經常讀不懂是什麼意思,要不就是理解錯誤,追根究底還是做的...