靜態網頁的目錄規劃問題

2021-05-21 10:40:08 字數 571 閱讀 7402

曾經有乙個網友提出乙個問題:

「生成的靜態網頁是按不同商品分類放在不同資料夾好?還是放在乙個資料夾?」

這個問題是幾乎所有的靜態發布技術面臨的乙個問題,由於面臨的應用場景不一樣,所有不能一概而論,但是有幾個原則和針對的方法,大家可以嘗試一下。

還是那句老話:「具體情況具體分析」。常見的做法:

1)、乙個目錄下儲存

簡單,容易維護,定址方便,面向搜尋引擎檢索友好,適合於簡單的靜態發布情況( <10萬)。

2)、簡單檔案分目錄結構,不同型別的檔案放置在不同的檔案目錄中,這樣形成乙個帶有業務規則的樹狀結構,節點就是目錄,葉子就是檔案。適用於中等規模的靜態發布情況。( <100萬)

3)、 重新規劃檔案目錄結構+url位址重新  

單一的分目錄存放優勢明顯,但是這樣造成的問題仍然很多,交叉引用的情況容易形成新的瓶頸,訪問位址過長過深,並且業務規則通常不是乙個標準維度,很難形成針對所有頁面統一的乙個分類規則,鏈結的維護任務十分複雜。這時可以包含多個分類標準的目錄結構(有主有次),採用位址重寫技術。適合於大型**(>1000萬)

關於位址重寫技術的原理,網上資料很多,有空再剖析。

規劃網頁的抓取

適當地規劃網頁的抓取,限制單位時間內對乙個 抓取網頁的數量 例如每天不超過2萬個,或者至少每隔30秒才對同乙個 發出下乙個網頁請求,等等 是大規模搜尋引擎必須要認真對待的問題。總之,搜尋引擎需要和 和睦相處 它們是相互依存的。可以考慮乙個 從主頁開始向下,按照鏈結的深度將網頁組織成一層層的,上層中的...

靜態網頁的製作步驟

1 從上到下的方式 比較適合新手 2 先確定結構再在結構中填充內容 比較適合老司機 1 去掉標籤的預設margin和padding html,body,ul,li,ol,dl,dd,dt,p,h1,h2,h3,h4,h5,h6,form,fieldset,legend,img img 3 去掉ul前...

靜態網頁的爬蟲嘗試

去年寫的乙個簡單爬蟲,爬去全書網的盜墓筆記的部分章節,還是比較簡單的,但是現在看來還有很多小問題沒處理 鑑於只是第一次嘗試,保留下 以後看看回想思路比較合適,就不再去完善 了。import requests from bs4 import beautifulsoup class download o...