爬蟲學習筆記day04

2021-09-02 01:31:04 字數 426 閱讀 8950

3. 步驟

1. 獲取貼吧主頁url

查詢引數

2.(xpath)提取頁面中所有帖子的url

src :完整的鏈結

href : 需要和主url進行拼接

+ /p/5020551987

校花吧:

self.url_xpath = "//div/div/a[@class='j_th_tit ']/@href"

3.  匹配乙個帖子中所有的url

校花吧:

self.img_xpath = "//div/cc/div/img[@class='bde_image']/@src"

for 每個帖子的連線 in [帖子連線列表]:

res = get(每個帖子鏈結)

html = res.text

鏈結列表 = xpath('')

前端學習 Day04

css cascading style sheet 層疊樣式表1.標籤 之類的標籤 使用方式 直接輸入標籤名 2.類 class class名字 使用方式 輸入點 class名 3.id id 名 使用方式 輸入 id名 一般來說我們寫css檔案的時候用的是第二種選擇器,class名 這是因為id名...

Struts2學習筆記day04

3.在jsp頁面中匯入佔位符號 3.為訪問action的請求增加額外功能 如何開發 1.寫乙個類 implements interceptor介面 重寫 intercept actioninvocation invocation 2.配置 在struts.xml中 注意 當我們是使用了自定義 則st...

tornado學習筆記day04 執行順序

self.write 函式 原始碼中是這樣定義的 def write self,chunk union str,bytes dict none 將chunk資料寫到緩衝區 當你寫了乙個print之後,不是直接就顯示在黑屏中斷上面的,而是先到緩衝區走乙個趟 只是我們python演示不了,這個得用c語言...