爬蟲遇到的問題持續更新

2021-12-30 08:07:38 字數 1554 閱讀 7089

feed_export_encoding = 『utf-8』

如果輸出到csv檔案是亂碼問題,那麼你要用記事本開啟,然後在儲存為utf-8 格式 因為excl 預設的編碼是acii

2.語法 說明

/artical/div[1] 選取所有屬於artical 子元素的第乙個div元素

/artical/div[last()] 選取所有屬於artical子元素的最後乙個元素

/artical/div[last()-1] 選取所有屬於artical子元素的倒數低2個元素

//div[@lang] 選取所有擁有屬性為lang的元素

//div[@lang=」eng」] 選取所有div下lang屬性為eng的元素

/div/* 選取所有屬於div元素的所有子節點

//* 選取所有元素

//div[@*] 選取所有帶屬性的title元素

//div/a | //div/p 選取所有div元素的a和p 元素

//span | //ul 選取文件中所有span和ul 的元素

artical/div/pl | //span 選取所有div下的pl和文件中所有span

//a[contains(@href, 「image」)] 所有href中包含 image的a元素

ccs選擇器語法

語法 說明

* 選擇所有節點

.container 選擇所有class包含container的節點

div,p 選擇所有 div 元素和所有 p 元素

li a 選取所有li 下所有a節點

ul + p 選取ul後面的第乙個p元素

div#container > ul 選取id為container的div的第乙個ul子元素

ul ~p 選取與ul相鄰的所有p元素

a[title] 選取所有有title屬性的a元素

a[href=」 選取所有href屬性為的a元素

a[href*=」baidu」] 選取所有href屬性值中包含baidu的a元素

a[href^=」http」] 選取所有href屬性值中以http開頭的a元素

a[href$=」.jpg」] 選取所有href屬性值中以.jpg結尾的a元素

input[type=radio]:checked 選擇選中的radio的元素

div:not(#container) 選取所有id為非container 的div屬性

li:nth-child(3) 選取第三個li元素

li:nth-child(2n) 選取第偶數個li元素

a::attr(href) 選取a標籤的href屬性

a::text 選取a標籤下的文字

提取內容

方法 返回

selector.xpath() 返回selectorlist物件

selector.css() 返回selectorlist物件

selectorlist.extract() 返回list物件

selectorlist.extract_first(default) 返回string物件,可以有預設值,類似dict.get(key, default)

OpenCV遇到的問題(持續更新)

1.未經處理的異常 0x00007ffa95d9a388 處 位於 image pro1.exe 中 有未經處理的異常 microsoft c 異常 cv exception,位於記憶體位置 0x000000bd2c8ef520 處。如圖 解決方法 原因一 imread中檔案的路徑,和.cpp檔案或...

Oracle開發遇到的問題(持續更新)

2020 09 在資料庫裡面對資料進行update操作之後要進行commit。這樣其他地方才能查到更新之後的內容。2020 10 oracle進行foreach插入的時候存在不一樣的語法。正確的寫法 insert id insertexpenseitem parametertype list ins...

Python安裝遇到的問題彙總(持續更新)

更多問題可以檢視我以前整理的文件,內容太多複製不過來 1.安裝 padans datareader 在anaconda 中搜尋安裝或者執行命令安裝 匯入pandans datareader報錯問題 參考解決 importerror cannot import name is list like 編輯...