BeautifulSoup在使用過程中遇到問題

2021-09-26 04:40:57 字數 585 閱讀 5201

通過soup.find_all()得到的結果無法join

在使用soup.find_all()時發現,得到的結果無法使用類似' '.join()的**進行處理,具體錯誤表現為:

typeerror: sequence item 0: expected string, tag found

typeerror: sequence item 0: expected string, int found

以上兩種錯誤的出現均是由於返回的結果中包含有非string型別的內容造成的;而join命令所進行處理的物件是可迭代物件,且物件返回的迭代結果須為string型別,如:

因此,針對上述錯誤,當必須進行join操作時,使用類似下面的**即可完成操作

Beautiful Soup在爬蟲中的基本使用語法

beautiful soup是python 的乙個html 或 xml的解析庫,借助網頁的結構和屬性特徵來解析網頁,便於使用者抓取資料。beautiful soup能夠自動將輸入的文件轉化為unicode,輸出的文件轉換為utf 8,這大大提高了文件提取的效率。基本用法如下 beautifulsou...

BeautifulSoup常用方法

1.初始化 2.查詢指定標籤 eg 要找到符合的所有標籤 p.findall div 反覆利用標籤特徵可以找到最終需要的標籤 3.直接加標籤名可以找到所有子標籤 eg 找到所有標籤 p.td 4.直接以字典形式,可以訪問標籤內對應屬性的值 eg 要找到 中href 的值 www.csdn.net p...

BeautifulSoup學習筆記

prettify 將html 格式化 get text 獲得所有文字內容 contens 返回所有子節點 children 返回子節點生成器 descendants 返回所有子孫節點的生成器 strings 返回包含的多個字串的生成器 stripped strings 返回包含的多個字串 去除多餘空...