求助!BeautifulSoup無法解析百度首頁

2021-08-28 09:06:08 字數 611 閱讀 8678

在python3編譯器裡先把相應的第三方庫匯入好,這裡我只用了urllib.request、beautifulsoup來進行測試。

匯入完之後在shell中輸入下列**,顯示出相應的結果。

>>>url_1 = r''

>>>url_2 = r''

>>>page_1 = urllib.request.urlopen(url_1)

>>>page_2 = urllib.request.urlopen(url_2)

>>>soup_1 = beautifulsoup(page_1.read(), 'html.parser')

>>>soup_2 = beautifulsoup(page_2.read(), 'html.parser')

>>>soup_1('a')

>>>soup_2('a')

可以看到,url_1獲取頁面html之後在beautifulsoup中無法解析,但是url_2的可以解析,而url_1和url_2的區別就在於前面的www.,對此我深感疑惑,不知道為什麼會出現這樣的情況,還請各位大佬幫我解一解疑惑。

求助帖!求助帖!求助帖!

求助 英語專業 無從業經歷 專案經驗以及任何學習史,想轉行it技術崗,目前考慮大資料領域,想問一下這種情況是不是只能直接去培訓機構參加培訓學習專業知識?如果考慮產品經理方向呢?是否可以從產品經理助理開始做起。畢竟是零基礎零經驗,跨行就業,接受花錢學習的形式,只是想請各位專業人士給指條明路,確定入行到...

BeautifulSoup常用方法

1.初始化 2.查詢指定標籤 eg 要找到符合的所有標籤 p.findall div 反覆利用標籤特徵可以找到最終需要的標籤 3.直接加標籤名可以找到所有子標籤 eg 找到所有標籤 p.td 4.直接以字典形式,可以訪問標籤內對應屬性的值 eg 要找到 中href 的值 www.csdn.net p...

BeautifulSoup學習筆記

prettify 將html 格式化 get text 獲得所有文字內容 contens 返回所有子節點 children 返回子節點生成器 descendants 返回所有子孫節點的生成器 strings 返回包含的多個字串的生成器 stripped strings 返回包含的多個字串 去除多餘空...