歡迎使用CSDN markdown編輯器

2021-08-03 05:32:55 字數 975 閱讀 5974

#p後面的r「」表示p為後面字串的原始字串,這個r加不加都可以由於我們後面需要多次利用正規表示式匹配,所以這裡利用re.compile將正規表示式編譯為正規表示式物件,以在後面使用過程中加快匹配效率。所以pa為乙個正規表示式物件,可以使用正規表示式方法。

python2中的urllib與python3中大有不同,這裡只做python3的介紹

for i in range(max_page):

r_url = ""+keyword+"&pn="+str(i)+"0"

req = request.request(r_url,headers=head)

htm = urllib.request.urlopen(req).read()

html = htm.decode('utf-8')

begin_urls = pa.findall(html)

ss_urls = sorted(set(begin_urls),key = begin_urls.index)

s_urls += ss_urls

經檢查,獲得的begin_urls列表中確實有重複項,所以我沒為了提高程式v效率必須v進行去重。這裡利用到了集合的特性,集合是一組無序,兩兩不等的。所以利用set(begin_urls)可以得到乙個無重複項的集合,再利用sorted排序v函式進行排序。sorted(list,key)這裡的key引數採用剛剛去重複之前begin_urls中的順序(begin_urls.index)對新的去沖後的序列進行排序。所以輸出的ss_url列表仍是有順序的。

s_urls += ss_urls 這裡採用列表鏈結的方式來獲得總的url鏈結列表。

歡迎使用CSDN markdow

本markdown編輯器使用stackedit修改而來,用它寫部落格,將會帶來全新的體驗哦 markdown 是一種輕量級標記語言,它允許人們使用易讀易寫的純文字格式編寫文件,然後轉換成格式豐富的html頁面。維基百科 使用簡單的符號標識不同的標題,將某些文字標記為粗體或者斜體,建立乙個鏈結等,詳細...

歡迎毛毛與妞妞使用CSDN markdown編輯器

建立乙個自定義列表 如何建立乙個註腳 注釋也是必不可少的 katex數學公式 新的甘特圖功能,豐富你的文章 uml 圖表 flowchart流程圖 匯出與匯入 你好!這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以仔細閱讀這篇文章,了解一下mar...

歡迎使用CSDN markdow1n編輯器

本markdown編輯器使用stackedit修改而來,用它寫部落格,將會帶來全新的體驗哦 markdown 是一種輕量級標記語言,它允許人們使用易讀易寫的純文字格式編寫文件,然後轉換成格式豐富的html頁面。維基百科 使用簡單的符號標識不同的標題,將某些文字標記為粗體或者斜體,建立乙個鏈結等,詳細...