python爬蟲學習

2021-08-10 14:42:06 字數 1685 閱讀 3751

例如列印當前時間

from datetime import datetime

print(datetime.now())

或者import datetime

print(datetime.datetime.now())

********html結構********

html →

...head>

...body>

html>

— head →

a useful page

head>

— title → a useful pagetitle>

— body →

an int...h1>

lorem ip...div>

body>

— h1 → an interesting titleh1>

— div → lorem ipsum dolor...div>

我們從網頁中提取的 標籤被嵌在 beautifulsoup 物件 bsobj 結構的第二層(html → body → h1)。但是,當我們從物件裡提取 h1 標籤的時候,可以直接呼叫它:bsobj.h1

其實,下面的所有函式呼叫都可以產生同樣的結果:

except httperror as e: #網頁在伺服器上不存在(或者獲取頁面的時候出現錯誤)

return

none

#伺服器不存在的情況,丟擲 attributeerro,html 也是乙個 none 物件

try:

bsobj = beautifulsoup(html.read(),"html.parser")

title = bsobj.body.h1

except attributeerror as e: #網頁上沒有該項內容

return

none

return title

title = gettitle("")

if title == none:

print("title could not be found")

else:

print(title)

for

name

in namelist:

print(name.get_text())

#之前,我們呼叫 bsobj.tagname 只能獲取頁面中的第乙個指定的標籤。現在,我們呼叫 bsobj.findall(tagname, tagattributes) 可以獲取頁面中所有指定的標籤,不再只是第乙個了

正規表示式

當我們動手開始寫正規表示式的時候,最好先寫乙個步驟列表描述出你的目標字串結構。

還要注意一些細節的處理。比如,當你識別**號碼的時候,會考慮國家**和分機號嗎?

Python爬蟲學習

最近由於 需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時...

Python學習 爬蟲

在搜尋python知識的時候一直看到爬蟲相關知識,感覺挺好玩的,打算簡單了解一下。1 找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 html js css 等檔案,瀏覽器解析出來,使用者便可以看到形形色色的了。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬...

python爬蟲學習

一 beautiful soup庫 1 引用 from bs4 import beautifulsoup from bs4 import beautifulsoup soup beautifulsoup data html.parser 2 beautifulsoup類的基本元素 tag 標籤,最基...