《Python 網路資料採集》正規表示式

urlopen 用來大家並讀取乙個從網路獲取的遠端物件。

tag:：傳乙個標籤名稱或多個標籤組成的列表

attributes：傳乙個python字典封裝乙個標籤的若干屬性和屬性值。例如：.findall("span", })

recursive：是乙個遞迴引數，要求傳乙個布林變數，預設值是ture，所以findall缺省會去查詢標籤引數的所有子標籤，以及子標籤的子標籤。改為false，findall就至查詢文件的以及標籤。

text：用標籤的文字內容去匹配，而不是標籤的屬性。

limit：範圍限制引數，顯然只用於findall，find其實等價與findall中的limit=1的情況。limit引數設定後，它的返回的前limit項結果是按照網頁上的順序排序的。

keyword：可以讓你選擇指定屬性的標籤，是beautifulsoup設定的乙個冗餘功能，可替代，且偶爾會出現問題。例如bsobj.findall(class="green")，會產生乙個語法錯誤，因為class是python的保留字。

.get_text() 會把你正在處理的 html 文件中所有的標籤都清除，然後返回乙個只包含文字的字串。假如你正在處理乙個包含許多超連結、段落和標籤的大段源**，那麼 .get_text() 會把這些超連結、段落和標籤都清除掉，只剩下一串不帶標籤的文字。