爬蟲經驗 mb5ce6a8349c2c8的部落格

2022-09-23 06:42:09 字數 985 閱讀 5315

1.requests是python實現的簡單易用的http庫,使用起來比urllib簡潔很多

因為是第三方庫,所以使用前需要pip安裝

pip tall requests

安裝完成後import一下,正常則說明可以開始使用了。

基本用法:

requests.get()用於請求目標**,型別是乙個httpresponse型別

?beautifulsoup

只要目標資訊的旁邊或者附近有標籤就可以呼叫 ,,不用管是幾層標籤(父輩 後代輩 的都可以)。

soup.html.body.h1

soup.body.h1

soup.html.h1

soup.h1

索引的效果都是同乙個內容。

但是應該把重要的標籤包含進去,以免過於簡單爬到不想要的內容。

2.原始碼安裝 mongodb資料庫 (mkdir -p /data/db)pip 安裝 pymongo (python鏈結mongodb的第三方庫 )進到bin底下可以./mongo show dbs 列出資料庫 use 資料庫名可以進去 db.athletes.find() 可以看當前資料庫的內容或者在python也可以檢視pymongo 連線資料庫db=pymongo.mongoclient().iaaf for i in db.athletes.find():print i

3.python語言中,寫入excel檔案的擴充套件工具。相應的有xlrd擴充套件包,專門用於excel讀取。用pip tall xlwt**

4.json 是輕量級的文字資料交換格式。是用來儲存和交換文字資訊的語法。)5.爬的是乙個國家運動員的一些室內室外成績資訊(一共寫了4個指令碼,第乙個指令碼主要是拿到所有運動員的唯一href並存到資料庫,第二個是通過h2標籤確定我們需要取的室內室外成績存到資料庫,第三個主要是把所有資料取出來拼接好了回插到資料庫,第四個是把資料庫所有的內容存到excel**中第乙個指令碼:

第二個指令碼:

第三個指令碼:

第四個指令碼:

SAP歷史庫存MB5B的詳解

事務 mb5b是查詢選擇期間之內的收發存報表 其中,收 發為彙總選擇期間的收 發資訊,存為選擇期間的期初 期末庫存資料 我們也可以用該報表查詢歷史上某一天的庫存,但注意有一些限制條件。1 庫存型別的選擇 僅顯示在庫存地點層次的庫存,不顯示工廠級別下的庫存 特殊庫存和工廠級別在途庫存 只能檢視收發存數...

爬蟲的一點經驗

1.寫乙個網頁爬蟲的時候遇到了乙個div巢狀問題,即乙個大的div裡面有很多小的div,如 xx x 這樣乙個型別,如果爬取內層的div是很簡單的,正規表示式十分好寫 div 但是如果要爬取外面的div該怎麼辦呢?當時我的做法是繼續尋找,找出該段內容後面的具有識別該段內容能力的內容。如上式,在正規表...

Python爬蟲闖關 5

第五關 第四關的密碼與第三關一樣,都是30以內的數字 usr bin env python3 coding utf 8 import requests from lxml import etree class login object def init self self.session reque...