百度雲鏈結爬蟲搭建記錄

2021-09-22 07:10:55 字數 927 閱讀 3186

create database pan default charset utf8

git clone

開啟 bin/spider.py ,修改 db_host、db_port、db_user、db_pass

如果你是第一次部署,需執行下面命令,完成做種

python bin/spider.py --seed-user

然後執行

python bin/spider.py

上面都來自

我發現當這個爬蟲爬了45分鐘後便開始變慢

我寫了乙個指令碼讓他30分鐘結束程序然後繼續開啟

#!/bin/bash

# a為程式啟動結束的計數變數

a=1# 掛載資料盤

sudo mount /dev/sda1 /data

echo "mount ok"

# 開啟mysql

sudo service mysql start

echo "mysql start"

# 爬蟲開啟結束的死迴圈

while (( 1==1 ))

do# 開啟爬蟲並放入後台

# 30分鐘後結束程序

sleep 1800

killall python

sleep 1

echo "program is kill"

let a=a+1

# 寫入檔案

echo $a >> bboysoul

done

當關閉命令列後程序會結束

用screen命令

百度雲伺服器搭建記錄

查訓伺服器是否是6.5 64位,如下在例項中查訓資訊 yum第一步 python iniparse 0.3.1 2.1.el6.noarch.rpm yum metadata parser 1.1.2 16.el6.x86 64.rpm yum 3.2.29 81.el6.centos.noarch...

百度文庫爬蟲

可用的page number 0 10 20 30 根據url和type爬取檔案類容 doc和txt檔案使用不同的爬取方法 爬取的結果儲存在txt outputs search word freefromwenku main.py 程式入口 readme.md read me requirement...

百度翻譯 爬蟲

2.開啟抓包,發現有三個sub的post請求,確定為ajax,最後乙個post請求攜帶完整引數dog 3.然後檢視返回資料為json串 import requests import json if name main post url kw input 請輸入你要翻譯的文字 修改爬蟲的ua為瀏覽器的...