打造乙個輕量級企業基本資訊採集框架(七)

2021-10-05 01:51:50 字數 1320 閱讀 6603

在前面六篇系列的文章中,我們已經初步搭建了乙個企業基本資訊採集框架,但是從可配置性以及視覺化方面還有很多地方需要去完善。這篇文章我們對schedule.py這個檔案做一些整體的修改,使其看上去更加符合我們的平常需求。

我在原有的框架上面,又建立了乙個start_crawl.py這個檔案來啟動全域性,主要是想在啟動之前做乙個更加合理劃的配置和判斷,下面是具體的實現部分

# -*- coding: utf-8 -*-

from schedule import scheduler

from db_connect import redisdbconn,dbcollect

import sys

import io

from loguru import logger

from config import

*buffer

,encoding=

"utf-8"

)def

main

(keywords_list)

:"""

開始執行整個工商採集

:return:

"""count = redisdbconn(

).get_count(init_status)

if count ==0:

if delete_redis_keywords and delete_redis_params:

redisdbconn(

).del_db(keywords_redis_db)

redisdbconn(

).del_db(params_redis_db)

if sql_input:

).entry_data(

)else:)

.add_keywords(keywords_list)

else

: logger.info(

"源redis庫內已經有未採集的keywords....."

)try

: s = scheduler(

) s.run(

)except exception as e:

logger.debug(

"開始採集出現問題--"

+str

(e.args)

)# main(keywords_list)

if __name__ ==

'__main__'

: keywords_list =

["天堂"

,"建材"

] main(keywords_list)

打造乙個輕量級企業基本資訊採集框架(三)

在上文中我們主要定義了兩個資料庫,乙個是儲存表mysql的儲存設定,還有乙個就是redis初始化設定,包括取資料,計數等功能函式的設定。沒有看過的小夥伴請移步打造乙個輕量級企業基本資訊採集框架 二 本文主要對如何實現排程器,對url進行排程以及設定。coding utf 8 from config ...

打造乙個輕量級企業基本資訊採集框架(四)

我們話不多說,show your code!def req data url,data,page,keyword,timeout 10,proxies none 用來請求採集 param data 請求引數 param url url param page 頁數 return html count ...

peewee 乙個輕量級的ORM 四

class database last insert id cursor,model parameters return type 最後乙個插入的記錄的那行的主鍵,不一定非得叫 id rows affected cursor return type 受影響的行數 create table model...