打造乙個輕量級企業基本資訊採集框架（七）

在前面六篇系列的文章中，我們已經初步搭建了乙個企業基本資訊採集框架，但是從可配置性以及視覺化方面還有很多地方需要去完善。這篇文章我們對schedule.py這個檔案做一些整體的修改，使其看上去更加符合我們的平常需求。

我在原有的框架上面，又建立了乙個start_crawl.py這個檔案來啟動全域性，主要是想在啟動之前做乙個更加合理劃的配置和判斷，下面是具體的實現部分

# -*- coding: utf-8 -*-
from schedule import scheduler
from db_connect import redisdbconn,dbcollect
import sys
import io
from loguru import logger
from config import
*buffer
,encoding=
"utf-8"
)def
main
(keywords_list)
:"""
開始執行整個工商採集
:return:
"""count = redisdbconn(
).get_count(init_status)
if count ==0:
if delete_redis_keywords and delete_redis_params:
redisdbconn(
).del_db(keywords_redis_db)
redisdbconn(
).del_db(params_redis_db)
if sql_input:
).entry_data(
)else:)
.add_keywords(keywords_list)
else
: logger.info(
"源redis庫內已經有未採集的keywords....."
)try
: s = scheduler(
) s.run(
)except exception as e:
logger.debug(
"開始採集出現問題--"
+str
(e.args)
)# main(keywords_list)
if __name__ ==
'__main__'
: keywords_list =
["天堂"
,"建材"
] main(keywords_list)

打造乙個輕量級企業基本資訊採集框架（三）

在上文中我們主要定義了兩個資料庫，乙個是儲存表mysql的儲存設定，還有乙個就是redis初始化設定，包括取資料，計數等功能函式的設定。沒有看過的小夥伴請移步打造乙個輕量級企業基本資訊採集框架二本文主要對如何實現排程器，對url進行排程以及設定。coding utf 8 from config ...

打造乙個輕量級企業基本資訊採集框架（四）

我們話不多說，show your code！def req data url,data,page,keyword,timeout 10,proxies none 用來請求採集 param data 請求引數 param url url param page 頁數 return html count ...

peewee 乙個輕量級的ORM 四

class database last insert id cursor,model parameters return type 最後乙個插入的記錄的那行的主鍵，不一定非得叫 id rows affected cursor return type 受影響的行數 create table model...

打造乙個輕量級企業基本資訊採集框架（七）

打造乙個輕量級企業基本資訊採集框架（三）

打造乙個輕量級企業基本資訊採集框架（四）

peewee 乙個輕量級的ORM 四

相關推薦