爬取知名社群技術文章 分析 1

2022-05-17 05:54:08 字數 1496 閱讀 9970

軟體執行環境是什麼?

python 3.50                                      -- 直譯器

scrapy庫                                         -- 爬蟲框架

pymsql庫                                         -- 連線mysql資料庫

目標**是什麼?

需要爬取哪些資料?

文章對應的url             cont_url                              varchar(512)

文章標題                     title                                     varchar(36)

文章發布時間              publish_time                      data(1970-1-1)

文章內容                     cont                                    longtext

對應url                img_url                               varchar(512)

文章點讚數                  like_num                            int(12)

文章收藏數                  collection_num                  int(12)

對於這些資料如何設計表?

每個資料都是文章的詳情頁面的唯一資料,不存在冗餘資料,所有一張表就可以了

表名:jobbole_article

主鍵:把文章對應的url進行md5處理,做primarykey      varchar(64)

事先把資料表建立起來,pymysql只需要插入資料就行了

如何進行事先分析?

直接把所有的文章都顯示出來,就以這個為起始網頁,這個**為:

邊界值分析:

如何邏輯實現?

獲得初始資料,然後對初始資料進行格式化處理,去髒處理,獲取有效資料

把有效的字段,通過pymysql連線資料庫,並寫入資料庫

邏輯結構如何?

該爬蟲分為:5個邏輯結構

解析文章簡介頁面             

解析文章詳情頁面

獲得原始資料

資料去髒處理

寫入資料庫(通過gevent的協程實現儲存)

出現的問題?

如何非同步實現資料庫的插入?

通過協程實現對資料的插入

c 技術文章

看了c 的經典著作 effective c 之後的感想。大學的時候學校開了c 的課程,我考的還不錯。畢業後就一直搞軟體開發,大概一年前開始用vc做專案。最近靜下心來看了c 的經典著作 effective c 才發現自己的c 水平其實真的很一般!書中提到的有些東西,我竟然從來沒有注意過!還有些竟然是我...

Mybatsi技術文章

基礎教程 mybatis學習 之 一 mybatis簡介與配置mybatis spring mysql mybatis學習的乙個系列部落格,非常詳細 mybatis document mybatis官方學習文件 english 中文文件 原理分析 mybatis 快取機制深度解剖 自定義二級快取 l...

技術文章鏈結

基本css樣式.bootstrap bootstrap教程 菜鳥教程 w3cplus 引領web前沿,打造前端精品教程 sharp and clean symbols glyphicons.com 使用超動感html js開發web應用 angularjs中文社群 angularjs 教程 菜鳥教程...