反爬蟲,非標準的json格式解析

2022-06-05 20:18:08 字數 528 閱讀 1688

今天寫爬蟲的時候,發現有一些資料都是通過非標準的 json 格式進行傳輸的,標準的 json 我們可以將其轉化為 python 中的資料型別,進行查詢,但對於一些類似於 json 但又非標準 json 格式的字元,就會比較頭疼了。

例如下面這樣

hxbase_json1(

]})

看上去格式和 json 很像,但仔細觀察會發現,這其中的 key 沒有被單引號包裹起來,這就導致了它無法被簡單的解析為字典型別。

自己用正則去重新構建要累死,在網上找到了乙個包-demjson`

pip install demjson

import demjson

text='hxbase_json1(\\

]})'

#去除多餘的干擾字元,變成只有key沒有引起來的假json

t = text[13:-1]

data = demjson.decode(t)

BeautifulSoup解析非標準HTML的問題

beautifulsoup版本 4.3.2 在用beautifulsoup.find all 搜尋html時,遇到下面的 a href shipin donghuapian 2012 07 25 23404.html title 謙謙君子 target blank 溫潤如玉 a 可以看出 中a標籤的...

非標準路徑的 CMAKE ROOT

由於系統本身的 cmake 版本太低,需要更新乙個。沒有管理員全限,只能在 home下安裝軟體。修改 bashrc,增加 export path home local bin path export ld library path home local lib ld library path 然後編...

Oracle 英文 非標準格式 日期 格式化

最近在處理一張表的時候,需要按照日期排序,日期欄位中日期的格式有兩種。格式一 07 aug 2015 格式二 10 28 16 日期轉化及格式化sql語句 select to date 07 aug 2015 dd mm yyyy nls date language english 英文日期,to ...