金融文字時間提取

2021-09-28 22:04:38 字數 2391 閱讀 2021

瀏覽github發現乙個有趣的庫,:在裡面發現了乙個非常非常有用的庫:

>>> from coconlp.extractor import extractor

>>> ex = extractor()

>>> times = ex.extract_time(text)

>>> print(times)

time

記錄一下。順便感謝開源大佬!以及:尋人微博:

補充:獲取的時間是str格式,將其轉化為字典,通過以下文章:

python 如何將字串轉為字典

引言在工作中遇到乙個小問題,需要將乙個 python 的字串轉為字典,比如字串:

user_info = ''
我們想把它轉為下面的字典:

user_dict =
有以下幾種方法:

通過 json 來轉換

>>> import json

>>> user_info= ''

>>> user_dict = json.loads(user_info)

>>> user_dict

但是使用 json 進行轉換存在乙個潛在的問題。

>>> import json

>>> user_info = ""

# 由於字串使用單引號,會導致執行出錯

>>> user_dict = json.loads(user_info)

traceback (most recent call last):

file "", line 1, in file "/usr/local/cellar/python/2.7.11/frameworks/python.framework/versions/2.7/lib/python2.7/json/__init__.py", line 339, in loads

return _default_decoder.decode(s)

file "/usr/local/cellar/python/2.7.11/frameworks/python.framework/versions/2.7/lib/python2.7/json/decoder.py", line 364, in decode

obj, end = self.raw_decode(s, idx=_w(s, 0).end())

file "/usr/local/cellar/python/2.7.11/frameworks/python.framework/versions/2.7/lib/python2.7/json/decoder.py", line 380, in raw_decode

obj, end = self.scan_once(s, idx)

valueerror: expecting property name: line 1 column 2 (char 1)

通過 eval

>>> user_info = ''

>>> user_dict = eval(user_info)

>>> user_dict

>>> user_info = ""

>>> user_dict = eval(user_info)

>>> user_dict

通過 eval 進行轉換就不存在上面使用 json 進行轉換的問題。但是,使用 eval 卻存在安全性的問題,比如下面的例子:

# 讓使用者輸入 `user_info`

>>> user_info = raw_input('input user info: ')

# 輸入 ,沒問題

>>> user_dict = eval(user_info)

# 輸入 __import__('os').system('dir'),user_dict 會列出當前的目錄檔案!

# 再輸入一些刪除命令,則可以把整個目錄清空了!

>>> user_dict = eval(user_info)

通過 literal_eval

>>> import ast

>>> user = ''

>>> user_dict = ast.literal_eval(user)

>>> user_dict

user_info = ""

>>> user_dict = ast.literal_eval(user)

>>> user_dict

使用 ast.literal_eval 進行轉換既不存在使用 json 進行轉換的問題,也不存在使用 eval 進行轉換的 安全性問題,因此推薦使用 ast.literal_eval。

正則法則提取文字裡的時間

1 功能概述 實現通過正則法則,來提取乙個文字裡面包含的時間 2 實現思路 1 編寫適合篩選格式的正交法則 如圖實現 年 月 日的篩選 年 月 日 年 月 日 的格式,我們可以更改不同篩選規則,進行不同格式篩選 pattern pattern.compile 0 9 年 0 9 1 9 月 0 9 ...

python自動提取文字中的時間(包含中文日期)

有時在處理不規則資料時需要提取文字包含的時間日期。dateutil.parser模組可以統一日期字串格式。datefinder模組可以在字串中提取日期。datefinder模組實現也是用正則,功能很全 但是對中文不友好。但是這兩個模組都不能支援中文及一些特殊的情況 所以我用正則寫了段 可進行中文日期...

python提取中文字元 Python提取中文字元

寫這個jupyter的原因是好幾次自己爬完新聞之後,發現中間有些是html標籤 或者其他多餘的英文本元,自己也不想保留,那麼這時候乙個暴力簡單的方法就是使用 unicode 範圍 u4e00 u9fff 來判別漢字 unicode 分配給漢字 中日韓越統一表意文字 的範圍為 4e00 9fff 目前...