利用jieba對已爬取好的中國地名資訊進行分詞

2021-09-28 15:44:18 字數 2432 閱讀 5618

import jieba

import pandas as pd

import os

定義乙個獲取分詞結果的函式,以列表形式返回:

def get_jieba_output(corpus_dataframe):

word_set= # 空列表

for i in corpus_dataframe[0]: # 因為地名資訊是資料框的第一列

obj_list = i

for jie in jieba.cut(obj_list,cut_all=true):

if len(jie) <2: # 長度小於2的詞忽略掉

pass

else:

if jie not in word_set: # 不新增重複項

else:

pass

word_list = obj_list.split(sep='|') # 因為原資料中省名、市名、區名等是由 | 分隔開的

for word in word_list:

if word not in word_set: # 不新增重複項

else:

continue

return word_set

定義得到省及直轄市名的函式,返回乙個相當於集合的列表:

def get_all_prov(corpus_dataframe):

prov_set=

for i in range(len(corpus_dataframe)):

obj_list=corpus[0][i]

word_list = obj_list.split(sep='|')

prov_name = word_list[0]

if prov_name not in prov_set:

else:

continue

return prov_set

主函式:

if __name__ == '__main__':

'''這是根據已爬取的中國地域資訊文字,利用jieba分詞工具對其進行分詞 '''

jieba_file="c:/users/tkxlovecy99/desktop/htmls/china_geographic_infomation_jieba"

# 建立資料夾儲存接下來的各省直轄市的分詞操作

try:

os.mkdir(jieba_file)

except:

pass

china_geographic_infomation="c:/users/tkxlovecy99/desktop/htmls/china_geographic_infomation.txt"

# 中國地名資訊文字路徑

corpus=pd.read_csv(china_geographic_infomation,sep='\n',header=none)

#讀取資訊以dataframe的形式儲存

prov_name_set = get_all_prov(corpus)

for prov in prov_name_set:

filename = jieba_file+'/'+prov+'.txt'

print(filename)

obj_corpus = corpus[corpus[0].str.contains(prov)]

word_set = get_jieba_output(obj_corpus)

for word in word_set:

with open(filename,'a',encoding='utf8') as f:

f.write(word)

f.write('\n')

f.close()

資料情況如下:

北京市|市轄區|東城區|東華門街道辦事處

北京市|市轄區|東城區|景山街道辦事處

北京市|市轄區|東城區|交道口街道辦事處

北京市|市轄區|東城區|安定門街道辦事處

北京市|市轄區|東城區|北新橋街道辦事處

北京市|市轄區|東城區|東四街道辦事處

北京市|市轄區|東城區|朝陽門街道辦事處

北京市|市轄區|東城區|建國門街道辦事處

北京市|市轄區|東城區|東直門街道辦事處

北京市|市轄區|東城區|和平裡街道辦事處

北京市|市轄區|東城區|前門街道辦事處

北京市|市轄區|東城區|崇文門外街道辦事處

北京市|市轄區|東城區|東花市街道辦事處|

最終結果如下:

Python 對新聞的爬取

今天接了乙個python小指令碼,發來一起分享。要求 廢話不說,直接上 import os import requests from lxml import etree from bs4 import beautifulsoup import re import urllib.request 獲取原...

中國大學排名的爬取

功能描述 輸入 大學排名的url鏈結 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 進隊輸入url進行爬取,不擴充套件爬取 程式的結構設計 步驟一 從網路上獲取頁面資訊 gethtmltext 步驟二 提取網頁內容中資訊到合適的資料結構 fillu...

利用c 從網上爬取成語的解釋

一年前寫的 今天整理資料夾時偶然發現,寫的很糟糕,原本打算刪掉的,但又想到當時兩眼昏沉地熬夜編 心中生出了一絲不捨,今天把它放到這裡,就當是留個紀念吧!的功能是從本地的txt成語文件中提取成語,利用c 的 webrequest從網頁中爬取程式的解釋並分別存入txt文件和access資料庫中。usin...