正則切分解析文字資料檔案

2021-08-15 22:10:58 字數 1054 閱讀 2812

mport re   #正規表示式

mysent = 'this book is the best book.'

regex = re.compile('

\\w*') #

\\w*表示除了單詞數字外的任意字串

list0ftokens = regex.split(mysent)

上面也可以寫成:

mysent = 'this book is the best book.'

listoftokens = re.split(r'\w*', mysent)

list1ftokens = [ tok.lower() for tok in list0ftokens if len(tok) > 0 ]

上面一句程式寫全:

list1ftokens =

for tok in list0ftokens:

if len(tok) > 0:

print(list1ftokens)

結果:['this', 'book', 'is', 'the', 'best', 'book']

分隔一封郵件文字

import re #正規表示式

import os

os.chdir('e:\機器學習實戰**\machinelearninginaction\ch04\email\ham')

regex = re.compile('

\\w*')

emailtext = open('6.txt')

emailtext1 = regex.split( emailtext.read() )

emailtext2 = [tok.lower() for tok in emailtext1 if len(tok) > 3] 用》3來去除url的殘餘字母

print(emailtext2)

結果:['hello', 'since', 'you', 'are', 'an', 'owner', 'of', 'at', 'least', ......'changes', 'to', 'google', 'groups']

ADO訪問文字資料檔案

在vb裡使用ado訪問文字資料檔案是一件簡單的事件,但還是有些朋友不太明白。因此作一些說明,希望能給朋友一點啟發。首先,如果文字資料檔案有多個字段,那我們需要建立乙個名為schema.ini的配置檔案,用來描述文字檔案的字段資訊,該檔案必須與作為資料 的文字資料檔案存放在同乙個資料夾裡。其實sche...

使用pandas切分超大資料檔案

toc 我現在需要將乙個6.33gb的sql檔案上傳到資料庫,但檔案太大,上傳過程太慢,所以我選擇用pandas將檔案切分。import pandas as pd第乙個引數不用說了。header none是讓它沒有列名,不然它就自動取我資料的第一行為列名了。sep是設定資料分隔符。我的資料是換行符分...

unity解析json資料 檔案

unity中解析json檔案 檔案管理類 using unityengine using system.collections using system.io public class filemanger return instance private filemanger public void...