python檢索特定內容的文字檔案

2021-07-25 16:54:33 字數 1629 閱讀 1308

windows環境下python2.7

指令碼指定乙個引數作為要檢索的字串

例如: >find.py ./ hello

# coding=utf-8

import os

import sys

# 找到當前目錄下的所有文字檔案

deffindfile

(path):

f =

d =

l = os.listdir(path)

for x in l:

if os.path.isfile(os.path.join(os.getcwd() + "\\", x)):

else:

return f, d # 返回檔案和目錄的列表

# print x, "\n", y

# 統計乙個文字內字串的個數

deffindstrcount

(file, strtofind):

count = 0

thefile = open(file, 'rb')

while

true:

buffer = thefile.read()

ifnot buffer:

break

count += buffer.count(strtofind)

thefile.close()

return count

# 遍歷檔案列表中,包含特定字串的檔案

deffindstr

(file, str):

# f = open(file, "r+")

# if f.read().find(str) != -1:

# s = os.getcwd() + "\\" + file

# else:

# s = "none"

# f.close()

i = 1

global s

for line in open(file):

# return is index of the str start position.

if line.find(str) != -1:

s = os.getcwd() + "\\" + file + "------>line:%d" % (i)

print s

i = i + 1

return s

l = # 全域性變數,存放找到的目標檔案

deffind

(p, str):

try:

f, d = findfile(p)

for x in f:

ret = findstr(x, str)

if ret:

if d:

for x in d:

os.chdir(x)

find("./", str)

os.chdir('../')

except exception, e:

print e

finally:

pass

if __name__ == '__main__':

s = 0

find(sys.argv[1], sys.argv[2])

minhash演算法檢索相似文字 基於檢索的問答系統

實現架構 主要流程 建語料庫 首先建立乙個語料庫,即問題和答案的集合,乙個問題對應乙個答案 文字預處理 對輸入的問題進行分詞,拼寫糾錯,詞過濾word filter,去停用詞stopwords 文字表示成向量 詞向量技術word2vec,tf idf 文字相似度計算 余弦相似度,歐式距離 文字高效檢...

關於檢索 替換文字中特定字元或字串的方法

昨天,別人提出了,要統計一條微博內容中,有多少表情 了多少人 包含了多少主題等。這個需求,經過查閱網上的資料了解到,通過正則匹配就能解決。方法比較簡單。內容如下 pattern p pattern.compile regex matcher m p.matcher text while m.find...

python獲取docx文件的內容 文字

簡單的說,docx裡面的每乙個段落都是乙個paragraph物件,段落中文字如果有不同的樣式 加粗,斜體 就會有不同的run物件,而且paragraph和run物件都有乙個text屬性,表示的是他包含的文字 import docx defgettext filename doc docx.docum...