nlp 自然語言處理python常用函式

2021-09-10 07:23:05 字數 1808 閱讀 6353

1.count()方法返回特定的子串在字串**現的次數。

2. strip() 方法可以去除字串首尾的指定符號。無指定時,預設去除空格符 `' '` 和換行符 `'\n'`。

3. 需要將字串用特定的符號拼接起來的字元的時候,可以用 `.join()` 方法來進行拼接。

seq = ['2018', '10', '31']

seq = '-'.join(seq) # 用 '-' 拼接

4. 在處理英文類文字的時候會遇到需要將文字全部轉化為大寫或者小寫的時候。使用.upper().lower()可以很方便的完成這個任務。

5. 為了查詢到某段字串當中某個子串的位置資訊,有兩種方法。一種是.index,一種是.find。 兩種方法都可實現這個功能,不同的是index如果未找到的話,會報錯,而find未找到的則會返回-1值。

6. 擷取字串:

seq = '這是字串'

seq1 = seq[0:4]

seq1 # '這是字元',不包括第4個字元

7. 翻轉字串:

seq = '12345'

seq = ['1', '2']

seq = seq[::-1]

seq

8. 有的時候,需要把乙個字串按照某個字元切分開處理。比如『今天天氣很好,我們出去玩』,要把兩句話以','切開成兩句話。split()函式可以完成這個操作,函式返回乙個由切分好的字串組成的列表。

seq = '今天天氣很好,我們出去玩'

seq = seq.split(',')

seq # ['今天天氣很好', '我們出去玩']

9. in關鍵字可以用在任何容器物件上,判斷乙個子物件是否存在於容器當中,並不侷限於判斷字串是否存在某子串,還可以用在其他容器物件例如listtupleset等型別。

10. 有時需要把字串中的某段字串用另一段字串代替,比如 2018-01-01 中的-'/'代替。我們可以用到.replace(a,b),他可以將某字串中的a字串 替換成b字串。下面來實現一下。

11. 當遇到需要判斷字串是否以某段字元開頭的時候。比如想要判斷『abcdefg』是否以 'a'開頭。可以用 .startswish()方法。同樣的方法,我們可以用 `.endswith()` 來確定字串是否以某段字串結尾。

12. 有時候,當想要檢查字串的構成,可以用.isdigit()檢查字串是否由純數字構成。

13. 正規表示式:

import re

pattern = re.compile(r'[0-9]')

time = '2018-01-01'

# 用剛剛編譯好的 pattern,去匹配 time

match = pattern.search(time)

# 用.findall()可以匹配所有符合條件的字串

# .match()只能從開頭開始匹配

# 匹配結果存放在group()當中的

match.group()

NLP自然語言處理

第1部分自然語言處理入門 1.1自然語言處理入門.mp4 第2部分hmm和crf 1.1crf模型簡介.mp4 1.1hmm模型介紹.mp4 1.2文字處理的基本方法 part1.mp4 2.1新聞主題分類任務 第4步 part2.mp4 第43部分rnn 1.1rnn模型小結.mp4 1.1rnn...

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import counter counttime 0 def seperate filename totalnum 0 郵件的總數 global counttime i 0 file open ...

NLP自然語言處理相關

近期需要學習一些命名實體識別的知識,記錄一下,以便以後複習 個人理解 目前的理解是,命名實體識別 ner 是自然語言處理 nlp 的乙個階段,可應用於機器翻譯 摘要形成 資訊檢索等等,個人認為,自然語言處理是一門很複雜的跨學科技術,其難點在於人類是富有思維的,人的語言寄託人的思想,因此很難準確處理。...