Perl 正則匹配 對分詞標註結果正則匹配

2021-08-23 14:42:44 字數 820 閱讀 5782

# 3、a、中文編碼 從資料夾讀檔案 (問原文標記還是輸出歧義句子)

# 寫檔案的時候每次檔案名字加一(之前有處理過分檔案)

# b、提取「 |/w |/w |/w」之前的中文句子進行判斷

# c、判斷分為幾個情況

# * 含有「/k」 無操作

# * 含有「/ni」 無操作

# * 只要含有「d」 「r」 「c」 有歧義

# * 開頭含有「 v | u | p」 :(.*) $1 =~ "/v || /u || /p"

# * 開頭含有「m」 + "q" 或者 「m」 + "n" : $1=~ "m" && $2=~ "q" || $2=~ "n"

# * 開頭有 「和」 看前兩個字

# * 結尾不是「/n」 .* (.*)

use encode;

#use utf8;

$utf8;

open(in,"100001.txt"); #邁向/v 充滿/v 希望/n 的/u 新/a 世紀/n

open(out,">tanhao.txt");

@lines=;

$n=0;

chomp(@lines);

foreach $oneline(@lines)

if($oneline =~ /(.*)\s(.*)/)

}if($oneline =~ /(.*)\s+(.*)\s+(.*)/)

}if($oneline =~ /[^\/n]\/s\|\/w/)

}close(in);

close(out);

乙個標註**:

Perl 正則匹配 對分詞標註結果正則匹配

3 a 中文編碼 從資料夾讀檔案 問原文標記還是輸出歧義句子 寫檔案的時候每次檔案名字加一 之前有處理過分檔案 b 提取 w w w 之前的中文句子進行判斷 c 判斷分為幾個情況 含有 k 無操作 含有 ni 無操作 只要含有 d r c 有歧義 開頭含有 v u p 1 v u p 開頭含有 m ...

perl正則匹配

字元的種類是一定的,無非是空格,數字,大小寫字母,和perl中定義的元字元,還有本國語言。所以原則上任何格式的字元都能匹配。匹配工具 選擇符號,關鍵字,量詞,斷言,轉義字元 當出現多個字元組成的 非空格字元時候,例如123,45 3 s sdgg 則使用 0 9a za z 若加上 則只能匹配一行中...

perl中的正則匹配

一 簡介 模式指在字串中尋找的特定序列的字元,由反斜線包含 def 即模式def。其用法如結合函式split將字串用某模式分成多個單詞 array split line 二 匹配操作 匹配操作符 檢驗匹配是否成功 result var abc 若在該字串中找到了該模式,則返回非零值,即true,不匹...