NLP入門 1 0 nltk 小試牛刀

from urllib import request
url = ''
html=request.urlopen(url)
html=html.read()
html
#匯入url**裡面的html內容
可以看出很多雜亂的html**和網頁內容混合在一起，需要我們進行清洗。
import nltk
from bs4 import beautifulsoup
import re
soup = beautifulsoup(html,'lxml')
clean=soup.get_text()
tokens = [tok for tok in clean.split() ]
print(tokens[0:100])
直接用nltk這個現在不行了，要借助bs4來進行處理。
可以看出很多無用的標點符號和詞語，我們用停用詞表進行去除。
經過去停用詞後結果還是令人滿意的，好了，簡單的嘗試一下用nltk，還是不錯的。
 NLP學習筆記 nlp入門介紹
為什麼計算機難以理解人類的自然語言呢？主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙，而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的，而程式語言是結構化的，例如類和成員。自然語言是線性字串，要分析它，需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...
系統學習NLP（三） NLP入門綜述
從這個月開始，進入nlp方向了，因此，系統了看了一遍 自然語言處理綜論 對nlp做了點系統性的了解，後面抽時間乙個乙個業務或者方向進行實現學習。這裡主要是入門的認識，因此，大多數不涉及每個業務應用的最佳實現，比如基本沒有深度學習層面的 因為那本書只總結了2009年之前的 不過有了這個基礎，每個業務應...
NLP入門 分詞與embedding
直接安裝pkuseg等好多次都失敗了，於是換清華源。pip install pkuseg i用清華源安裝北大的東西感覺好尷尬啊。哈哈哈，不過速度相當快啊。後來一搜，woc，這個庫和北大沒關係，有人蹭熱點，我特麼解除安裝了，還是用jieba了，但是咋embedding呢？能不能用tf.keras的em...
NLP入門 1 0 nltk 小試牛刀

NLP學習筆記 nlp入門介紹

系統學習NLP（三） NLP入門綜述

NLP入門 分詞與embedding

相關推薦

NLP入門分詞與embedding