NLP入門 1 0 nltk 小試牛刀

2021-09-19 12:58:59 字數 1460 閱讀 6803

from urllib import request

url = ''

html=request.urlopen(url)

html=html.read()

html

#匯入url**裡面的html內容

可以看出很多雜亂的html**和網頁內容混合在一起,需要我們進行清洗。

import nltk

from bs4 import beautifulsoup

import re

soup = beautifulsoup(html,'lxml')

clean=soup.get_text()

tokens = [tok for tok in clean.split() ]

print(tokens[0:100])

直接用nltk這個現在不行了,要借助bs4來進行處理。

可以看出很多無用的標點符號和詞語,我們用停用詞表進行去除。

經過去停用詞後結果還是令人滿意的,好了,簡單的嘗試一下用nltk,還是不錯的。

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...

系統學習NLP(三) NLP入門綜述

從這個月開始,進入nlp方向了,因此,系統了看了一遍 自然語言處理綜論 對nlp做了點系統性的了解,後面抽時間乙個乙個業務或者方向進行實現學習。這裡主要是入門的認識,因此,大多數不涉及每個業務應用的最佳實現,比如基本沒有深度學習層面的 因為那本書只總結了2009年之前的 不過有了這個基礎,每個業務應...

NLP入門 分詞與embedding

直接安裝pkuseg等好多次都失敗了,於是換清華源。pip install pkuseg i用清華源安裝北大的東西感覺好尷尬啊。哈哈哈,不過速度相當快啊。後來一搜,woc,這個庫和北大沒關係,有人蹭熱點,我特麼解除安裝了,還是用jieba了,但是咋embedding呢?能不能用tf.keras的em...