自然語言處理入門之路 task01 環境搭建

2021-09-16 23:11:18 字數 836 閱讀 5166

以下步驟環境:windows10 64位系統

1、anaconda 安裝

官網:根據需要按照python3 或者python2

安裝過程

2、conda 學習

常用命令:

安裝包:

conda install   ***
設定國內映象源:

conda config --add channels 

conda config --set show_channel_urls yes

建立環境

conda create -n nlp python=3.6
啟用環境

activate nlp
進入nlp環境,安裝相關軟體包

4、tensorflow 庫安裝與學習

cpu版本

conda create -n tensorflow_env tensorflow

conda activate tensorflow_env

gpu版本

conda create -n tensorflow_gpuenv tensorflow-gpu

conda activate tensorflow_gpuenv

開啟pytcharm,

import tensorflow as tf
,開始你的表演吧~

自然語言處理入門

1 首先,將原文本拆分為句子,在每個句子中過濾掉停用詞 可以不選 並只保留指定詞性的單詞,由此可以得到句子和單詞的集合。2 每個單詞作為pagerank中的乙個節點。設視窗大小為k,假設乙個句子所組成的單詞可以表示為w1,w2,w3,wn.則w1,w2,wk w2,w3,wk 1 w3,w4,wk ...

自然語言處理入門之路 task04 文字表示

tf idf原理。文字矩陣化,使用詞袋模型,以tf idf特徵值為權重。可以使用python中tfidftransformer庫 互資訊的原理。使用第二步生成的特徵矩陣,利用互資訊進行特徵篩選。tf idf原理 wiki百科 逆向檔案頻率 inverse document frequency,idf...

自然語言處理入門 中文分詞原理

1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。1.2 中文分詞方法介紹 現有的分詞方法可分為三大類 基於字串匹配的分詞方法 基於理解的分...