自然語言處理常用資料集

2021-09-01 17:52:10 字數 398 閱讀 2067

最近需要從文字中抽取結構化資訊,收集到很多資料,遂整理了一下,後續會不斷更新。

涉及內容包括:中英文敏感詞、語言檢測、中外手機/**歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典、詞彙情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峰歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫、否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、it詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言資料

入門自然語言處理資料集

在開始深入的學習自然語言處理任務時,我們需要準備一些資料集用來訓練自己的演算法。在這篇文章中,我們將準備一套標準資料集可以用於你大部分的自然語言處理任務,在你學習深度學習的過程中肯定能用的到。文字分類 語言模型 影象語義 機器翻譯 問答系統 語音識別 文字摘要 我試圖在這裡提供乙個在學術界受歡迎的資...

自然語言處理資料集和公開資料集

資料庫 自然語言處理的核心步驟 參考1 自然語言處理的核心步驟 參考2 自然語言處理的核心步驟 參考3 資料集 資料集合 tensorflow實現的深度nlp模型集合 github位址,100 jupter notebook實現 公開語料庫 ldc語料庫 全世界自然語言處理科學家共用的資料庫 多種演...

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...