自然語言處理資料集和公開資料集

2021-09-26 08:12:49 字數 408 閱讀 5816

資料庫

自然語言處理的核心步驟-參考1

自然語言處理的核心步驟-參考2

自然語言處理的核心步驟-參考3

資料集

資料集合

tensorflow實現的深度nlp模型集合

github位址,100%jupter notebook實現

公開語料庫:

ldc語料庫-全世界自然語言處理科學家共用的資料庫

多種演算法應用於《文字分類》

pytext–facebook ai開源的基於pytorch的自然語言建模nlp框架

nlp標註工具收集:

自動標註工具含github

標註工具集

標註注意項

練手|常見30種nlp任務的練手專案

基於深度學習的文字分類—多種模型的對比

入門自然語言處理資料集

在開始深入的學習自然語言處理任務時,我們需要準備一些資料集用來訓練自己的演算法。在這篇文章中,我們將準備一套標準資料集可以用於你大部分的自然語言處理任務,在你學習深度學習的過程中肯定能用的到。文字分類 語言模型 影象語義 機器翻譯 問答系統 語音識別 文字摘要 我試圖在這裡提供乙個在學術界受歡迎的資...

自然語言處理常用資料集

最近需要從文字中抽取結構化資訊,收集到很多資料,遂整理了一下,後續會不斷更新。涉及內容包括 中英文敏感詞 語言檢測 中外手機 歸屬地 運營商查詢 名字推斷性別 手機號抽取 身份證抽取 郵箱抽取 中日文人名庫 中文縮寫庫 拆字詞典 詞彙情感值 停用詞 反動詞表 暴恐詞表 繁簡體轉換 英文模擬中文發音 ...

公開資料集

海量資料 又稱大資料 已經成為各大網際網路企業面臨的最大問題,如何處理海量資料,提供更好的解決方案,是目前相當熱門的乙個話題。類似mapreduce hadoop等架構的普遍推廣,大家都在構建自己的大資料處理,大資料分析平台。相應之下,目前對於海量資料處理人才的需求也在不斷增多,此類人才可謂炙手可熱...