百度AI評測 文字糾錯

2021-10-01 18:19:13 字數 3990 閱讀 7926

呼叫攻略(python3)

首先認證授權:

在開始呼叫任何api之前需要先進行認證授權,具體的說明請參考:

獲取access token

向授權服務位址傳送請求(推薦使用post),並在url中帶上以下引數:

grant_type:?必須引數,固定為client_credentials;

client_id:?必須引數,應用的api key;

client_secret:?必須引數,應用的secret key;

例如:?grant_type=client_credentials&client_id=va5yqrhla4fq5er3lt0vuxv4&client_secret=0rdsjzq20xuj5itv6wrtznpqszr5pvw2&

具體python3**如下:

# -*- coding: utf-8 -*-

#!/usr/bin/env python

import urllib

import json

#client_id 為官網獲取的ak, client_secret 為官網獲取的sk

#獲取token

def get_token():

host = '?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret

request = urllib.request.request(host)

response = urllib.request.urlopen(request)

token_content = response.read()

if token_content:

token_info = json.loads(token_content)

token_key = token_info['access_token']

return token_key

文字糾錯呼叫:

詳細說明請參考:

介面描述

識別輸入文字中有錯誤的片段,提示錯誤並給出正確的文字結果。支援短文本、長文字、語音等內容的錯誤識別,糾錯是搜尋引擎、語音識別、內容審查等功能更好執行的基礎模組之一。

請求說明

http方法: post

請求url: 

請求引數

引數 型別 描述 是否必填

text string 待糾錯文字,輸入限制511位元組 必填

返回說明

引數 說明 描述

log_id uint64 請求唯一標識碼

correct_query string 糾錯後的文字

score double 模型置信度打分

item object 分析結果

+vec_fragment list 替換候選片段資訊

++ori_frag string 原片段

++correct_frag double 替換片段

++begin_pos int 起始(長度單位)

++end_pos list 結尾(長度單位)

python3呼叫**如下:

def txt_correction(content):

print ('原文:',content)

token=get_token()

url = ''

params = dict()

params['text'] = content

params = json.dumps(params).encode('utf-8')

access_token = token

url = url + "?access_token=" + access_token

request = urllib.request.request(url=url, data=params)

response = urllib.request.urlopen(request)

content = response.read()

if content:

content=content.decode('gb2312')

data = json.loads(content)

item=data['item']

print('糾錯後:',item['correct_query'])

print('score:',item['score'])

txt_correction('汽車形式在這條道路上')

返回結果:

原文: 汽車形式在這條道路上

糾錯後: 汽車行駛在這條道路上

score: 0.982835

測試:

test_list = [

'我來自夏門',

'朝辭白底彩雲間',

'時光蔥蔥而過',

'形像代言人',

'此事不會影像大局',

'化夏子孫團結一心',

'他有點必理不平衡。',

'這是我們最新的研發計畫。',

'我早就在這排對了。',

'你中於來了。']

import datetime

print (datetime.datetime.now().strftime('%y-%m-%d %h:%m:%s'))

for text in test_list:

txt_correction(text)

print (datetime.datetime.now().strftime('%y-%m-%d %h:%m:%s'))

結果:

2019-04-16 11:29:52

原文: 我來自夏門

糾錯後: 我來自夏門

score: 0

原文: 朝辭白底彩雲間

糾錯後: 朝辭白帝彩雲間

score: 0.961476

原文: 時光蔥蔥而過

糾錯後: 時光匆匆而過

score: 0.938082

原文: 形像代言人

糾錯後: 形象代言人

score: 0.947005

原文: 此事不會影像大局

糾錯後: 此事不會影響大局

score: 0.969137

原文: 化夏子孫團結一心

糾錯後: 華夏子孫團結一心

score: 0.885656

原文: 他有點必理不平衡。

糾錯後: 他有點必理不平衡。

score: 0

原文: 這是我們最新的研發計畫。

糾錯後: 這是我們最新的研發計畫。

score: 0.441279

原文: 我早就在這排對了。

糾錯後: 我早就在這排隊了。

score: 0.977007

原文: 你中於來了。

糾錯後: 你中於來了。

score: 0

2019-04-16 11:30:19

10個呼叫,用時27秒,每次呼叫2.7秒左右。

使用場景及建議:

文字糾錯有很廣闊的應用前景,現在已經有了以下場景:

寫作輔助:在內容寫作平台上內嵌糾錯模組,可在作者寫作時自動檢查並提示錯別字情況。從而降低因疏忽導致的錯誤表述,有效提公升作者的文章寫作質量,同時給使用者更好的閱讀體驗

搜尋糾錯:使用者經常在搜尋時輸入錯誤,通過分析搜尋query的形式和特徵,可自動糾正搜尋query並提示使用者,進而給出更符合使用者需求的搜尋結果,有效遮蔽錯別字對使用者真實需求的影響

對話語音識別糾錯:將文字糾錯嵌入對話系統中,可自動修正語音識別轉文字過程中的錯別字,向對話理解系統傳遞糾錯後的正確query,明顯提高語音識別準確率,使產品整體體驗更佳

此外還可以應用在:

nlp資料預處理:如在對客服記錄,景區評價的資料進行客戶情緒分析前可以使用文字糾錯功能對資料進行預處理,提高分析的準確度。

單據掃瞄資訊的後處理:對單據掃瞄文字識別後的資料進行後處理,提高準確度

百度AI文字識別 python筆記

coding utf 8 import urllib,urllib2,base64 access token 呼叫鑑權介面獲取的token url access token 二進位制方式開啟 件 f open r 本地檔案 rb 引數image 影象base64編碼 img base64.b64en...

基於百度ai的文字識別

相關文字識別的技術文件如下 coding utf 8 from aip import aipocr import json import sys 定義常量 api key ry0leq80vscdo7ocs6zyg9lg secret key nobn6uykx1gnkogbg9768xhlfnn5...

python百度文庫文字提取 百度文庫文字爬取

import requests import re import json headers 模擬手機 def get num url response requests.get url,headers headers text print response result re.search r md...