智能文字識別是AI領(lǐng)域的一個重要分支,該技術(shù)融合了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場景文字識別、自然語言處理(NLP)等多項AI技術(shù),算法涉及機器學(xué)習(xí)與深度學(xué)習(xí)。
智能文字識別是 AI 領(lǐng)域的一個重要分支,該技術(shù)融合了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場景文字識別、自然語言處理(NLP)等多項 AI 技術(shù),算法涉及機器學(xué)習(xí)與深度學(xué)習(xí)。
1)機器學(xué)習(xí)與深度學(xué)習(xí)
機器學(xué)習(xí)是 AI 的一種底層算法,深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集。機器學(xué)習(xí)的算法是建立在一個樣本數(shù)據(jù)集上,在沒有明確編程指示下,依靠模式和推理做出預(yù)測或決策的數(shù)學(xué)模型,且可隨著數(shù)據(jù)量的增加不斷改進算法性能。深度學(xué)習(xí)是機器學(xué)習(xí)方法系列的一部分,利用多層神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中進行學(xué)習(xí)。機器學(xué)習(xí)在處理問題時,需要先人工進行特征提取,然后根據(jù)提取后的特征進行分類問題求解;深度學(xué)習(xí)將特征提取與分類問題求解匯總在一個神經(jīng)網(wǎng)絡(luò)模型中,只需一次輸入即可得到最終的輸出結(jié)果,無需手工獲取特征,所以能解決更為復(fù)雜的問題,且由數(shù)據(jù)驅(qū)動,有效數(shù)據(jù)量越大,模型的表現(xiàn)越好。
隨著深度學(xué)習(xí)出現(xiàn),AI 算法瓶頸逐步被突破。機器從海量數(shù)據(jù)庫自行歸納物體特征,按照該特征規(guī)律識別物體,圖文識別的精準度得到極大提升。
2)自然語言處理技術(shù)
自然語言處理(Natural Language Processing,簡稱為“NLP”)技術(shù)是AI的一個子領(lǐng)域,用于分析、理解和生產(chǎn)自然語言,NLP技術(shù)實現(xiàn)機器與人溝通的大前提,決定了機器對語言的理解能力。機器學(xué)習(xí)與深度學(xué)習(xí)大大推動了NLP技術(shù)的發(fā)展,使其具備可表達性、可訓(xùn)練性以及可泛化性。
3)結(jié)合深度學(xué)習(xí)、NLP的智能文字識別技術(shù)
將圖像中的文字轉(zhuǎn)變?yōu)闄C器可讀可處理的字符信息,是機器與現(xiàn)實世界進行視覺交互的重要基礎(chǔ),催生了光學(xué)字符識別(Optical Character Recognition,簡稱為“OCR”)技術(shù)。根據(jù)中國信息通信研究院、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟與騰訊集團聯(lián)合發(fā)布的《智能文字識別(OCR)能力測評與應(yīng)用白皮書》,早期的OCR技術(shù)可追溯到1870年,電報技術(shù)和為盲人設(shè)計的閱讀設(shè)備的出現(xiàn)標志著OCR技術(shù)的誕生。從2000年開始,在線服務(wù)成為OCR的主要業(yè)務(wù)形態(tài)之一,這一階段OCR技術(shù)僅在比較規(guī)整的印刷體文檔識別上性能良好。2014年以來,隨著深度學(xué)習(xí)技術(shù)在OCR領(lǐng)域的應(yīng)用,加上海量訓(xùn)練數(shù)據(jù)的積累,OCR取得了飛躍性發(fā)展,適用范圍明顯擴大。2017年以來,OCR技術(shù)越來越多的和自然語言處理技術(shù)相融合,形成了智能文字識別技術(shù),增強了對內(nèi)容的“理解”能力,通過語義信息的關(guān)聯(lián),復(fù)雜場景下的文字識別能力得到增強。與此同時,隨著圖像處理等技術(shù)的發(fā)展,能夠?qū)⑴で突兊奈淖謭D像進行矯正,也能夠改善OCR性能。OCR通過圖像文字的識別實現(xiàn)信息錄入,有兩大核心優(yōu)勢,一是提高效率,相比傳統(tǒng)的人工方式,顯著提升信息錄入效率;二是降低成本,通過機器代替人工,可大幅降低人力成本的開銷。因此OCR技術(shù)具有較高的實際應(yīng)用價值,是AI應(yīng)用中商業(yè)推廣落地較快的領(lǐng)域,是AI領(lǐng)域的重要分支。
《中國禁止出口限制出口技術(shù)目錄》已將“印刷體漢字識別技術(shù)、程序結(jié)構(gòu)、主要算法和源程序、具有交互和自學(xué)習(xí)功能的脫機手寫漢字識別系統(tǒng)及方法、漢字識別的特征抽取方法和實現(xiàn)文本切分技術(shù)的源程序”等納入限制出口的信息處理技術(shù)范圍。為落實國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》,科技部啟動了實施科技創(chuàng)新2030“新一代人工智能”重大項目,并提出2020年度第一批項目申報指南,其中“復(fù)雜版面手寫圖文識別及理解關(guān)鍵技術(shù)研究”被列入“新一代人工智能共性關(guān)鍵技術(shù)”。
傳統(tǒng)OCR技術(shù)針對特定場景的文字圖像進行建模,受限于手工設(shè)計特征的單一表達能力和復(fù)雜的處理流程,一旦跳出當(dāng)前場景,遇到復(fù)雜場景,模型就會失效。而基于深度學(xué)習(xí)、NLP的智能文字識別技術(shù)可解決傳統(tǒng)OCR的缺點,靈活應(yīng)對自然場景下多形態(tài)文本以及手寫文本。
二、行業(yè)概況
相比傳統(tǒng)簡單文字識別,智能文字識別技術(shù)融合圖像處理、OCR、深度學(xué)習(xí)、NLP等AI技術(shù),具備更多認知與理解能力,可適應(yīng)多語言、多版式、多樣式等復(fù)雜場景,識別準確率大大提升,同時可基于理解能力進一步開發(fā)文檔解析、分類、對比、審核等功能,是個人文檔資產(chǎn)管理與企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵。
從個人用戶角度,用戶對個人文檔資產(chǎn)管理數(shù)字化意識和需求不斷增強,合同、名片、發(fā)票、筆記等非結(jié)構(gòu)化的紙質(zhì)文檔通過智能文字識別技術(shù)數(shù)字化后,用戶可隨時隨地在手機、電腦等多終端進行查詢、管理及分享,解決了紙質(zhì)文檔不易存儲、分類、查詢或提取關(guān)鍵信息等痛點,滿足個人的辦公、求職、學(xué)習(xí)等不同場景的需求。
從企業(yè)客戶角度,企業(yè)數(shù)字化轉(zhuǎn)型是將數(shù)字技術(shù)進行商業(yè)化落地,從根本上對業(yè)務(wù)流程進行優(yōu)化,智能文字識別技術(shù)可將企業(yè)運營過程中產(chǎn)生的大量非結(jié)構(gòu)化、非標準化的文檔數(shù)據(jù)進行提取、存儲、轉(zhuǎn)化、解析,為企業(yè)客戶節(jié)省人力成本,提升運營效率,解決了眾多行業(yè)存在的人工操作效率低、業(yè)務(wù)處理流程長,將迎來巨大發(fā)展空間。根據(jù)Grand View Research報告,全球智能文字識別服務(wù)市場規(guī)模2022年達106.5億美元,預(yù)計2022-2027年復(fù)合年均增長率約16.7%。
從下游行業(yè)應(yīng)用來看,金融、物流運輸?shù)氖袌鲆?guī)模是占比最高的兩個細分行業(yè),且增速也最快,主要由于金融、物流運輸企業(yè)在業(yè)務(wù)流程方面的基礎(chǔ)信息化建設(shè)程度、投入意愿相對其他行業(yè)來說相對較高,在證照、單據(jù)、表格等文檔的智能錄入、分類、比對、審核方面進行降本增效具有較大需求,為智能文字識別技術(shù)的商業(yè)化快速落地帶來基礎(chǔ)。
分國別來看,2022年,亞太區(qū)智能文字識別服務(wù)市場規(guī)模占全球比重約為22.7%,2022-2027年復(fù)合年均增長率預(yù)計為全球最高水平,達19.4%。亞太區(qū)的高速增長原因主要為:1)中國、印度等部分國家經(jīng)濟的高速增長,經(jīng)濟活動的增長一定程度帶來文檔數(shù)據(jù)與信息量的增長,政府、企業(yè)對經(jīng)濟活動中產(chǎn)生的文檔進行電子化存儲、數(shù)據(jù)提取、分析挖掘具有巨大需求;2)亞太區(qū)域互聯(lián)網(wǎng)、智能手機的高速發(fā)展推動數(shù)據(jù)量爆發(fā)式增長,智能文字識別作為數(shù)字資產(chǎn)管理的關(guān)鍵技術(shù),擁有巨大發(fā)展前景;3)亞太區(qū)近年來對于AI技術(shù)研發(fā)、產(chǎn)業(yè)智能升級的重視,促使智能文字識別技術(shù)持續(xù)提升,以及推動企業(yè)對于此服務(wù)的投入。相比北美、歐洲等發(fā)達國家和地區(qū),亞太區(qū)智能文字識別行業(yè)尚處于發(fā)展初期,處于高速發(fā)展時期。根據(jù)相關(guān)數(shù)據(jù),2022年,中國智能文字識別服務(wù)市場規(guī)模為人民幣50.4億元,預(yù)計2027年市場規(guī)模將達人民幣168.9億元,復(fù)合年均增長率達27.3%,遠超全球市場總增速。
【版權(quán)及免責(zé)聲明】凡注明"轉(zhuǎn)載來源"的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多的信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。中研網(wǎng)倡導(dǎo)尊重與保護知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在內(nèi)容、版權(quán)或其它問題,煩請聯(lián)系。
聯(lián)系方式:jsb@chinairn.com、0755-23619058,我們將及時溝通與處理。