為解決煤炭運輸車輛因印刷文本嚴重破損和抓拍圖像畸變導致的車廂號、車載重信息識別率低的問題,提出一種基于OCR的車廂局部區(qū)域文本識別方法,通過DBNet 檢測文本區(qū)域并排序,經(jīng)FPGM算法裁剪矯正后,采用膨脹算法和對比度調(diào)整進行圖像增強,最后利用CRNN實現(xiàn)文本識別。基于806 張圖像數(shù)據(jù)集進行試驗,對比Yolov8+OCR算法,結(jié)果顯示該方法識別率達98%,平均識別時長3 s,召回率0.996,精確率0.985,顯著提升識別準確性與效率。
文章來源:《智能礦山》2025年第9期“學術(shù)園地”欄目
第一作者:許袁,主要從事圖像信息處理和機器視覺的相關(guān)研究工作。E-mail:1607338441@qq.com
作者單位:英飛智信(蘇州)科技有限公司;英飛智信(北京)科技有限公司;山西汾西礦業(yè)集團水峪煤業(yè)有限責任公司
引用格式:許袁,張云哲,高文祥,等.基于 OCR 的車廂局部區(qū)域文本識別方法及應(yīng)用[J].智能礦山,2025,6(9):79-83.
點擊文末左下角閱讀原文,免費下載閱讀pdf全文
關(guān)注微信公眾號,了解更多礦山智能化建設(shè)進展
在煤炭運輸過程中,車廂上印刷的信息識別至關(guān)重要。此信息詳細記錄了運輸車輛的相關(guān)數(shù)據(jù),為煤炭運輸?shù)娜^程提供了有效的追蹤手段。通過驗證車廂印刷信息,可有效降低煤炭盜竊或非法運輸風險,保障運輸活動的合法性和安全性。
準確讀取和管理車廂印刷信息,在提升煤炭運輸過程的透明度、安全性及效率方面發(fā)揮重要作用。因車廂上印刷的文本破損嚴重,且抓拍圖像易存在畸變,導致提取車廂號和車載重信息識別率不佳。
光學字符識別(OCR)利用電子設(shè)備檢查打印字符,通過檢測暗、亮的模式確定形狀,然后用字符識別方法,將形狀翻譯成計算機文字的過程。OCR一般分為手寫體識別和印刷體識別,可識別阿拉伯數(shù)字、漢字和英文字母等各種字符。識別步驟為版面分析、預(yù)處理、行列切割、字符識別、后處理識別矯正。
OCR的車廂文本識別方法網(wǎng)絡(luò)框架
基于OCR的車廂局部區(qū)域文本識別方法框架主要分為4個部分:利用DBNet檢測需要識別的文本區(qū)域,對不同區(qū)域進行位置排序;裁剪文本框并矯正其位置,使文本框在圖像中準確對齊,保持正確方向;使用圖像增強算法對文本中斷接嚴重的區(qū)域進行連接,增強圖像中文本的特征信息;最后利用CRNN實現(xiàn)文本識別,OCR識別流程整體流程如圖1所示。
圖1 OCR識別整體流程
1.1 基于DBNet的文本檢測
DBNet算法中的可微分二值化(DB)是通過將二值化過程整合到神經(jīng)網(wǎng)絡(luò)中,使模型在訓練過程中動態(tài)調(diào)整閾值,提取背景圖像中的不同文本區(qū)域,提升本網(wǎng)絡(luò)對不同文本區(qū)域的適應(yīng)性。
文本檢測時,DB通過網(wǎng)絡(luò)預(yù)測每個像素的動態(tài)閾值,精確分離文本與背景。與傳統(tǒng)二值化方法相比,DB具有可微性,可端到端訓練,提高文本檢測的準確性,DBNet網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。
圖2 DBNet網(wǎng)絡(luò)結(jié)構(gòu)
圖像通過特征金字塔網(wǎng)絡(luò)提取多尺度的特征圖,將特征圖上采樣至相同尺度,并級聯(lián)生成綜合特征圖F;利用特征圖F,模型預(yù)測出概率圖P和閾值圖T,計算出近似二值圖。模型訓練時會對閾值圖、概率圖及近似二值圖進行監(jiān)督,其中概率圖和近似二值圖共享相同的監(jiān)督信號。推理階段通過框形化模塊從近似二值圖或概率圖中提取文本區(qū)域的邊界框。
1.2 文本剪裁與矯正
利用裁剪解決模型參數(shù)冗余問題,提高模型推理效率。模型裁剪是通過去除網(wǎng)絡(luò)中冗余的通道、濾波器和神經(jīng)元等,得到更輕量網(wǎng)絡(luò),盡可能保證模型精度。裁剪濾波器方法可得到更規(guī)則的模型,減少內(nèi)存消耗,加速模型推理過程,該方法大多基于范數(shù)進行裁剪,范數(shù)和濾波器重要程度成正比。
基于幾何中心點的裁剪算法(FPGM)結(jié)構(gòu)如圖3所示,將卷積層中的每個濾波器都當作歐幾里得空間中的1個點,且該點滿足與所有采樣點距離之和最小的條件,幾何中心點評估每個濾波器的重要性。利用方向分類器分類文本檢測出的文本實例方向,將文本旋轉(zhuǎn)到0°或180°后,再送入文本識別器中,使文本框在圖像中準確對齊并保持正確方向。
圖3 FPGM結(jié)構(gòu)
1.3 圖像增強方法
Hide-and-Seek是一種數(shù)據(jù)增強方法,將圖片切分為S×S個網(wǎng)格,每個網(wǎng)格采用一定概率進行遮擋,模擬出隨機擦除效果。數(shù)據(jù)增強方法使模型可根據(jù)沒有被遮擋住的物體特征進行識別,增強特征的表達能力,提高模型的泛化能力。在Hide-and-Seek中,不同網(wǎng)格之間可能存在不同的遮擋情況,利用數(shù)據(jù)集的均值填充被遮擋的區(qū)域,確保訓練和測試數(shù)據(jù)分布的一致性。
膨脹算法主要用于二值圖像的形態(tài)學操作。膨脹算法是通過對圖像中前景對象進行擴展,增加對象的邊界或填補對象內(nèi)部的小空洞。膨脹操作有效連接斷接嚴重的文本,加強圖像中的文本特征,提高圖像的連通性和完整性,具體分為4個步驟。
(1)選擇1個結(jié)構(gòu)元素,形狀和大小決定膨脹范圍。
(2)將結(jié)構(gòu)元素的中心點與圖像的每個像素對齊,遍歷整個圖像。
(3)當結(jié)構(gòu)元素中的任一點與前景像素重疊時,更新該位置的像素值為前景像素。
(4)膨脹處理后的圖像中前景對象顯著增大、邊界擴展,空洞部分得到填補。
對比度調(diào)整在圖像處理領(lǐng)域中至關(guān)重要,特別是在文本識別任務(wù)中。通過增加文本區(qū)域的亮度、圖像對比度和背景噪聲間的差異使文本更突出,減少背景干擾對文本識別的負面影響,在原始圖像質(zhì)量較低或?qū)Ρ榷炔蛔愕那闆r下,對比度調(diào)整的視覺增強效果更明顯。
1.4 基于CRNN的文本識別
選用CRNN算法識別圖像文本,CRNN算法的特征提取部分選用卷積結(jié)構(gòu),使網(wǎng)絡(luò)更關(guān)注文本的局部信息,引入雙向LSTM增強上下文建模,將輸出特征序列輸入到CTC模塊,直接解碼序列結(jié)果。CRNN屬于規(guī)則文本識別,文字不能彎曲。CRNN的網(wǎng)絡(luò)結(jié)構(gòu)包括3個部分,從上到下依次為卷積層、遞歸層和轉(zhuǎn)錄層,CRNN網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 CRNN網(wǎng)絡(luò)結(jié)構(gòu)
(1)卷積層用于提取圖像中的特征,輸出作為遞歸網(wǎng)絡(luò)的輸入。
(2)遞歸層用于處理序列數(shù)據(jù),有效捕捉輸入序列中的時序依賴關(guān)系。
(3)轉(zhuǎn)錄層將遞歸層的輸出轉(zhuǎn)化為最終的預(yù)測結(jié)果。
CRNN網(wǎng)絡(luò)利用CTC(CTC)損失處理輸入和標簽長度不匹配的問題,通過考量所有可能的標簽序列對齊方式優(yōu)化網(wǎng)絡(luò),支持模型端到端的訓練。在CRNN中,用1個全連接層作為解碼的輕量級頭,將序列特征轉(zhuǎn)換為字符預(yù)測。
OCR的車廂文本識別方法試驗結(jié)果
基于PyTorch深度學習框架,使用Windows系統(tǒng),GPU型號為NVIDIA RXT A4000。本網(wǎng)絡(luò)數(shù)據(jù)集中包含806張圖像,隨機選擇其中的136張作為驗證圖像,同時將所有圖像的尺寸調(diào)整成為256×256。對訓練圖像進行平移、旋轉(zhuǎn)、縮放等變換,生成多種不同視角的圖像樣本,增加訓練數(shù)據(jù)集的多樣性,使模型學習更多的特征。
2.1 OCR的車廂文本識別方法數(shù)據(jù)集
利用PaddleLabel對數(shù)據(jù)集中圖像的車廂號和車載重信息區(qū)域進行標簽,打標后的圖像會自動識別矩形標注區(qū)域的文本。由于部分圖像質(zhì)量較差,識別結(jié)果需人工檢查和糾錯,數(shù)據(jù)集標簽圖像如圖5所示。
圖5 數(shù)據(jù)集標簽圖像
標簽?zāi)J為自然數(shù),從0開始,使用矩形標注方式對文本進行打標,并按打標順序?qū)⒕匦慰蚺c標簽一一對應(yīng)。標注完成后,系統(tǒng)會對標簽區(qū)域圖像進行裁剪,增強前的裁剪圖像如圖6所示。
圖6 增強前圖像
圖像增強處理常用于高級視覺任務(wù)的預(yù)處理階段,提升模型對圖像特征的提取能力。利用膨脹算法連接圖像中字符的斷接部分,并通過調(diào)整對比度,使文字更加連貫,圖像質(zhì)量更佳。增強后的裁剪圖像如圖7所示。
圖7 增強后的裁剪圖像
2.2 試驗結(jié)果與分析
從訓練集中隨機挑選了136張圖像作為測試集,該圖像涵蓋了不同程度的文本破損、圖像畸變以及各種拍攝條件,確保了數(shù)據(jù)集的多樣性和代表性。
選用Yolov8和OCR結(jié)合的技術(shù)作為對比算法,首先利用Yolov8檢測和定位圖像中的目標區(qū)域,接著通過OCR技術(shù)從檢測到的區(qū)域中提取文本信息。Yolov8算法高效且精準的定位能力,與OCR技術(shù)結(jié)合后,在保證精度的前提下提升整體處理速度和系統(tǒng)可靠性,優(yōu)化信息提取效率。改進后的OCR算法識別結(jié)果對比如圖8所示,文本識別后的顯示順序與圖像標簽順序一致。
圖8 識別結(jié)果對比
圖8(a)中車廂號末尾的數(shù)字靠近圖像邊緣,導致對比算法無法識別全部數(shù)字,當拍攝環(huán)境較差時識別效果更差;圖8(b)對比算法的識別結(jié)果中,車廂號和車載重顯示順序顛倒;圖8(c)中數(shù)字連接不流暢,對比算法識別結(jié)果錯誤。
改進后的OCR算法能夠有效識別破損和畸變嚴重文本,且識別結(jié)果連貫,避免出現(xiàn)字符串組合錯誤的情況,在拍攝條件較差的情況下仍能保證識別準確率,性能更穩(wěn)定。選用召回率和精確率作為模型性能的評估指標,精確率越高,表明模型識別結(jié)果中錯誤較少;召回率越高,表明模型盡可能多地識別出所有真實的文本內(nèi)容。模型的指標結(jié)果見表1。
表1 模型指標
對比算法與OCR算法在數(shù)據(jù)集圖像識別率和識別平均時長的對比結(jié)果見表2。結(jié)合表1、表2中數(shù)據(jù)可知,OCR算法識別準確率較高、速度較快,且識別結(jié)果更加直觀。
表2 識別結(jié)果對比
2.3 改進后的OCR算法優(yōu)勢
(1)列車掃描儀也可用于提取車廂局部區(qū)域文本,性能穩(wěn)定可靠但成本較高,且靈活性有限。在需要快速部署和靈活調(diào)整的場景中,列車掃描儀適應(yīng)性較差,特別是在面對多變和復雜的車廂環(huán)境時,難以快速響應(yīng)不同操作需求和場景變化。
(2)改進后的OCR算法算法具有出色的靈活性、開發(fā)效率和跨平臺適應(yīng)性,且支持多語言識別,可以在不同硬件平臺和操作系統(tǒng)上高效部署,該算法能夠快速適應(yīng)復雜場景中的優(yōu)化,應(yīng)對快速變化的需求,相較于傳統(tǒng)硬件設(shè)備,部署成本更低。
(3)改進后的OCR算法在車廂文字識別領(lǐng)域獲得更廣泛的應(yīng)用,特別是在成本控制、快速部署和實時處理的情況下,提供了一種經(jīng)濟高效的解決方案。未來的應(yīng)用場景不限于車廂信息提取,可拓展到車內(nèi)實時信息反饋、乘客引導、設(shè)備監(jiān)控及應(yīng)急情況下的文字信息識別等。OCR的開源特性提供了高度可擴展性,能夠與其他智能技術(shù)結(jié)合進行二次開發(fā)和定制,進一步提升車廂管理的智能化水平。
結(jié) 語
改進后的OCR的車廂局部區(qū)域文本識別方法,通過DBNet檢測、FPGM裁剪矯正、圖像增強及CRNN識別的協(xié)同應(yīng)用,有效解決了煤炭運輸車廂文本破損和圖像畸變導致的識別難題,顯著提升了識別率與效率。該方法在保證高精度的同時,具備低成本、高靈活性的優(yōu)勢,為煤炭運輸管理的智能化提供了有力技術(shù)支撐。未來可進一步優(yōu)化
編輯丨李莎
審核丨趙瑞
煤炭科學研究總院期刊出版公司擁有科技期刊21種。其中,SCI收錄1種,Ei收錄5種、CSCD收錄6種、Scopus收錄7種、中文核心期刊9種、中國科技核心期刊11種、中國科技期刊卓越行動計劃入選期刊4種,是煤炭行業(yè)最重要的科技窗口與學術(shù)交流陣地,也是行業(yè)最大最權(quán)威的期刊集群。
期刊簡介
《智能礦山》(月刊,CN 10-1709/TN,ISSN 2096-9139)是由中國煤炭科工集團有限公司主管、煤炭科學研究總院有限公司主辦的聚焦礦山智能化領(lǐng)域產(chǎn)學研用新進展的綜合性技術(shù)刊物。
主編:王國法院士
刊載欄目:企業(yè)/團隊/人物專訪政策解讀視角·觀點智能示范礦井對話革新·改造學術(shù)園地、專題報道等。
投稿網(wǎng)址:www.chinamai.org.cn(期刊中心-作者投稿)
?? 征稿函詳見鏈接: 征稿┃《智能礦山》面向廣大讀者征稿,歡迎投稿
期刊成果:創(chuàng)刊5年來,策劃出版了“中國煤科煤礦智能化成果”“陜煤集團智能化建設(shè)成果”“聚焦煤炭工業(yè)‘十四五’高質(zhì)量發(fā)展”等特刊/專題30多期。主辦“煤礦智能化重大進展發(fā)布會”“煤炭清潔高效利用先進成果發(fā)布會”“《智能礦山》理事、特約編輯年會暨智能化建設(shè)論壇”“智能礦山零距離”“礦山智能化建設(shè)運維與技術(shù)創(chuàng)新高新研修班”等活動20余次。組建了理事會、特約編輯團隊、卓越人物等千余人產(chǎn)學研用高端協(xié)同辦刊團隊,打造了“刊-網(wǎng)-號-群-庫”全覆蓋的1+N全媒體傳播平臺,全方位發(fā)布礦山智能化領(lǐng)域新技術(shù)、新產(chǎn)品、新經(jīng)驗。
?? 具體詳見鏈接:《智能礦山》創(chuàng)刊4周年回顧
聯(lián)系人:李編輯 010-87986441
郵發(fā)代號:82-476
?? 期刊訂閱詳見鏈接:歡迎訂閱┃《智能礦山》雜志2026年訂閱開始了!
往期薦讀
往期特刊
中國煤科特刊
陜煤集團特刊
神東專欄
重大進展特刊
露天礦特刊
理事單位特刊
紅柳林煤礦特刊
創(chuàng)新技術(shù)特刊
創(chuàng)刊號
版權(quán)聲明
本刊對已出版文章持有電子版、網(wǎng)絡(luò)版及進行網(wǎng)絡(luò)技術(shù)交流和與各網(wǎng)絡(luò)數(shù)據(jù)庫合作的權(quán)利,稿酬一次性付清,版權(quán)歸本刊與作者共同所有,如不同意,請在投稿時聲明。
聲明:本文系轉(zhuǎn)載自互聯(lián)網(wǎng),請讀者僅作參考,并自行核實相關(guān)內(nèi)容。若對該稿件內(nèi)容有任何疑問或質(zhì)疑,請立即與鐵甲網(wǎng)聯(lián)系,本網(wǎng)將迅速給您回應(yīng)并做處理,再次感謝您的閱讀與關(guān)注。
不想錯過新鮮資訊?
微信"掃一掃"