場景文本提取方法應用研究論文

時間:2022-10-11 11:04:00

導語:場景文本提取方法應用研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

場景文本提取方法應用研究論文

摘要場景圖像中的文本提供了重要的語義信息,它是圖像內容的重要來源。針對當前的求解算法普遍存在提取文本精確度不高等缺點,本文提出了一種有效的文本提取方法。首先對原始圖片進行模糊化處理,然后進行Laplacian邊緣提取和二值化,再形態學變化,最后進行連通域分析,實現了場景文本的提取。

關鍵詞文本提取;邊緣檢測;二值化;連通域分析

0引言

隨著計算機、多媒體以及通訊技術的飛速發展,相當數量的文字信息正越來越多地以圖像形式出現[1]。圖像中的文字是圖像內容的一個重要來源,如果這些文字能自動地被檢測、分割、識別出來,則對圖像語義的自動理解、索引和檢索是非常有價值的[4]。圖像文本可以分為人工文本和場景文本。人工文本是指人工加在圖像上的文本,場景文本是圖像上本身存在的文本,如廣告牌或運動員球衣上的號碼等。由于場景文本圖像具有較為復雜的背景,同時受光線和文本的字體、顏色、位置等因素影響較大,往往很難被檢測、提取和識別,因此自動從場景中提取文本是一項極具挑戰性的工作。目前已有的文本區域提取方法大致可以分為三類:基于連通域的方法,基于紋理的方法和基于邊緣的方法[2]。基于連通域的方法速度快,但是當背景復雜或文本與背景顏色相近時分割困難,而基于紋理的方法非常費時而且處理復雜背景時誤報比較多。

本文根據場景中的文本區域與背景對比度強,存在豐富的邊緣信息,因此選擇基于邊緣檢測的文本提取方法對場景文本的提取進行研究。首先對原始圖像進行模糊化處理,然后用Laplacian邊緣提取降噪,再進行形態學變化,最后連通域分析,從而實現場景文本的提取。實驗表明,本文的文本提取方法具有較高的正確率,邊界定位較準確。

1場景圖像文本的提取過程

1.1圖像預處理

由于光照等環境因素的影響在圖像上會產生許多噪聲,又考慮到Laplacian算子去噪能力較差,因此本文在預處理時先對原始圖像進行模糊化,濾除圖像中的部分噪點。本文用的是3*3的卷積來進行連續模糊。

1.2邊緣檢測與二值化

邊緣檢測是所有基于邊界分割方法的第一步。兩個具有不同灰度值的相鄰區域之間總存在著邊緣。由于場景中文本和背景視覺反差較大,且文本區域具有相當大的一個寬度,與此同時場景文本筆畫邊緣明顯,所以利用邊緣檢測方法可以較好地提取出場景中的文本邊緣。

本文采用的是基于二階微分算子的Laplacian邊緣檢測算子。該方法對圖像中的階躍型邊緣點定位準確且具有旋轉不變性的特點,即各向同性的性質。而場景文本正好具有階躍型邊緣的特性,所以說Laplacian算子較適合場景文本的提取。

其表達式為:

(1-1)

使用的Laplacian算子模板如圖所示:

圖1拉普拉斯算子

從邊緣檢測結果來看,在引入經過模糊處理后的Laplacian算子能夠在不影響文本邊緣提取的前提下能取得很好的去噪效果。缺點是對光線影響較強和質量較差的圖片處理過程中損失較大。

邊緣圖像的二值化是很重要的問題,如果閾值過大可能會漏掉一些文字邊緣,而閾值過小則可能會使較多的非文字邊緣被當作文字邊緣處理,導致誤檢較多。本文針對不同圖像采用整體閾值二值化,用最小誤差方法求分割閾值。這主要是由于整體閾值算法簡單,時間開銷小,選擇合適的閾值可以取得較好的效果。而且用最小誤差方法求整體閾值的算法可以較好地分離背景和文字。

1.3形態學運算

形態學將圖像信號與幾何形狀聯系起來,利用結構元素的探針收集圖像的信息。形態學運算能夠對圖像上的物體做形狀等方面的限制,常用于目標檢測等。本文用形態學中的開閉運算和腐蝕膨脹的方法來檢測二值邊緣密度圖像上的文本矩形區域。形態學運算包括以下兩步:

(1)對二值化的邊緣密度圖像做7個象素寬度的水平閉運算,連接字符筆畫形成矩形區域;再做15個象素寬度的水平開運算,去除孤立的背景;

(2)形態學后處理(即在連通域分析后進行的二次形態學運算):對每個連通域做δ度的膨脹運算和度的腐蝕運算。ε其定義如下:

δ=min(h,w/8)(1-2)

ε=w/4(1-3)

其中h,w分別對應連通域的高度和寬度。

通過第一步形態學運算去除部分背景區域,將相連的背景和文本分開;第二步形態學運算后圖像上只剩下部分規則的矩形區域。實驗表明,通過以上兩步形態學運算能比較準確的得到文本矩形區域。

1.4連通域分析

雖然以上方法可刪除大量的非文本區域,但結果中可能還存在不包含文本的矩形區域。因此有必要對二值圖像做連通域分析。連通域算法是指從二值圖像中標記出所有像素連通的區域。本文的連通域分析指的是8連通。該方法步驟如下:

(1)將原始圖像變換為行連通單元圖像,如圖2(b)所示,此時不考慮不同行之間的連通,同一行中的不同連通域賦予不同的標號,背景置零。

(2)考慮不同行之間的連通情況,從上到下掃描圖2(b)中結果,引入記錄數組D,該數組用來記錄連通的情況,約束是:數組下標和數組存儲的內容表示兩個連通域單元連通,應該合并為一個連通域,如D(5)=3,則表示5和3實質上是一個連通域。現在使用數組D記錄連通的情況,如果下一行某個行連通單元和本行中不止一個連通單元連通,則記錄本行中標號最小的單元與下一行此單元連通。按照D的記錄修改圖2(b),得到圖2(c)中的結果。

(3)進一步考慮不同行之間的連通情況,修正圖2(c)中結果。對圖2(c)從下到上掃描,如果連通情況與D的記錄不符就修改D。此時按照D的記錄修改圖2(c)就可以得到最終結果。見圖2(d),可以看出相同的連通域已經有了相同的標號。

圖2連通域分析過程

對于各個標記的連通分量,文本區域的橫寬比、密度、寬度、高度等均有一定的限制。在本文中取如下參數:

min(w/h,h/w)≥0.25(1-4)

0.2<A/(h·w)≤1(1-5)

min(w,h)≥3(1-6)

其中A表示連通分量的面積,w表示寬度,h表示高度。

2實驗結果與分析

本文的實驗數據由150幅標志牌,海報,廣告標語,新聞圖片,球衣照片等組成。采用計算正確率,錯誤率和遺漏率的方法來評價實驗結果。

正確率=正確提取的文本區域個數/實際文本區域個數;

錯誤率=錯誤提取的文本區域個數/實際文本區域個數;

遺漏率=未被檢測到文本區域個數/實際文本區域個數。

本文選擇了較復雜的150幅圖片作為測試數據,盡可能的包含了文本提取過程中可能出現的情況。實驗結果為:正確率80.31%,錯誤率11.23%,遺漏率10.57%。出現錯誤和遺漏情況的原因是圖像的分辨率太低或背景與文本區域對比度太小。

部分實驗結果如圖3所示:

圖3部分實驗結果

3小結

本文介紹了一個從場景圖像中提取文本有效的方法。先通過模糊化處理進行除噪,并對傳統的Laplacian邊緣檢測方法加以改進和二值化處理。通過對邊緣圖像的形態學運算,去除了非文本區域。最后進行連通域的分析,使得文本提取有較高的正確率。該方法較Canny算子處理的結果具有非文本連通區域少、定位準確等特點。但該方法在處理有光照等復雜背景的圖像時效果不理想,閾值的依賴性較強,因此在設計算子和選取有效的閾值方法上需要進一步研究。

參考文獻

[1]章毓晉.圖象處理和分析基礎.高等教育出版社.2001

[2]崔瑩瑩,楊杰,梁棟.基于邊緣的標志牌文本提取方法.影像技術.2006

[3]王鄭耀.數字圖像的邊緣檢測.西安交通大學出版社.2002

[4]張引.復雜背景下文本提取方法研究與應用.浙江大學博士學位論文.1999

[5]何斌,馬天予,王運堅等.VisualC++數字圖像處理.人民郵電出版社.2001

[6]K.C.Kim,H.R.Byun,Y.J.Song.SceneTextExtractioninNaturalSceneImagesusingHierarchicalFeatureCombiningandverification.Proceedingsofthe17thInternationalConferenceonPatternRecognition.2004