漢字識別范文10篇
時間:2024-02-05 01:33:25
導(dǎo)語:這里是公務(wù)員之家根據(jù)多年的文秘經(jīng)驗,為你推薦的十篇漢字識別范文,還可以咨詢客服老師獲取更多原創(chuàng)文章,歡迎參考。
漢字識別研究論文
1主要研究
1.1字形屬性對漢字識別的影響
受西方已有研究理論的影響,長期以來關(guān)于漢字識別的加工單元也有兩種觀點:一是認為識別漢字要先對筆畫、部件等漢字的字形特征進行分析,然后將分析的結(jié)果整合從而識別整字。那么,在漢字識別過程中就會存在筆畫數(shù)效應(yīng)、部件數(shù)效應(yīng)等。二是認為識別漢字直接以整字為單元,強調(diào)字形知覺的整體性。到80年代末90年代初,已有許多研究表明在漢字的視覺識別過程中,要經(jīng)過特征分析[1]。近10年以來,漢字識別的特征分析觀點得到了更多的研究結(jié)果的驗證:首先是采用不同的方法證實了筆畫數(shù)效應(yīng)的存在。如喻柏林等[2]采用命名識別法,發(fā)現(xiàn)在2至15畫的范圍內(nèi),漢字的命名反應(yīng)時隨筆畫數(shù)的增加呈臺階狀上升趨勢;張武田等[3]發(fā)現(xiàn)在高頻字當(dāng)中存在筆畫數(shù)效應(yīng);彭聃齡等[4]采用命名作業(yè)和真假字判斷作業(yè)也發(fā)現(xiàn)有顯著的筆畫數(shù)效應(yīng)。其次是發(fā)現(xiàn)部件因素對漢字識別的影響。有研究發(fā)現(xiàn)了啟動部件對合體漢字識別的影響[5],提示漢字的部件作為單個結(jié)構(gòu)反復(fù)認讀,有可能成為漢字識別的加工單元之一,而且比筆畫更符合簡約的原則。張武田等[3]、彭聃齡等[4]的研究結(jié)果進一步證實了部件數(shù)效應(yīng)的存在。
不僅部件的數(shù)量影響漢字識別,研究證明部件頻率(即在合體漢字中出現(xiàn)的次數(shù))也是影響漢字識別的因素之一,但其作用受到整字頻率和結(jié)構(gòu)類型的影響[6]。黎紅等[7]的研究也發(fā)現(xiàn),在速示條件下,部件頻率影響漢字識別的準確性,而且部件頻率對漢字識別的作用模式與刺激字及其組成部分的空間排列有關(guān)。
在漢字的構(gòu)造部件之間還存在不同的組合以及組合頻率。采用整字識別和整合識別等實驗任務(wù)的研究表明,部件組合與部件有類似的頻率效應(yīng),而且部件組合頻率的作用也受到正字頻率和結(jié)構(gòu)類型的影響[8]。第三是證實了結(jié)構(gòu)方式效應(yīng)的存在。喻柏林、馮玲等[9]和喻柏林、曹河圻[10]在不限時呈現(xiàn)整字條件下,分別令被試對雙部件和單部件做命名反應(yīng),結(jié)果一致發(fā)現(xiàn)存在結(jié)構(gòu)方式效應(yīng),命名上下字的反應(yīng)時要明顯長于左右字的部件。陳傳鋒、黃希庭[11]進一步研究發(fā)現(xiàn)了結(jié)構(gòu)對稱性效應(yīng),識別結(jié)構(gòu)對稱性漢字的加工明顯快于非對稱性漢字,而且這種結(jié)構(gòu)對稱性效應(yīng)在低頻字中起作用,而在高頻字當(dāng)中不起顯著作用;在多筆畫字中起作用,在少筆畫字中不起顯著作用。
獨體字直接由筆畫構(gòu)成,不存在部件這一結(jié)構(gòu)層次,而且許多獨體字本身就是構(gòu)成合體字的部件。那么在對獨體字進行認知加工時,是必須經(jīng)過特征分析還是直接以整字為單元?肖崇好等人[12]將獨體字中除去點、鉤、提、短的橫豎撇捺以外的其它筆畫作為該漢字的框架筆畫,把每個獨體字的結(jié)構(gòu)分為框架結(jié)構(gòu)和非框架結(jié)構(gòu)。研究結(jié)果發(fā)現(xiàn),在速示條件下,獨體漢字的識別從識別筆畫開始,經(jīng)提取框架結(jié)構(gòu)后,才完成識別過程。與“框架結(jié)構(gòu)”的觀點相類似,沈模衛(wèi),朱祖祥[13,14]研究結(jié)果也表明,在含有十或口的獨體漢字中,十與口是該類漢字的突出視覺特征的理論。這些結(jié)果表明對獨體字的加工也經(jīng)過特征分析。
淺析漢字識別技術(shù)檔案管理
關(guān)鍵字:技術(shù)方式檔案圖像利用信息數(shù)據(jù)文本目錄漢字識別
漢字識別技術(shù)(簡稱OCR)可以理解為是讓計算機認字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。
一、漢字識別技術(shù)的應(yīng)用價值漢字識別技術(shù)的應(yīng)用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。
漢字識別技術(shù)應(yīng)用研究論文
漢字識別技術(shù)(簡稱OCR)可以理解為是讓計算機認字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。
一、漢字識別技術(shù)的應(yīng)用價值漢字識別技術(shù)的應(yīng)用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。
應(yīng)用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
漢字識別技術(shù)在檔案管理工作中應(yīng)用論文
漢字識別技術(shù)(簡稱OCR)可以理解為是讓計算機認字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。
一、漢字識別技術(shù)的應(yīng)用價值漢字識別技術(shù)的應(yīng)用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。
應(yīng)用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
檔案文本數(shù)據(jù)開發(fā)信息資源應(yīng)用分析論文
編者按:統(tǒng)籌考慮檔案狀況、人員配備、經(jīng)費能力、辦公自動化水平、檔案現(xiàn)代化建設(shè)發(fā)展規(guī)劃等方面的因素,本文通過漢字識別技術(shù)的應(yīng)用價值、漢字識別后生成的文本數(shù)據(jù)的屬性問題以及漢字識別技術(shù)的應(yīng)用方式三個方面來探討切實提高檔案信息資源開發(fā)利用能力。
漢字識別技術(shù)(簡稱OCR)可以理解為是讓計算機認字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。
一、漢字識別技術(shù)的應(yīng)用價值
漢字識別技術(shù)的應(yīng)用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
文本檔案數(shù)據(jù)屬性問題分析論文
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。
應(yīng)用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
二、漢字識別后生成的文本數(shù)據(jù)的屬性問題。
原始性是檔案的基本屬性。漢字識別后生成的文本數(shù)據(jù)是根據(jù)檔案的本源信息,即固定在紙質(zhì)載體上的漢字信息進行加工處理:掃描、識別、校對、修改等工序后形成的復(fù)制加工品,因此不具有檔案的原始性。
檔案目錄數(shù)據(jù)錄入論文
漢字識別技術(shù)(簡稱OCR)可以理解為是讓計算機認字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。
一、漢字識別技術(shù)的應(yīng)用價值漢字識別技術(shù)的應(yīng)用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。
應(yīng)用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
普及漢字識別提高檔案信息資源開發(fā)論文
編者按:本文主要從漢字識別技術(shù)的應(yīng)用價值;漢字識別后生成的文本數(shù)據(jù)的屬性問題;漢字識別技術(shù)的應(yīng)用方式進行論述。其中,主要包括:把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息、精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值、提供了一種新的檔案目錄數(shù)據(jù)的錄入方式、原始性是檔案的基本屬性、知識性是檔案的又一個屬性、漢字識別后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案屬性的新型檔案信息、方便用戶,可減少信息利用過程中的重復(fù)勞動、輸入檔案目錄、掃描、保存圖像并提供利用、建立文本數(shù)據(jù)庫、輸入目錄并保存圖像、保存圖像、建立文本件數(shù)據(jù)等,具體請詳見。
漢字識別技術(shù)(簡稱OCR)可以理解為是讓計算機認字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。
一、漢字識別技術(shù)的應(yīng)用價值
漢字識別技術(shù)的應(yīng)用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
檔案技術(shù)管理論文
漢字識別技術(shù)(簡稱OCR)可以理解為是讓計算機認字的技術(shù)。它通過光電信號轉(zhuǎn)換,即文本數(shù)據(jù)。
一、漢字識別技術(shù)的應(yīng)用價值漢字識別技術(shù)的應(yīng)用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應(yīng)用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù)據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。
另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。
應(yīng)用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉”的方式,將屏幕上文件的目錄項如標題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且,如果利用OCR軟件同時建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。
科學(xué)家建國60周年優(yōu)秀征文
一條大河,歷經(jīng)幾千年,流淌的盡是漢字。
甲骨文的波紋、金文的漣漪、篆書的漩渦、隸書的浪花……沿路講述著倉頡造字的傳說,傳頌著中華民族博大精深、源遠流長的文明。
漢字起源于中原,但漢字沒有國界邊陲。在歷史上,越南、朝鮮和日本都曾經(jīng)用漢字記錄他們的語言。越南的本國文字——字喃,是以漢字為基礎(chǔ)創(chuàng)制出來的;韓國至今使用的還是漢字和韓字(即諺文)的混合體文字;已在世界占據(jù)重要地位的日本文字目前仍保留有1945個簡體漢字。將漢文化和漢字象種子一樣撒向歐洲、美洲、非洲等世界各地的,其功績莫過于張騫兩通西域、唐朝“對外開放”,以及鄭和七下西洋。
國興則漢字熱,國衰則漢字冷。新中國成立后,漢字飽嘗“世態(tài)炎涼”,才又開始活躍起來。進入二十一世紀,中國日益強盛,經(jīng)濟實力排名世界第三,綜合國力排名世界第四,漢文化和漢字也隨之風(fēng)靡世界。據(jù)國家漢辦主任許琳介紹,到目前,全世界已有81個國家建立了256所孔子學(xué)院和58所孔子課堂。世界著名大學(xué)中有44所大學(xué)建立了孔子學(xué)院。此外,還有40多個國家150多個學(xué)校和機構(gòu)已經(jīng)提出申請設(shè)立孔子學(xué)院,到2010年孔子學(xué)院將多達500所。同時有109個國家、3000多所高等學(xué)校開設(shè)了漢語課程。全世界學(xué)習(xí)漢語的人數(shù),已經(jīng)超過了4000萬。美國3年前只有200所學(xué)校開漢語課,到現(xiàn)在已經(jīng)發(fā)展到1000多所,并提出了到2015年5%的高中生要學(xué)漢語的目標。作為英語發(fā)源地的英國,幾乎所有的大學(xué)都或多或少地開設(shè)了漢語課;開設(shè)漢語課程的中小學(xué)數(shù)量,已從2002年的57所增加到目前的近500所。
隨著南極長城站、中山站、昆侖站和北極黃河站等科學(xué)考察站的相繼建立,漢字便同五星紅旗一起在冰天雪地,荒無人煙的極地落戶。從此,地球的每片土地上都生長著漢字。
活字印刷讓漢字廣泛傳播。但漢字在科技世界的游刃有余,則是在新中國以后,尤其是改革開放的三十多年。1975年國家科技發(fā)展規(guī)劃748工程的啟動,推動和產(chǎn)生了我們今天使用的漢字操作系統(tǒng)、漢字應(yīng)用軟件和各種漢字輸入輸出設(shè)備,徹底掃除了“中文不適于信息處理”的障礙。從1981年漢字激光照排系統(tǒng)樣機研制成功到后來的廣泛使用,我國的印刷出版業(yè)告別“鉛與火”、進入“光與電”時代,漢字活力與日俱增。隨著漢字操作系統(tǒng)、漢字編輯排版系統(tǒng)、漢字識別系統(tǒng)、手寫漢字輸入系統(tǒng)、機器翻譯系統(tǒng)的不斷創(chuàng)新和換代,漢字在計算機的王國里進出自由,沒有禁區(qū)。