旅游文化法英翻譯資源庫構建方法
時間:2022-12-27 09:17:50
導語:旅游文化法英翻譯資源庫構建方法一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:對于我國豐富的旅游資源,傳統的人工翻譯已經無法滿足人們的需求,為此,基于機器學習構建陜西旅游文化法英翻譯資源庫。確定資源庫的總體架構和功能架構,利用樸素貝葉斯分類算法對資源訓練,根據計算得出的文本屬性權重大小對資源文本分類劃分,通過機器學習自學習過程補充和完善資源庫中的資源屬性,保證資源庫中資源具有較高的準確性,至此完成資源庫的構建。通過性能測試結果可知,應用所提方法后法英翻譯資源庫在忠實度、流暢度和可理解度方面均有了明顯提升,為旅游翻譯工作者提供了強有力的基礎保障。
關鍵詞:機器學習;法英翻譯資源庫;樸素貝葉斯分類算法;陜西旅游文化;資源訓練集
語言溝通是人類交流的主要方式,但是各個國家和地區都有其當地語言風俗,這些差異導致旅游文化對外輸出[1]遇到了巨大的阻礙。翻譯是打破這個阻礙最有效的途徑,但是這不僅要求翻譯人員具備專業的翻譯知識,還需對當地旅游文化資源具有一定的了解,否則就會出現景點介紹不到位、文化現象翻譯得不夠傳神等現象。在當今信息快速發展的時代,人工翻譯顯然不能滿足社會發展的需求,相關學者開始研究利用機器翻譯替代人工翻譯,于是構建關于旅游文化的翻譯資源庫,整合經過系統處理的高質量的翻譯資源[2],如李華勇[3]重點研究了翻譯漢語語料庫TED-CN中構筑的語義韻與其在原創漢語語料庫BJKY中構筑的語義韻存在顯著性差異,為提高翻譯質量提供了參考;嚴世蕓等[4]構建中醫藥現代知識體系,確定中醫藥名詞術語內涵,以推動實現中醫藥的現代化與對外傳播。國外學者提出了一種將連續詞嵌入與深度學習相結合的并行句子生成方法[5]。引入跨語言語義誘導雙語信號,實驗表明,對于低資源語言,在缺乏外部資源的情況下,可以取得較好的翻譯效果。陜西西安作為六朝古都和世界四大古都之一,鐘樓、雁塔、兵馬俑、華清池等我國優秀歷史文化,高度體現了我國古代勞動人民的智慧;關中盆地地勢平坦、土質肥沃、水源豐富,號稱“八百里秦川”。隨著我國對外開放的不斷推進,這些優秀的旅游資源也要適應跨地區、跨國家的需求。本研究在機器學習的基礎上,提出了陜西旅游文化法英翻譯資源庫構建方法。根據對資源庫的設計要求和應用目標分析,明確了資源庫的總體架構和功能架構。通過構建資源訓練集,為后續進行分類計算提供數據輸入,利用樸素貝葉斯分類算法對資源訓練集進行分類計算,找出概率值最大的資源文本,并根據機器學習過程,完成對資源庫中資源的補充和完善,由此完成資源庫的構建。通過性能測試結果表明,本研究所設計方法可保證翻譯的準確性和流暢性,對于旅游文化翻譯工作具有較高的參考依據。
1構建陜西旅游文化法英翻譯資源庫
基于機器學習的法英翻譯資源庫,是在機器學習的基礎上,利用自學習特性不斷分類處理資源,確保資源庫具有極高的分類準確性。完善包含法英雙語分詞系統、機器自學習過程、資源訓練集和詞庫的分布式并行計算等主要部分的資源庫。
1.1旅游文化法英翻譯資源庫構建需求分析
旅游是一種特殊的跨文化交際類型。這項工作的主題是譯者為了達到成功的交際而被要求進行的干預程度。他們的任務不是展示他們在特定主題上的知識,而是展示他們的調節能力,從而使之適用于與原著所針對的類型必然不同的旅游者。因此,翻譯人員應該學會為旅游者提供足夠的信息。同時譯者在語言和解釋層面的決定在一定程度上會讓讀者參與其中,從而影響旅游目的地的推廣。國際外宣翻譯工作在城市對外旅游宣傳中起著非常重要的作用。但是目前對法英翻譯資源庫中資源分類方案和資源分類訓練集的研究較少[6],本研究基于文本分類的思想,將機器學習和樸素貝葉斯分類算法結合起來建立了資源分類系統。與文本分類思想不同的是,由于旅游文化的翻譯具有不確定性、復雜性和多變性,這使得本研究構建的分類系統應具備更強大的分類性能、自學習性能和過濾性能,以便更好地適應復雜多變的翻譯內容。為了資源庫的穩定運行,本研究設計的資源庫隸屬于分布式并行環境。該環境采用分布式并行計算框架DaSyx,該框架具備較高的計算性能,為資源庫的穩定運行提供了強有力的保障。
1.2法英資源庫架構
從對法英資源庫的設計目標分析,將資源庫的總體架構分為預處理模塊、樸素貝葉斯分類模塊、機器學習模塊、資源訓練模塊、DaSyx框架模塊和日志服務模塊。總體架構構成如圖1所示。DaSyx框架在法英資源庫中的主要功能是為資源庫提供分布式并行計算服務,確保資源庫可以高效、穩定地運行。從法英資源庫的應用目標分析,資源庫的功能架構主要由機器學習系統、資源訓練集、法英分詞系統和樸素貝葉斯分類器4個部分組成。運作流程為法英資源庫獲取到待分類文本[7]后,首先通過法英分詞系統對文本信息進行分詞操作,并將無用信息濾除掉,完成分詞后將結果傳送至樸素貝葉斯分類器中;分類器通過文本訓練集計算出文本信息的概率值,并將結果按照從大到小的順序分類,匹配出最大概率值所屬的資源類型;完成匹配后的結果集通過機器學習系統與初始訓練集結合,共同對文本的字詞結構和特征權重不斷進行優化更新,以保證翻譯的準確度。資源庫的功能架構如圖2所示。將資源訓練集分為n個初始化資源,并以文件夾的形式存儲,每個文件夾中包含所屬該類型的資源文本。不僅如此,資源訓練集中還包含著分類計算所匹配的文本信息和計算結果[8],當達到觸發器設定的閾值標準后則啟動機器學習系統,進入自學習過程。完成自學習后,評估系統自動對自學習結果進行測試評估,只有通過測試后才能被永久保存在初始集中。
1.3構建法英資源訓練集
法英資源訓練集主要包含初始集和擴展集[9]兩部分。初始集為初始資源類別,擴展集為擴展的資源類別。初始集通過機器學習不斷執行自學習過程,進行資源的優化和完善,初始集主要用于資源匹配中。擴展集是初始集的進一步完善和補充,主要對未定義的資源類別[10]進行資源擴展。法英資源類別由多個資源文本構成,這些資源文本又同時構成了資源訓練集,具體如圖3所示。資源訓練集中資源文本均以結構化的方式直接存儲在系統硬盤上,使用時直接調用即可。
1.4基于樸素貝葉斯算法的分類運算
樸素貝葉斯分類器是在樸素貝葉斯公式的基礎上實現的分類運算。假設資源庫獲取的待分類文本屬性為X,用特征向量將其表示為X(X1,X2,X3,…,Xj);假設類別集合為S,已定義的類別集合為Si,用特征向量將其表示為S(S1,S2,S3,…,Si)。把X和Si的特征向量共同輸入樸素貝葉斯分類器中,計算過程如式(1)(1)式中,P(SiX)表示X屬于Si的概率值;P(XSi)表示如果X不屬于Si,Si中包含X的概率;P(Si)表示X屬于Si的概率值;P(S)表示所有給定資源類別的聯合概率值。根據式(1)中S的定義計算,可知屬于該資源類別的P(S)值為一個固定值,求解資源類別的過程就是求解max(P1,P2,P3,…,Pt)的過程,由此可將式(1)簡化為式(2)。max[P(SiX)]=max[P(XSi)×P(Si)](2)又因樸素貝葉斯分類算法獨特的“樸素性”,其特征向量X(X1,X2,X3,…,Xj)均可為獨立存在的狀態,可以將概率計算轉換為對每個文本屬性特征概率分布的乘積計算,如式(3)。式(6)給出了分類算法輸出結果為Xj屬于Si的概率值,由此可獲得樸素貝葉斯算法的函數原型,以此函數原型為基礎展開的分類計算可直接用于法英資源庫的構建。由于樸素貝葉斯分類算法沒有考慮各個文本屬性之間的關系,只是為了提升計算速度,簡化復雜的計算過程。但事實上,各個文本屬性之間存在著多種關系,而且每個文本屬性對分類計算的重要程度也不相同,所以樸素貝葉斯分類算法會與實際情況產生一定的偏差。為了將這種誤差控制到最小,本研究采用了基于特征權重的樸素貝葉斯分類器,對資源訓練集中的每一個文本屬性都進行一次權重計算,以便于更好地區分不同的文本屬性對分類計算的重要程度。該方法可以在一定程度上提高算法的分類精度,構成如圖4所示。基于特征權重的樸素貝葉斯分類算法主要由待分類資源文本、樸素貝葉斯分類器、資源翻譯列表和具有TF-UIDF權重的文本訓練集組成。計算流程如下:資源庫獲取到待分類資源文本后,樸素貝葉斯分類器根據資源訓練集中文本屬性的權重和數量,得到資源文本屬于每個資源類別的概率,并找出概率值最大的資源類別,把待分類的資源文本劃分到該資源類別中。本研究利用增加了TF-UIDF權重的樸素貝葉斯分類算法,對文本屬性具有更高的分類準確性。
1.5基于機器學習的法英翻譯算法
機器學習自學習過程主要由評估系統、觸發器模塊、貢獻度計算模塊和文本集維護模塊4部分共同完成。自學習過程如圖5所示。文本集維護模塊整合了資源訓練集和匹配結果集的所有文本資源,并采用文件鎖的形式存儲資源,保證整個資源庫資源的完整性。觸發器模塊作為自學習過程的啟動模塊,本研究對該模塊設定了2個觸發條件:匹配結果集容量觸發和循環時間觸發模式。貢獻度計算模塊主要為資源訓練集和匹配結果集中的支持計算其貢獻度大小。在資源庫中,某個單詞的貢獻度可以看作為在分類計算時的重要程度。評估系統根據貢獻度計算模塊得出的結果對自學習效果進行測試評估。該系統包含了預替換過程、效果評估和確認替換3個模塊。如果測試通過,執行預替換操作,否則不予替換。式中,vc為單詞的詞向量;uo和uw分別為在單詞作中心詞時使用的向量表征和外部詞語時使用的向量表征。根據計算結果,將概率值最高的作為翻譯結果輸出。機器學習的自學習過程,是補充和完善的過程,在資源庫中,只有通過不斷的自學習,才能保證資源庫中的資源具有較高的準確性,以應變復雜多變的翻譯內容。
2性能測試
為了驗證本研究所設計方法的有效性,對本研究構建的英法翻譯資源庫進行性能測試,共有10名外語系專業學生參加測試。
2.1測試內容
對采用本研究所設計方法和未采用本研究所設計方法翻譯的兩種譯文從忠實度、流暢度和可理解度3方面進行打分。忠實度為評判譯文是否忠實地表達原文意思,分為0—5分5個等級,打分結果取小數點后一位小數。流暢度為譯文翻譯是否流暢、正宗,分為0—5分5個等級,打分結果取小數點后一位小數。可理解度為評判學生(用戶)是否可以理解翻譯后的文章,分為0—5分5個等級,打分結果取小數點后一位小數。
2.2測試步驟
(1)不采用本研究所設計方法,對陜西旅游文化資源進行法英翻譯。(2)采用本研究所設計方法翻譯同一篇文章,并對翻譯后的文章進行人工校對,如表1、表2所示的忠實度、流暢度和可理解度標準對兩篇譯文進行打分。(3)完成測試,統計打分結果。2.3測試結果測試結果如表3所示。由表3可以看出,雖然本研究構建的法英資源庫并沒有得到滿分,存在一定的分類優化問題,但是采用本研究所設計方法后,在忠實度、流暢度和可理解度方面均比未采用本研究所設計方法前有了明顯提升,均保持在94%以上。
3總結
旅游文化的翻譯工作和研究受到國內外很多學者的關注,在進行翻譯工作之前,構建高效的翻譯資源庫是必不可少的。本研究在理論語言學的基礎上,結合機器學習,構建了陜西旅游文化法英翻譯資源庫,填補了該領域語言翻譯資源庫建設的空白。將需要檢索的信息輸入資源庫中,就可得到包含檢索關鍵詞的所有陜西旅游文化法英翻譯的語句和相關文章,完成對陜西旅游文化法英翻譯資源庫。翻譯資源庫不僅可以為翻譯工作者提供參考依據,還可以幫助翻譯工作者在翻譯旅游文化資源時了解特殊的語句結構和語法特征。不僅如此,還可以在本研究構建資源庫的基礎上,提高機器翻譯在旅游翻譯領域的效率。但是,本研究在研究過程中,發現資源庫還有許多新的問題需要解決,如雙語文本語義和句法標注技術的更新等,將以此為重點進行下一步研究,進行更深層次的研究工作。
作者:王玉 單位:咸陽師范學院 外國語學院
- 上一篇:電子商務平臺特種產品市場營銷渠道
- 下一篇:經濟改革背景經濟教育改革路徑