網上文字:語義學的新路向

 

城大中文、翻譯及語言學系為語言資訊科學榮譽文學士課程的學生開辦的網站管理科目十分成功,修讀的學生包括了一年級至三年級的本科生。該科目是英文與傳播系署理系主任衛真道博士與城大中國語言學研究所合作的研究計劃之一。負責該科目的衛真道博士說:「這個科目發展迅速,由最初大概五、六個學生,至目前幾乎全班同學都參與修讀,說明同學已開始注意到萬維網和資訊科技對他們未來就業前途的影響。」 

 

這個已開設多年的科目,讓學生有機會獲得管理萬維網伺服器的實際經驗。它最初的構思只是建立一個關於中國語文和語言學的網站,不過,過去幾年,隨著修讀學生參與了其他計劃,例如為城大英語中心建立「英文文法診症室」等網站,科目範圍亦不斷擴大。這個英語中心構思的網站,由修讀網站管理的同學管理。它是一個為學生而設的電腦輔助語言學習工具,借用往「診症室」看「文法醫生」的有趣概念來運作。

 

機器翻譯的研究

目前衛真道博士正與中國語言學研究所合作一項極富挑戰性的研究,就是將語義學萬維網科技,應用到實例機器翻譯系統(example-based machine translation),參與的研究人員還有中文、翻譯及語言學系的冼景炬博士、潘海華博士和藺蓀先生。

 

實例機器翻譯系統的最大特色是採用實例的方法翻譯一些特定的法例語言和法律文件,語料庫包括中英雙語法律辭典及詞匯表、香港法例的中英雙語文本、產權轉讓文件及其他法律文件,如判詞、法庭檔案和契約等。香港司法制度目前正處於由單語制轉向雙語制的過渡期,是項計劃希望能滿足社會對雙語法律語文日益迫切的需求,並全面探索以實例作為機器翻譯基礎的發展潛質。

 

是項研究的初步工作,就是為翻譯文本設計出一個最合適的對譯系統,這些翻譯文本涉及的規模與範圍極廣,由單字到片語、子句以至句式等。研究小組會嚴格測試系統,並不斷由人手輸入改良了的翻譯文本,藉以建立及發展系統的學習能力,從而提高翻譯文本的準確程度,做到前後一致,並使內容更易理解。

 

三個研究階段

實例機器翻譯系統的研究由大學教育資助委員會撥款資助,共分為以下三個階段進行:實例蒐集、實例應用和實例庫的管理。

 

第一個階段的實例蒐集工作,已經接近完成。本階段主要採用了擁有2,500萬字的雙語法律資訊系統(BLIS)的語料庫作為基礎,就不同的語文形式,包括單字、片語、子句和句子進行語文對照。衛真道博士指出:「我們之所以選用雙語法律資訊系統語料庫,皆因它的內容豐富,而且出自翻譯專家之手。雖然要在起步階段搜集中英對照實例相當困難,但研究的進展相當不俗。」

 

第二個是實例應用的階段。這個階段尚在進行中,旨在研究如何把現有的實例應用到翻譯工作上。這個階段主要研究如何在輸入的句子中識別一些合用的實例,並決定實例在翻譯中的先後次序,進而調控目標語言的字句組合,以期完成整個翻譯工序,這正正就是實際的翻譯過程。研究小組希望一年內能夠完成實例應用的原型,把所有實例儲存於資料庫,作為改進翻譯之用。

 

第三個階段集中於實例庫的管理問題,希望能利用語義學萬維網科技,儲存實例,方便日後檢索。

 

語義學萬維網科技的最大突破是為人類提供以機器處理翻譯的方式。衛真道博士解釋:「基本上,萬維網目前的發展方向已不是純粹建立一個檔案室,而是創建一個內容豐富的知識庫,讓人們得以擷取所需的資訊。」

 

雙語辭典資料庫

衛真道博士正從事的另一項研究計劃,就是把語義學萬維網科技和一個雙語辭典資料庫結合使用,這樣不單對自然語言的處理有幫助,亦為萬維網用戶提供實用的工具。他指出:「目前,很多資料庫都相當缺乏彈性——需要按照指定的格式輸入資料,才可以檢索所需資訊。新開發的技術既可讓你儲存資料,又可透過常規和推理檢索資料;當然,要達到這個目的,資料庫就要有豐富的知識。」

 

你可能感兴趣

联络资料

传讯及数据研究处

Back to top