從「LIVAC共時語料庫」看現代漢語的演變

 

過去兩星期內,在香港、台灣及北京三地最高見報率的人物是那幾位?最常用的詞語是甚麼?你可能以為這些問題並沒有一定的答案,只能憑個人主觀印象的臆測。事實上,只要進入一個由香港城市大學語言資訊科學研究中心開發的「LIVAC共時語料庫」網址(www.rcl.cityu.edu.hk/livac/sample),便不難找到答案,而且這是建基於統計數據的精準

答案。 

 

語言資訊科學研究中心的「新聞名人榜」、「常用地名榜」及「常用詞語榜」均是從「LIVAC共時語料庫」統計整理而來的。「LIVAC共時語料庫」自1994年起由語言資訊科學研究中心主任鄒嘉彥教授主持開發,是特區政府研究資助局的角逐撥款資助項目之一。

 

橫跨十年的研究計劃

語料庫自1995年7月起定期收集香港、台灣、北京、上海、澳門及新加坡六地主要報刊及電子媒介的語料,由電腦自動切詞,再經人工校對分詞,建立了以字、詞條、文句、全文等不同層次的語料庫,供從事語言學研究的學者

及對語言現象、華人社會組織、文化及動態發展有意探討者使用。

 

至2001年初,語料庫已收集了7,000多萬字、超過40萬個詞條,並在不斷擴充中。目前上網可供檢索的為1995年7月至1997年6月間上述六地中文報章的語料,約1,600多萬字、近19萬詞條。計劃中,語料庫將一直收集及更新至2005年6月,預計完成後所收集的字超過一億或詞達60萬個。

 

漢語的時間錦囊

鄒教授說:「語料庫好像是一個時間錦囊,記錄了六個華人地區十年間的社會、文化以及語言特色上的變化,是語言學學者及對研究華人社會組織有興趣人士的珍貴原始材料。」語料庫有多個重要目標,其中之一是為了深入探討現代漢語的語言及詞彙發展動態,包括新概念詞的由來與延伸、詞義的發展、舊詞的轉移和具地方特色的詞語。

 

你可知"Internet"在上述六個華人地區有多少個常用的中文譯名?根據「LIVAC共時語料庫」自1995至2000年的記錄,最少有13個常用的中文譯名。每個地區的最常用譯名並不相同:香港是「互聯網」,台灣是「網際網路」,新加坡是「網際網絡」,澳門是「互聯網絡」,上海和北京是「因特網」。

 

鄒教授說:「中文不是一個單一的語言,不同地區的中文有不同的地方色彩。很多人認為香港年青人的中文不好,夾雜著粵語,其實是帶有價值觀的看法。即使是同一地區的語言,經過一段時間後,也會有差異,語言是不斷發展的。我們可從語料庫看出,現代漢語在這10年間,在不同華人社會的發展與差異。」

 

應用潛質無限

鄒教授又形容建造語料庫的過程有如開荒,漫長而艱辛,只要有「差之毫釐」的過錯,也會造成「失之千里」的謬誤。例如「李鵬飛抵北京」這句子,究竟是指「李鵬」或是「李鵬飛」*到北京,電腦很難分辨出來。即使是人工校對,稍不留神都會直接影響到統計的準確性。而且,整個研究計劃跨時十年,涉及語料近億字,甚至以「愚公移山」來形容整項工程,實不為過。「不過,當成果成為一頓盛宴,可以讓有興趣的人士分享時,身為『開荒牛』的研究者,也會忘記多年的艱難困苦,而感到心滿意足了。」

 

除了學術研究外,具備龐大字庫、檢索及統計功能的語料庫,還有無限的應用潛質。香港法庭以廣東話進行訴訟愈來愈普及,LIVAC語料庫可應用於法庭以廣東話輸入記錄的程序。可輸入中文的流動電話,亦需要龐大的詞庫作支援。而事實上,鄒教授說,語料庫已在資訊產品的開發研究上漸露頭角,開始被一些網絡及資訊科技產品開發公司如日本NTT、香港tom.com及美國AOL的附屬公司採用。

 

*註:前者為中國人大委員長,後者為香港商人、政治評論員及前政界名人。

 

 

你可能感興趣

聯絡資料

傳訊及數據研究處

Back to top