香港城大學者憑語音文字編寫系統研究獲頒谷歌研究獎項

2020年11月12日

以現今科技，只用語音輸入而非以鍵盤編寫及修改文字仍然相當困難。香港城市大學（香港城大）創意媒體學院助理教授劉燦博士，正研究新方法改善語音控制文字編寫的介面，早前更因此獲頒谷歌研究獎項，以表彰她在語音互動文字編寫系統所作的開創性研究。

專注研究人機交互（human-computer interaction）的劉博士形容，人機交互「是個有趣的範疇，而且相關科技改變了人類的生活方式」。她以名為「使用最少視像輔助的語音控制文字編寫系統」的研究計劃，於人機交互的研究組別榮獲2019/20年度谷歌教員研究獎（Google Faculty Research Awards），更是該年度唯一獲獎的香港學者。獎項競爭激烈，經谷歌1,100位專家嚴格評審後，最終只有約15%的研究計劃獲得資助。

欲打破鍵盤編寫文字的框框

google award, voice-based text composition — **photo credit: panuwat phimpha/shutterstock.com**

劉博士自2018年起從事語音控制文字編寫介面的研究。她指出，近年於深度學習、自然語文處理技術（natural language processing）等出現的突破，均大大提升了語音辨認的準確度。目前智能電話一般已設有語音輸入打字功能，而且辨認語音準確度頗高，但當使用者要修改用語音輸入的文字時，就難以只用語音控制。「編寫文字時，我們一般習慣用鍵盤操作，但如果正在走路、駕車或者做飯，難以騰出雙手用鍵盤打字。在這些情況下，用語音進行速記或編寫訊息會是方便的做法。」劉博士解釋說。

劉博士獲獎的研究，就是希望開發新的語音控制畫面支援系統，令使用者可在視覺和語音兩種輸入模式之間暢順地切換，並以使用最少視像輔助元素為目標，即使用者無需時刻注視着畫面。

劉博士指出，要設計這個新系統，她首先要從認知科學的角度，了解在用語音編寫及修改文字時，使用者的說話行為及目光注視的規律。劉博士進行了實驗，以觀察人類在這種情況下的注意力轉換。實驗對象要按照指示進行不同的任務，同時要透過麥克風用語音編寫及修改文字。

劉博士指出，目前已有的系統一般需要規範性的編輯指令才能執行，例如在哪個字之前加入或刪除甚麼內容等等，這要求使用者清楚記得自己剛剛用語音輸入了甚麼內容。然而，根據她就研究的觀察所得，使用者一般只記得自己說話內容的意思，並不會逐字逐句，一字不漏地背誦。另外，相關系統還需要懂得分辨使用者所說的是文字內容，還是要求系統修改文字的指令，可見語音控制文字編寫介面的設計毫不容易。

新系統亦便利視障人士

劉博士將研究如何運用機器學習及自然語文處理技術開發新的互動方案，目標是開發一個盡量讓使用者如常講話便可暢順地編寫文字的系統，減少使用者在過程中注視屏幕和用手交互的需求。劉博士總結說：「這項研究計劃將有助進一步開發語音互動系統的範式，也可減低使用者注視畫面的需要，相信這可便利視障人士使用。」

谷歌教員研究獎於2005年成立，旨在表彰及支持全球學府在電腦科學、工程學及相關領域的世界級研究，並鼓勵全球一流學者合作進行具影響力的研究。