香港城大学者凭语音文字编写系统研究 获颁谷歌研究奖项

 

以现今科技,只用语音输入而非以键盘编写及修改文字仍然相当困难。香港城市大学(香港城大)创意媒体学院助理教授刘灿博士,正研究新方法改善语音控制文字编写的介面,早前更因此获颁谷歌研究奖项,以表彰她在语音互动文字编写系统所作的开创性研究。

专注研究人机交互(human-computer interaction)的刘博士形容,人机交互"是个有趣的范畴,而且相关科技改变了人类的生活方式"。她以名为"使用最少视像辅助的语音控制文字编写系统"的研究计划,于人机交互的研究组别荣获2019/20年度谷歌教员研究奖(Google Faculty Research Awards),更是该年度唯一获奖的香港学者。奖项竞争激烈,经谷歌1,100位专家严格评审后,最终只有约15%的研究计划获得资助。

欲打破键盘编写文字的框框

google award, voice-based text composition
photo credit: panuwat phimpha/shutterstock.com

 

刘博士自2018年起从事语音控制文字编写介面的研究。她指出,近年于深度学习、自然语文处理技术(natural language processing)等出现的突破,均大大提升了语音辨认的准确度。目前智能电话一般已设有语音输入打字功能,而且辨认语音准确度颇高,但当用户要修改用语音输入的文字时,就难以只用语音控制。"编写文字时,我们一般习惯用键盘操作,但如果正在走路、驾车或者做饭,难以腾出双手用键盘打字。在这些情况下,用语音进行速记或编写讯息会是方便的做法。"刘博士解释说。

google award, voice-based text composition
刘博士正进行名为「使用最少视像辅助的语音控制文字编写系统」的研究计划。(香港城市大学)

 

刘博士获奖的研究,就是希望开发新的语音控制画面支持系统,令用户可在视觉和语音两种输入模式之间畅顺地切换,并以使用最少视像辅助元素为目标,即用户无需时刻注视着画面。

刘博士指出,要设计这个新系统,她首先要从认知科学的角度,了解在用语音编写及修改文字时,用户的说话行为及目光注视的规律。刘博士进行了实验,以观察人类在这种情况下的注意力转换。实验对象要按照指示进行不同的任务,同时要透过麦克风用语音编写及修改文字。

google award, voice-based text composition
刘博士进行实验以观察人类用语音编写和修改文字的行为。(香港城市大学)

 

刘博士指出,目前已有的系统一般需要规范性的编辑指令才能执行,例如在哪个字之前加入或删除甚么内容等等,这要求使用者清楚记得自己刚刚用语音输入了甚么内容。然而,根据她就研究的观察所得,使用者一般只记得自己说话内容的意思,并不会逐字逐句,一字不漏地背诵。另外,相关系统还需要懂得分辨用户所说的是文字内容,还是要求系统修改文字的指令,可见语音控制文字编写介面的设计毫不容易。

新系统亦便利视障人士

刘博士将研究如何运用机器学习及自然语文处理技术开发新的互动方案,目标是开发一个尽量让使用者如常讲话便可畅顺地编写文字的系统,减少用户在过程中注视屏幕和用手交互的需求。刘博士总结说:"这项研究计划将有助进一步开发语音互动系统的范式,也可减低使用者注视画面的需要,相信这可便利视障人士使用。"

谷歌教員研究獎於2005年成立,旨在表彰及支持全球學府在電腦科學、工程學及相關領域的世界級研究,並鼓勵全球一流學者合作進行具影響力的研究。

本文已于 “香港城大研创” 微信公众号发布。
Wechat ID: CityU_Research

 “香港城大研创” 微信公众号
 

 

 

联络资料

Back to top