香港城大学者凭语音文字编写系统研究获颁谷歌研究奖项

当你懒得打字、改用语音输入,但录音时说错了而想修改的话,你还是逃不过要停下脚步和手上工作,然后看着手机屏幕打字的命运,甚或要干脆重录一段。香港城市大学(香港城大)创意媒体学院助理教授刘灿博士,正研究新方法改善语音控制文字编写的界面,早前更因此获颁谷歌研究奖项,以表彰她在语音互动文字编写系统所作的开创性研究。

专注研究人机交互(human-computer interaction)的刘博士形容,人机交互“是个有趣的范畴,而且相关科技改变了人类的生活方式”。她以名为“使用最少视像辅助的语音控制文字编写系统”的研究计划,于人机交互的研究组别荣获2019/20年度谷歌教员研究奖(Google Faculty Research Awards),更是该年度唯一获奖的香港学者。奖项竞争激烈,经谷歌1,100位专家严格评审后,最终只有约15%的研究计划获得资助。

欲打破键盘编写文字的框框

刘博士自2018年起从事语音控制文字编写界面的研究。她指出,近年于深度学习、自然语文处理技术(natural language processing)等出现的突破,均大大提升了语音辨认的准确度。目前智能电话一般已设有语音输入打字功能,而且辨认语音准确度颇高,但当使用者要修改用语音输入的文字时,就难以只用语音控制。“编写文字时,我们一般习惯用键盘操作,但如果在驾车或者做饭,由于难以腾出双手,目光亦不能长期注视手机屏幕,往往就不能很快速地编写文字,而用语音控制就可以尝试解决这个问题。”刘博士解释说。

刘博士获奖的研究,就是希望开发新的语音控制画面支援系统,令使用者可在视觉和语音两种输入模式之间畅顺地切换,并以使用最少视像辅助元素为目标,即使用者无需时刻注视着画面。

刘博士指出,要设计这个新系统,首先要从认知科学的角度,了解使用者在编写及修改文字时的说话行为及目光注视的规律,「究竟在我们编辑文字时,我们的大脑在视觉和听觉方面的反应是怎样的?」为此,刘博士进行了实验,以观察和实证去了解人类这方面的认知和行为。实验对象要按指示进行不同的任务,同时要透过麦克风用语音修改文字。

刘博士指出,目前已有的系统一般需要非常具体的编辑指令才能执行,例如在哪个字之前加入或删除什么内容等等,这要求使用者清楚记得自己刚刚用语音输入了什么内容。然而,根据她就研究观察所得,使用者一般只记得说话内容的意思,并不会逐字逐句,一字不漏地背诵。另外,相关系统还需要懂得分辨使用者所说的是文字内容,还是要求系统修改文字的指令,可见语音控制文字编写界面的设计毫不容易。获取更多前沿科技信息访问:https://byteclicks.com

新系统也便利视障人士

因此,刘博士将研究如何运用机器学习及自然语文处理技术开发新的互动方案,目标是开发一个尽量让使用者如常讲话便可畅顺地编写文字的系统,减少使用者在过程中注视屏幕和用手交互的需求。刘博士总结说:“这项研究计划将有助进一步开发语音互动系统的范式,也可减低使用者注视画面的需要,相信这可便利视障人士使用。”

香港城大学者凭语音文字编写系统研究获颁谷歌研究奖项
刘博士以观察和实证去了解人类的认知和行为,设计语音控制文字编写界面。

谷歌教员研究奖于2005年成立,旨在表彰及支持全球学府在计算机科学、工程学及相关领域的世界级研究,并鼓励全球一流学者合作进行具影响力的研究。

刘灿博士于香港城大的课题组正积极招募博士研究生和研究助理,参与开发未来人机交互技术,包括语音系统、多荧幕交互、空间交互以及多人合作系统的研究工作。若感兴趣可以查看刘博士的网页以获取更多信息︰

Bz2CB8

上一篇:

下一篇:


标签