语音解码的一大步
Edward Chang 利用神经信号与人声道咬合部位运动的映射关系进行解码,也就是利用控制嘴唇、舌头、喉部和下颌运动的神经信号来合成语音,这是一个比较独特的解码途径。
这似乎可以类比以视觉信号代替听觉信号的读唇术。不过多位学者认为,如果用人工智能来训练读唇术的话,其准确率比解码脑电信号要准确得多,毕竟前者是确定的视觉信号,而人在说话时的脑电信号有太多未知和不确定,毕竟
人工智能更擅长以确定的数据来计算出结果。
对于听觉脑电信号的解码,Edward Chang 则是利用植入于大脑皮层的电极实时获取大脑皮层活动信号,这已经与声道部位的咬合无关,而是直接解码人听到语言后产生的脑电信号。
这本来是无比复杂的研究,Edward Chang 将这个研究简化了许多。他只是对涉及4组简单问答的脑电信号进行了解码。受试者得到的信号都是相对简单的,比如问“你最喜欢哪种乐器”“你最不喜欢哪种乐器”“从 0 到 10,你的幸福指数有多少”“你希望我多久来看你”等。正是这些简单问题的训练,让研究者得到了相对容易判断的信号。
这仍是一项了不起的进步。华南师范大学脑科学与康复医学研究院教授翁旭初评价说,这项语音解码研究在神经科学上的突破并不大,但在临床上的意义更大。由于使用了更多数目的侵入式电极,能够实时解码相对准确的语言信号,而此前的语言解码研究更多是对于书面文字或图片的脑电信号解码,是非侵入式的,解码速度不够快。
疑问仍存。比如,为何目前只能实现百分之六七十的准确率,有哪些影响语言解码准确率的因素?美国西北大学费恩柏格医学院 Marc W. Slutzky 博士解释说,尽管这项研究用了 256 个电极,但检测的脑电信号可能还是太少,因为皮层下区域也可能涉及语言功能。另外,这个研究是针对极少样本得出的结果,已经是相对不错的了,要知道,苹果公司的 Siri 经过数百万小时的训练仍然会犯错误。