七库下载 手游攻略 手游攻略 人脑与ai结合技术,人脑与神经网络

人脑与ai结合技术,人脑与神经网络

时间:2024-03-29 17:19:11 来源:头条 浏览:0

作者| 格雷西猎犬

编辑| 陈才贤

统一理解语音和文本的能力是人类能够发展通用语言能力的重要原因。那么人工智能可以做到同样的事情吗?最近,字节跳动和UIUC 的研究人员牢记这一想法,设计了一个跨模态转换模型:——Chimera。它不仅在基准语音翻译任务上取得了高分,而且其可视化结果证实了该机制可以更好地理解人类语言。论文:学习语音到文本翻译的共享语义空间/学习语音翻译任务中的共享语义空间(ACL 发现2021) Arxiv 链接: https://arxiv.org/abs/2105.03095Codes: https://github.com/Glaciohound/Chimera -ST

1

研究背景:人脑对语音和文字的统一理解你是否也喜欢在阅读或打字时播放音乐?你有没有想过什么是文字工作的最佳背景音乐?科学家会说这是没有文字的纯粹音乐[1]。经常会发现自己喜欢一首歌优美的歌词和迷人的声音,但最终却很长一段时间都听不懂一个词。不要急于责怪自己。这实际上是你大脑的错。科学家们很早就注意到,听歌词很容易干扰阅读,因为音频和文本信号进入大脑后共享一些处理路径。相关探索可以追溯到100多年前一位年轻人的偶然发现。 Wernicke-Guschwind 语言模型

图1:Karl Wernicke,来源:维基百科1874年,Karl Wernicke师从著名神经病理学家Theodor Meinert。他记录了两个奇怪的病人。尽管他们似乎患有某种类型的表达性语言障碍,但其症状与典型的表达性失语症有很大不同。事实上,他说写得很流利,但却难以理解。例如,一位患者如下描述他的病情[2]:“问题是我.直到青少年在我和正常时间之间花费了时间。因为是我,他们花了时间“然后,这里,然后,当时间流逝,他们看到我时.'.这不能称为废话,我只能说这是毫无意义的。韦尼克最终将这种情况(现在称为感觉性失语症)归因于颞叶后部和上部(现在称为韦尼克区)的脑损伤。这损害了患者理解语言的能力,患者在说话或写作时经常忘记“他想说什么”。受此启发,Wernicke 提出了一种早期的神经语言理论,即Wernicke-Geschwind 模型(图2)。他假设语音和文本首先在大脑中分别识别,然后在韦尼克区完成统一理解。感觉性失语症是由于患者对韦尼克区的理解出现问题而引起的,但表达功能仍然完好。

图2:经典的Wernicke-Geschwind语言模型,来源:维基百科虽然这个模型现在已经过时了,但它从此激发了下一代研究人员研究大脑中语音和文本之间的关系。我来了。认知神经学的证据自从神经影像技术兴起以来,科学家们已经能够更详细地观察大脑活动。近几十年来的大量研究支持大脑中存在语音-文本“融合区域”,或者涉及理解语音和文本的区域。例如,2013年,Christopher J. Honey及其同事邀请38名志愿者聆听和观看短篇故事《酪饼侠》 [3]。 MRI 结果表明,颞上回(韦尼克区附近)和楔前叶的某些区域对语音和文本都有反应(图3B)。更令人惊讶的是,语音和文本引起的反应的时间模式也非常相似(图3A),这与古代的推测是一致的。

图3:大脑中语音和文本信号的时空相关性[2]其他研究通过比较不同人的阅读测试成绩和收敛区域面积,发现两者之间存在正相关性,这已经得到证明[ 4]。 2018年,Wilson等人发现这些聚合区域甚至具有理解语言的能力:它们可以区分句子的语法,但不会对无意义的内容做出反应[5]。基于多年的研究,他们试图绘制人脑中的语音文本处理模型(图4)。至此,神经科学家一百多年来对这个谜团的探索终于水落石出。图4:颞上回言语文本处理模式图[4] 这里的问题是:这种设计也适用于人工智能模型吗?

2

试验场:语音翻译《看不见的客人》 看《Contratiempo》这样的外语电影时,谁是最好的助手?一定是YouTube自动翻译的字幕。此功能包括语音翻译技术,可将源语言(例如原始电影配乐中的西班牙语)的声音翻译为目标语言(例如您的母语)的文本。有了这项技术,我们可以轻松地用手机与外国朋友交流,未来,我们甚至可以与动物交谈。语音翻译是自然语言处理的基本任务之一,涉及语音和文本的处理。然而,由于上述技术问题,即使是最先进的语音翻译,其效果也与文本翻译有很大不同。因此,我们选择语音翻译作为回答上述问题的具体指标。难度级别:语音与文本的差距读完上面的神经学发现后,您可能会认为人工智能整合文本和语音很容易。然而,当涉及到技术实现时,事情就变得有点困难了。首先,音频和文本在计算机上看起来完全不同。文本通常只有几十个符号,而语音是连续的音频波形,可能长达数百万倍。即使是一个单词,听起来也可能完全不同,具体取决于谁说的、在什么环境下以及在什么上下文中。此外,音频和文本的编码方式也不同。文本中的单词由词根和词缀组成。语音包含一系列语素,其强度和语调都与这些语素相关。

图5:音频波形和文本之间的差异归根结底是数据问题。互联网上的文本数据非常丰富,但收集语音数据的成本要高得多。如果您不相信我,请看一下两个翻译数据集:文本和音频之间的大小差异(图6)。当谈到当今的人工智能时,请记住数据就是生命。没有数据,就没有情报。

图6:WMT16(文本翻译)和MuST-C(语音翻译)之间的大小差距对于人类来说很容易,但对于人工智能来说可能更困难。文本和语音之间的差异如此之大,以至于尽管文本处理的研究取得了成功,但语音性能却远远落后。为了弥合差距,我们需要对语音和文本有统一的理解,就像我们的大脑一样。仿生之路人工智能研究人员并不是不喜欢向自然学习。事实上,他们的研究经常从解剖学和神经学中汲取灵感来优化他们的模型。卷积神经网络(CNN)就是一个生动的例子。 CNN 模仿动物视觉系统的结构,在应用中展现出强大的视觉识别能力。

图7:CNN 和动物视觉系统之间的相似之处(来自博客[6]) 如果我们回到语言技术的研究,同样如此,这使我们越来越接近语言和文本技术的发展。 Transformer[7] 是最强大的文本处理工具之一,它建立在心理学和神经学中的“注意力”概念之上[8]。 Transformer 的表现如此出色,令语音研究者羡慕不已,并被纷纷模仿。仅仅一年后,Speech-Transformer 就被提出应用于语音[9]。另一个例子是掩码语言模型(MLM),这是一种文本训练技术,可以训练人工智能猜测文本中的编码单词[10]。 MLM 现在被广泛用于学习理解单词的上下文含义。同样,Facebook 的语音研究人员很快意识到了MLM 的价值,并提出了用于语音的Wav2Vec2 [11]。其目的是学习每个音频片段与上下文之间的关系,让机器学习这些音频片段的含义。这种模式已经开始出现。

图8:掩码语言模型图(来自博客[12]) 我们现在有一个名为Transformer 的通用工具,它可以处理语音和文本,以及Wav2Vec2 来弥合这两种表示之间的差异。集成语音和文本处理只是一个开始。时机已到。

3

Chimera模型在本文中,作者设计了一个用于统一翻译语音和文本的模型。该模型因其与古希腊神话中的动物嵌合体相似而得名。前面提到的Transformer和Wav2Vec2技术都是作为音频和文本编码的基础技术,但是音频和文本处理如何融合呢?

图9:嵌合体示意图嵌合体模型采用了一个简单的想法。也就是说,我们只是“提取”一些真正重要的信息,而不是编码和使用整个音频或文本序列。 Chimera 学习如何从输入中提取一组包含重要语义信息的“记忆”,而不区分音频和文本。 Chimera不仅可以训练语音翻译,还可以训练文本翻译数据集,让您更好地利用更多的训练数据。

表1:MuST-C 数据集的性能结果表1 显示了MuST-C 数据集的定量实验结果,该数据集是一个基准语音翻译数据集,包含八种翻译语言数据,其规模巨大。 Chimera 在语言的各个方面都表现出色。

图10. 语音和文本输入中学习到的“记忆”的提取流程图11:学习到的“记忆”被聚类到语义空间接下来,论文呈现了模型的可视化,结果很有趣。尽管嵌合体模型在训练前不知道要从其“记忆”中检索什么,但它最终学会使用每个“记忆元素”来检索不同的信息。如果每个“记忆元素”都用不同的颜色标记,如图10所示,则可以用大致对应于相同内容的子片段的音频和文本来“通知”它。图11 显示了一个清晰的聚类空间,其中每个“记忆单元”提取的信息被投影到语义空间内的不同子区域。

图12.“Memory”内,语音和文本按照句法结构排列。图12是对特定“Memory”高维子空间进行“降维攻击”的结果。“·”和“+”代表音频和分别文本。由一条线连接的每对音频和文本代表相同的内容并且彼此非常接近。作者通过圈出图中的一些音频文本对来标记内容。我们发现句子是根据句法结构排列的,并且可以很容易地识别出几个独特的区域。右侧散布着三个问题,左上角有一些句子是将来时。

结论该模型通过模仿人脑对语音和文本的综合理解,在语音翻译方面表现出色。 Chimera可以提取语音和文本共享的语义信息,使其能够同时训练语音和文本翻译数据集,增加该技术在训练和应用方面的多功能性。参考文献1. Avila, Cristina 等人,“分散熟悉的声乐对内向者和外向者认知表现的影响”,音乐心理学,第40 卷,第1 期,2012 年1 月,8493。页,doi:10 .1177 /0305735611422672.2. https://web.stanford.edu/~zwicky/language-and-the-brain-ch4-8.pdf3. Regev, Mor, et al.“对口语和书面语言的选择性和不变的神经反应。”神经科学杂志33.40 (2013): 15978-15988.4. Shankweiler, Donald, et al.“阅读差异和大脑:文本处理中语音和印刷的皮层整合因读者技能而异。”发展神经心理学33.6 (2008): 745 - 775.5. Wilson, Stephen M. Alexa Bautista 和Angelica McCarron. 颞上沟口语和书面文字处理的融合. Neuroimage 171 (2018) : 62-74.6. https://becoming human.ai/from- human-vision-to- Computer-vision-CNN -neural-network-part3-4-24b55ffa70457. Vaswani, Ashish 等人,“你所需要的就是注意力。” arXiv 预印本arXiv:1706.03762 (2017).8. Lindsay, Grace W. \“心理学、神经科学、和机器学习。” 计算神经科学前沿14 (2020): 29.9. Dong、Linhao、Shuang Xu 和Bo Xu.“Speech-transformer: 一种用于语音识别的无重复序列到序列模型”。 '2018 年IEEE 声学、语音和信号处理国际会议(ICSSP)。 IEEE,2018.10。德夫林,雅各布等人。 \'Bert: 预训练用于语言理解的深度双向转换器。 \' arXiv 预印本arXiv:1810.04805 (2018).11. Baevski, Alexei 等人“wav2vec 2.0: 语音表示自监督学习框架” arXiv 预印本arXiv:2006.11477 (2020).12. https://www .machinecurve. com/Index.php/2021/03/02/easy-masked-langage-modeling-with-machine-learning-and-huggingface-transformers/

标题:人脑与ai结合技术,人脑与神经网络
链接:https://www.7kxz.com/news/gl/18441.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学

天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学[多图],天地劫幽城再临归真4-5怎么样八回合内通

2024-03-29
航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全

航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全[多图],航海王热血航线艾尼路怎么加点?艾尼路怎么连招?关

2024-03-29
坎公骑冠剑国际服怎么玩?国际服新手攻略

坎公骑冠剑国际服怎么玩?国际服新手攻略[多图],坎公骑冠剑国际服的玩法是什么样的?关于游戏中的一些新手玩法

2024-03-29
王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略

王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略[多图],王者荣耀鸿运抽奖活动的奖池中还有传说

2024-03-29