AI语音诈骗防不胜防?腾讯朱雀实验室——用AI对抗AI!

ainet.cn 2021年04月19日

　　整理 | 贝爽

　　人工智能有巨大的潜能改变人类命运，但同样存在一定安全风险。例如，据全球著名漏洞数据库CVE披露，典型机器学习开源框架平台安全漏洞数量逐渐增多;越来越多的新型安全攻击手法，如对抗样本攻击、数据投毒攻击、模型窃取攻击等开始出现。

　　更重要的是，随着AI语音技术突飞猛进的发展，深度伪造AI变声技术已成为语音诈骗的利器。如2019年英国某公司CEO就曾遭AI语音诈骗，损失220，000欧元(约合人民币173万元)。

　　近日，有研究发现，VoIP电话劫持与AI语音模拟正在成为一种新型的攻击技术，区别于此前脚本类的电信诈骗，它可实现从电话号码到声音音色的全链路伪造，攻击者可以利用漏洞劫持VoIP电话，实现虚假电话的拨打，并基于深度伪造AI变声技术生成特定人物的声音进行诈骗。

图注：实时语音诈骗的整体流程

　　4月16日，在全球顶级信息安全峰会CanSecWest 2021上，腾讯朱雀实验室作了题为《The Risk of AI Abuse: Be Careful with Your Voice(AI被滥用的风险：小心您的声音安全》的演讲，分享了该团队在应对VoIP电信诈骗方面的最新研究成果。

　　腾讯朱雀实验室研究显示，在VoIP电话劫持中，利用少量被攻击者的声音，可以合成与被攻击者音色相似的任意内容的语音片段，再将虚假语音注入到电话中，就能达到以假乱真的效果，实现完整的电话欺骗链路。攻击者可以轻松拨打虚假电话，冒充被攻击者身份与目标人员对话。

　　针对这一潜在风险，他们提出了“用AI对抗AI”的解决思路，即使用AI技术提取真实语音和虚假语音的特征，再根据特征差异来分辨真实语音和生成语音。再根据特征差异来分辨真实语音和生成语音。

图注：用AI对抗AI

　　1

　　两种新型攻击方式

　　VoIP是一种语音通话技术，经由IP来进行语音通话和参与多媒体会议，由于其使用便捷、成本低廉的特性，VoIP在全球范围内被广泛应用于办公电话场景中。而VoIP电话劫持是由于早期版本的VoIP存在被网络嗅探，并实施中间人攻击的风险，攻击者可利用漏洞篡改来电方的人名及电话号码，使得接听方的电话显示为预设的任意内容。

　　总的来说，这种新型攻击的实现方式分为两个部分，一是VoIP电话劫持，二是语音模拟。

　　1、VoIP电话劫持

　　(1)音频嗅探技术

　　在某品牌CP-79XX系列电话中，通信使用SCCP协议，该协议没有使用TLS对流量进行加密，导致可以在同vLAN下对目标电话进行窃听操作。

　　ARP协议是网络行为中应用广泛的基础数据链路层协议，用于在局域网内完成IP到MAC地址的转换。在正常的网络通信中，我们在访问一个IP地址时首先会在同局域网下发送问询广播包：Who has 10.15.2.1?

　　在接收到该广播的主机会比较问询IP是否为自己的IP，如果是则向询问主机发送应答包，应答包中包含自身的MAC地址。随后询问主机会根据MAC地址构造自己的数据包完成数据交互。

　　在操作系统中存在ARP缓存表来加速这种映射关系，当黑客攻击ARP协议是会抢先应答ARP广播，从而造成被攻击者的ARP缓存表被投毒的情况，再后续的网络通信中，数据包均会被发送到黑客的主机中：

图注： ARP攻击示意

　　下图是真实的ARP应答包：

图注：真实ARP应答流量

　　通过这种ARP欺骗的攻击方式，攻击者将被攻击者的语音流量劫持到攻击者主机，并进行RTP语音流的还原实现窃听操作：

图注： VoIP电话劫持：电话窃听

　　(2)来电身份及语音篡改

　　在监控电话流量时，攻击者通过修改SCCP协议中呼入者的用户名与电话号码信息：

图注：篡改呼入姓名与呼入电话

　　SCCP协议在无法对呼入数据做真实性校验，而将数据包中的呼入姓名与来电号码完整的现实在来电屏中：

图注：篡改呼入姓名与呼入电话效果

　　在呼入姓名与呼入电话号码篡改后继续修改RTP协议中的语音流，实现完整的电话欺骗链路：

图注：语音流替换

　　2、语音模拟

　　语音模拟可以根据源人物的说话内容合成具有目标人物音色特征的音频输出。这项技术其实并不新鲜，早已在许多现实场景中应用落地，比如地图应用中的定制播报语音，利用少量自己的声音，就可以定制自己语音的播放声音。同样，在VoIP电话劫持中，利用少量被攻击者的声音，就可以合成与被攻击者音色相似的任意内容的语音片段，一旦被恶意利用，攻击者可以轻松拨打虚假电话，与目标人员对话。

　　这里语音模拟用的是语音克隆技术，该技术只需要数秒目标人物的音频数据和一段任意的文本序列，就可以得到逼真的合成音频。基于深度学习的语音克隆技术主要包含音色编码器、文本编码器、解码器、语音生成器几个模块：

　　音色编码器：音色编码器从音频中提取不同说话人的语音特征。

　　文本编码器：文本编码器将输入文本转换为特征。

　　解码器：解码器将说话人特征和文本特征拼接后的结果转化为梅尔声谱图。

　　语音生成器：最后语音生成器根据梅尔声谱图合成语音。

图注：语音模拟过程

　　2

　　如何防范?

　　其实针对语音的攻击手段并不只有这一种，通过给语音中添加微小扰动，或修改部分频谱信息，就可以欺骗语音识别系统。或者将唤醒命令隐藏在不易察觉的音乐中，就可能唤醒智能设备进行对应操作。

　　那么还如何防范这样的攻击，腾讯朱雀实验团队从防范传统攻击以及AI恶意应用两个方面给出了一些建议：

　　首先，要防御类似的攻击手法，需要防止VoIP漏洞被攻击者利用，安全工程师建议，可以使用新版本的VoIP协议电话，如SIP、SRTP等，减少数据被嗅探甚至被篡改流量包的风险。

　　其次，可以通过上述提到的用AI对抗AI法，规避AI技术的不合理应用。在这种攻击中，需要借助语音生成技术来合成虚假语音，可以基于AI技术来提取真实语音和虚假语音特征，根据特征差异来分辨真实语音和生成语音。

　　在CanSecWest 2021峰会上，腾讯云副总裁、腾讯安全平台部负责人杨勇在表示，AI技术与传统安全攻击技术的结合，衍生了新的应用场景和与之对应的滥用风险，如AI的数据、算法、模型、基础组件等核心要素更加需要安全的加持。腾讯朱雀实验室就一直致力于实战级APT攻击和AI安全研究，持续深耕现实网络安全，为AI技术的正向用、放心用保驾护航。

　　据了解，这是腾讯前沿安全研究团队相关成果连续第四年入选CanSecWest议题。CanSecWest 是全球顶级信息安全峰会，一直以其权威性、热点性、前沿性而备受行业关注。在本届峰会上，除了腾讯朱雀实验室，来自百度、Adobe、Macfee、IOActive、加利福尼亚大学河滨分校等全世界的顶级安全专家也悉数到场，围绕AI、云原生、物联网、可信计算等安全前沿技术领域展开深入探讨。

　　文章来源：腾讯朱雀实验室

（转载）

标签：腾讯人工智能

我要反馈