当前位置:首页 > 今日话题

AI音频成捉弄神器 !状师父亲险受愚走21万 ,3秒原声就可克隆音响 险些坠入一场重大AI圈套

【新智元导读】Deepfake终归有多恐怖?音频音响外洋一位状师的父亲,险些坠入一场重大AI圈套。成捉捉弄者借助AI克隆其儿子的弄神音响  ,臆造车祸事项挟制3万保释金 。器状亲险GenAI手艺立功众多同时,师父受愚声迷信家们也在寻找破魔之道。走万陕西出国劳务招聘信息网

AI众多成灾的秒原时期 ,真假孰能区分?克隆

AI音频成捉弄神器!状师父亲险受愚走21万,3秒原声就可克隆音响 险些坠入一场重大AI圈套

最近 ,外洋一位专业状师Jay Shooster自曝,音频音响自身的成捉父亲坠入了一场重大的AI圈套 。

捉弄者应用AI克隆了Shooster音响,弄神嗣后给他的器状亲险父亲拨去电话:您孩子因酒驾开车被捕 ,需3万美圆保释出狱。师父受愚声

险些,走万这位父亲被AI捉弄。秒原

我不详情这事发作在我的音响涌现在电视上只是几天后是否是只是巧合。短短15秒的音响,就足以制作一个不错的AI克隆。

作为一位消耗者珍爱状师,我已经就这种捉弄做过演说 ,在网上发过帖子,也和家人议论过,但他们照样差点受骗。这些捉弄之因而云云有用,就是这个缘由  。

不巧的是 ,Shooster近一次在电视中露脸的15秒视频,恰被捉弄者钻了空子。

而且,即使是出国劳务注意事项咨询中心在Shooster曾指示过家人此类捉弄状况下,他的父亲照旧被诱惑了 。

只能说AI师法人类的日本打工音响 ,已经强到怒弗成遏 。

尚有伦敦大学学院一项钻研佐证,无论一切语种,人们在27%状况下,都无奈甄别AI天生的音响 。

而且,重复倾听 ,也其实不行提升检测率。

这意味着 ,实践上,每四小我私家之中就有一人能够被AI电话捉弄 ,由于人类的直觉其实不总是那末稳当。

岂论是图像、视频、音响,依据AI天生手艺 ,一切一小我私家都能随意纰漏臆造 ,Deepfake已经深深作用每一小我私家的生涯 。

AI手艺立功水准  ,现现在到了咱们无奈想象的原野 。

AI音响克隆,3秒原声足矣

Shooster的分享用意,通知人人这种捉弄手腕之因而有用 ,部人缘由在于——

人类无奈稳外地甄别出AI的音响。

IBM一项试验中,平安专家展现了怎样完成「音频挟制」的一幕 。

他们开辟一种要领 ,诸城出国劳务招聘贴吧将语音甄别 、文本天生 、音响克隆手艺联合 ,去检测对话中的触发词「银行账户」,嗣后将原先账户替换成自身的账号。

钻研职员称  ,替换一小段文字,比AI克隆语音对话要越发随意纰漏,而且还能扩张到更多的畛域。

而看待足量好的日本招聘语音克隆手艺 ,只有3秒原声就足量了 。

其余 ,文本和音频天生中的一切延缓,都能够通过桥接句来填充,或有足量解决威力状况再消弭。

对此,钻研职员正告 ,未来袭击还能够会支配适时视频通话。

而这种手艺也不只是被滥用在敲诈 ,配音演员Amelia Tyler称,AI克隆的音响在未经自身准许下 ,被用来诵读不宜孩子的实质。

Deepfake众多成灾

AI克隆音响之外 ,另有AI换脸视频、AI作假图像天生,这样案例早已习以为常。

前段时刻 ,韩国海内掀起「N号房2.0」事宜,Deepfake被用到了未成年人身上 ,诱发人们重大的恐慌 。

以至,全网一度开启了「Deepfake终归有多恐怖」的热议话题 。

图像天生Midjourney 、Flux,视频天生Gen-3、音响天生NotebookLM等等,都成为隐蔽的作案工具。

去年,Midjourney天生的穿羽绒服走在大街上的教皇,众多人信以为真,嚣张转发  。

而到了往年,AI图像王者Flux入世 ,种种TED演说者的真切照片 ,再配上AI视频工具动起来 ,险些骗过了整小我私家 。

而在AI视频适时换脸上,往年外洋网友们已经开辟出许多开源工具了。

譬如 ,Facecam仅需增加一张图 ,就能够随即天生适时视频,而且一部手机就可支配。

项目作者展现了,自身怎样微微快松无缝换脸到Sam Altman、马斯克 ,脸上整个器官基础无死角 。

另有一夜爆火的AI换脸项目Deep-Live-Cam ,异样也是只有一张照片 ,直接换脸马斯克开直播了 。

而这两天炒的较为热的AI音响天生 ,当属谷歌NotebookLM了。它能够迅速把文字实质,天生播客视频  。

就连AI大佬Karpathy爱不释手地试玩  ,并力荐称有能够会迎来它的ChatGPT时刻 。

只是,外洋一位扫雷游戏专家,在听了AI将自身书生成播客音响  ,却惊呼自身被吓到了 。

而且,更使人惊悚的是 ,两位NotebookLM播客「主持人」发现,自身是AI而不是人类 ,还坠入了生存主义瓦解的边缘 。

要是这样壮大的AI  ,被运用到现实捉弄中 ,只会带来更重要的效果 。

「魔高一尺 ,道高一丈」

在DeepFake逐突形成「恶龙」的同时,钻研界也在主动研发「屠龙」工具。

要末从源头为GenAI天生的实质增加水印 ,也许对真正实质树立护栏以预防滥用 ,要末生长出能检测自动天生实质的系统。

不久前,中科院一位工程师曾开源了能够甄别臆造图像的AI模子 ,去匹敌DeepFake 。

刚一宣布,这个项目便登上了Hacker News热榜,其受迎接水准可见一斑 。

暂时 ,整体的代码和文档已经宣布在了GitHub堆栈上。

开辟者意味 ,自身从2023年卒业后就一直在进行DeepFake检测算法方面的钻研职责 ,让整个有需要的人都能够收费运用模子来匹敌deepfake。

另外,另有众多业界迷信家们,在这条路上做出了诸多孝敬。

Antifake

在2023年11月丹麦哥本哈根举行的ACM算计机与通讯平安聚会上,美国圣路易斯华盛顿大学的博士生Zhiyuan Yu展现了他和Ning Zhang熏陶协作开辟的AntiFake。

通过一种立异性的水印手艺 ,AntiFake能够提供制作性的要领 ,珍爱人们免受深度臆造音响的捉弄  。

论文所在:https://dl.acm.org/doi/pdf/10.1145/3576915.3623209

建立DeepFake语音只要要真正的音频或视频中有人语言。一般,AI模子只要要约莫30秒的语音,就能够通过建立「嵌入」(embedding)学集正当某人的音响。

这些embedding向量就像是在整个音响的重大数字舆图中指向语言者身份的所在 ,听起来相似的音响在这个舆图中的位子更亲近。

自然 ,人类并非用这种「舆图」来甄别音响的,而是通过频率 。咱们更体贴某些频率的声波,而对其余频率的体贴较少,而AI模子则应用整个这些频率来建立优越的嵌入 。

AntiFake通过在人们不太体贴的频率上增加一些噪音来珍爱语音录音 ,这样人类听众照样能听懂,但会重要滋扰AI 。

最终 ,AntiFake会让AI建立出低质量的嵌入,至看待一个指向舆图同伴一面的所在 ,这样天生的一切DeepFake都无奈师法原始音响。

为了尝试AntiFake ,Yu的团队饰演「捉弄者」的脚色 ,运用5种分歧的AI模子天生了6万个语音文献 ,并为其中600个片断增加了AntiFake珍爱 。

效果发现 ,增加珍爱后 ,突出95%的样本无奈再捉弄人类或语音认证系统。

原始音频,新智元,3秒

顺利的Deepfake,新智元 ,1秒

经AntiFake珍爱的音频,新智元,2秒

失利的Deepfake ,新智元 ,1秒

值得一提的是,AntiFake的衍生版本DeFake,还在往年4月初美国联邦商业委员会举行的语音克隆应战赛中赢患有一等奖 。

SafeEar

无独有偶,浙江大学智能系统平安试验室(USSLAB)与清华大学也团结了一种内袒护衷珍爱的语音臆造检测要领——SafeEar 。

项目主页:https://safeearweb.github.io/Project/

SafeEar的中心绪路是 ,设想鉴于神经音频编解码器(Neural Audio Codec)的解耦模子,该模子能够将语音的声学信息与语义信息星散,而且仅应用声学信息停止臆造检测 ,进而完成了内袒护衷珍爱的语音臆造检测。

效果显现 ,该框架针对种种音频臆造手艺展现优越的检测威力与泛化威力 ,检测等同伴率(EER)可低至2.02%,与鉴于整体语音讯息停止臆造检测的SOTA性能亲近  。

同时,试验还注明袭击者无奈鉴于该声学信息回复语音实质 ,鉴于人耳与机械甄别要领的单词同伴率(WER)均高于93.93% 。

详细来说 ,SafeEar选择一种串行检测器组织,对输入语音猎取宗旨团圆声学特征  ,进而输入后端检测器。

虚线方框内的④Real-world Augmentation仅在训练时涌现 ,推理阶段唯一①②③模块

1. 鉴于神经音频编解码器的前端解耦模子(Frontend Codec-based Decoupling Model , Frontend CDM)

模子席卷编码器(Encoder) 、多层残差向量量化器(Residual Vector Quantizers , RVQs)、解码器(Decoder)、甄别器(Discriminator)四其中心一面。

其中,RVQs主要席卷级联的八层量化器,在第一层量化器中以Hubert特征作为监视信号星散语义特征 ,后续各层量化器输入特征累加即为声学特征  。

2. 瓶颈层和殽杂层(Bottleneck & Shuffle)

瓶颈层被用于特征降维表征和正则化解决。

殽杂层对声学特征停止流动时刻窗领域内的随机打乱重置 ,进而提升特征庞杂度 ,确保实质争取袭击者即使借助SOTA的语音甄别(ASR)模子,也无奈从声学特征中强行提掏出语义信息 。

最终  ,通过解缠和殽杂双重珍爱的音频能够有用投降人耳也许模子两方面的恶意语音实质争取。

3. 臆造检测器(Deepfake Detector)

SafeEar框架的臆造音频检测后端设想了一种仅鉴于声学输入的Transformer-based分类器 ,选择正弦、余弦函数交替形势对语音讯号在时域和频域长停止位子编码。

4. 真正情况增强(Real-world Augment)

鉴于现实天下的信道千般性  ,选择拥有代表性的音频编解码器(如G.711 、G.722、gsm 、vorbis  、ogg)停止数据增强,师法现实情况中带宽 、码率的千般性,以推行到弗成见通讯场景。

效验以下:

中文-原始音频 ,新智元  ,6秒

中文-SafeEar珍爱后的音频 ,新智元,6秒

英语-原始音频,新智元 ,2秒

英语-SafeEar珍爱后的音频,新智元,2秒

只是 ,纵然有了许多的希望和效果 ,进攻DeepFake照旧是一项异常拥有应战性的恣意,人们需要整个能够的资助来珍爱他们在网上的身份和信息免受损害 。

警员用AI侦破尘封悬案

除了用「邪术」匹敌「模子」之外 ,英国的一个警员局最近也在尝试一套能极大延长侦察时刻 ,并资助破解陈年旧案的AI系统。

详细来说,这个名为「Soze」的工具 ,能够同时候析视频片断、金融营业  、外交序言 、电子邮件和其余文档 ,进而甄别在野生搜寻证实流程中能够未被发现的隐蔽线索。

评价显现,它能够在短短30小时内综合完27起庞杂案件的证实资料,相比之下,人类需要长达81年的时刻能力终了这项职责 。

显然,这看待在职员和预算限制方面能够左支右绌的执法一面来说吸收力重大。

对此 ,英国国家警员局长委员会主席Gavin Stephens意味:「你能够有一个看起来不行够终了的悬案审查 ,由于资料太多了 ,但你能够把它输入这样的系统,系统能够吸收它,嗣后给你一个评价。我以为这会异常异常有资助。」

咱们生涯在了一个Deepfake众多的天下,也许说 ,是一个「矩阵师法」的天下 。

在这个天下中 ,没有真正,一切全是AI。

参照资料:

https://the-decoder.com/scammers-use-15-second-clip-to-create-ai-voice-clone-nearly-dupe-lawyers-father-out-of-30000/

https://www.snexplores.org/article/ai-deepfake-voice-scams-audio-tool

https://safeearweb.github.io/Project/

https://futurism.com/the-byte/police-department-ai-powered-detective-unsolved-crimes

分享到: