当声音和身份也可以被技术仿造

——我们还能依靠什么来判断“对方是谁”

《在美华人金融安全与反诈骗》系列之七

很多在美华人第一次真正意识到“事情不对劲”,并不是因为对方说错了什么。而是因为,对方说得太对了。声音很像,说话方式很像,知道你的关系,知道你的处境,知道你正在做什么。他们自称是你的孩子、朋友、老板、同事、律师、会计、银行经理,甚至是你已经存过电话的那个人。而这一切,在今天,已经不再需要这个人真的存在。

过去很长一段时间里,人们判断“是谁”,最重要的依据之一就是声音。电话里能听出来,语音一放就知道,说话的节奏、口音、习惯用语,很难完全伪造。也正因为如此,很多重要关系、紧急事务、临时处理,都长期建立在“我听得出来是你”之上。但这一前提,正在快速失效。今天的语音合成技术,已经可以用极少的样本,生成高度逼真的声音模型。几秒钟的公开视频、几条语音消息,就足以训练出一个可以“说任何话”的声音。从技术上讲,声音已经从“个人特征”,变成了“可复制资源”。这意味着:你听到的,不再等于“这个人正在说话”。

更危险的,并不仅是声音。在真实诈骗中,“身份”已经越来越少以“我是谁”出现,而是以一整套熟悉感出现。对方知道你有几个孩子,住在哪个城市,最近在处理什么事,和谁关系亲近,平时怎么说话。这些信息,有些来自社交平台,有些来自信息泄露,有些来自长期铺垫,有些来自前期试探。当这些碎片被拼接在一起,“身份”就不再只是一个名字,而是一种可以被搭建出来的存在感。在这种情况下,即使没有 AI,很多诈骗已经足以让人放下防备。而当技术加入之后,这种拼接几乎不再有明显破绽。

近几年在华人社区中,越来越多严重损失案件,来自所谓的“熟人场景”。不是陌生号码,不是奇怪故事,而是:“孩子出事了。”“我在处理紧急情况。”“先帮我垫一下。”“现在不方便说太多。”这些场景的共同点是:它们绕过判断,直接调动关系。关系一旦被调动,人就很难再以“风险对象”的方式看待对方。而当声音、头像、说话方式都可以被技术模仿时,“熟人场景”就不再需要真实的熟人。它只需要一个可被调用的身份模板。

在前几篇中,这个系列不断在做一件事:把判断从“话术”和“形象”,转移到“结构”和“流程”。第七篇,其实是在同一条线上往前走一步:当身份本身开始不可靠,判断就不能再建立在“对方是谁”上。你不能再问的第一个问题是:“这是不是他?”而应该是:“为什么是用这种方式联系我?”“为什么这件事必须现在处理?”“为什么不能换一个我能核实的渠道?”“为什么要绕开原有关系网络?”换句话说,判断要从“对象”,转向“关系结构”。

当技术可以仿造声音、生成影像、模拟互动,唯一还没有被数字化完全取代的,是现实世界的结构。真实的人,存在于多个关系网络中。真实的紧急情况,允许你联系第三方。真实的事务,可以通过独立渠道核实。真实的系统,不怕你慢,不怕你确认,不怕你打断流程。而几乎所有“熟人诈骗”,都会试图切断这些现实连接:不要告诉别人,不方便接视频,不能走原来渠道,现在只能这样处理。这些要求,本身就是身份不成立的信号。

在今天这个阶段,防范“AI 诈骗”,并不靠识别真假声音,也不靠训练耳朵。因为这场能力竞赛,普通人注定会输。真正有效的,是建立新的判断重心:不再用“像不像”,而用“合不合理”;不再用“是不是他”,而用“结构对不对”;不再用“关系感觉”,而用“现实验证”。当声音可以被生成,身份可以被模拟,唯一还难以被伪造的,是现实中的核实路径。

当身份开始不可靠,三条必须升级的判断底线

第一,任何涉及钱、身份、风险的紧急请求,都必须脱离原对话核实。哪怕声音再像,也要通过你自己掌控的方式确认:回拨已知号码、联系第三方、视频确认、线下核实。

第二,真正的熟人,不会害怕你求证。凡是阻止你核实、催促你行动、要求保密的“熟人”,都应该默认高风险。

第三,把信任从“感觉正确”,转为“结构成立”。问清楚:这件事是否符合他的位置?是否符合制度流程?是否可以通过现实世界的多个点被验证?

在一个声音和身份都可以被仿造的时代,真正需要保护的,不只是钱。还有你判断“谁在与你说话”的能力。

下一篇,将继续回到另一条同样危险的线:当身份被盗用,SSN、信用与金融记录如何成为长期诈骗的入口。

文| 语间


Discover more from 华人语界|Chinese Voices

Subscribe to get the latest posts sent to your email.

Leave a comment