AI让赵本山、郭德纲一起飙英文:背后科技来自中国团队,7个月收入百万美元

才艺展示 83446

在AI时代,一切皆有可能。

近日,不少郭德纲说英文相声、赵本山伦敦腔接受采访、马保国狂飙日语化身马大佐的视频开始在互联网风靡,这背后的核心技术来自于一款AI视频工具。

据悉,这一技术支持300多种声音、40多种语言,不仅可以准确卡点,音色与讲母语时候的音色类似,甚至连口型都能对上。

在来势汹汹的AI浪潮下,这次“被失业”的又是谁?

赛博法师让赵本山、郭德纲说英文,AI取代人类进程加速?

从上周开始,郭德纲说英文的视频就开始在抖音、微博等平台疯传,在这些视频中郭老师不仅用英文接受采访,还用英文说相声。而这些的视频并非简单的配音或者AI变声,而是高度贴合人物声线和风格、甚至连嘴型都匹配,以假乱真程度让围观者大为震惊。

本周一赵本山伦敦腔接受采访的视频以同样的原因在全网爆红。在这两例娱乐性极强的案例的启发下,有网友认为在未来翻译的工作极有可能被AI取代,而好莱坞罢工所担忧的AI取代演员危机似乎也初见端倪。

蓝鲸记者采访到了其中多条爆款视频的制作者UP主赛博法师,他告诉蓝鲸记者,这些视频的爆火在他的预期之中,“在发作品之前,还在制作过程中的时候我就知道会火。”他表示,自己本身是传媒、新媒体行业出身,进行AI相关内容创作也有半年多,认为自己的网感和对AI发展的情况都有一定自信,“在作品还在制作中的时候,我都在不禁感叹,实在是太像了。我们这些AI相关的创作者更了解现在的AI发展到哪一步了, 阈值比普通人更高,连我都感叹的东西,普通人看到也一定会赞叹。”

除了技术本身带给大家的震撼,这类爆款视频的主人公也是精心选择的结果,赛博法师表示,“主要是反差感。赵本山和郭德纲都是老派语言类表演艺术家,他们在公众前的形象都是比较有乡土气息的,并不那么洋气,那么设想一下,当观众们看着他们两个突然飚出一口英文会怎么样?我就是想抓住这个反差感,让他们第一时间吸引观众的耳朵和眼睛。”

不过从AI孙燕姿起,版权就像一把达摩克利斯之剑悬在创作者头上,赛博法师也不免有此担忧,他告诉蓝鲸记者,自己虽然同步在B站与抖音都发布了相关视频,但赵本山和郭德纲并没有在抖音火起来,很大程度上是因为被限流了,“还是比较担心版权问题的,目前这还只是翻译了原视频,我要是直接修改人物发言内容,造成名誉受损、造谣等后果那就太严重了。”

AI郭德纲技术来自深圳创业公司,已实现盈利

据赛博法师介绍,AI郭德纲的实现主要基于一款AI视频工具HeyGen,用户只需上传视频,选择语言,就能生成自动翻译、音色调整、嘴型匹配的视频。

而HeyGen背后则是一家在深圳创立的AIGC企业。

HeyGen的开发团队为诗云科技,司如其名,公司名中的“诗云”取自刘慈欣科幻小说《诗云》,寓意人的创造性无法被科技取代,但创作的过程和效率却可以被机器极大优化,而现实中诗云科技要做的也是用AI生成内容,让用户以更低成本完成内容创作。

据天眼查APP,诗云科技的法定代表人为徐卓,目前公司已完成两轮数百万美元融资。其中2021年3月,诗云科技宣布获得红杉中国种子基金和真格基金的天使轮投资;同年8月30日,诗云科技宣布获得数百万美元Pre-A轮融资,由IDG资本领投、红杉中国种子基金和真格基金跟投。

徐卓英文名Joshua,他本科毕业于同济大学自动化专业,后前往卡内基梅隆大学攻读计算机硕士学位。作为明星应用Snapchat前100号员工 ,徐卓从0到1搭建了Snapchat广告平台、推荐算法系统以及机器学习平台Barista,并负责AI camera的技术及产品研发,经验十分丰富。他的创业合伙人梁望此前在字节跳动担任北美设计主管,二人同属大厂精英。

HeyGen于2022年7月正式推出,据36氪报道,HeyGen在7个月内实现了100万美元的ARR(年度经常性收入)。

HeyGen的收入主要来自于付费,据赛博法师介绍,这款应用分年付和月付,月付最低29美元包含15分钟生成时间,再往上还有几个档次,主要是包含的生成时间不同。对于这样的收费,赛博法师认为对于普通用户而言并不便宜,“29美元/月的起步价对于美国人来说可能不算什么,对于国内来说就太贵了,毕竟换算下来两百块出头了。”

但同时他也肯定了HeyGen的技术:“半年前的AI技术,还需要20-30分钟的人声素材,才能训练出一个声音模型,而HeyGen只需要几十秒,而且目前没见到同类产品能做到像HeyGen一样对口型。”

从AI孙燕姿到AI郭德纲,AIGC是玩具还是工具

自从ChatGPT在国内掀起AI浪潮后,大厂悉数投入战斗,但现实来看,当初对标ChatGPT的大模型类应用或尚未面世,或并未掀起太大水花,相反一系列具体的落地应用反而成为了一个个小爆款。

2023年5月AI孙燕姿全网爆红,背后的黑科技为“SO-VITS-SVC”。

“SO-VITS-SVC”源于2021年6月11日发布的“VITS”的开源项目。“VITS”是一种语音合成模型,可以实现“文生音”的效果。但“VITS”模型需要海量的训练数据,并高度依赖于人们对语料数据的文本标记,应用门槛很高。2022年8月26日,一位名为“Rcell”的B站用户在“VITS”的基础上,结合了Soft-vc、VIsinger等,开发出了“SO-VITS-SVC”模型。“SO-VITS-SVC”可以理解是一个音色转换的AI模型,仅需十几分钟的音频数据,便可以拟合成具备特定主体音色的工具。

2023年8月,国内首个AIGC爆款应用妙鸭相机引爆网络,这是一款以AI大模型为基座的App,是由阿里大文娱投资的一个创业项目。该产品公布后,一些高峰期排队、个人隐私相关话题引发关注。

2023年10月,凭借AI郭德纲与赵本山,HeyGen走入大众视野。

纵观在国内激起大众舆论层面关注的几款AIGC应用可以发现,“玩具属性”似乎是走红的基础,当初对标“第四次工业革命”的AI创业浪潮则并没有在大众层面给生产力环节带来相应的惊喜。AIGC究竟会在多大程度上真正影响我们的生活?

对此,赛博法师认为,一个技术从出现,到被大家熟知,需要一个过程。以“玩具”的形式出现在大众眼前,不一定是一件坏事,同一种技术,既可以做成玩具,也可以做成工具。“比方说我之前做过摄影师,在我手里我觉得单反相机更好用,手机只是图一乐,拍不出相机的效果。但在普通人手里,相机还真没有手机好用,使用门槛的高低直接决定了适用人群,玩具也可,工具也可以,主要是看谁来用。”