KyutaiMoshi横空出世OpenAI噩梦来临实时语音霸主一夜易主

我们可能正在见证一场AI的地震。

不是地震, 是他妈的海啸!

话不多说,直接上视频:

Kyutai Labs这帮“疯子”,刚刚发布了一个叫Moshi的实时多模态AI模型,直接把OpenAI的GPT-4o踩在脚下摩擦。

我的天,这玩意简直就是AI界的核弹!今天起,已经没GPT-4o 什么事了。

这玩意到底有多牛逼?

首先,这货是个7B的多模态语言模型,能听能说,还能边听边说。160ms的延迟,实时因子为2,这是什么概念?就是说它反应比你女朋友还快!

KyutaiMoshi横空出世OpenAI噩梦来临实时语音霸主一夜易主-2

而且,这帮疯子把Helium 7B模型和音频编解码器搞在一起,训练出了一个叫Mimi的音频压缩模型,压缩率高达300倍。这就像是把整个交响乐团塞进了一个火柴盒里,还能完美演奏!

训练过程简直是黑魔法

他们用10万份自己生成的转录文本来训练这个怪物。这些文本不是普通文本,是带着情感和风格标注的对话文本。就像是给AI喂了10万部好莱坞剧本,还带导演批注!

KyutaiMoshi横空出世OpenAI噩梦来临实时语音霸主一夜易主-3

更离谱的是,他们只用了20小时的授权音频就把文本转语音引擎训练出来了。20小时啊兄弟们,我学个新语言20小时连"你好"都说不利索!

推理部署简直是降维打击

这帮疯子把Moshi优化到了极致。24GB显存就能跑起来,支持4位和8位量化,跨平台兼容。他们甚至用Rust重写了推理代码,这简直就是给AI装上了火箭推进器!

Kyutai Moshi 特点

实时性能卓越 :几乎没有延迟,甚至可以打断说话者 🚀

回答速度快 :模型表现出积极快速回答的特点

开源承诺 :所有相关代码将开源发布 🌐

音质仍需改进 :目前输出音质还有些机械感,但作为首个版本已经不错

使用体验

由于过于火爆,我一直连接不上(试用地址见评论区)。有用上的网友发布试用视频:

并总结到:

在模拟90-00年代电话情景时,模型甚至会说"对不起,您说什么?"展现了较强的情景感知能力 📞

在 MacBook 上运行的设备端模型出现了一些实时拒绝误报,可能是安全调教或蒸馏版本过于谨慎导致的。不过这也证实了演示确实是实时进行的。

在德语中,Kyutai Moshi 这个名字听起来不太好。这提醒我们在跨语言场景下命名的重要性。

KyutaiMoshi横空出世OpenAI噩梦来临实时语音霸主一夜易主-4

未来规划:开源,开源,真的 开源! !!

Kyutai Labs直接放话: 要开源!不是假开源,是真开源!

推理代码库、7B模型、音频编解码器,全都给你!

这简直就是把核弹的制造图纸贴 在了网上!

Moshi到底能干啥?

能听能说,还能用法语口音说话,简直就是AI版的语言大师

边说边想,这不就是有自我意识了吗?

200ms的端到端延迟,比你打LOL的反应还快

甚至能在MacBook上跑,这是要把笔记本变成天网吗?

网友们都疯了

评论区已经炸锅了:

@JessieTweeting说:

"OpenAI这是在给其他人指路呢。"

没错,但是Kyutai Labs这是直接开着坦克碾过来了!

也有人问:

"语音模型怎么做RAG?或者需要微调来获取更多上下文?无论如何,这太令人印象深刻了,给市场上所有其他参与者都带来了压力。我喜欢!"

这时候就提前开始纠结RAG了?不过,要在实际中落地进行花哨使用,是要考虑这个有意思的问题。

"它不太好用。奇怪。"

兄弟,你是不是还没睡醒?会不会有一种可能是你的姿势不对,要不要我教你怎么跟AI谈恋爱?

"有趣的是,AI社区中有多少人没有意识到OAI一直在向构建者展示什么是可能的,以便他们可以加速发展。一旦被证明是可能的,技术就会迅速复制。看看原子能就知道了。"

没错,但是Kyutai Labs这次不是在展示可能性,他们是直接把"不可能"变成了"现实"!这不是加速,这是超光速!

"GPT 2和3团队离开OpenAI创立了Anthropic,GPT4只是GPT3的放大版,然后他们就没有想法了,人们要多久才能意识到这一点?"

兄弟,那Moshi就是GPT-4o的进化版啊!这不是没有想法,这是想法太多以至于要颠覆整个行业!

开源Her的到来:AI伦理的新挑战

看到Moshi,我不禁想到了电影《Her》。一个能听能说,能理解情感,反应超快的AI,这不就是现实版的Samantha吗?

KyutaiMoshi横空出世OpenAI噩梦来临实时语音霸主一夜易主-5

但是,我想,这也将带来一系列的伦理问题:

人机边界: 当AI变得如此"人性化",我们如何定义人与机器的界限?

情感依赖: 如果人们开始依赖AI获得情感支持,这会对人际关系产生什么影响?

隐私安全: 一个能实时理解和分析我们言行的AI,如何保证不会侵犯我们的隐私?

身份认同: 如果AI能模仿任何口音和说话风格,我们如何确认我们在与谁交谈?

失业问题: 像Moshi这样的AI可能会取代大量的客服、翻译等工作,社会该如何应对?

写在最后

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/151.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>