KyutaiMoshi横空出世OpenAI噩梦来临实时语音霸主一夜易主
我们可能正在见证一场AI的地震。
不是地震, 是他妈的海啸!
话不多说,直接上视频:
Kyutai Labs这帮“疯子”,刚刚发布了一个叫Moshi的实时多模态AI模型,直接把OpenAI的GPT-4o踩在脚下摩擦。
我的天,这玩意简直就是AI界的核弹!今天起,已经没GPT-4o 什么事了。
这玩意到底有多牛逼?
首先,这货是个7B的多模态语言模型,能听能说,还能边听边说。160ms的延迟,实时因子为2,这是什么概念?就是说它反应比你女朋友还快!

而且,这帮疯子把Helium 7B模型和音频编解码器搞在一起,训练出了一个叫Mimi的音频压缩模型,压缩率高达300倍。这就像是把整个交响乐团塞进了一个火柴盒里,还能完美演奏!
训练过程简直是黑魔法
他们用10万份自己生成的转录文本来训练这个怪物。这些文本不是普通文本,是带着情感和风格标注的对话文本。就像是给AI喂了10万部好莱坞剧本,还带导演批注!

更离谱的是,他们只用了20小时的授权音频就把文本转语音引擎训练出来了。20小时啊兄弟们,我学个新语言20小时连"你好"都说不利索!
推理部署简直是降维打击
这帮疯子把Moshi优化到了极致。24GB显存就能跑起来,支持4位和8位量化,跨平台兼容。他们甚至用Rust重写了推理代码,这简直就是给AI装上了火箭推进器!
Kyutai Moshi 特点
实时性能卓越 :几乎没有延迟,甚至可以打断说话者 🚀
回答速度快 :模型表现出积极快速回答的特点
开源承诺 :所有相关代码将开源发布 🌐
音质仍需改进 :目前输出音质还有些机械感,但作为首个版本已经不错
使用体验
由于过于火爆,我一直连接不上(试用地址见评论区)。有用上的网友发布试用视频:
并总结到:
在模拟90-00年代电话情景时,模型甚至会说"对不起,您说什么?"展现了较强的情景感知能力 📞
在 MacBook 上运行的设备端模型出现了一些实时拒绝误报,可能是安全调教或蒸馏版本过于谨慎导致的。不过这也证实了演示确实是实时进行的。
在德语中,Kyutai Moshi 这个名字听起来不太好。这提醒我们在跨语言场景下命名的重要性。

未来规划:开源,开源,真的 开源! !!
Kyutai Labs直接放话: 要开源!不是假开源,是真开源!
推理代码库、7B模型、音频编解码器,全都给你!
这简直就是把核弹的制造图纸贴 在了网上!
Moshi到底能干啥?
能听能说,还能用法语口音说话,简直就是AI版的语言大师
边说边想,这不就是有自我意识了吗?
200ms的端到端延迟,比你打LOL的反应还快
甚至能在MacBook上跑,这是要把笔记本变成天网吗?
网友们都疯了
评论区已经炸锅了:
@JessieTweeting说:
"OpenAI这是在给其他人指路呢。"
没错,但是Kyutai Labs这是直接开着坦克碾过来了!
也有人问:
"语音模型怎么做RAG?或者需要微调来获取更多上下文?无论如何,这太令人印象深刻了,给市场上所有其他参与者都带来了压力。我喜欢!"
这时候就提前开始纠结RAG了?不过,要在实际中落地进行花哨使用,是要考虑这个有意思的问题。
"它不太好用。奇怪。"
兄弟,你是不是还没睡醒?会不会有一种可能是你的姿势不对,要不要我教你怎么跟AI谈恋爱?
"有趣的是,AI社区中有多少人没有意识到OAI一直在向构建者展示什么是可能的,以便他们可以加速发展。一旦被证明是可能的,技术就会迅速复制。看看原子能就知道了。"
没错,但是Kyutai Labs这次不是在展示可能性,他们是直接把"不可能"变成了"现实"!这不是加速,这是超光速!
"GPT 2和3团队离开OpenAI创立了Anthropic,GPT4只是GPT3的放大版,然后他们就没有想法了,人们要多久才能意识到这一点?"
兄弟,那Moshi就是GPT-4o的进化版啊!这不是没有想法,这是想法太多以至于要颠覆整个行业!
开源Her的到来:AI伦理的新挑战
看到Moshi,我不禁想到了电影《Her》。一个能听能说,能理解情感,反应超快的AI,这不就是现实版的Samantha吗?

但是,我想,这也将带来一系列的伦理问题:
人机边界: 当AI变得如此"人性化",我们如何定义人与机器的界限?
情感依赖: 如果人们开始依赖AI获得情感支持,这会对人际关系产生什么影响?
隐私安全: 一个能实时理解和分析我们言行的AI,如何保证不会侵犯我们的隐私?
身份认同: 如果AI能模仿任何口音和说话风格,我们如何确认我们在与谁交谈?
失业问题: 像Moshi这样的AI可能会取代大量的客服、翻译等工作,社会该如何应对?
写在最后
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/151.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论