如何用Gemini进行笑声检测

clash • 2026年1月18日 am7:40 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

有网友把Google 的Gemini玩了个花样！

Gemini 偷偷给自己装上了 "笑点雷达" ！没错，就是字面意思 —— Gemini现在不仅能把语音转成文字，还能精准定位你在哪儿笑出了声！

该玩法是由一位名叫Paige的网友分享的。她激动地表示：

我现在都要疯了 —— Gemini不仅能做音频转写，还能检测笑声！

多年来，我一直在寻找能做这件事的工具，只在一些学术论文中看到过。比如这个工具：https://github.com/YuanGongND/whisper-at?tab=readme-ov-file

但要真正运行这些工具，看起来得折腾好几天。

而Gemini可以开箱即用！我被这个功能彻底震撼了。看截图就知道了。

要知道，以前想实现这种功能，那可是得费老劲儿了。就像Paige说的，光是研究那些学术论文就够你喝一壶的。

而现在呢？Gemini直接把这个高深莫测的技能给整成了"傻瓜式操作"。你只需要上传一段音频，它就能给你标注出笑声出现的时间点。

这简直就是装上了"笑点探测器"啊！

Paige(@PaigeBailey) 分享了她的具体应用场景：

我有近20小时的YouTube视频，内容是@ericnormand和我与@girba一起结对编程，他教我们Smalltalk / Glamorous Toolkit。

多年来，我一直想写写这段难以置信的经历中最有趣、最令人愉悦的顿悟时刻。我总想找出我们谁在笑的片段，因为那通常是在成功构建某些东西时感到喜悦或胜利。

除了重新看完所有视频，我一直想不出怎么做到这一点。

截图显示Gemini能够进行笑声检测！抽查发现时间码确实标注了笑声。

太神奇了！

想找出视频中最精彩、最欢乐的片段？让Gemini帮你定位笑声，分分钟搞定！

不过，Paige也提到了一个小细节：

（最后我用了YouTube视频，因为这是测试大于7MB文件的最简单方法。）

看来Gemini还是有点儿小限制的。不过话说回来，7MB的音频文件也不算小了，足够应付大部分日常需求了。

再不行，找个压缩软件给压一下到7MB 内就好了，或者切割一下分多次也可以。

Paige在最后还不忘夸赞一番：

我完全理解你们（Gemini）为什么在Google内部获得越来越多的市场份额 —— 迫不及待想听你们在几周后的ETLS上分享这个故事！

不过话说回来，AI能检测出笑声，那它能理解笑点吗？能检测哭声甚至吵架声吗？甚至会不会有一天，AI也能像人类一样，在恰当的时候笑出声来？

版权声明：
作者：clash
链接：https://www.shadowrocket6.top/89.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

Anthropic神经网络中的暗物质

神经符号系统火了AGI要弯道超车

下一篇>>

搜索内容