如何用Gemini进行笑声检测
有网友把Google 的Gemini玩了个花样!

Gemini 偷偷给自己装上了 "笑点雷达" !没错,就是字面意思 —— Gemini现在不仅能把语音转成文字,还能精准定位你在哪儿笑出了声!

该玩法是由一位名叫Paige的网友分享的。她激动地表示:
我现在都要疯了 —— Gemini不仅能做音频转写,还能检测笑声!
多年来,我一直在寻找能做这件事的工具,只在一些学术论文中看到过。比如这个工具:https://github.com/YuanGongND/whisper-at?tab=readme-ov-file
但要真正运行这些工具,看起来得折腾好几天。
而Gemini可以开箱即用!我被这个功能彻底震撼了。看截图就知道了。
要知道,以前想实现这种功能,那可是得费老劲儿了。就像Paige说的,光是研究那些学术论文就够你喝一壶的。
而现在呢?Gemini直接把这个高深莫测的技能给整成了"傻瓜式操作"。你只需要上传一段音频,它就能给你标注出笑声出现的时间点。
这简直就是装上了"笑点探测器"啊!
Paige(@PaigeBailey) 分享了她的具体应用场景:
我有近20小时的YouTube视频,内容是@ericnormand和我与@girba一起结对编程,他教我们Smalltalk / Glamorous Toolkit。
多年来,我一直想写写这段难以置信的经历中最有趣、最令人愉悦的顿悟时刻。我总想找出我们谁在笑的片段,因为那通常是在成功构建某些东西时感到喜悦或胜利。
除了重新看完所有视频,我一直想不出怎么做到这一点。
截图显示Gemini能够进行笑声检测!抽查发现时间码确实标注了笑声。
太神奇了!
想找出视频中最精彩、最欢乐的片段?让Gemini帮你定位笑声,分分钟搞定!
不过,Paige也提到了一个小细节:
(最后我用了YouTube视频,因为这是测试大于7MB文件的最简单方法。)
看来Gemini还是有点儿小限制的。不过话说回来,7MB的音频文件也不算小了,足够应付大部分日常需求了。
再不行,找个压缩软件给压一下到7MB 内就好了,或者切割一下分多次也可以。
Paige在最后还不忘夸赞一番:
我完全理解你们(Gemini)为什么在Google内部获得越来越多的市场份额 —— 迫不及待想听你们在几周后的ETLS上分享这个故事!
不过话说回来,AI能检测出笑声,那它能理解笑点吗?能检测哭声甚至吵架声吗?甚至会不会有一天,AI也能像人类一样,在恰当的时候笑出声来?
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/89.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论