Speakly AI 语音输入

这一年我试过不少语音转文字工具。最开始只是想少打一点字,后来发现问题没那么简单。真正拖慢我的,不只是键盘输入本身,而是在 [[Slack]]、邮件、[[Obsidian]]、浏览器输入框之间来回切换时,那种不断被打断的感觉。

[[Speakly]] 是最近让我比较愿意持续打开的一款。它不是我用过最完美的一个,但它确实有几个点做对了,所以我还是想单独记一笔。

语音输入为什么总差一口气

我现在越来越觉得,语音输入迟迟没有真正普及,问题不完全在识别率。主流模型把字听对,已经不算太难了。真正卡人的,是两件事。

一件是口语和书面语根本不是一回事。人讲话的时候会有很多停顿、重复、口头禅,思路也经常是边说边改。原样转成文字,大概率还是要自己再清一遍。

另一件是使用摩擦。很多工具在单独的 App 里很好用,一旦切回邮件、聊天窗口、代码编辑器,就又断了。你得切窗口、找按钮、重新开始。来回几次之后,人还是会乖乖回到键盘。

所以现在我看语音输入工具,主要就盯两件事:它能不能把我说的话整理成能直接发出去的文字,以及它能不能在任何输入框里都足够顺手。

Speakly 是什么

[[Speakly]] 是 [[Genspark]] 推出的一款系统级语音输入工具。它不只是逐字转录,而是会顺手帮你做一轮整理,比如去掉口头禅、补标点、把明显的病句修顺一点。有些场景下,它还会按上下文帮你组织格式。你在写邮件时,它输出的内容会更像一封邮件。你在说一串条目时,它也会更像列表。

我更看重的是它的全局调用。默认双击右 Alt 键就能开始说,结果直接落在当前光标的位置。这个设计看上去没什么新鲜的,但只要它足够稳定,你就会很自然地在 Gmail、[[Slack]]、WhatsApp、[[Notion]]、代码编辑器这些地方都用起来,而不是把它当成一个偶尔打开的演示工具。

另外一个对我有吸引力的点是混语场景。平时写东西时,我经常会中英文夹着来,偶尔还会掺一些日语名词。能不能自动识别语种、不要把专有名词搞得太离谱,这件事很影响长期体验。[[Speakly]] 在这方面至少让我愿意继续用下去。

我怎么用 Speakly

我主要拿它做三类事情,写邮件和消息回复、记录碎片想法、在笔记里口述一段草稿。

邮件场景最能看出差别。以前我要先在脑子里过一遍措辞,再慢慢敲,最后还得回头修语气。现在可以先把意思说出来,让 [[Speakly]] 帮我落成一版文字,再改细节。它不是每次都写得刚刚好,但至少能把最烦的第一稿先铺出来。

记录想法也很好用。我经常是在走路、洗碗、或者随手整理东西的时候冒出一个点子。等坐回电脑前,脑子里的句子已经散掉一半。现在可以直接唤起 [[Speakly]],把那一段先吐出来,再丢进 [[Obsidian]]。这件事本身就值回不少时间。

写笔记时我也会用它先口述段落,再手工修一遍。这个流程比从零开始敲字轻松不少,尤其是当我已经知道自己想表达什么,只是不想再花力气一个字一个字打出来的时候。

当然,它也不是没有问题。我遇到过激活后短暂卡一下的情况,切换输入设备时也碰到过一次识别断开。只不过这些问题还没有频繁到让我直接卸载。对一个我愿意放进日常工作流的工具来说,这已经算不错了。

如果你在找替代品

翻了一下我自己过去写过的笔记和文章,这一类工具其实已经很多了。[[Speakly]] 并不是孤例,它最接近的也不是语音笔记类产品,而是 系统级语音输入 + AI 润色 这一条线里的几款工具。

  • [[Typeless]] 应该是最像 [[Speakly]] 的一个。两者都不满足于逐字转录,而是希望直接给你一段更像成稿的文字。按我自己的体验,[[Typeless]] 在新手引导、选中文本后重写和翻译这些交互上做得更完整。如果你喜欢边说边改语气、边说边翻译,[[Typeless]] 很值得一起试。
  • [[Aqua Voice]] 更像一个会读屏幕上下文的语音助手。我之前最在意它的一点,就是它很适合处理邮件回复这类场景。相比之下,[[Speakly]] 更像是把输入这一步做顺了,[[Aqua Voice]] 则更强调“理解你当前在做什么”。
  • [[Wispr Flow]] 和 [[Speakly]] 也在同一条路线上。它们都不是单纯追求逐字正确,而是追求少改甚至不改就能发出去。你如果看重的是从口语直接变成可发送文本的那一下,[[Wispr Flow]] 会是一个自然的比较对象。
  • [[Spokenly]] 适合把隐私和本地离线放在第一位的人。它很轻,完全可以当成一个低成本、低负担的日常听写工具来用。如果你不想把语音交给云端,或者只是想找一个简单直接的本地方案,[[Spokenly]] 反而更合适。
  • [[Voicenotes]] 不算 [[Speakly]] 的直接替代品。它更偏向语音笔记,重点是录下来、存起来、回头再问 AI、再检索、再总结。如果你的目标是“在任意输入框里代替键盘”,那还是 [[Speakly]]、[[Typeless]]、[[Wispr Flow]] 这一类更对路。如果你的目标是“把想法留下来,之后慢慢整理”,那 [[Voicenotes]] 更强。
  • 再往外一圈,还有 [[superwhisper]] 这类比较成熟的老牌工具。它们往往更稳定,但产品思路没有那么强调 AI 改写和意图整理。

把这些工具放在一起看,我自己的判断很简单。[[Speakly]] 和 [[Typeless]] 最像,都是想把“语音输入”往“语音起草”推进一步。[[Aqua Voice]] 偏助手,[[Spokenly]] 偏本地离线,[[Voicenotes]] 偏语音笔记。你先想清楚自己要解决的是哪一个问题,再去选工具,反而比较不容易踩坑。

平台支持方面,[[Speakly]] 覆盖 macOS(M1 芯片及以上,macOS 12.0+)、Windows、iOS 和 Android,也有 Chrome 扩展,基本上主流平台都涵盖了。

最后

我现在对语音输入工具的判断标准已经很现实了。不是看它 demo 有多惊艳,也不是看宣传里说自己比打字快几倍,而是看它会不会让我真的多用几次。[[Speakly]] 至少做到了这一点。我会在邮件、聊天窗口、[[Obsidian]] 里反复把它叫出来,这就说明它已经过了“能看”和“能用”之间的那条线。

如果你之前试过语音输入,但总觉得差一点,[[Speakly]] 可以试一下。尤其是你已经不满足于“识别成字”这件事,而是希望它顺手把话整理成人能直接用的文字。

如果你刚好想试,可以走我的邀请链接,我们双方都能拿到一点免费权益:

https://www.genspark.ai/speakly/invite/NTAxZjQ3YzNMOTk5Y0wzN2M0TDBmOGIyNDFhYzQ2YUw1NmQy