也是时候给 AI 找个好嗓子了
最近我一直在折腾本地大模型,想给自己做一个语音助手。虽然 LLM 的回复已经很智能了,但一旦到了“开口说话”的环节,体验往往就断崖式下跌。我试过传统的 pyttsx3,也用过 Google 的 TTS,说实话,那种浓浓的“机器味”很容易让人出戏。
我一直想要这样一个工具:它的声音必须足够自然,要有呼吸感,不能像念经一样平铺直叙;其次,如果能复刻我自己的声音,或者某些特定的音色,那就更完美了。
前段时间刷 GitHub 偶然发现了 Fish Audio,体验了一下它的 Demo,当时就被惊艳到了。它不仅语调自然,而且反
Read more ...
1. 哪怕只有两个集群,你也该换种活法
最近在整理我的 Kubernetes 运维环境,发现随着手头项目的增多,我需要管理的集群数量也在蹭蹭往上涨。
以前只有一个测试环境和一个生产环境时,我还在傻傻地用 kubectl --kubeconfig=./prod.yaml 这样的命令,或者在终端里疯狂地敲 export KUBECONFIG=...。
直到有一天,我在一次紧急排查问题时,因为忘记切换环境变量,差点把测试环境的配置应用到了生产环境(还好我是个胆小鬼,回车前多看了一眼)。那一刻我意识到,必须得有一个更安全、更直观、更高效的方式来管理这些“乱七
Read more ...
最近我在折腾一个基于 LangChain 的 AI 助手时,遇到了一个老生常谈的问题:怎么让大模型获取最新的实时信息?
虽然 ChatGPT 已经很强大了,但它的知识库永远是滞后的。当你问它”昨天发布的 iPhone 16 也是 60Hz 屏幕吗?”(假设场景),它大概率会一本正经地告诉你它不知道。为了解决这个问题,我们需要给 AI 装上”眼睛”,也就是联网搜索的能力。
我之前一直用 SerpApi,功能确实强大,覆盖了各大搜索引擎。但是,当我开始构建需要频繁调用搜索的 Agent 时,SerpApi 的响应速度(有时候需要 3-5 秒)和价格让我开
Read more ...
最近我一直在思考一个问题:为什么我们现在的很多应用里的 AI “助手”还是那么”笨”?
你可能也有这种体验:你在一个 SaaS 平台上操作复杂的报表,遇到问题点开右下角的 AI 客服,问它”为什么我的数据对不上?”,它通常会礼貌地回复你一段通用的帮助文档,或者干脆让你去读手册。它不知道你当前看的是哪张表,不知道你选了什么筛选条件,更不知道你刚刚进行了什么操作。
这种割裂感让我非常难受。我们想要的不是一个挂在网页旁边的 ChatGPT 网页版,而是一个真正”住”在应用里的、能看见我所见、能帮我操作的 Copilot(副驾驶)。
前段时间我发现了一个非
Read more ...
昨天下午,我正准备复印一下彩色的证件(在留卡),结果打印机吐出来的纸让我愣了一下——原本应该是鲜艳红色的印章和纹样部分全部变成了诡异的绿色,整个画面色调严重偏冷。我的第一反应是:难道墨水用完了?
但我明明记得刚换不久。这台 Canon TS3330 已经陪伴我有一段时间了,一直兢兢业业,这次的突发状况让我不得不停下来好好给它做个”体检”。经过一番搜索和折腾,问题终于解决了。我发现这似乎是喷墨打印机一个比较常见的问题,所以决定把这次的排查和修复过程记录下来,希望能帮到遇到同样问题的朋友。
为什么会出现”红去绿来”?
其实原理很简单。彩色打印机通常使用
Read more ...
写代码久了,我发现一个有趣的现象:程序员最讨厌两件事,一是别人的代码没有文档,二是自己写文档。
这听起来像个段子,但确实是很多团队的痛点。我之前为了维护个人项目和开源工具的文档,折腾过不少方案。从最早的 Hexo/Jekyll 配合 GitHub Pages,到后来为了省事直接用 GitBook,再到为了定制化折腾 Docusaurus。虽然都能用,但总感觉缺了点什么——要么是配置太繁琐,写个文档得先学前端;要么是界面太陈旧,配不上精心写的代码。
直到最近,我遇到了 Mintlify。有一种”这就是我一直在找的那个工具”的感觉。现在很多开源项目使用的
Read more ...
之前 Devin 团队推出了一款 DeepWiki 的网站,可以用来解释 GitHub 的代码仓库。今天偶然发现 Google 也推出了类似的产品,叫做 Code Wiki。
当我们去接受一个新的开源项目的时候,最痛苦的莫过于如何开始阅读代码和理解整个代码仓库的架构,对于一些 README 编写得比较好的仓库,我们可能还能手把手地将项目在本地跑起来。但是,如果对于一个文档缺失、变更严重滞后的一些开源项目,可能很大一部分的知识还停留在一些项目成员的大脑,或者是最初的落后的文档当中。那这个时候我们去阅读代码的时候,可能不知道如何下手。
DeepWiki
Read more ...
看过我博客的人会发现,我在这半年的时间里面体验了非常多的语音转文字工具,可以说,这样的工具极大地提升了我的生产效率。不仅搭配 Obsidian 可以更快地写笔记,搭配 Claude Code 等编程工具也可以让我更快地输入提示词。体验到后面,遇到类似的产品,我一般也不会单独地出一篇文章,但是今天体验完了 Typeless,我觉得它值得写一篇文章,单独介绍一下。
Typeless是一款专为 macOS 设计的 AI 语音输入工具,试用下来感觉非常不错。首先,Typeless 的新手入门流程,做的就是我所有体验过的产品当中最简洁、最完善的。一般来说,工具都
Read more ...
也是为了”颜值”买单
自从 Clash for Android (CFA) 的原作者删库停更之后,Android 平台上的代理工具虽然没有到”至暗时刻”,但也确实经历了一段迷茫期。虽然我们都知道,内核才是关键,界面只是皮囊,但作为每天都要打开好几次的 App,谁不想让它长得更好看一点呢?
这半年多来,我主要在使用 Clash Meta for Android (CMFA)。它不仅继承了 CFA 的衣钵,更重要的是跟进使用了 Mihomo (原 Clash Meta) 内核,协议支持全,功能极其强大。但是,不得不说,CMFA 的界面设计还是充满了浓浓的
Read more ...
2025-12-04
flyclash
,
android
,
clash
,
clash-meta
,
mihomo
,
proxy-client
,
vpn
,
material-design
,
ui-ux
,
open-source
,
gtxfury
,
tools
,
network
QM-Music 是一个基于 Subsonic 协议构建的开源私有云音乐服务器,专为音乐爱好者设计。它以轻量、高效、全平台兼容为核心特点,让用户能够轻松搭建属于自己的音乐流媒体服务。
之前总结过一篇文章如何使用 Navidrome 搭建在线音乐库,我自己使用下来几年也非常稳定,但 Navidrome 的交互界面有一些老旧,并且我有一个挺常用的,网页随机播放功能支持不是很完善,今天刚好看到 QM Music,交互页面非常友好,所以安装用用。
我自己会在本地使用 Musiver 原名音流来串流音乐。
核心亮点
极致轻量与高性能:
Read more ...