Podmiss-免费播客总结产品来了

张开发
2026/5/10 13:51:30 15 分钟阅读

分享文章

Podmiss-免费播客总结产品来了
一周时间做了款播客总结产品 podmiss.com1、产品定位可以用三个关键词主动推送信息降噪选择性收听。初期邮件形式推送感兴趣的盆友欢迎去 podmiss.com 免费来试留个常用邮箱即可。目前收录了 20 个栏目10 个是 AI 相关自己常听的其他些是前些天找身边好友内测时补充了些其他人常听的人文社科和财经类节目在看过相关节目总结后听了几期也被快速圈粉成功拓展了播客的涉猎范畴。开发的想法仍是自己源于长久以来收听播客的 fomo 痛点起心动念最总要追溯到最初 24 年 3 月份在 flomo 上记下了第一条记录。Learn by doing过去 9 个月断断续续经历了三次试错方案但都无功而返其中血泪史历历在目大概分了三个阶段感兴趣的可以瞅瞅2、试错过程2.1、字节 Coze 工作流方案本是计划直接使用官方的音频转文本插件然后再调用语雀大模型进行总结但很遗憾的发现官方的 SpeechtoTxt 插件并不支持 m4a 格式音频作为输出但无论是 apple podcast 还是小宇宙默认 m4a所以被迫开发了个 m4a 转 mp3 的插件。但更为捉急的问题是Coze 的 IDE 不支持配置系统环境变量so 用不了 ffmpeg我不得不去阿里云整了台 ECS 服务器去部署后端服务搞完之后又发现这个 speech2txt 插件只支持最长 15 分钟的音频输入反复试出来的长度然后被迫又去开发了个音频分段的插件。再然后当跑起工作流之后发现总结在转录环节报错和官方邮件开发者邮箱沟通多轮后被告知单个节点的处理时间不能超过 60 秒。原地 Game Over。2.2、自行部署 Whisper 模型这个方案持续时间比较短一方面是因为学习曲线过于陡峭另外则是我的 2C4G 服务器跑个 Whisper 最多只能支持 small 尺寸的模型毕竟 medium 就要 5g 内存了。而且因为无 GPU 加速只能使用 CPU 模式运行速度会非常慢具体有多慢呢大概算了下 1 个小时的音频约莫需要 15-20 小时果断放弃。那为啥不升级服务器再重新尝试呢这个是搜到一篇 Medium 上的帖子说对于自建 whisper 模型一般只有在月处理量超过 100 小时后自建方案才可能在成本上具有优势另外买服务器也得先花钱。。2.3、使用第三方音频转录 api经历过上述两个方案后总会很自觉的去使用第三方 api 了进行音频转录了这样总归是可以专注实现总结模板和交互逻辑设计了吧。但是当我真的去搜了下国内外主流的音频转文本的 api 调用服务后会更加绝望见下表perplexity 整理。需要注意的是这还没算大模型的总结 tokens 成本。3、最终方案Anyway , 最后被我还是找到了一个相对比较便宜的海外转录api而且最为重要的是初期会送很多刀免费额度。GPU 加速速度极其感人基本一个小时播客目测 5 秒钟左右最长音频目前试过 2 个半小时的。总结模板调试过程很心累现在基本能用欢迎大家试用后找我反馈意见。关于总结模型现在是在 SliconCloud 上调用的两款 128K 上下文的。之所以选择 128K 是因为实际测算下来 1 个小时的播客差不多有 1 万字也就是 2 万 tokens 左右使用 32K 比较勉强。之所以会使用两款 LLM是因为做了几组 A/B test 之后发现不要钱的 GLM 模型效果确实明显不好。但是全部用花钱的也心疼。所以就有了个折衷方案系统首先会根据内容长度自动选择直接处理或分块处理Qwen 模型先处理基础信息和详细观点GLM 模型最后进行整体总结和优化。算账下来对于一个小时的音频转录成本大概 1.8 元总结成本 0.2 元希望用户多了硅基流动能给我点 token 赞助。听起来似乎也不便宜但是毕竟这玩意可以分发给无数人so 成本就自己承担了希望后续能有人打赏。4、写在最后最后着重感谢下podwise, 受到了对方 Github 开源的《「硬地骇客 - 两个月 $12000 ARR 实践之路」》册子的影响开源精神万岁我春节期间会陆续开源之前做过的四个项目欢迎关注长远一点来说如果有一定用户增长的话计划整个 app 接入 NotebookLM 那种播客生成的 api还没开放当然重点是试水可打断的交互形式真到了那一天或许播客内容的消费体验会完全被颠覆……最后附上个播客栏目清单和总结示例

更多文章