Voice2Text - 阿里云百炼实时语音转文字

张开发

• 2026/6/6 3:14:56 • 15 分钟阅读

分享文章

Voice2Text - 阿里云百炼实时语音转文字基于阿里云 DashScope OpenAI Realtime API 的实时语音识别组件支持微信小程序、H5、App 三端。插件地址https://ext.dcloud.net.cn/plugin?id28221文件结构voice2text/ ├── index.js # 核心类 Voice2Text状态机管理、音频帧缓冲、结果处理 ├── audio-handler.js # 音频采集小程序用 RecorderManager 帧模式H5 用 Web Audio API ├── ws-client.js # WebSocket 客户端小程序用 uni.connectSocketH5 用原生 WebSocket ├── protocol.js # 消息协议构建 session.update / audio.append 等消息解析服务端响应 ├── constants.js # 常量WS 地址、API Key、模型名、音频参数、状态枚举 └── README.md # 本文件基本用法import{createVoice2Text}from/utils/audio-recg/voice2text// 创建实例constv2tcreateVoice2Text({onResult:(text,isFinal){console.log(isFinal?最终结果::中间结果:,text)},onError:(err){console.error(识别错误:,err)},onEnd:(){console.log(识别结束)},onStart:(){console.log(录音已开始)},enableVad:true,// 是否启用服务端 VAD默认 true})// 开始识别自动连接 WebSocket 开始录音awaitv2t.start()// 停止识别等待最终结果最多等 timeout 毫秒constfinalTextawaitv2t.stop(2000)// 取消识别不等待结果直接断开v2t.cancel()预连接模式页面加载时提前建立 WebSocket 连接用户按住按钮时可直接识别减少首次延迟// 页面 onLoad 时静默预连接v2tInstance.connect({silent:true}).catch((){})// 用户按住麦克风时直接 start连接已就绪无需等待awaitv2tInstance.start()按住说话模式推荐// touchstartasynconMicTouchStart(){this.voiceFingerDowntrueawaitthis.v2tInstance.start()}// touchendasynconMicTouchEnd(){this.voiceFingerDownfalseconsttextawaitthis.v2tInstance.stop(2000)if(text.trim()){// 发送识别结果}}// touchcancel滑动取消onMicTouchCancel(){this.v2tInstance.cancel()}APIcreateVoice2Text(options)创建实例。options可选参数类型默认值说明onResult(text: string, isFinal: boolean) voidnull识别结果回调onError(err: any) voidnull错误回调onEnd() voidnull识别结束回调onStart() voidnull录音开始回调enableVadbooleantrue启用服务端 VAD 自动断句start(): Promisevoid开始识别。内部流程建立 WebSocket 连接发送session.update配置立即开始录音缓存模式连接就绪后回放连接就绪后切换为实时推送stop(timeout?: number): Promisestring停止识别。停止录音等待服务端返回最终结果。timeout: 等待超时时间ms默认 2000返回最终识别文本cancel(): void取消识别不等待结果直接断开连接。connect(options?: { silent?: boolean }): Promisevoid预连接 WebSocket不启动录音、不发送 session.update。silent: 静默模式连接失败不触发onErrorstate: string当前状态idle|connecting|starting|recording|finishing|done|errorisRunning: boolean是否正在识别connecting / starting / recording / finishing。text: string已累积的最终文本。destroy(): void销毁实例释放所有资源。平台差异能力微信小程序H5App音频采集RecorderManager 帧模式Web Audio API ScriptProcessorNodeRecorderManager 帧模式WebSocketuni.connectSocket原生 WebSocketuni.connectSocket音频格式PCM 16kHz 16bit 单声道同左同左帧大小4KB (~128ms/帧)4096 samples4KB注意事项需要用户授权麦克风权限小程序需在app.json中配置requiredPrivateInfos和permissionWebSocket 连接使用阿里云 DashScope API Key注意调用频率VAD 模式下服务端自动断句非 VAD 模式需手动 commit

Voice2Text - 阿里云百炼实时语音转文字

最新文章

树莓派4B + MJPG-streamer + FRP：手把手教你搭建一个能远程看家的低功耗监控系统

保姆级教程：从零在Ubuntu 20.04搭建无人机仿真环境（ROS Noetic + Gazebo + PX4）

随着树木和非树木植被覆盖的扩大，全球人口暴露于城市绿地的不平等加剧

01-React基础入门——11-Refs 与 DOM 操作

终端环境下 AI 图像识别与生成实战：从手绘草稿到精美插画的完整方案

你的模型FLOPs算对了吗？聊聊fvcore、thop这些工具在统计时的那些‘坑’

推荐文章

STM32F4驱动AD7606避坑指南：SPI配置、时序调试与电压换算全流程

TVA与其他AI智能体的本质区别与联系（10）

使用 LangGraph 构建复杂的自动化测试用例“生成-执行-修复”循环

MTKClient终极指南：5分钟快速修复联发科设备变砖问题

Parallels Desktop 17保姆级教程：给CentOS 7虚拟机配个固定IP，开发调试再也不怕IP变来变去

Steam游戏《Turing Complete》通关笔记：手把手教你从逻辑门到可编程CPU的完整搭建流程

相关文章

终极ESP32 Arduino开发指南：从零开始快速上手物联网项目

如何打造个人专属的数字记忆库：WeChatMsg终极数据管理指南

Windows 11下SecureCRT 8.5安装激活全攻略（附注册机与避坑指南）

Gemini推送通知优化终极手册（2024Q2最新API v1.5实测数据+AB测试报告）

【Gemini社交媒体运营实战指南】：20年AI营销专家亲授7大高转化内容公式

保姆级教程：在Ubuntu 22.04上为GStreamer 1.22编译NVIDIA NVENC/NVDEC插件（含CUDA 12.x适配）

分享文章

更多文章

2026年选口碑好的烟气脱白供应商，背后门道你知道多少？

Golang高并发爬虫架构：骏河屋全品类一键下单采集与解析方案

小芽英语鸿蒙开发实战系列1：全栈架构设计与鸿蒙 Navigation 路由深层博弈

cad新手入门福音：在快马平台零配置体验图形设计基础

什么是 fail-fast？什么是 fail-safe？

PHP代码检查与静态分析

UOS统信服务器安全加固保姆级教程：从密码策略到SSH超时，手把手配置实战

UiPath依赖项管理避坑指南：从网络代理设置到本地包缓存迁移的完整流程

Google Drive下载神器：无需API的终极解决方案gdrivedl完整指南

Flowable任务监听器与多实例配置详解：告别固定审批人，实现动态流程

为什么985高校招生组悄悄接入AI志愿回溯系统？（独家披露：3年217万份录取数据训练出的5维匹配模型）

基于Stable Diffusion的变电站仪表缺陷检测数据增强方案