2026/4/5 19:05:22
网站建设
项目流程
网站代理登录网址,网站org免费注册,建设部网站 自住房,湖南专业seo优化FunASR语音识别WebUI使用指南#xff5c;支持实时录音与多格式导出
1. 快速开始
1.1 访问地址
启动服务后#xff0c;您可以通过以下方式访问 FunASR WebUI 界面#xff1a; 本地访问#xff1a; http://localhost:7860远程访问#xff08;服务器部署#xff09;…FunASR语音识别WebUI使用指南支持实时录音与多格式导出1. 快速开始1.1 访问地址启动服务后您可以通过以下方式访问 FunASR WebUI 界面本地访问http://localhost:7860远程访问服务器部署http://服务器IP:7860确保端口7860在防火墙或安全组中已开放以便外部设备可以正常连接。2. 界面介绍2.1 头部区域界面顶部展示核心信息包括标题FunASR 语音识别 WebUI描述基于 FunASR 的中文语音识别系统版权信息webUI二次开发 by 科哥 | 微信312088415该区域为静态展示帮助用户快速了解系统来源和开发者信息。2.2 控制面板左侧控制面板集中管理识别参数与模型状态包含以下功能模块模型选择Paraformer-Large高精度大模型适合对准确率要求高的场景可选SenseVoice-Small轻量级小模型默认启用响应速度快资源占用低设备选择CUDA启用 GPU 加速显著提升处理速度推荐在具备 NVIDIA 显卡的环境中使用CPU纯 CPU 推理模式适用于无独立显卡的设备建议优先选择 CUDA 模式以获得最佳性能体验。功能开关启用标点恢复 (PUNC)自动为识别结果添加句号、逗号等标点符号提升可读性启用语音活动检测 (VAD)自动分割音频中的有效语音段跳过静音部分提高效率输出时间戳在结果中附加每个词或句子的时间范围便于后期编辑与同步模型状态显示当前模型加载情况✓ 表示模型已成功加载✗ 表示模型未加载或加载失败可通过“加载模型”按钮手动触发重新加载。操作按钮加载模型初始化或重载选定模型刷新更新界面状态信息检查模型是否就绪3. 使用流程3.1 方式一上传音频文件识别步骤 1准备音频文件支持的音频格式如下WAV (.wav)MP3 (.mp3)M4A (.m4a)FLAC (.flac)OGG (.ogg)PCM (.pcm)推荐参数采样率16kHz单声道Mono音频质量清晰背景噪音较小文件大小建议控制在 100MB 以内避免因网络传输导致超时。步骤 2上传文件在主界面的 “ASR 语音识别” 区域点击“上传音频”从本地选择符合格式的音频文件等待上传完成进度条提示上传成功后音频将显示缩略图及基本信息。步骤 3配置识别参数批量大小秒默认值为 300 秒即 5 分钟表示每次处理的最大音频长度。可根据实际需求调整至 60–600 秒之间。识别语言auto自动检测语言推荐用于混合语种内容zh中文普通话en英文yue粤语ja日语ko韩语对于单一语言内容明确指定语言可显著提升识别准确率。步骤 4开始识别点击“开始识别”按钮系统将根据所选模型和参数进行语音转文字处理。处理期间界面会显示加载动画和进度提示。处理时间取决于音频长度、模型类型和硬件性能。步骤 5查看结果识别完成后结果将以三个标签页形式呈现文本结果展示最终生成的纯文本内容支持全选复制方便粘贴到文档或其他应用中详细信息提供 JSON 格式的完整识别数据包含字段如text,timestamp,confidence,sentences等适用于开发者调试或集成至其他系统时间戳列出每句话或词语的起止时间格式示例[001] 0.000s - 2.500s (时长: 2.500s)可用于视频字幕制作、会议纪要定位等场景。3.2 方式二浏览器实时录音步骤 1开始录音点击“麦克风录音”按钮浏览器弹出权限请求时点击“允许”若未出现权限提示请检查浏览器设置中是否已禁用麦克风权限。步骤 2录制语音对着麦克风清晰发音录音过程中会有波形图动态显示声音强度点击“停止录音”结束录制步骤 3开始识别停止录音后直接点击“开始识别”按钮系统将立即处理录音数据。步骤 4查看结果结果展示方式与上传文件一致支持文本、JSON 和时间戳三种视图。实时录音功能非常适合做短句测试、演讲稿录入或即时翻译辅助。4. 下载结果识别完成后用户可将结果导出为多种常用格式满足不同用途需求。4.1 导出格式说明按钮文件格式适用场景下载文本.txt快速提取文字内容用于笔记、报告等下载 JSON.json开发者调用接口、数据分析、系统集成下载 SRT.srt视频剪辑配字幕、在线课程字幕生成4.2 输出目录结构所有输出文件统一保存在本地目录outputs/outputs_YYYYMMDDHHMMSS/每次识别都会创建一个以时间戳命名的新文件夹例如outputs/outputs_20260104123456/ ├── audio_001.wav # 原始音频副本 ├── result_001.json # 完整识别结果JSON ├── text_001.txt # 纯文本结果 └── subtitle_001.srt # SRT 字幕文件此设计保证了历史记录不被覆盖便于追溯和归档。5. 高级功能配置5.1 批量大小调整默认值300 秒5 分钟可调范围60 – 600 秒作用机制将长音频切分为多个片段并行处理减少内存压力提升稳定性对于超过 10 分钟的长音频建议分段上传或降低批量大小以避免崩溃。5.2 语言识别设置合理选择语言是提升识别准确率的关键场景推荐设置中文普通话zh英文讲座en粤语访谈yue日语动漫配音ja中英混合对话auto当使用auto模式时系统会尝试判断主要语言但可能不如手动指定精准。5.3 时间戳输出开启“输出时间戳”后系统将在结果中提供精确到毫秒的时间标记典型应用场景包括视频剪辑精准定位台词位置教学回放快速跳转重点段落法律听证记录发言时间节点时间戳格式兼容主流非编软件如 Premiere、Final Cut Pro和字幕工具。6. 结果示例6.1 纯文本输出示例你好欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。6.2 SRT 字幕输出示例1 00:00:00,000 -- 00:00:02,500 你好 2 00:00:02,500 -- 00:00:05,000 欢迎使用语音识别系统6.3 时间戳信息示例时间戳信息: [001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)7. 常见问题解答7.1 Q1识别结果不准确怎么办解决方法确认选择了正确的识别语言检查音频质量尽量使用清晰录音调整音量增益避免过低或爆音如背景噪音严重建议先进行降噪预处理7.2 Q2识别速度慢怎么办可能原因使用 CPU 模式运行音频文件过长模型负载过高优化建议切换至 CUDA 模式启用 GPU 加速将长音频拆分为 5 分钟以内片段处理改用 SenseVoice-Small 模型提升响应速度7.3 Q3无法上传音频文件排查步骤确认文件格式是否在支持列表内推荐使用 MP3 或 WAV检查文件大小是否超过 100MB更换浏览器推荐 Chrome 或 Edge查看控制台是否有错误日志输出7.4 Q4录音没有声音检查项浏览器是否已授权麦克风访问权限系统麦克风是否正常工作可在录音机中测试麦克风输入音量是否被静音或调至最低7.5 Q5识别结果包含乱码解决方案确保选择的语言与音频内容匹配检查音频编码格式是否标准如 PCM、AAC尝试转换音频为 WAV 格式后再上传7.6 Q6如何提高识别准确率实用建议使用 16kHz 采样率的高质量音频减少环境噪音干扰使用降噪耳机或滤波工具发音清晰避免过快语速明确指定目标语言而非依赖自动检测8. 退出使用8.1 停止 WebUI 服务在终端运行界面按下快捷键Ctrl C或执行命令强制终止进程pkill -f python.*app.main建议正常关闭服务以防止临时文件残留。9. 快捷键汇总操作快捷键停止服务Ctrl C刷新页面F5 或 Ctrl R复制文本Ctrl C全选文本Ctrl A打开开发者工具F1210. 技术支持与反馈开发者科哥联系方式微信312088415问题反馈要求请提供以下信息以便快速定位问题操作系统版本浏览器类型与版本错误截图或日志复现步骤描述我们承诺永久开源使用保留版权信息请尊重原创劳动成果。11. 更新日志v1.0.0 (2026-01-04)✅ 首次发布版本✅ 支持中文语音识别Paraformer SenseVoice✅ 支持 MP3/WAV/M4A/FLAC/OGG/PCM 多种音频格式✅ 内置浏览器端实时录音功能✅ 支持 TXT/JSON/SRT 三类结果导出✅ 采用紫蓝渐变主题 UI提升视觉体验获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。