字幕生成功能
妙幕(SmartSub)的核心功能之一是从视频或音频文件中自动生成准确的字幕。本章节将详细介绍字幕生成功能的使用方法和参数设置。
支持的文件格式
妙幕支持多种常见的视频和音频格式:
视频格式
- MP4 (.mp4)
- AVI (.avi)
- MOV (.mov)
- MKV (.mkv)
- WebM (.webm)
- WMV (.wmv)
- FLV (.flv)
- 其他常见视频格式
音频格式
- MP3 (.mp3)
- WAV (.wav)
- AAC (.aac)
- FLAC (.flac)
- OGG (.ogg)
- M4A (.m4a)
- 其他常见音频格式
字幕生成界面

基本操作流程
- 点击"选择文件"按钮或将文件拖拽到指定区域
- 选择一个或多个视频/音频文件
- 配置生成参数(见下文)
- 点击"开始任务"按钮
- 等待处理完成(进度会在界面上显示)
- 处理完成后,字幕文件会自动保存在与源文件相同的目录下
参数设置
基本参数
参数 | 描述 | 推荐设置 |
---|---|---|
模型选择 | 选择用于语音识别的 Whisper 模型 | 普通场景选择 small,高精度场景选择 medium 或 large |
原始语言 | 指定视频/音频的原始语言 | 如果确定语言,建议指定;否则选择"自动检测" |
字幕生成提示词 | 可以优化字幕生成的一些效果 | 如果原始语言是中文,可以设置为“以下为简体中文”, 避免生成繁体中文 |
上下文长度 | 可以控制上下文关联性 | 设置为 “最小化字重复” 可以解决字幕重复的问题 |
保存源字幕文件 | 设置保存源字幕的文件名格式 | 根据需求进行设置即可| | |
保存音频 | 可以开启是否保存提取出来的音频文件 | 根据需求进行设置即可| |
批量处理技巧
妙幕支持批量处理多个文件,以提高工作效率:
- 选择多个文件:可以一次选择多个文件,或多次添加文件到任务列表
- 统一设置:对所有文件应用相同的处理参数
- 队列处理:软件会按顺序逐个处理文件,您可以设置处理完成后的操作
提高识别准确率的技巧
要获得更准确的字幕识别结果,请考虑以下建议:
-
选择合适的模型:
- 对于清晰的普通语音,
small
模型通常就足够 - 对于专业术语、口音较重或背景噪音大的场景,使用
medium
或large
模型 - 如果视频主要是英语,可以选择带
en
后缀的模型(如small.en
)
- 对于清晰的普通语音,
-
指定正确的语言:
- 如果确定视频中的语言,直接指定可以提高准确性
- 对于混合多种语言的视频,选择"自动检测"
-
优化音频条件:
- 输入的音频质量直接影响识别准确率
- 如果可能,预处理视频以减少背景噪音
-
处理长视频:
- 对于超长视频,可考虑分段处理后合并字幕
硬件加速
妙幕支持使用硬件加速来提高字幕生成速度:
- NVIDIA CUDA:适用于 Windows 和 Linux 系统,拥有 NVIDIA 显卡
- Apple Core ML:适用于搭载 Apple Silicon (M系列) 芯片的 Mac 设备
故障排除
如果在字幕生成过程中遇到问题,可以尝试以下解决方法:
-
程序崩溃或无响应:
- 尝试使用更小的模型(如从
large
降至medium
或small
) - 减少并行任务数量
- 尝试使用更小的模型(如从
-
识别结果不准确:
- 尝试使用更大的模型
- 检查指定的语言是否正确
- 确保音频质量良好,背景噪音较小
-
处理速度过慢:
- 选择较小的模型
- 选择量化版本的模型
- 如果显卡支持 CUDA,确认是否安装了 toolkit
-
无法正确保存字幕文件:
- 检查目标文件夹的写入权限
- 尝试更改输出路径