跳到主要内容

字幕生成功能

妙幕（SmartSub）的核心功能之一是从视频或音频文件中自动生成准确的字幕。本章节将详细介绍字幕生成功能的使用方法和参数设置。

支持的文件格式

妙幕支持多种常见的视频和音频格式：

视频格式

MP4 (.mp4)
AVI (.avi)
MOV (.mov)
MKV (.mkv)
WebM (.webm)
WMV (.wmv)
FLV (.flv)
其他常见视频格式

音频格式

MP3 (.mp3)
WAV (.wav)
AAC (.aac)
FLAC (.flac)
OGG (.ogg)
M4A (.m4a)
其他常见音频格式

字幕生成界面

字幕生成界面

基本操作流程

点击"选择文件"按钮或将文件拖拽到指定区域
选择一个或多个视频/音频文件
配置生成参数（见下文）
点击"开始任务"按钮
等待处理完成（进度会在界面上显示）
处理完成后，字幕文件会自动保存在与源文件相同的目录下

参数设置

基本参数

参数	描述	推荐设置
模型选择	选择用于语音识别的 Whisper 模型	普通场景选择 small，高精度场景选择 medium 或 large
原始语言	指定视频/音频的原始语言	如果确定语言，建议指定；否则选择"自动检测"
字幕生成提示词	可以优化字幕生成的一些效果	如果原始语言是中文，可以设置为“以下为简体中文”，避免生成繁体中文
上下文长度	可以控制上下文关联性	设置为 “最小化字重复” 可以解决字幕重复的问题
保存源字幕文件	设置保存源字幕的文件名格式｜根据需求进行设置即可｜
保存音频	可以开启是否保存提取出来的音频文件｜根据需求进行设置即可｜

批量处理技巧

妙幕支持批量处理多个文件，以提高工作效率：

选择多个文件：可以一次选择多个文件，或多次添加文件到任务列表
统一设置：对所有文件应用相同的处理参数
队列处理：软件会按顺序逐个处理文件，您可以设置处理完成后的操作

提高识别准确率的技巧

要获得更准确的字幕识别结果，请考虑以下建议：

选择合适的模型：
- 对于清晰的普通语音，small 模型通常就足够
- 对于专业术语、口音较重或背景噪音大的场景，使用 medium 或 large 模型
- 如果视频主要是英语，可以选择带 en 后缀的模型（如 small.en）
指定正确的语言：
- 如果确定视频中的语言，直接指定可以提高准确性
- 对于混合多种语言的视频，选择"自动检测"
优化音频条件：
- 输入的音频质量直接影响识别准确率
- 如果可能，预处理视频以减少背景噪音
处理长视频：
- 对于超长视频，可考虑分段处理后合并字幕

硬件加速

妙幕支持使用硬件加速来提高字幕生成速度：

NVIDIA CUDA：适用于 Windows 和 Linux 系统，拥有 NVIDIA 显卡
Apple Core ML：适用于搭载 Apple Silicon (M系列) 芯片的 Mac 设备

故障排除

如果在字幕生成过程中遇到问题，可以尝试以下解决方法：

程序崩溃或无响应：
- 尝试使用更小的模型（如从 large 降至 medium 或 small）
- 减少并行任务数量
识别结果不准确：
- 尝试使用更大的模型
- 检查指定的语言是否正确
- 确保音频质量良好，背景噪音较小
处理速度过慢：
- 选择较小的模型
- 选择量化版本的模型
- 如果显卡支持 CUDA，确认是否安装了 toolkit
无法正确保存字幕文件：
- 检查目标文件夹的写入权限
- 尝试更改输出路径

支持的文件格式
- 视频格式
- 音频格式
字幕生成界面
基本操作流程
参数设置
- 基本参数
批量处理技巧
提高识别准确率的技巧
硬件加速
故障排除