跳到主要内容

字幕生成功能

妙幕(SmartSub)的核心功能之一是从视频或音频文件中自动生成准确的字幕。本章节将详细介绍字幕生成功能的使用方法和参数设置。

支持的文件格式

妙幕支持多种常见的视频和音频格式:

视频格式

  • MP4 (.mp4)
  • AVI (.avi)
  • MOV (.mov)
  • MKV (.mkv)
  • WebM (.webm)
  • WMV (.wmv)
  • FLV (.flv)
  • 其他常见视频格式

音频格式

  • MP3 (.mp3)
  • WAV (.wav)
  • AAC (.aac)
  • FLAC (.flac)
  • OGG (.ogg)
  • M4A (.m4a)
  • 其他常见音频格式

字幕生成界面

字幕生成界面

基本操作流程

  1. 点击"选择文件"按钮或将文件拖拽到指定区域
  2. 选择一个或多个视频/音频文件
  3. 配置生成参数(见下文)
  4. 点击"开始任务"按钮
  5. 等待处理完成(进度会在界面上显示)
  6. 处理完成后,字幕文件会自动保存在与源文件相同的目录下

参数设置

基本参数

参数描述推荐设置
模型选择选择用于语音识别的 Whisper 模型普通场景选择 small,高精度场景选择 medium 或 large
原始语言指定视频/音频的原始语言如果确定语言,建议指定;否则选择"自动检测"
字幕生成提示词可以优化字幕生成的一些效果如果原始语言是中文,可以设置为“以下为简体中文”, 避免生成繁体中文
上下文长度可以控制上下文关联性设置为 “最小化字重复” 可以解决字幕重复的问题
保存源字幕文件设置保存源字幕的文件名格式 | 根据需求进行设置即可|
保存音频可以开启是否保存提取出来的音频文件 | 根据需求进行设置即可|

批量处理技巧

妙幕支持批量处理多个文件,以提高工作效率:

  1. 选择多个文件:可以一次选择多个文件,或多次添加文件到任务列表
  2. 统一设置:对所有文件应用相同的处理参数
  3. 队列处理:软件会按顺序逐个处理文件,您可以设置处理完成后的操作

提高识别准确率的技巧

要获得更准确的字幕识别结果,请考虑以下建议:

  1. 选择合适的模型

    • 对于清晰的普通语音,small 模型通常就足够
    • 对于专业术语、口音较重或背景噪音大的场景,使用 mediumlarge 模型
    • 如果视频主要是英语,可以选择带 en 后缀的模型(如 small.en
  2. 指定正确的语言

    • 如果确定视频中的语言,直接指定可以提高准确性
    • 对于混合多种语言的视频,选择"自动检测"
  3. 优化音频条件

    • 输入的音频质量直接影响识别准确率
    • 如果可能,预处理视频以减少背景噪音
  4. 处理长视频

    • 对于超长视频,可考虑分段处理后合并字幕

硬件加速

妙幕支持使用硬件加速来提高字幕生成速度:

  • NVIDIA CUDA:适用于 Windows 和 Linux 系统,拥有 NVIDIA 显卡
  • Apple Core ML:适用于搭载 Apple Silicon (M系列) 芯片的 Mac 设备

故障排除

如果在字幕生成过程中遇到问题,可以尝试以下解决方法:

  1. 程序崩溃或无响应

    • 尝试使用更小的模型(如从 large 降至 mediumsmall
    • 减少并行任务数量
  2. 识别结果不准确

    • 尝试使用更大的模型
    • 检查指定的语言是否正确
    • 确保音频质量良好,背景噪音较小
  3. 处理速度过慢

    • 选择较小的模型
    • 选择量化版本的模型
    • 如果显卡支持 CUDA,确认是否安装了 toolkit
  4. 无法正确保存字幕文件

    • 检查目标文件夹的写入权限
    • 尝试更改输出路径