Skip to content

素材处理

尚待开发

尚待开发

本章节介绍的功能均处于规划阶段,当前版本尚未实现。以下内容描述的是预期设计。

素材处理模块负责对已导入的视频进行自动化分析,提取语音、文字等结构化信息,为后续的文稿生成和剪辑提供数据基础。

视频下载

在进行任何处理之前,需要先将视频从来源平台下载到本地。

预期行为:

  • 在素材库中选择一个或多个 pending 状态的视频
  • 点击 下载 按钮,系统自动从 B 站(或其他来源)下载视频文件
  • 下载完成后,素材状态变为 downloadedlocal_video_path 字段记录本地路径

技术说明

视频下载功能需要 Python AI 处理服务(端口 7632)支持,该服务调用相应平台 API 进行下载。

语音识别(ASR)

语音识别功能自动将视频中的人声转录为文字,生成字幕文件。

预期功能:

  • 支持普通话、粤语、英语等多种语言的识别
  • 生成带时间戳的 SRT 字幕文件,保存到 transcript_path 字段指定路径
  • 识别完成后,素材状态升级为 transcribed
  • 字幕结果可在应用内预览和编辑

预期使用流程:

1. 选择已下载的视频(状态: downloaded)
2. 点击「开始转录」
3. 等待 AI 模型处理(时间取决于视频时长)
4. 在字幕编辑器中检查并修正结果

文字识别(OCR)

文字识别功能提取视频画面中出现的文字信息,例如 PPT 幻灯片、文档内容、屏幕录制中的文字等。

预期功能:

  • 关键帧提取 + OCR 识别
  • 识别结果与时间戳关联
  • 支持识别中英文混排内容

音频处理

人声分离

将视频中的人声与背景音乐/环境音分离,输出独立的人声音频文件。适用于需要重新配音或单独处理人声的场景。

降噪

对原始音频进行降噪处理,改善语音质量,提高后续语音识别的准确率。

批量处理

预期支持队列式批量处理:在素材库中选中多个视频,设置处理流程(下载 → ASR → OCR),加入队列后后台依次执行,不阻塞用户操作。

Fredica — AI 视频工坊