素材处理

尚待开发

本章节介绍的功能均处于规划阶段，当前版本尚未实现。以下内容描述的是预期设计。

素材处理模块负责对已导入的视频进行自动化分析，提取语音、文字等结构化信息，为后续的文稿生成和剪辑提供数据基础。

视频下载

在进行任何处理之前，需要先将视频从来源平台下载到本地。

预期行为：

在素材库中选择一个或多个 pending 状态的视频
点击下载按钮，系统自动从 B 站（或其他来源）下载视频文件
下载完成后，素材状态变为 downloaded，local_video_path 字段记录本地路径

技术说明

视频下载功能需要 Python AI 处理服务（端口 7632）支持，该服务调用相应平台 API 进行下载。

语音识别（ASR）

语音识别功能自动将视频中的人声转录为文字，生成字幕文件。

预期功能：

支持普通话、粤语、英语等多种语言的识别
生成带时间戳的 SRT 字幕文件，保存到 transcript_path 字段指定路径
识别完成后，素材状态升级为 transcribed
字幕结果可在应用内预览和编辑

预期使用流程：

1. 选择已下载的视频（状态: downloaded）
2. 点击「开始转录」
3. 等待 AI 模型处理（时间取决于视频时长）
4. 在字幕编辑器中检查并修正结果

文字识别（OCR）

文字识别功能提取视频画面中出现的文字信息，例如 PPT 幻灯片、文档内容、屏幕录制中的文字等。

预期功能：

关键帧提取 + OCR 识别
识别结果与时间戳关联
支持识别中英文混排内容

音频处理

人声分离

将视频中的人声与背景音乐/环境音分离，输出独立的人声音频文件。适用于需要重新配音或单独处理人声的场景。

降噪

对原始音频进行降噪处理，改善语音质量，提高后续语音识别的准确率。

批量处理

预期支持队列式批量处理：在素材库中选中多个视频，设置处理流程（下载 → ASR → OCR），加入队列后后台依次执行，不阻塞用户操作。

weben

Weben 模块概览

素材处理

视频下载

语音识别（ASR）

文字识别（OCR）

音频处理

人声分离

降噪

批量处理

素材处理 ​

视频下载 ​

语音识别（ASR） ​

文字识别（OCR） ​

音频处理 ​

人声分离 ​

降噪 ​

批量处理 ​

素材处理

视频下载

语音识别（ASR）

文字识别（OCR）

音频处理

人声分离

降噪

批量处理