在无法访问huggingface或公网的Linux环境下,使用ollama,搭配qwen模型体验问答能力。
视频语料自动化治理探索 关键要点:
- 痛点: 公司内部存在大量高质量知识,但当前人工治理效率低下,需要探索自动化方案。
- 方案: 通过多模态文档文本化、视频文本化、文档与视频自动化关联三个核心流程,实现视频语料的自动化治理。
- 关键技术:
- 多模态文本解析: 利用 Python 库解析 PPT 和 PDF 文档。
- 视频文本化: 采用 OpenAI Whisper 模型提取视频字幕,并解决超大视频分割和文本润色问题。
- 视频文本定位: 通过视频抽帧、文档转图片、图片对比,定位视频中讲解某一页文档的时间窗口。
- 图片对比: 使用 OpenCV 的方案效果不佳,改用文字对比方案,并结合 Levenshtein 算法和 Jaro-Winkler 算法,提升了对比精度。
- 效果: 开发了视频语料治理网站,自动完成 PPT 文本提取、视频定位、口水稿润色,支持多种数据格式
流程
课程视频,分段,whisper转写文字,保留字幕对应时间;视频抽帧,ocr识别文字
课程ppt,python库提取文字,转文字
视频的文字和教材的文字需要建立关联
视频转化的文字存在较多口语化,不便于关联,可以用大模型进行润色,以下是prompt
1 | 如下的文字是视频上的一段字幕,请帮忙把它整理成流畅的文字,整理的时候,要注意:去掉讲师的一些口头禅,文字要保持原意; |
视频文本定位的思路,可以拆解成如下几个步骤:
1) 视频抽帧:将视频进行抽帧,如按1s或者2s的速度进行抽帧,抽帧后每秒产生一个视频截图;
2) 文档转图片:典型的文档,如PPT或PDF,将其逐页转成图片;