0%

ollama离线Linux初体验

在无法访问huggingface或公网的Linux环境下,使用ollama,搭配qwen模型体验问答能力。

视频语料自动化治理探索 关键要点:

  • 痛点: 公司内部存在大量高质量知识,但当前人工治理效率低下,需要探索自动化方案。
  • 方案: 通过多模态文档文本化、视频文本化、文档与视频自动化关联三个核心流程,实现视频语料的自动化治理。
  • 关键技术:
    • 多模态文本解析: 利用 Python 库解析 PPT 和 PDF 文档。
    • 视频文本化: 采用 OpenAI Whisper 模型提取视频字幕,并解决超大视频分割和文本润色问题。
    • 视频文本定位: 通过视频抽帧、文档转图片、图片对比,定位视频中讲解某一页文档的时间窗口。
      • 图片对比: 使用 OpenCV 的方案效果不佳,改用文字对比方案,并结合 Levenshtein 算法和 Jaro-Winkler 算法,提升了对比精度。
  • 效果: 开发了视频语料治理网站,自动完成 PPT 文本提取、视频定位、口水稿润色,支持多种数据格式

流程

课程视频,分段,whisper转写文字,保留字幕对应时间;视频抽帧,ocr识别文字
课程ppt,python库提取文字,转文字
视频的文字和教材的文字需要建立关联

视频转化的文字存在较多口语化,不便于关联,可以用大模型进行润色,以下是prompt

1
2
如下的文字是视频上的一段字幕,请帮忙把它整理成流畅的文字,整理的时候,要注意:去掉讲师的一些口头禅,文字要保持原意;
需要整理的文字内容如下:XXX

视频文本定位的思路,可以拆解成如下几个步骤:
1) 视频抽帧:将视频进行抽帧,如按1s或者2s的速度进行抽帧,抽帧后每秒产生一个视频截图;
2) 文档转图片:典型的文档,如PPT或PDF,将其逐页转成图片;