ollama离线Linux初体验

在无法访问huggingface或公网的Linux环境下，使用ollama，搭配qwen模型体验问答能力。

视频语料自动化治理探索关键要点：

痛点: 公司内部存在大量高质量知识，但当前人工治理效率低下，需要探索自动化方案。
方案: 通过多模态文档文本化、视频文本化、文档与视频自动化关联三个核心流程，实现视频语料的自动化治理。
关键技术:
- 多模态文本解析: 利用 Python 库解析 PPT 和 PDF 文档。
- 视频文本化: 采用 OpenAI Whisper 模型提取视频字幕，并解决超大视频分割和文本润色问题。
- 视频文本定位: 通过视频抽帧、文档转图片、图片对比，定位视频中讲解某一页文档的时间窗口。
  - 图片对比: 使用 OpenCV 的方案效果不佳，改用文字对比方案，并结合 Levenshtein 算法和 Jaro-Winkler 算法，提升了对比精度。
效果: 开发了视频语料治理网站，自动完成 PPT 文本提取、视频定位、口水稿润色，支持多种数据格式

课程视频，分段，whisper转写文字，保留字幕对应时间；视频抽帧，ocr识别文字
课程ppt，python库提取文字，转文字
视频的文字和教材的文字需要建立关联

视频转化的文字存在较多口语化，不便于关联，可以用大模型进行润色，以下是prompt

1
2

如下的文字是视频上的一段字幕,请帮忙把它整理成流畅的文字,整理的时候,要注意:去掉讲师的一些口头禅,文字要保持原意;
需要整理的文字内容如下:XXX

视频文本定位的思路，可以拆解成如下几个步骤：
1）视频抽帧：将视频进行抽帧，如按1s或者2s的速度进行抽帧，抽帧后每秒产生一个视频截图；
2）文档转图片：典型的文档，如PPT或PDF，将其逐页转成图片；