整理了 10 个 GitHub 顶级项目。 这不是一份普通的收藏夹,这是一套“单兵作战”的军火库。
核心逻辑很粗暴:用机器的算力,置换你的人力。 大多数人只把它们当玩具,聪明人已经用它们搭建自动化流水线了。
具体清单和用法
一、基建层:本地大模型
1. 算力自主:Ollama + Open WebUI
想用 AI 但不想把数据交给 OpenAI?
• Ollama: 极简方式在本地跑 Llama3、Qwen 等模型。
• Open WebUI: 给本地模型套上一个类似 ChatGPT 的界面,支持多模型切换。
这一套组合,是你搭建本地知识库的底座。零成本,数据绝对安全。
Ollama:
Open WebUI:
二、素材层:暴力提取
2. 原始内容清洗:Whisper + PaddleOCR
做内容最耗时的是整理素材。
• Whisper: OpenAI 开源的语音转文字。扔进去视频,出来就是带时间轴的字幕。准确率极高。
• PaddleOCR: 图片文字提取。不管是 PDF 还是视频硬字幕,暴力识别。
把这两个跑通,信息录入效率至少翻 10 倍。
Whisper:
PaddleOCR:
三、中枢层:自动化
3. 流程自动化:n8n
这就是一个开源版的 Zapier,而且没有昂贵的订阅费。 它的价值在于“连接”。 监控推特 -> 调用 Whisper 转录 -> 调用 Olla
核心逻辑很粗暴:用机器的算力,置换你的人力。 大多数人只把它们当玩具,聪明人已经用它们搭建自动化流水线了。
具体清单和用法
一、基建层:本地大模型
1. 算力自主:Ollama + Open WebUI
想用 AI 但不想把数据交给 OpenAI?
• Ollama: 极简方式在本地跑 Llama3、Qwen 等模型。
• Open WebUI: 给本地模型套上一个类似 ChatGPT 的界面,支持多模型切换。
这一套组合,是你搭建本地知识库的底座。零成本,数据绝对安全。
Ollama:
Open WebUI:
二、素材层:暴力提取
2. 原始内容清洗:Whisper + PaddleOCR
做内容最耗时的是整理素材。
• Whisper: OpenAI 开源的语音转文字。扔进去视频,出来就是带时间轴的字幕。准确率极高。
• PaddleOCR: 图片文字提取。不管是 PDF 还是视频硬字幕,暴力识别。
把这两个跑通,信息录入效率至少翻 10 倍。
Whisper:
PaddleOCR:
三、中枢层:自动化
3. 流程自动化:n8n
这就是一个开源版的 Zapier,而且没有昂贵的订阅费。 它的价值在于“连接”。 监控推特 -> 调用 Whisper 转录 -> 调用 Olla




