随着大语言模型(LLM)的爆发,GitHub 上涌现了大量优秀的开源 AI 项目。这些项目不仅降低了 AI 技术的使用门槛,还切实解决了许多工作和生活中的痛点。

本文精选了 15 个 偏向实用的开源 AI 项目,涵盖 PPT 自动生成本地 LLM 交互应用开发前端生成AI 搜索私有云相册工作流增强语音转文字图像生成知识库声音克隆 以及 数据库管理 等领域。无论你是开发者、产品经理还是普通用户,都能从中找到提升效率的利器。

1. Presenton:AI 自动生成 PPT

Presenton 是一个开源的 AI 演示文稿生成器,可以看作是 Gamma、Beautiful.ai 的开源替代品。它完全在本地运行,支持使用 OpenAI、Gemini 或本地 Ollama 模型来生成内容。

  • GitHub: https://github.com/presenton/presenton
  • 主要功能:
    • 多模型支持: 支持 OpenAI, Gemini, Ollama 等多种 LLM 后端。
    • 隐私安全: 数据掌握在自己手中,支持本地运行。
    • 所见即所得: 生成大纲后可进行编辑,再生成最终幻灯片。
    • 导出格式: 支持导出为 PPTX 和 PDF 格式。

快速上手 (Docker)

最简单的部署方式是使用 Docker:

1
2
3
4
5
6
7
8
# 使用 OpenAI 作为后端
docker run -it --name presenton \
-p 5000:80 \
-e LLM="openai" \
-e OPENAI_API_KEY="sk-xxxx" \
-e IMAGE_PROVIDER="dall-e-3" \
-v "./app_data:/app_data" \
ghcr.io/presenton/presenton:latest

启动后,访问 http://localhost:5000 即可开始使用。

注意: 如果使用 Ollama 作为后端,建议配备 GPU 以获得更好的生成速度。

2. Open WebUI:功能强大的本地 LLM 界面

Open WebUI(原 Ollama WebUI)是目前最流行的开源 LLM 交互界面之一。它不仅界面美观(类似 ChatGPT),而且功能极其丰富,完美适配 Ollama、OpenAI API 等多种推理后端。

  • GitHub: https://github.com/open-webui/open-webui
  • 主要功能:
    • 全能聊天: 支持多模态(图片上传)、代码高亮、Markdown 渲染。
    • RAG 支持: 支持上传文档(PDF, TXT, MD 等),实现基于知识库的问答。
    • Web 搜索: 集成搜索引擎,让模型可以联网获取最新信息。
    • 多用户管理: 支持多用户注册、角色管理,适合团队内部部署。
    • 模型竞技场: 可以同时对比两个模型的输出结果。

快速部署

1
2
3
4
5
# 如果你的电脑上有 Nvidia GPU
docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

# 如果没有 GPU (仅运行 WebUI)
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

部署完成后,浏览器访问 http://localhost:3000

3. Dify:一站式 AI 应用开发平台

如果你想开发自己的 AI 应用(如客服机器人、文章生成器),Dify 是目前最好的开源选择之一。它是一个开源的 LLM 应用开发平台,提供“后端即服务”(Backend-as-a-Service)和可视化的 Prompt 编排。

  • GitHub: https://github.com/langgenius/dify
  • 主要功能:
    • 可视化编排: 通过拖拽节点设计 AI 工作流(Workflow)。
    • RAG 引擎: 内置高性能 RAG 管道,支持分段、清洗、索引等全流程。
    • Agent 能力: 支持 Function Calling,可以让 AI 调用外部工具。
    • API 发布: 一键将设计好的应用发布为 API,方便集成到现有系统。

部署与使用

Dify 提供了 docker-compose 部署方案:

1
2
3
4
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
docker compose up -d

启动后访问 http://localhost 即可进入控制台创建应用。

4. Screenshot-to-Code:截图即代码

对于前端开发者来说,Screenshot-to-Code 简直是神一般的存在。你只需要把网页截图(或设计稿)拖进去,它就能利用 GPT-4 Vision 或 Claude 3 Sonnet 瞬间生成对应的 HTML/Tailwind/React 代码。

  • GitHub: https://github.com/abi/screenshot-to-code
  • 主要功能:
    • 多栈支持: 支持 HTML + Tailwind, React, Vue, Bootstrap 等。
    • AI 视觉识别: 利用大模型的视觉能力精准还原布局和组件。
    • 实时预览: 生成代码的同时实时渲染网页效果。
    • 再次编辑: 可以通过对话让 AI 微调生成的代码。

使用方法

你需要拥有 OpenAI API Key (GPT-4 Vision) 或 Anthropic API Key。

1
2
3
4
5
6
7
git clone https://github.com/abi/screenshot-to-code
cd screenshot-to-code/backend
# 配置 API KEY
echo "OPENAI_API_KEY=sk-..." > .env
poetry install
poetry shell
poetry run uvicorn main:app --reload --port 7001

(同时也需要启动前端服务,详见官方文档)

5. Perplexica:开源 AI 搜索引擎

Perplexica 是 Perplexity AI 的开源替代品。它是一个 AI 驱动的搜索引擎,能够深入互联网搜索信息,并以引经据典的方式回答你的问题。

  • GitHub: https://github.com/ItzCrazyKns/Perplexica
  • 主要功能:
    • 多模式搜索: 支持“学术搜索”、“YouTube 搜索”、“写作模式”等。
    • 引用来源: 答案中会明确标注信息来源,减少幻觉。
    • 本地模型: 支持使用 Ollama 等本地模型进行推理,保护隐私。
    • SearxNG 集成: 使用开源的元搜索引擎 SearxNG 获取搜索结果。

部署

Perplexica 依赖 SearxNG 和 后端 LLM(如 Ollama 或 OpenAI API)。

1
2
3
4
git clone https://github.com/ItzCrazyKns/Perplexica.git
cd Perplexica
# 配置 config.toml
docker compose up -d

6. Immich:AI 加持的私有云相册

Immich 是一个高性能的、自托管的 Google Photos 替代方案。它不仅支持海量照片备份,更重要的是内置了强大的 AI 功能,支持人脸识别和语义搜索(例如搜索“海边的狗”)。

  • GitHub: https://github.com/immich-app/immich
  • 主要功能:
    • 智能搜索: 利用 CLIP 模型,支持自然语言搜索照片内容。
    • 人脸聚类: 自动识别并分类照片中的人物。
    • 多端同步: 拥有完善的 iOS 和 Android 客户端,支持后台自动备份。
    • 高性能: 针对私有部署优化,响应速度极快。

部署

Immich 推荐使用 Docker Compose 部署,虽然组件较多,但官方提供了一键启动配置。

1
2
3
4
wget -O docker-compose.yml https://github.com/immich-app/immich/releases/latest/download/docker-compose.yml
wget -O .env https://github.com/immich-app/immich/releases/latest/download/example.env
# 修改 .env 中的密码等配置
docker compose up -d

7. Fabric:人类 AI 增强框架

Fabric 不是一个简单的聊天机器人,而是一个旨在“增强人类能力”的开源框架。它由知名安全专家 Daniel Miessler 创建,核心在于收集和优化了大量高质量的 Prompt(称为 Patterns),并通过 CLI 工具让你能随时随地调用 AI 解决具体问题(如提取摘要、分析安全报告、写代码注释)。

  • GitHub: https://github.com/danielmiessler/fabric
  • 主要功能:
    • Patterns 库: 内置数百个经过打磨的 Prompt,涵盖写作、编程、安全分析等。
    • CLI 集成: 支持管道操作,例如 cat file.txt | fabric --pattern summarize
    • 多模型支持: 可以连接 OpenAI, Claude, 或本地 Ollama。

安装与使用

1
2
3
4
5
# 需要 Go 环境
go install github.com/danielmiessler/fabric@latest
fabric --setup # 配置 API Key
# 使用示例:总结 YouTube 视频字幕
yt --transcript https://youtube.com/watch?v=xxx | fabric --pattern summarize

8. Buzz:本地实时语音转文字

Buzz 是一个基于 OpenAI Whisper 模型的开源桌面软件(支持 Mac/Windows/Linux)。它能利用你电脑的 GPU 进行离线、高精度的语音转文字,甚至支持实时麦克风听写和翻译。

  • GitHub: https://github.com/chidiwilliams/buzz
  • 主要功能:
    • 离线转换: 基于 Whisper,无需联网,保护隐私。
    • 实时听写: 支持实时语音转文字,适合会议记录。
    • 多语言翻译: 支持将语音直接翻译成英文文本。
    • 易用性: 图形化界面,拖拽音频文件即可开始转换。

9. ComfyUI:模块化 AI 绘画工作流

ComfyUI 是目前最强大的 Stable Diffusion 节点式 GUI。它允许你通过拖拽节点的方式构建复杂的图像生成工作流,非常适合进阶用户和开发者探索 AI 绘画的无限可能。

  • GitHub: https://github.com/comfyanonymous/ComfyUI
  • 主要功能:
    • 节点式编辑: 像连线一样设计工作流,逻辑清晰,复用性强。
    • 极致优化: 启动速度快,显存占用低,支持 SDXL, SD1.5, SD2.0 等多种模型。
    • 社区生态: 拥有海量的自定义节点(Custom Nodes),可以实现 ControlNet, AnimateDiff 等高级功能。
    • 工作流分享: 生成的图片自带工作流元数据,拖入界面即可复现。

快速启动

1
2
3
4
5
6
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
# 安装依赖 (推荐使用虚拟环境)
pip install -r requirements.txt
# 启动
python main.py

10. RAGFlow:深度文档理解 RAG 引擎

RAGFlow 是一个基于深度文档理解(DeepDoc)的开源 RAG 引擎。它不仅能检索文本,还能精准识别和解析 PDF 中的表格、图表和复杂布局,大大提升了知识库问答的准确性。

  • GitHub: https://github.com/infiniflow/ragflow
  • 主要功能:
    • 深度文档解析: 针对 PDF、Excel、Word 等格式进行深度结构化解析(OCR + 布局分析)。
    • 可视化编排: 支持对解析后的 chunk 进行可视化管理和检索测试。
    • 多路召回: 融合关键词检索和向量检索,提高召回率。
    • 企业级特性: 支持多租户、权限管理,适合企业内部知识库构建。

部署

1
2
3
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker
docker compose -f docker-compose-CN.yml up -d

11. GPT-SoVITS:强大的少样本语音转换与 TTS

GPT-SoVITS 是目前开源界效果最惊艳的语音转换(Voice Conversion)和文本转语音(TTS)项目之一。只需要 1 分钟的语音样本,就能训练出高相似度的声音模型,支持中英日韩多语种。

  • GitHub: https://github.com/RVC-Boss/GPT-SoVITS
  • 主要功能:
    • 零样本/少样本推理: 仅需 5 秒样本即可进行零样本 TTS,1 分钟样本可微调提升相似度。
    • 跨语言支持: 支持中文、英文、日文混合朗读。
    • WebUI 界面: 提供整合包和 Web 界面,操作简单,无需写代码。
    • 高音质: 生成的语音自然流畅,情感丰富。

12. Jan:运行在本地的 ChatGPT 替代品

Jan 是一个开源的桌面端 AI 助手(支持 Mac/Windows/Linux),它的目标是成为 ChatGPT 的开源替代品。它允许你在本地下载并运行各种开源模型(如 Llama 3, Mistral),也可以连接 OpenAI 等远程 API。

  • GitHub: https://github.com/janhq/jan
  • 主要功能:
    • 本地优先: 所有聊天记录和模型数据都存储在本地,保护隐私。
    • 模型中心: 内置模型下载市场,一键下载运行 GGUF 格式模型。
    • 兼容性: 提供兼容 OpenAI 格式的本地 API Server。
    • 扩展性: 支持通过扩展(Extensions)增强功能。

13. Upscayl:AI 图片无损放大

Upscayl 是一个免费开源的 AI 图片放大工具,基于 Real-ESRGAN 等模型。它能将模糊的低分辨率图片无损放大 4 倍甚至更多,非常适合修复老照片或提升素材清晰度。

  • GitHub: https://github.com/upscayl/upscayl
  • 主要功能:
    • 一键放大: 拖入图片,选择模型,点击放大,操作极简。
    • 本地处理: 利用本地 GPU 进行计算,无需上传图片。
    • 多模型选择: 内置多种模型,针对二次元、写实照片等不同场景优化。
    • 批量处理: 支持批量导入图片进行放大。

14. Open Interpreter:会写代码的 AI 终端助手

Open Interpreter 是一个让 LLM 在你本地电脑上运行代码的工具。它就像是 ChatGPT 的 Code Interpreter,但运行在你的终端里,可以访问本地文件、网络和系统设置,帮你自动完成各种复杂任务。

  • GitHub: https://github.com/OpenInterpreter/open-interpreter
  • 主要功能:
    • 自然语言控制: 对它说“帮我把桌面上的 PDF 都转成 Word”,它会自动写 Python 代码并执行。
    • 全能执行: 支持 Python, JavaScript, Shell 等多种语言。
    • 人机协作: 在执行敏感操作前会请求用户确认,安全可控。
    • 本地模型: 支持使用 CodeLlama 等本地模型,无需 API Key。

安装

1
2
pip install open-interpreter
interpreter

15. Chat2DB:智能数据库客户端

Chat2DB 是一款集成了 AI 能力的数据库管理工具。它打破了传统 SQL 客户端的模式,支持通过自然语言生成 SQL、解释 SQL 以及优化 SQL,大大降低了数据库操作的门槛。

  • GitHub: https://github.com/chat2db/Chat2DB
  • 主要功能:
    • Text2SQL: 用自然语言描述需求,AI 自动生成 SQL 语句。
    • SQL 解释: 选中复杂的 SQL,让 AI 帮你解释它的含义。
    • 多数据库支持: 支持 MySQL, PostgreSQL, Oracle, SQL Server 等主流数据库。
    • 报表生成: 支持将查询结果自动生成简单的图表。

总结

本文为您汇总了 15 个实用的开源 AI 项目,覆盖了从生产力工具到基础设施的方方面面:

  1. Presenton: 搞定 PPT。
  2. Open WebUI: 搞定 LLM 聊天界面。
  3. Dify: 搞定 AI 应用开发。
  4. Screenshot-to-Code: 搞定前端切图。
  5. Perplexica: 搞定智能搜索。
  6. Immich: 搞定照片管理与 AI 搜索。
  7. Fabric: 搞定日常任务的 AI 增强与 Prompt 管理。
  8. Buzz: 搞定语音转文字与会议记录。
  9. ComfyUI: 搞定专业 AI 绘画工作流。
  10. RAGFlow: 搞定复杂文档的深度解析与问答。
  11. GPT-SoVITS: 搞定声音克隆与配音。
  12. Jan: 搞定小白友好的本地 AI 助手。
  13. Upscayl: 搞定图片高清放大。
  14. Open Interpreter: 搞定自动化脚本编写与执行。
  15. Chat2DB: 搞定数据库 SQL 编写。

这些项目大多支持 Docker 快速部署,建议挑一个最感兴趣的现在就动手试试!

本文由 AI 辅助生成,如有错误或建议,欢迎指出。