15个实用开源AI项目汇总：从PPT生成到语音克隆

随着大语言模型（LLM）的爆发，GitHub 上涌现了大量优秀的开源 AI 项目。这些项目不仅降低了 AI 技术的使用门槛，还切实解决了许多工作和生活中的痛点。

本文精选了 15 个 偏向实用的开源 AI 项目，涵盖 PPT 自动生成、本地 LLM 交互、应用开发、前端生成、AI 搜索、私有云相册、工作流增强、语音转文字、图像生成、知识库、声音克隆 以及 数据库管理 等领域。无论你是开发者、产品经理还是普通用户，都能从中找到提升效率的利器。

1. Presenton：AI 自动生成 PPT

Presenton 是一个开源的 AI 演示文稿生成器，可以看作是 Gamma、Beautiful.ai 的开源替代品。它完全在本地运行，支持使用 OpenAI、Gemini 或本地 Ollama 模型来生成内容。

GitHub: https://github.com/presenton/presenton
主要功能:
- 多模型支持: 支持 OpenAI, Gemini, Ollama 等多种 LLM 后端。
- 隐私安全: 数据掌握在自己手中，支持本地运行。
- 所见即所得: 生成大纲后可进行编辑，再生成最终幻灯片。
- 导出格式: 支持导出为 PPTX 和 PDF 格式。

快速上手 (Docker)

最简单的部署方式是使用 Docker：

# 使用 OpenAI 作为后端
docker run -it --name presenton \
  -p 5000:80 \
  -e LLM="openai" \
  -e OPENAI_API_KEY="sk-xxxx" \
  -e IMAGE_PROVIDER="dall-e-3" \
  -v "./app_data:/app_data" \
  ghcr.io/presenton/presenton:latest

启动后，访问 http://localhost:5000 即可开始使用。

注意: 如果使用 Ollama 作为后端，建议配备 GPU 以获得更好的生成速度。

2. Open WebUI：功能强大的本地 LLM 界面

Open WebUI（原 Ollama WebUI）是目前最流行的开源 LLM 交互界面之一。它不仅界面美观（类似 ChatGPT），而且功能极其丰富，完美适配 Ollama、OpenAI API 等多种推理后端。

GitHub: https://github.com/open-webui/open-webui
主要功能:
- 全能聊天: 支持多模态（图片上传）、代码高亮、Markdown 渲染。
- RAG 支持: 支持上传文档（PDF, TXT, MD 等），实现基于知识库的问答。
- Web 搜索: 集成搜索引擎，让模型可以联网获取最新信息。
- 多用户管理: 支持多用户注册、角色管理，适合团队内部部署。
- 模型竞技场: 可以同时对比两个模型的输出结果。

快速部署

# 如果你的电脑上有 Nvidia GPU
docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

# 如果没有 GPU (仅运行 WebUI)
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

部署完成后，浏览器访问 http://localhost:3000。

3. Dify：一站式 AI 应用开发平台

如果你想开发自己的 AI 应用（如客服机器人、文章生成器），Dify 是目前最好的开源选择之一。它是一个开源的 LLM 应用开发平台，提供“后端即服务”（Backend-as-a-Service）和可视化的 Prompt 编排。

GitHub: https://github.com/langgenius/dify
主要功能:
- 可视化编排: 通过拖拽节点设计 AI 工作流（Workflow）。
- RAG 引擎: 内置高性能 RAG 管道，支持分段、清洗、索引等全流程。
- Agent 能力: 支持 Function Calling，可以让 AI 调用外部工具。
- API 发布: 一键将设计好的应用发布为 API，方便集成到现有系统。

部署与使用

Dify 提供了 docker-compose 部署方案：

git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
docker compose up -d

启动后访问 http://localhost 即可进入控制台创建应用。

4. Screenshot-to-Code：截图即代码

对于前端开发者来说，Screenshot-to-Code 简直是神一般的存在。你只需要把网页截图（或设计稿）拖进去，它就能利用 GPT-4 Vision 或 Claude 3 Sonnet 瞬间生成对应的 HTML/Tailwind/React 代码。

GitHub: https://github.com/abi/screenshot-to-code
主要功能:
- 多栈支持: 支持 HTML + Tailwind, React, Vue, Bootstrap 等。
- AI 视觉识别: 利用大模型的视觉能力精准还原布局和组件。
- 实时预览: 生成代码的同时实时渲染网页效果。
- 再次编辑: 可以通过对话让 AI 微调生成的代码。

使用方法

你需要拥有 OpenAI API Key (GPT-4 Vision) 或 Anthropic API Key。

git clone https://github.com/abi/screenshot-to-code
cd screenshot-to-code/backend
# 配置 API KEY
echo "OPENAI_API_KEY=sk-..." > .env
poetry install
poetry shell
poetry run uvicorn main:app --reload --port 7001

（同时也需要启动前端服务，详见官方文档）

5. Perplexica：开源 AI 搜索引擎

Perplexica 是 Perplexity AI 的开源替代品。它是一个 AI 驱动的搜索引擎，能够深入互联网搜索信息，并以引经据典的方式回答你的问题。

GitHub: https://github.com/ItzCrazyKns/Perplexica
主要功能:
- 多模式搜索: 支持“学术搜索”、“YouTube 搜索”、“写作模式”等。
- 引用来源: 答案中会明确标注信息来源，减少幻觉。
- 本地模型: 支持使用 Ollama 等本地模型进行推理，保护隐私。
- SearxNG 集成: 使用开源的元搜索引擎 SearxNG 获取搜索结果。

部署

Perplexica 依赖 SearxNG 和后端 LLM（如 Ollama 或 OpenAI API）。

git clone https://github.com/ItzCrazyKns/Perplexica.git
cd Perplexica
# 配置 config.toml
docker compose up -d

6. Immich：AI 加持的私有云相册

Immich 是一个高性能的、自托管的 Google Photos 替代方案。它不仅支持海量照片备份，更重要的是内置了强大的 AI 功能，支持人脸识别和语义搜索（例如搜索“海边的狗”）。

GitHub: https://github.com/immich-app/immich
主要功能:
- 智能搜索: 利用 CLIP 模型，支持自然语言搜索照片内容。
- 人脸聚类: 自动识别并分类照片中的人物。
- 多端同步: 拥有完善的 iOS 和 Android 客户端，支持后台自动备份。
- 高性能: 针对私有部署优化，响应速度极快。

部署

Immich 推荐使用 Docker Compose 部署，虽然组件较多，但官方提供了一键启动配置。

wget -O docker-compose.yml https://github.com/immich-app/immich/releases/latest/download/docker-compose.yml
wget -O .env https://github.com/immich-app/immich/releases/latest/download/example.env
# 修改 .env 中的密码等配置
docker compose up -d

7. Fabric：人类 AI 增强框架

Fabric 不是一个简单的聊天机器人，而是一个旨在“增强人类能力”的开源框架。它由知名安全专家 Daniel Miessler 创建，核心在于收集和优化了大量高质量的 Prompt（称为 Patterns），并通过 CLI 工具让你能随时随地调用 AI 解决具体问题（如提取摘要、分析安全报告、写代码注释）。

GitHub: https://github.com/danielmiessler/fabric
主要功能:
- Patterns 库: 内置数百个经过打磨的 Prompt，涵盖写作、编程、安全分析等。
- CLI 集成: 支持管道操作，例如 cat file.txt | fabric --pattern summarize。
- 多模型支持: 可以连接 OpenAI, Claude, 或本地 Ollama。

安装与使用

# 需要 Go 环境
go install github.com/danielmiessler/fabric@latest
fabric --setup # 配置 API Key
# 使用示例：总结 YouTube 视频字幕
yt --transcript https://youtube.com/watch?v=xxx | fabric --pattern summarize

8. Buzz：本地实时语音转文字

Buzz 是一个基于 OpenAI Whisper 模型的开源桌面软件（支持 Mac/Windows/Linux）。它能利用你电脑的 GPU 进行离线、高精度的语音转文字，甚至支持实时麦克风听写和翻译。

GitHub: https://github.com/chidiwilliams/buzz
主要功能:
- 离线转换: 基于 Whisper，无需联网，保护隐私。
- 实时听写: 支持实时语音转文字，适合会议记录。
- 多语言翻译: 支持将语音直接翻译成英文文本。
- 易用性: 图形化界面，拖拽音频文件即可开始转换。

9. ComfyUI：模块化 AI 绘画工作流

ComfyUI 是目前最强大的 Stable Diffusion 节点式 GUI。它允许你通过拖拽节点的方式构建复杂的图像生成工作流，非常适合进阶用户和开发者探索 AI 绘画的无限可能。

GitHub: https://github.com/comfyanonymous/ComfyUI
主要功能:
- 节点式编辑: 像连线一样设计工作流，逻辑清晰，复用性强。
- 极致优化: 启动速度快，显存占用低，支持 SDXL, SD1.5, SD2.0 等多种模型。
- 社区生态: 拥有海量的自定义节点（Custom Nodes），可以实现 ControlNet, AnimateDiff 等高级功能。
- 工作流分享: 生成的图片自带工作流元数据，拖入界面即可复现。

快速启动

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
# 安装依赖 (推荐使用虚拟环境)
pip install -r requirements.txt
# 启动
python main.py

10. RAGFlow：深度文档理解 RAG 引擎

RAGFlow 是一个基于深度文档理解（DeepDoc）的开源 RAG 引擎。它不仅能检索文本，还能精准识别和解析 PDF 中的表格、图表和复杂布局，大大提升了知识库问答的准确性。

GitHub: https://github.com/infiniflow/ragflow
主要功能:
- 深度文档解析: 针对 PDF、Excel、Word 等格式进行深度结构化解析（OCR + 布局分析）。
- 可视化编排: 支持对解析后的 chunk 进行可视化管理和检索测试。
- 多路召回: 融合关键词检索和向量检索，提高召回率。
- 企业级特性: 支持多租户、权限管理，适合企业内部知识库构建。

部署

1
2
3

git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker
docker compose -f docker-compose-CN.yml up -d

11. GPT-SoVITS：强大的少样本语音转换与 TTS

GPT-SoVITS 是目前开源界效果最惊艳的语音转换（Voice Conversion）和文本转语音（TTS）项目之一。只需要 1 分钟的语音样本，就能训练出高相似度的声音模型，支持中英日韩多语种。

GitHub: https://github.com/RVC-Boss/GPT-SoVITS
主要功能:
- 零样本/少样本推理: 仅需 5 秒样本即可进行零样本 TTS，1 分钟样本可微调提升相似度。
- 跨语言支持: 支持中文、英文、日文混合朗读。
- WebUI 界面: 提供整合包和 Web 界面，操作简单，无需写代码。
- 高音质: 生成的语音自然流畅，情感丰富。

12. Jan：运行在本地的 ChatGPT 替代品

Jan 是一个开源的桌面端 AI 助手（支持 Mac/Windows/Linux），它的目标是成为 ChatGPT 的开源替代品。它允许你在本地下载并运行各种开源模型（如 Llama 3, Mistral），也可以连接 OpenAI 等远程 API。

GitHub: https://github.com/janhq/jan
主要功能:
- 本地优先: 所有聊天记录和模型数据都存储在本地，保护隐私。
- 模型中心: 内置模型下载市场，一键下载运行 GGUF 格式模型。
- 兼容性: 提供兼容 OpenAI 格式的本地 API Server。
- 扩展性: 支持通过扩展（Extensions）增强功能。

13. Upscayl：AI 图片无损放大

Upscayl 是一个免费开源的 AI 图片放大工具，基于 Real-ESRGAN 等模型。它能将模糊的低分辨率图片无损放大 4 倍甚至更多，非常适合修复老照片或提升素材清晰度。

GitHub: https://github.com/upscayl/upscayl
主要功能:
- 一键放大: 拖入图片，选择模型，点击放大，操作极简。
- 本地处理: 利用本地 GPU 进行计算，无需上传图片。
- 多模型选择: 内置多种模型，针对二次元、写实照片等不同场景优化。
- 批量处理: 支持批量导入图片进行放大。

14. Open Interpreter：会写代码的 AI 终端助手

Open Interpreter 是一个让 LLM 在你本地电脑上运行代码的工具。它就像是 ChatGPT 的 Code Interpreter，但运行在你的终端里，可以访问本地文件、网络和系统设置，帮你自动完成各种复杂任务。

GitHub: https://github.com/OpenInterpreter/open-interpreter
主要功能:
- 自然语言控制: 对它说“帮我把桌面上的 PDF 都转成 Word”，它会自动写 Python 代码并执行。
- 全能执行: 支持 Python, JavaScript, Shell 等多种语言。
- 人机协作: 在执行敏感操作前会请求用户确认，安全可控。
- 本地模型: 支持使用 CodeLlama 等本地模型，无需 API Key。

安装

1 2	pip install open-interpreter interpreter

15. Chat2DB：智能数据库客户端

Chat2DB 是一款集成了 AI 能力的数据库管理工具。它打破了传统 SQL 客户端的模式，支持通过自然语言生成 SQL、解释 SQL 以及优化 SQL，大大降低了数据库操作的门槛。

GitHub: https://github.com/chat2db/Chat2DB
主要功能:
- Text2SQL: 用自然语言描述需求，AI 自动生成 SQL 语句。
- SQL 解释: 选中复杂的 SQL，让 AI 帮你解释它的含义。
- 多数据库支持: 支持 MySQL, PostgreSQL, Oracle, SQL Server 等主流数据库。
- 报表生成: 支持将查询结果自动生成简单的图表。