数字人Agent本地搭建完整教程

小马 1小时前 AI运营

数字人Agent最近在抖音上商业落地很成功，有团队用它一天实现了很高的销售额。他们用的正是Pixelle-Video这个开源项目，目前在GitHub上已经有22k星标。

Pixelle-Video是什么？

简单说，它是一款基于ComfyUI的开源数字人视频生成工具，支持三大核心功能：

✅ 数字人口播：AI虚拟主播自动配音
✅ 动作迁移：将真人动作迁移到数字人
✅ 图生视频：静态图片转动态视频

最厉害的地方：Pixelle-Video把视频生产完全做成了可配置。给它一个主题，从写脚本、配图、配音到加BGM、出片，一条龙就跑完一条视频。

技术架构很灵活：文案、画面、配音、剪辑，它拆成四个可替换的模块，每块后面都能换模型，支持本地部署和云端大模型，使用非常方便。

简单总结就是四步：写稿 → 出图 → 配音 → 剪成片。

一、准备清单

1：AI IDE，Cursor、Claude Code、Codex、Trae 随便挑一个，装软件这种烦活直接甩给 AI

2：GitHub 项目地址

3：DeepSeek API Key，写稿用的，官网申请一把 sk 钥匙，充几块钱能用很久。

4：本机电脑，Mac 或 Windows 都行，16G 内存往上；ComfyUI、Edge 配音装完自带，不用另注册。

5：想走云端或者升级画质，再备 RunningHub API、火山方舟 Seedance、可灵、DashScope / OpenAI。本机白嫖的话，这些全空着就行。

二、装软件，这步交给 AI

装软件非常简单，有了 AI ，可以直接无脑做，这块直接甩给 AI 干。

打开你备好的 AI IDE，把下面这段整段复制给它，照它给的命令一步步来。

帮我装好 github.com/AIDC-AI/Pixelle-Video和 ComfyUI，两个都启动。命令一步步给我能直接复制的，报错我发你改。装好告诉我浏览器怎么打开。

怎么判断装好了？

浏览器打开 localhost:xxx，AI 会告诉你本地的地址是哪个的，如果能打开看到 Pixelle-Video 页面；然后再打开 127.0.0.1:8188，能看到 ComfyUI 页面。

两个都出来，就成了。

三、配置 API说明

进软件先点系统配置，这页三大块。框看着多，本机方案其实就动两块，剩下一块全空。照着填就行。

第一块，大语言模型，写稿那个 AI。

最上面快速选择，下拉里挑 DeepSeek。选完它会自动把下面的地址和模型名带出来，省得你手填。

API Key 那栏，粘你的钥匙。点上面那行蓝字获取 API Key，跳官网注册，进密钥页生成一把 sk 开头的，账户里充几块钱就够。

Base URL 自动是 https://api.deepseek.com，别动。Model 那栏选自定义，下面自定义模型名称填 deepseek-chat。填完点旁边测试，弹出成功，钥匙就通了。

第二块，ComfyUI 配置

上面选本地，本机出图走这个。ComfyUI 服务地址填 http://127.0.0.1:8188，刚装的画图引擎默认就在这。点下面测试连接，绿了，软件就找到它了。

ComfyUI API 密钥那栏空着，本机多数情况用不上。再往下 RunningHub 那一截是云端付费的，API 密钥、并发限制、实例规格，本文不走云端，全不用管。

第三块，API 媒体模型，整块都是花钱的，本机白嫖就全空。

打印模型请求参数是给调试用的，不用勾。本地代理那栏，网络好就空着。再往下 OpenAI、火山 ARK、DashScope、可灵这几栏，都是付费生图生视频的钥匙，等你想升级画质了再回来填，现在一个都不碰。

填完拉到最下面点保存。

就动三样，选 DeepSeek 粘钥匙、ComfyUI 地址测连接、保存。

四、开始创建视频

配置搞定，跑第一条片试试。顶上切到快速创作，还是左中右三列。

左边内容输入，先选 AI 生成内容，主题框里写句话，比如「为什么要养成阅读习惯」。下面分镜数填 3，

第一次别贪多，三段几分钟就跑完。背景音乐先选无，变量越少，越好排查问题。

中间分两块。配音选带 Edge 字样的方案，旁边能点预览听一句，不满意换个嗓音。画面选竖屏 default 模板。

图像方案这块，如果你电脑有 NVIDIA 显卡，选 selfhost 开头的工作流，比如 selfhost 的 image\_flux，本机出图不花钱。

Mac 用户没 N 卡跑不了本地出图，老王自己用的是 api 里的 gptimage2，走 OpenAI 接口，一张图几分钱，画面质量比本机 FLUX 稳。在系统配置的 OpenAI 那栏填好 API Key 就可以。

右边一个大按钮，生成视频。点下去，等它把写稿、配图、配音、合成四步跑完，去 output 文件夹拿成片。第一次慢别慌，模型在加载，正常的。

想让画面动起来，不只是一张静态图？模板那栏有 video 开头的选项，选了之后出来的每段分镜是动态视频而不是静态图。

但这块有个前提，视频生成需要 NVIDIA 显卡跑 ComfyUI 视频工作流，或者走 Seedance、可灵这些付费 API。Mac 用户目前老老实实用 image 模板出静态配图，是最好的免费路线。

画质你别期待太高，本机 FLUX 出的图偶尔构图会歪。但拿来试选题、跑量、验证哪条口播稿能打，完全够了。

五、数字人的配置流程

切到数字人口播，界面还是左中右三列，挨个说怎么填。

最左边人物形象上传，正脸清晰的照片拖进去，或者点 Browse files 选。传成功下面会冒出预览图，看到那张脸就对了。

往下配音合成。合成方式这里有个坑，界面默认常常停在 ComfyUI 合成，你得手动点成本地合成。本地合成就是免费的 Edge，开箱即用。选 ComfyUI 合成还得额外挂一套配音流程，没必要。下面参考音频那栏可以空着，除非你想克隆某个人的嗓音，那才传一段他的录音进去。

中间这列服务配置，最关键，两块都要看。

第一块前置图片生成服务，选 RunningHub 云端，下面工作流选 digital\image.json。第二块口播视频合成服务，同样选 RunningHub 云端，工作流选 digital\combination.json。

RunningHub 的 API Key 哪来？回到系统配置页面，RunningHub 那栏填上。没有的话去 RunningHub 官网注册一个，新用户有免费额度，跑数字人够用。配置地址：https://www.runninghub.cn/enterprise-api/consumerApi

再往下选择生成模式，两个选项。带货模式，你填个商品名，AI 帮你写推广词。自定义模式，你自己把要播的话贴进下面那个自定义文本框。想播什么自己说了算，就选自定义，把文案贴进去。

最右边一个大红按钮，生成视频，点下去就开始排队跑了。

老王自己试了一下。传了一张正脸照，配音选的男声专业（云健），语速拉到 1.2x，自定义文本框里随手打了一段口播词。点生成。

等了大概两三分钟，右边进度条走完，提示「正在拼接视频」，然后就出片了。

打开一看。。。这人在动，嘴型在对，表情在跟着文案走。用的就是我传进去的那张脸。

说实话第一次看到的时候有点懵。一张静态照片，加一段文字，它给你合成了一个会说话的人。整个过程没开 PR，没训练模型，没写一行代码，就是填了几个框点了一个按钮。

当然效果不是完美的。嘴型偶尔会飘，头部动作有点机械，远看像那回事，近看还是能看出来是 AI 生成的。但你想想，这玩意以前是什么价位？MCN 报价几万到几十万一套，现在注册个 RunningHub 免费额度就跑出来了。

六、跑不动？对着查

本机配图或配视频失败，先看 ComfyUI 是不是还开着、测试连接通不通、是不是缺哪个模型没下。

跳出来要 api 钥匙，多半是手滑选了 api 或云端方案，改回 selfhost 就好。

数字人跳黄字说没配钥匙，去系统配置把 RunningHub API Key 填上就行。

说到底，Pixelle-Video 把一条视频拆成四块可换的零件。Windows 和 Mac 默认走 DeepSeek 加本机 ComfyUI 加 Edge，出图出视频全在自己电脑上完成，不花云端钱。Seedance、可灵那些，是想做精了再上的档位，不是入门就得交的学费。

以前数字人是 MCN 的生意，一套系统配下来几十万，普通人连门都摸不到。现在一台笔记本加几个开源项目，整条流水线就能跑通。

项目地址：

本内容需要登录后才能查看

版权声明：
作者：小马
链接：https://www.xiaomaw.cn/5899.html
来源：小马博客
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

打赏

扫码阅读

请作者喝杯咖啡

暂无评论，来说点什么吧~

搜索内容

数字人Agent本地搭建完整教程

一、准备清单

二、装软件，这步交给 AI