AI 生图 Agent - dify工作流教程 - work流码 - Coze/n8n/Dify零基础实战指南

随着 AI 图像生成技术不断突破，越来越多创作者希望自己也能动手搭建一个“文字生成图片”的Agent

今天，我们就用 Dify 来快速实现目标：只需几步，就能让用户输入一句话，自动生成一张独特的图片

Agent体验地址：http://8.137.23.32/chat/ByOkvjkmc5EiFMej

1：准备图像生成模型的 API 密钥

我们需要使用 Stability.ai 提供的图片生成接口，它支持将文字描述转化为高质量图像

打开上方链接，注册或登录你的账户

选择使用Google登录，没有注册谷歌邮箱的朋友，点击按钮跳转完成注册再回来操作：点击跳转

再次点击Accept

然后会弹出这个界面，我们依次勾选后，点击确认

当前界面就是API Key页面，点击复制

回到 Dify 平台，进入工具页面

然后在输入框中输入Stability，之后会出现图上的图标，我们点击一下

在弹出的窗口中点击去授权

输入自己的API key后，点击保存

操作成功后，会弹出这样的一个提示框哦

所有官方模型的 API 调用都是需要付费的，部分平台可能提供免费额度（如新用户试用或免费额度）

📌 Stability官方付费详情文档：点击跳转，大家根据自己的需求进行充值购买

2：配置语言模型供应商

为了让用户输入的内容更加精确地转换成图像描述，我们需要一个语言模型来“润色”指令

对于访问云端访问来进行Dify的朋友，OpenAI提供了200个免费的消息额度，所以也直接使用即可

用完了的话就需要按照前面的课程进行新的模型配置

Dify 支持多个 LLM 平台，比如 OpenAI、Groq、Together 等，在前面的步骤中，我们已经配置好了OpenAI和轨迹流动，所以这一步就不用再配置模型了，没有配置的朋友可以回顾一下如何进行配置课程2：Dify 开发环境搭建

3：创建你的 AI 生图 Agent

现在我们正式进入搭建环节！

回到 Dify，点击「工作室」→「创建空白应用」

选择 Agent 类型，命名为「AI 生图助手」或你喜欢的名字，如果有想要的描述也可以像我们一样填写

编辑好之后，点击创建

创建完成后，会进入 Agent 编排界面

配置模型与工具：

在「大语言模型」部分，选择我们想要使用的模型

📌 模型选择

这里我们选择了 Qwen/Qwen2.5-72B-Instruct 这个模型

大家选择的时候一定要注意，使用的大模型要支持工具调用，如果选择的大模型不支持，就会弹出这样的报错

大家可以参考一下我们设置的模型参数

在编排页面的「工具」部分，点击添加

在右侧的弹窗栏中找到我们刚刚添加到 Stability 工具，点击添加

添加好就会显示这样

4：设置 Agent 的提示词（Prompt）

提示词是指导 Agent 如何思考与执行的“说明书”

我们先写一个简单的版本：点击复制提示词

你的任务是根据用户的描述，调用 stability_text2image 工具，生成对应风格的图像。

比如，用户说：“画一只坐在星球上的猫”，Agent 就知道要使用图像生成工具并将描述传递下去

5：上线并测试

点击页面右上角「发布」，系统会保存最近更新

同时，你还可以在浏览器中访问这个 Agent，或者分享给朋友试用

这是Dify不同于其他平台的一点，相当于开发了一个开源的网页，不再让智能体局限于只能对接发布到某个平台

试试看输入：

二次元风格，画一个穿着制服的机器人在咖啡馆

这里可以看到图片已经正常生成了，但是由于我们的提示词过于简单，模型配置也不够全面

Agent暂时无法处理过于复杂的场景来进行绘画，所以需要进一步对Agent进行调试和修改

这里的步骤就交给大家，手把手更改提示词的逻辑、更换新的大模型、修改模型的参数

一步步进行测试，将Agent调试为自己想要的智能体

课程目录

1.4.1 AI 生图 Agent