1.4.1 AI 生图 Agent

2025年11月12日
随着 AI 图像生成技术不断突破,越来越多创作者希望自己也能动手搭建一个“文字生成图片”的Agent
今天,我们就用 Dify 来快速实现目标:只需几步,就能让用户输入一句话,自动生成一张独特的图片
Agent体验地址:http://8.137.23.32/chat/ByOkvjkmc5EiFMej
 

1:准备图像生成模型的 API 密钥

 
我们需要使用 Stability.ai 提供的图片生成接口,它支持将文字描述转化为高质量图像
 
  1. 打开上方链接,注册或登录你的账户
选择使用Google登录,没有注册谷歌邮箱的朋友,点击按钮跳转完成注册再回来操作:点击跳转
再次点击Accept
然后会弹出这个界面,我们依次勾选后,点击确认
 
  1. 当前界面就是API Key页面,点击复制
 
 
  1. 回到 Dify 平台,进入工具页面
 
然后在输入框中输入Stability,之后会出现图上的图标,我们点击一下
 
在弹出的窗口中点击去授权
 
输入自己的API key后,点击保存
 
操作成功后,会弹出这样的一个提示框哦
所有官方模型的 API 调用都是需要付费的,部分平台可能提供免费额度(如新用户试用或免费额度)
📌 Stability官方付费详情文档:点击跳转,大家根据自己的需求进行充值购买
 
 

2:配置语言模型供应商

 
为了让用户输入的内容更加精确地转换成图像描述,我们需要一个语言模型来“润色”指令
 
对于访问云端访问来进行Dify的朋友,OpenAI提供了200个免费的消息额度,所以也直接使用即可
用完了的话就需要按照前面的课程进行新的模型配置
 
Dify 支持多个 LLM 平台,比如 OpenAI、Groq、Together 等,在前面的步骤中,我们已经配置好了OpenAI和轨迹流动,所以这一步就不用再配置模型了,没有配置的朋友可以回顾一下如何进行配置课程2:Dify 开发环境搭建
 
 

3:创建你的 AI 生图 Agent

 
现在我们正式进入搭建环节!
 
  1. 回到 Dify,点击「工作室」「创建空白应用」
 
  1. 选择 Agent 类型,命名为「AI 生图助手」或你喜欢的名字,如果有想要的描述也可以像我们一样填写
编辑好之后,点击创建
 
  1. 创建完成后,会进入 Agent 编排界面
 
 
 

配置模型与工具:

 
  • 「大语言模型」部分,选择我们想要使用的模型
 
📌 模型选择
这里我们选择了 Qwen/Qwen2.5-72B-Instruct 这个模型
大家选择的时候一定要注意,使用的大模型要支持工具调用,如果选择的大模型不支持,就会弹出这样的报错
 
大家可以参考一下我们设置的模型参数
 
 
  • 在编排页面的「工具」部分,点击 添加
 
在右侧的弹窗栏中找到我们刚刚添加到 Stability 工具,点击添加
 
添加好就会显示这样
 
 

4:设置 Agent 的提示词(Prompt)

 
提示词是指导 Agent 如何思考与执行的“说明书”
 
 
我们先写一个简单的版本:点击复制提示词
比如,用户说:“画一只坐在星球上的猫”,Agent 就知道要使用图像生成工具并将描述传递下去
 
 

5:上线并测试

 
点击页面右上角「发布」,系统会保存最近更新
同时,你还可以在浏览器中访问这个 Agent,或者分享给朋友试用
这是Dify不同于其他平台的一点,相当于开发了一个开源的网页,不再让智能体局限于只能对接发布到某个平台
 
试试看输入:
二次元风格,画一个穿着制服的机器人在咖啡馆
 
这里可以看到图片已经正常生成了,但是由于我们的提示词过于简单,模型配置也不够全面
Agent暂时无法处理过于复杂的场景来进行绘画,所以需要进一步对Agent进行调试和修改
这里的步骤就交给大家,手把手更改提示词的逻辑、更换新的大模型、修改模型的参数
一步步进行测试,将Agent调试为自己想要的智能体