随着 AI 图像生成技术不断突破,越来越多创作者希望自己也能动手搭建一个“文字生成图片”的Agent
今天,我们就用 Dify 来快速实现目标:只需几步,就能让用户输入一句话,自动生成一张独特的图片
Agent体验地址:http://8.137.23.32/chat/ByOkvjkmc5EiFMej
1:准备图像生成模型的 API 密钥
我们需要使用 Stability.ai 提供的图片生成接口,它支持将文字描述转化为高质量图像
-
打开上方链接,注册或登录你的账户
选择使用Google登录,没有注册谷歌邮箱的朋友,点击按钮跳转完成注册再回来操作:点击跳转
再次点击Accept
然后会弹出这个界面,我们依次勾选后,点击确认
-
当前界面就是API Key页面,点击复制

-
回到 Dify 平台,进入工具页面

然后在输入框中输入Stability,之后会出现图上的图标,我们点击一下

在弹出的窗口中点击去授权

输入自己的API key后,点击保存

操作成功后,会弹出这样的一个提示框哦

所有官方模型的 API 调用都是需要付费的,部分平台可能提供免费额度(如新用户试用或免费额度)📌 Stability官方付费详情文档:点击跳转,大家根据自己的需求进行充值购买
2:配置语言模型供应商
为了让用户输入的内容更加精确地转换成图像描述,我们需要一个语言模型来“润色”指令

对于访问云端访问来进行Dify的朋友,OpenAI提供了200个免费的消息额度,所以也直接使用即可
用完了的话就需要按照前面的课程进行新的模型配置
Dify 支持多个 LLM 平台,比如 OpenAI、Groq、Together 等,在前面的步骤中,我们已经配置好了OpenAI和轨迹流动,所以这一步就不用再配置模型了,没有配置的朋友可以回顾一下如何进行配置
3:创建你的 AI 生图 Agent
现在我们正式进入搭建环节!
-
回到 Dify,点击「工作室」→「创建空白应用」

-
选择 Agent 类型,命名为「AI 生图助手」或你喜欢的名字,如果有想要的描述也可以像我们一样填写

编辑好之后,点击创建

-
创建完成后,会进入 Agent 编排界面

配置模型与工具:
-
在「大语言模型」部分,选择我们想要使用的模型

📌 模型选择
这里我们选择了 Qwen/Qwen2.5-72B-Instruct 这个模型
大家选择的时候一定要注意,使用的大模型要支持工具调用,如果选择的大模型不支持,就会弹出这样的报错

大家可以参考一下我们设置的模型参数

-
在编排页面的「工具」部分,点击 添加

在右侧的弹窗栏中找到我们刚刚添加到 Stability 工具,点击添加

添加好就会显示这样

4:设置 Agent 的提示词(Prompt)
提示词是指导 Agent 如何思考与执行的“说明书”
我们先写一个简单的版本:点击复制提示词
你的任务是根据用户的描述,调用 stability_text2image 工具,生成对应风格的图像。
比如,用户说:“画一只坐在星球上的猫”,Agent 就知道要使用图像生成工具并将描述传递下去
5:上线并测试
点击页面右上角「发布」,系统会保存最近更新
同时,你还可以在浏览器中访问这个 Agent,或者分享给朋友试用
这是Dify不同于其他平台的一点,相当于开发了一个开源的网页,不再让智能体局限于只能对接发布到某个平台

试试看输入:
二次元风格,画一个穿着制服的机器人在咖啡馆

这里可以看到图片已经正常生成了,但是由于我们的提示词过于简单,模型配置也不够全面
Agent暂时无法处理过于复杂的场景来进行绘画,所以需要进一步对Agent进行调试和修改
这里的步骤就交给大家,手把手更改提示词的逻辑、更换新的大模型、修改模型的参数
一步步进行测试,将Agent调试为自己想要的智能体
