类型:扩展AI
更新时间:2025-06-05 09:59:33简介最新
DeepFloyd IF,StabilityAI推出的图片生成模型
放心AI网·扩展AI栏目来啦!小编带你挖掘那些小众但超好用的AI神器,错过就亏大啦~
DeepFloydIF官网,StabilityAI推出的图片生成模型
DeepFloydIF采用了大规模模型,这是由StabilityAI
与其多模态AI研究实验室DeepFloyd
合作发布的一种研究型文本到图像级联像素扩散模型。DeepFloydIF是一款最新的文本到图像模型,它以非商业的、可进行研究的许可下发布,为研究实验室提供了一个机会,使他们能够探索和试验先进的文本到图像生成方法。DeepFloydIF官网:https://deepfloyd.ai/deepfloyd-if
github项目开源地址:https://github.com/deep-floyd
huggingface
在线体验:https://huggingface.co/spaces/DeepFloyd/IF
使用所有IFmodel的最低要求:
用于IF-I-XL(4.3Btextto64×64basemodule)和IF-II-L(1.2Bto256×256upscalermodule)的16GBvRAM
用于 IF-I-XL(4.3Btextto64×64basemodule)、IF-II-L(1.2Bto256×256upscalermodule)和Stablex4(to1024×1024upscaler)的24GBvRAM
xformers并设置环境变量FORCE_MEM_EFFICITE_ATTN=1
DeepFloydIF是一种先进的开源文本生成图像模型(Text-to-Image),具备高度逼真的图像生成能力和语言理解能力。
DeepFloydIF由一个冻结的文本编码器和三个级联像素扩散模块组成。首先,基础模型用于生成64×64像素的图像。然后,两个超分辨率模型分别用于生成分辨率逐步提高的图像,分别为256×256像素和1024×1024像素。
整个模型的各个阶段都利用了基于T5transformer的冻结文本编码器,以提取文本嵌入。随后,这些嵌入被输入到采用交叉注意力和注意力池增强的UNet架构中。
结果是一个高效的模型,其性能优于目前最先进的模型。在COCO数据集上,DeepFloydIF实现了6.66的零样本FID(FréchetInceptionDistance)得分,进一步证明了其出色的性能。此外,研究人员的工作还强调了在扩散模型的第一阶段使用更大的UNet架构的潜力,并展示了文本生成图像的前景。
DeepFloydIF的灵感来源于具备深度语言理解和逼真性的Text2Image扩散模型。通过提供这样一个先进的文本到图像生成模型,DeepFloydIF为研究实验室和学术界提供了一个有价值的工具,用于进一步探索和推动文本到图像领域的研究。
这种先进的文本生成图像模型为用户提供了更多创作和表达的可能性。无论是在创作艺术作品、设计场景还是生成逼真的图像样本,DeepFloydIF都为用户提供了强大的功能和灵活性。随着这一领域的不断发展,我们可以期待看到更多基于文本的图像生成模型的出现,并为创意产业和学术界带来新的突破和创新。
以上就是放心AI网扩展AI栏目的全部推荐!这些隐藏好货,小编下次继续帮你淘!