车讯精选2024年10月11日发布:Tranformer再胜Diffuion!谷歌文本-图像生成模型效率提升十倍

⭐发布日期:2024年10月11日 | 来源:车讯精选

⭐作者:主演: 责任编辑:Admin

⭐阅读量:488 评论:8人

【澳门天天开彩好开奖结果今晚】

【2024天天彩资料澳】

【新澳资料免费最新开奖记录】 【20024新澳天天开好彩大全】 【2024澳门传真图大全最新开奖记录】 【澳门资料大全免费网点澳门五号】 【新澳门天天六开彩】 【2024年新澳正版资料免费大全】 【新奥资料免费精准新奥生肖卡开奖记录查询】 【新澳火麒麟2024资料大全开奖结果记录】
【2024全年资料免费大全开奖结果查询】 【2024新澳资料免费精准】 【新澳精准资料免费提供510期】 【2024新澳正版免费资料】 【新澳门六开彩资料大全网址】 【香港二四六日天天彩】 【新奥门彩天天开奖资料一开奖历史记录】 【二四六香港天天开好彩开奖结果记录】

编辑:LRS

【新智元导读】谷歌带着更强大的图像生成模型来了,依然Transformer!

最近谷歌又发布了全新的文本-图像生成Muse模型,没有采用当下大火的扩散(diffusion)模型,而是采用了经典的Transformer模型就实现了最先进的图像生成性能,相比扩散或自回归(autoregressive)模型,Muse模型的效率也提升非常多。

论文链接:https://arxiv.org/pdf/2301.00704.pdf

项目链接:https://muse-model.github.io/

Muse以masked modeling任务在离散token空间上进行训练:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse的训练过程就是预测随机masked掉的图像token。

与像素空间的扩散模型(如Imagen和DALL-E 2)相比,由于Muse使用了离散的token,只需要较少的采样迭代,所以效率得到了明显提高;

与自回归模型(如Parti)相比,由于Muse使用了并行解码,所以效率更高。

使用预训练好的LLM可以实现细粒度的语言理解,从而转化为高保真的图像生成和对视觉概念的理解,如物体、空间关系、姿态、cardinality等。

在实验结果中,只有900M参数的Muse模型在CC3M上实现了新的SOTA性能,FID分数为6.06。

Muse 3B参数模型在zero-shot COCO评估中实现了7.88的FID,同时还有0.32的CLIP得分。

Muse还可以在不对模型进行微调或反转(invert)直接实现一些图像编辑应用:修复(inpainting)、扩展(outpainting)和无遮罩编辑(mask-free editing)。

Muse模型

Muse模型的框架包含多个组件,训练pipeline由T5-XXL预训练文本编码器,基础模型(base model)和超分辨率模型组成。

1. 预训练文本编码器

与之前研究中得出的结论类似,研究人员发现利用预训练的大型语言模型(LLM)有利于提升高质量图像的生成结果。

比如从语言模型T5-XXL中提取的嵌入(embedding)带有关于物体(名词)、行动(动词)、视觉属性(形容词)、空间关系(介词)以及其他属性(如卡片性和组成)的丰富信息。

所以研究人员提出假设(hypothesis):Muse模型学会将LLM嵌入中的这些丰富的视觉和语义概念映射到生成的图像上。

最近也有一些工作已经证明了,由LLM学习到的概念表征与由视觉任务训练的模型学习的概念表征大致上是可以「线性映射」的。

给定一个输入的文本标题,将其传递给冻结参数的T5-XXL编码器,可以得到一个4096维的语言嵌入向量,然后将这些向量线性地投射到Transformer模型(base和超分辨率)的hidden size维度上。

2. 使用VQGAN进行Semantic Tokenization

VQGAN模型由一个编码器和一个解码器组成,其中的量化层(quantization layer)将输入图像映射成来自一个学习过的codebook的token序列。

然后完全用卷积层建立编码器和解码器,以支持对不同分辨率的图像进行编码。

编码器中包括几个下采样块来减少输入的空间维度,而解码器中则是有相应数量的上采样块来将latents映射回原始图像大小。

研究人员训练了两个VQGAN模型:一个是下采样率f=16,模型在256×256像素的图像上获得基本模型的标记,从而得到空间尺寸为16×16的标记;另一个是下采样率f=8,在512×512的图像上获得超分辨率模型的token,相应的的空间尺寸为64×64。

编码后得到的离散token可以捕捉图像的高层次语义,同时也可以消除低层次的噪声,并且根据token的离散性可以在输出端使用交叉熵损失来预测下一阶段的masked token

3. Base Model

Muse的基础模型是一个masked Transformer,其中输入是映射的T5嵌入和图像token.

研究人员将所有的文本嵌入设置为unmasked,随机mask掉一部分不同的图像token后,用一个特殊的[MASK]标记来代替原token.

然后将图像token线性地映射到所需的Transformer输入或hidden size维度的图像输入embedding中,并同时学习2D position embedding

和原始的Transformer架构一样,包括几个transformer层,使用自注意块、交叉注意力块和MLP块来提取特征。

在输出层,使用一个MLP将每个masked图像嵌入转换为一组logits(对应于VQGAN codebook的大小),并以ground truth的token为目标使用交叉熵损失。

在训练阶段,基础模型的训练目标为预测每一步的所有msked tokens;但在推理阶段,mask预测是以迭代的方式进行的,这种方式可以极大提高质量。

4. 超分辨率模型

研究人员发现,直接预测512×512分辨率的图像会导致模型专注于低层次的细节而非高层次的语义。

使用级联模型(cascade of models)则可以改善这种情况:

首先使用一个生成16×16 latent map(对应256×256的图像)的基础模型;然后是一个超分辨率模型,将基础latent map上采样为64×64(对应512×512的图像)。其中超分辨率模型是在基础模型训练完成后再进行训练的。

如前所述,研究人员总共训练了两个VQGAN模型,一个是16×16潜分辨率和256×256空间分辨率,另一个是64×64潜伏分辨率和512×512空间分辨率。

由于基础模型输出对应于16×16 latent map的token,所以超分辨率模块学会了将低分辨率的latent map 「翻译」成高分辨率的latent map,然后通过高分辨率的VQGAN解码,得到最终的高分辨率图像;该翻译模型也是以类似于基础模型的方式进行text conditioning和交叉注意力的训练。

5. 解码器微调

为了进一步提高模型生成细节的能力,研究人员选择通过增加VQGAN解码器的容量,添加更多的残差层(residual layer)和通道的同时保持编码器的容量不变。

然后对新的解码器进行微调,同时保持VQGAN编码器的权重、codebook和Transformers(即基础模型和超分辨率模型)不变。这种方式能够提高生成图像的视觉质量,而不需要重新训练任何其他的模型组件(因为视觉token保持固定)。

可以看到,经过微调的解码器以重建更多更清晰的细节。

6. 可变掩码率(Masking Rate)

研究人员使用基于Csoine scheduling的可变掩码率来训练模型:对于每个训练例子,从截断的arccos分布中抽出一个掩码率r∈[0,1],其密度函数如下.

掩码率的期望值为0.64,也就是说更偏向于选择更高的掩码率,使得预测问题更加困难。

随机的掩码率不仅对并行采样方案至关重要,而且还能实现一些零散的、开箱即用的编辑功能。

7. Classifier Free Guidance(CFG)

研究人员采用无分类指导(CFG)来提高图像的生成质量和文本-图像对齐。

在训练时,在随机选择的10%的样本上去除文本条件,注意力机制降为图像token本身的自注意力。

在推理阶段,为每个被mask的token计算一个条件logit lc和一个无条件logit lu,然后通过从无条件logit中移出一个量t作为指导尺度,形成最终的logit lg:

直观来看,CFG是以多样性换取保真度,但与以前方法不同的是,Muse通过采样过程线性地增加指导尺度t来减少多样性的损失,使得early token可以在低引导或无引导的情况下更自由地被取样,不过也增加了对later tokens条件提示的影响。

研究人员还利用这一机制,通过将无条件的logit lu替换为以negative prompt为条件的logit,促进了生成图像具有与postive prompt相关的特征。

8. 推理时迭代并行解码

在提升模型推理时间效率的一个关键部分是使用并行解码来预测单个前向通道中的多个输出token,其中一个关键假设是马尔科夫属性,即许多token是有条件地独立于给定的其他token的。

其中解码是根据cosine schedule进行的,选择固定比例中最高置信度的掩码进行预测,其中token在剩余的步中被设定为unmasked,并且适当减少masked tokens。

根据上述过程,就可以在基本模型中只用24个解码步(step)实现对256个token的推理,在超分辨率模型中用8个解码步对4096个token进行推理,相比之下,自回归模型需要256或4096步,扩散模型需要数百步。

虽然最近的一些研究包括progressive distillation、better ODE solver大大减少了扩散模型的采样步骤,但这些方法还没有在大规模的文本到图像生成中得到广泛验证。

实验结果

研究人员以不同的参数量(从600M到3B),基于T5-XXL训练了一系列基础Transformer模型。

生成图像的质量

实验中测试了Muse模型对于不同属性的文本提示的能力,包括对cardinality的基本理解,对于非单数的物体,Muse并没有多次生成相同的物体像素,而是增加了上下文的变化,使整个图像更加真实。

例如,大象的大小和方向、酒瓶包装纸的颜色以及网球的旋转等等。

定量比较

研究人员在CC3M和COCO数据集上与其他研究方法进行了实验对比,指标包括衡量样本质量和多样性的Frechet Inception Distance(FID),以及衡量图像/文本对齐的CLIP得分。

实验结果证明了632M的Muse模型在CC3M上取得了SOTA结果,在FID得分方面得到了改善,同时也取得了最先进的CLIP得分。

在MS-COCO数据集上,3B模型取得了7.88分的FID得分,略好于相似参数量的Parti-3B模型取得的8.1分。

参考资料:

https://arxiv.org/pdf/2301.00704.pdf

【2024年澳门最新正版免费大全开奖结果】 【澳门二四六天天开彩免费资料】
【2024年澳门管家婆免费资料查询】 【新澳好彩免费资料查询】
【新澳精准资料免费提供网站有哪些开奖结果查询】 【2024新澳天天彩免费资料】
【2024澳门天天开彩大全免费】 【2o24新澳门正版挂牌】
【澳门开奖记录开奖结果2024】 【2024澳门天天六开彩今晚开奖号码】
【澳门正版资料全年免费公开精准资料一开奖记录今晚】 【二四六天天彩免费资料大全最新开奖记录查询】 【澳门二四六天下彩天天免费大全开奖结果记录】
上一条新闻 下一条新闻

推荐文章

发表评论

Tove

9秒前:pdf

IP:62.33.5.*

龚正峰

5秒前:00704.

IP:23.85.8.*

鲁桓公

2秒前:在提升模型推理时间效率的一个关键部分是使用并行解码来预测单个前向通道中的多个输出token,其中一个关键假设是马尔科夫属性,即许多token是有条件地独立于给定的其他token的。

IP:94.40.4.*

车讯精选APP介绍

APP图标

2024新澳免费资料彩迷信封APP名:车讯精选

版本:V5.26.918

更新时间:2024-10-10 18:15

澳门最新资料2024年这是一个功能强大的2024澳门精准正板资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:掩码率的期望值为0.

澳门六开彩天天免费开奖APP介绍

APP图标

新澳门2024年资料大全管家婆APP名:车讯精选

版本:V7.85.373

更新时间:2024-10-10 24:24

无论是新澳天天彩免费资料2024老快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

246天天天彩天好彩资料大全二四APP介绍

APP图标

新澳2024年开奖记录APP名:车讯精选

版本:V7.65.565

更新时间:2024-10-10 23:15

新奥好彩免费资料查询应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

新奥门免费资料挂牌大全APP介绍

APP图标

2024年天天彩澳门天天彩2024年澳门APP名:车讯精选

版本:V5.93.265

更新时间:2024-10-10 16:17

新澳2024年精准一肖一这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

新奥彩资料大全APP介绍

APP图标

澳门4949最快开奖结果APP名:车讯精选

版本:V1.82.455

更新时间:2024-10-10 22:14

这是一款功能强大的2024澳门天天彩免费应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:使用级联模型(cascade of models)则可以改善这种情况: 。无论是获取信息还是提升效率,这款APP都是您理想的助手。

澳门正版免费资料大全新闻APP介绍

APP图标

新奥彩免费提供APP名:车讯精选

版本:V7.12.395

更新时间:2024-10-10 17:17

这是一款功能强大的2024年新奥历史记录应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:Classifier Free Guidance(CFG) ,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

新澳天天彩免费资料大全APP介绍

APP图标

2024澳门资料大全免费APP名:车讯精选

版本:V1.24.205

更新时间:2024-10-10 22:20

这是一款功能强大的2024年天天开好彩资料应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:可以看到,经过微调的解码器以重建更多更清晰的细节。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

二四六天天彩资料大全网最新2024APP介绍

APP图标

2023新奥彩资料APP名:车讯精选

版本:V8.79.486

更新时间:2024-10-10 21:15

今天的最新动态包括:这种方式能够提高生成图像的视觉质量,而不需要重新训练任何其他的模型组件(因为视觉token保持固定)。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

二四六天天彩資料大全网APP介绍

APP图标

新澳门彩4949最新开奖记录APP名:车讯精选

版本:V2.96.395

更新时间:2024-10-10 18:23

这是一款功能强大的2024年正版资料免费大全一肖应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:参考资料: 。

2024今晚澳门开什么APP介绍

APP图标

二四六蓝月亮开奖大全全年资料APP名:车讯精选

版本:V1.37.720

更新时间:2024-10-10 19:18

这款功能强大的2024年澳门正版挂牌免费篇应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

2024新澳开奖记录APP介绍

APP图标

2024新澳门正版免费资料APP名:车讯精选

版本:V8.80.857

更新时间:2024-10-10 17:18

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

澳门天天好APP介绍

APP图标

2024年新澳门夭夭好彩APP名:车讯精选

版本:V7.34.727

更新时间:2024-10-10 18:15

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。