【风格迁移】CAST:对比学习,从图像特征而非其二阶统计量(Gram矩阵)中学习风格

news/发布时间2024/9/20 8:48:00

CAST:对比学习,从图像特征而非其二阶统计量(Gram矩阵)中学习风格

    • 提出背景
      • 5 why 分析
      • 5 so分析
    • CAST 框架
      • 多层风格投影器
      • 领域增强模块
      • 生成网络
    • 效果
    • 对比 StyleGAN

 


提出背景

论文:https://arxiv.org/pdf/2205.09542.pdf

代码:https://github.com/zyxElsa/CAST_pytorch.

 
面对任意图像风格转换的问题,错误的认知是仅仅依赖于传统的深度学习方法和二阶统计量(如Gram矩阵)足以实现高质量的风格迁移。

然而,这种方法往往忽略了风格的复杂性和多样性,导致风格不一致和局部失真的问题。

5 why 分析

Why 1: 为什么需要捕获并转移艺术图像的局部笔触特征和整体外观?

  • 因为艺术风格的细节和整体感觉对于风格化图像的视觉冲击和艺术表现至关重要。

Why 2: 这些特征为什么难以捕获和转移?

  • 传统风格转换方法可能无法充分理解和复现艺术作品的深层风格特征和复杂的视觉模式。

Why 3: 为什么传统方法无法充分理解和复现这些特征?

  • 传统方法可能过于依赖全局特征的统计数据,而没有考虑到局部细节和多层次的风格表示。

Why 4: 为什么会过于依赖这些统计数据?

  • 以前的研究可能没有充分利用深度学习和对比学习等现代技术来提取更丰富的特征表示。

Why 5: 最根本的原因是什么?

  • 缺乏一个综合性框架来利用多层次风格特征,并通过对比学习优化这些特征的表示和转移。

5 so分析

So 1: 因此,我们可以怎样解决或改进?

  • 我们可以开发一个包含多层次风格投影器的框架,该框架可以编码不同层次的风格细节。

So 2: 这个解决方案或改进会带来什么结果?

  • 这将使我们能够更精确地捕获和表达艺术图像的风格,从而在风格转移时保留更多细节。

So 3: 这个结果会如何影响整个系统或过程?

  • 通过提高风格转移的精确度,我们可以生成更具吸引力和艺术性的风格化图像,提升用户体验。

So 4: 进一步的影响是什么?

  • 增强的用户体验和高质量的风格化图像将推动艺术风格转换技术在设计、娱乐和教育等领域的应用。

So 5: 最终,我们希望达到什么目标或状态?

  • 我们希望开发出一种高效的、可扩展的任意风格转换技术,它能够广泛应用于各种不同的艺术风格,并被广泛用于实际应用和研究。

CAST 框架

在这里插入图片描述
基于编码器-变换器-解码器的生成器(G)、多层风格投影器(MSP)模块和领域增强模块组成。

描述了流程,包括如何将内容(I_c)和风格(I_s)图像输入到MSP模块生成风格代码,这些代码随后用于风格对比学习过程。

还显示了用于对抗性训练和循环一致性训练的鉴别器(D_A和D_R),这是生成对抗网络(GANs)中典型的组件。

 

CAST = 特征1 (多层风格投影器) + 特征2 (领域增强模块) + 特征3 (生成网络)

开始于风格特征的精确提取(多层风格投影器),接着通过(领域增强模块)对这些特征进行分析和增强,最后通过(生成网络)实现风格的应用和转换。

“多层风格投影器”、“领域增强模块”和“生成网络”的设计背后是,对比学习和利用全面的视觉特征:

  1. 引入对比学习

    • 多层风格投影器:在这个阶段,对比学习帮助模型识别和编码来自不同风格源的独特视觉特征。通过对比不同风格之间的特征,模型能够更准确地提取和编码风格表示,从而捕捉风格的细微差异。
    • 领域增强模块:利用对比学习进一步细化风格表示,确保模型能够处理风格之间的多样性和复杂性,从而增强风格转换的一致性和准确性。
    • 生成网络:在生成过程中,对比学习方法可以帮助模型更好地匹配风格特征和内容特征,避免在风格迁移时产生失真或不自然的效果。
  2. 利用全面的视觉特征

    • 在整个风格转换框架中,从多层风格投影器到生成网络的每一步,都依赖于对全面视觉特征的深入分析和应用。

     
    这包括不仅仅是浅层的纹理和颜色特征,也包括深层的形状和结构特征,以及它们在不同风格中的变化。

多层风格投影器

举个例子,将一张普通照片转换为具有梵高《星夜》风格的图像:

  1. 多层风格投影器:首先,系统利用对比学习从《星夜》和原始照片中提取风格和内容特征。

    这一步骤不仅捕捉了《星夜》的颜色和纹理,还识别了其特有的笔触和动态效果。

  • 特征1:深度特征提取和编码,用于捕获风格图像和内容图像的高层次特征。
  • 特征2: 对比学习在特征编码中的应用,用于强化风格特征的区分度和表达力。
  • 原因: 选择深度特征提取是因为任意风格转换需要理解图像的高级语义信息;选择对比学习是因为它能够通过比较不同图像间的特征差异,有效地学习风格特征的独特性。

在这里插入图片描述

领域增强模块

  1. 领域增强模块:随后,通过分析《星夜》的风格特征与普通照片风格特征之间的对比,领域增强模块进一步优化风格表示。

    这确保了风格转换能够适应从一个领域到另一个领域的细微差别,增强了风格迁移的自然度和一致性。

  • 特征3: 风格与内容特征之间对比度的增强,用于提升风格迁移的一致性和自然度。
  • 特征4: 领域适应性学习,用于处理多样化的风格转换任务。
  • 原因: 通过增强风格和内容特征的对比度来优化风格表示,是为了确保转换后的图像在风格上的准确性和视觉效果的自然性;领域适应性学习是因为不同的风格转换任务可能需要模型对不同风格和内容的灵活适应。

生成网络

  1. 生成网络:最后,利用优化后的风格表示,生成网络将《星夜》的风格应用到原始照片上,生成最终的风格迁移图像。

    在这一步,全面的视觉特征和对比学习共同作用,确保最终图像既保留了原图的结构,又成功捕捉了目标风格的精髓。

  • 特征5: 结构与风格的融合技术,用于在保持内容图像结构的同时引入目标风格。
  • 特征6: 对比学习和全面视觉特征在生成阶段的综合应用,确保风格的准确迁移和视觉效果的自然性。
  • 原因: 结构与风格的融合是为了保证风格迁移后图像既有高度的艺术性,又不失去原图的识别度;综合应用对比学习和全面视觉特征于生成阶段是为了充分利用学习到的风格表示,实现高质量的风格转换效果。

 


效果

在这里插入图片描述
相比其他方法,CAST能够更好地保留局部细节和整体风格感,避免了如NST方法可能出现的不愉快的局部最小值问题,也避免了AdaIN可能产生的不清晰细节和不希望的模式。

对比 StyleGAN

CAST(Contrastive Arbitrary Style Transfer)算法和StyleGAN在风格迁移上采用了不同的方法和目标。以下是两者之间的一些关键对比点:

CAST算法

  • 目标:CAST旨在任意图像之间转移风格,特别强调在风格迁移过程中保持内容图像的结构。
  • 方法:它采用多层风格投影器(MSP)来编码图像的风格特征,并通过对比学习来优化这些特征的表示。
  • 风格表示:使用多层网络提取的特征映射到风格代码,以更细粒度地捕获风格细节。
  • 对比学习:使用对比学习来区分不同风格,而不是直接复制风格源的细节。
  • 优势:CAST能够灵活地表示生动的局部笔触特征和整体外观,同时还保持了内容结构,这对于艺术风格转移尤其重要。

StyleGAN

  • 目标:StyleGAN主要用于生成高质量的新图像,它通过风格化噪声和映射网络来控制图像生成的不同方面。
  • 方法:StyleGAN使用生成对抗网络(GAN)的架构,通过风格化的潜在空间来操控生成过程中的各个特征层。
  • 风格表示:StyleGAN的风格表示是通过潜在空间的点控制的,这些点通过映射网络转换成多个层次的风格控制参数。
  • 控制粒度:StyleGAN可以精细地控制生成图像的各个方面,从而产生丰富多样的变体。
  • 优势:StyleGAN在生成全新的、真实感极强的图像方面表现出色,尤其适用于需要高分辨率和高质量输出的应用。

对比分析

  • 风格迁移 vs. 图像生成:CAST专注于风格迁移,即将一个已有图像的风格应用到另一个图像上;而StyleGAN更侧重于从随机潜在空间生成新图像的风格特征。
  • 优化方法:CAST通过对比学习来优化风格特征的表示,而StyleGAN通过GAN的对抗性训练来学习生成风格化图像。
  • 应用场景:CAST适用于艺术风格迁移和图像编辑,StyleGAN适用于创建新图像、模拟现实世界对象的变体或数据增强。

CAST在风格保真度和内容结构保持方面可能更优,而StyleGAN在创建多样化和高分辨率图像方面表现更佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/ZCvw/9193.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

李沐动手学习深度学习——3.2练习

以下是个人理解,希望进行讨论求解。 练习 1. 如果我们将权重初始化为零,会发生什么。算法仍然有效吗? 根据SGD算法公式如上,第一次迭代的值可知w只与b相关,而对于b的迭代更新,只是与b的初始值相关&#x…

掌汇云 | FBIF个性化票务系统,展会活动数据好沉淀

“把票全卖光!卖到一票难求,现场座无虚席。” 卖票人和买票人可能永远不在一个频道上。 2022年办活动,就是一个字,搏!和“黑天鹅”赶时间,能不能办不由主办方说了算。这种情况在2023年得到了改善&#xff…

记录开发过程中遇到的oracle 分页问题

问题: oracle 分页查询,因为是相对来说比较复杂的sql,一直以为是union all 的问题. 结果是相同时间相同,order by 时间之后 、分页查询的每次结果都不能保证与自己直接查询的不分页数据保持一致、导致有些数据看不到 解决方案: order by 条件最后添加一个表中不会重复的字段比如…

使用hutool的beanToMap方法问题,记录一个json转换问题

问题是这样的 项目中使用了BeanUtil.beanToMap(extData) 使用了这个方法,extData这边传了一个json字符串进来后,这边转换后是map是没有值的 这个参数需要的是对象 先注意下 测试数据的入参 result中的extData得是一个对象 ,如果直接传dd…

面试数据库篇(mysql)- 09undo log和redo log的区别

原理 缓冲池(buffer pool):主内存中的一个区域,里面可以缓存磁盘上经常操作的真实数据,在执行增删改查操作时,先操作缓冲池中的数据(若缓冲池没有数据,则从磁盘加载并缓存),以一定频率刷新到磁盘,从而减少磁盘IO,加快处理速度数据页(page):是InnoDB 存储引擎磁盘管…

AD9851——FPGA调试(并行模式)

AD9851——FPGA调试(并行模式) 工程功能:使用FPGA来调试AD9851芯片,使用的是并行模式 芯片手册:AD9851 CMOS 180 MHz DDS/DAC Synthesizer Data Sheet (Rev. D) (analog.com) 管脚功能 管脚名称管脚功能D0-D78位数据输…

【Redis | 第四篇】基于布隆过滤器解决Redis穿透问题

文章目录 4.基于布隆过滤器解决Redis穿透问题4.1什么是redis的穿透问题4.2解决穿透问题4.3布隆过滤器4.3.1思想4.3.2特点4.3.3缺点 4.4基于Springboot实现布隆过滤器4.4.1导入依赖4.4.2yml配置4.4.3两个工具类(1)BloomFilterHelper(2&#xf…

GPT访问跨域如何解决呢?

在服务器部署了gpt 参考这个 但是访问不到 后面我在docker启动了nginx代理 user nginx; worker_processes auto;error_log /var/log/nginx/error.log notice; pid /var/run/nginx.pid;events {worker_connections 1024; }http {include /etc/nginx/mime.typ…

大话设计模式——4.装饰模式(Decorator Pattern)

1.定义 1)可以在不改动原有对象代码的情况下扩展对象的功能,通过聚合的方式相较于继承更加灵活。 2)UML图 2.示例 汽车有很多装饰可选,如座椅、音响、轮胎等都可以进行自定义组装 1)抽象汽车对象 public interfac…

代码里没有报错,但是java编译报错找不到符号

问题分析: 最近在尝试maven编译,所以不小心点了mvn clean的命令,将之前编译的工程清除了,导致后边再编译项目上的时候就报了一堆错误。代码没问题,但编译不通过,报找不到符号的错误,搜了下这样解…

PHPStudy无法解析php(7.3.4)文件

#告诉服务器,对于以.fcgi、.php或.phtml为后缀的请求,应该使用FPM进行处理。 AddHandler fcgid-script .fcgi .php .phtml #设置了全局默认使用的PHP版本路径 FcgidInitialEnv PHPRC "D:/phpstudy_pro/Extensions/php/php7.3.4nts" #告诉服务器…

QT信号槽实现分析

1.宏定义 qt中引入了MOC来反射,编译阶段变成 MOC–>预处理–>编译–>汇编–>链接 1-1、Q_OBJECT 这个宏定义了一系列代码,包括元对象和处理的函数 #define Q_OBJECT \public: \QT_WARNING_PUSH \Q_OBJECT_NO_OVERRIDE_WARNING \static c…

sylar高性能服务器-日志(P43-P48)内容记录

文章目录 P43:Hook01一、HOOK定义接口函数指针获取接口原始地址 二、测试 P44-P48:Hook02-06一、hook实现基础二、class FdCtx成员变量构造函数initsetTimeoutgetTimeout 三、class FdManager成员变量构造函数get(获取/创建文件句柄类&#x…

数据结构试题练习

(1). 假如队列未满,现有变量data需要入队,请写出表达式; if( (tail1)%SEQLEN ! head ) {seqn[tail] data;tail (tail1)%SEQLEN; } (2). 假如队列未空,现在需要从队列取一个元素并赋值给变量data,请写出表达式; if( head ! tail ) {data se…

广和通发布基于MediaTek T300平台的RedCap模组FM330系列及解决方案

世界移动通信大会MWC 2024期间,广和通发布基于MediaTek T300平台的RedCap模组FM330系列,加速5G-A繁荣发展。FM330系列及其解决方案采用全球先进RedCap方案,满足移动宽带和工业互联对高能效的需求。 广和通FM330系列采用全球首款6nm制程且集成…

Mac安装java编程工具——idea

一、Java 开发工具 本文是推荐安装的是JetBrains 的 IDEA 下载地址:Download IntelliJ IDEA – The Leading Java and Kotlin IDE 选择对应系统的和对应芯片 mac os分为:intel(英特尔)和 Apple Silicon(苹果的M系列…

数字中国:构建智慧社会的未来蓝图

一、引言 随着信息技术的迅猛发展,数字中国已经成为推动社会进步、提升国家竞争力的重要引擎。数字中国不仅代表着信息技术的广泛应用,更代表着一种全新的社会形态和发展模式。在这个背景下,AI与大数据技术的融合与应用成为数字中国建设的核…

3dgs学习(二)—— 3d高斯与协方差矩阵及其几何意义

协方差矩阵与3d高斯 3d高斯与椭球与协方差矩阵 3d高斯,及3维空间内的正态分布。 通过一元正态分布的坐标系图像不难想象,3维空间中的正态分布点集中在一片椭球空间中,各方向长轴取决于各方向正态分布的方差。 而协方差矩阵通过计算多元之…

Redis String 类型底层揭秘

目录 前言 String 类型低层数据结构 节省内存的数据结构 前言 Redis 的 string 是个 “万金油” ,这么评价它不为过. 它可以保存Long 类型整数,字符串, 甚至二进制也可以保存。对于key,value 这样的单值,查询以及插…

亿道推出重磅加固平板!为行业发展注入新动力

随着科技生产力的不断发展,各行各业都得到质的飞跃。产品的迭代速度也大大加快,作为全球领先的加固行移动终端一站式提供商,亿道信息跟紧时代潮流,推出EM-I10J、EM-I20J两款均衡型加固平板,为行业发展注入新动力。 接地…
推荐文章