昇思25天学习打卡营第12天|Vision Transformer图像分类

07-11 1172阅读

关于Vision Transformer

Vision Transformer(ViT)结构和工作原理

ViT模型的主体结构是基于Transformer模型的Encoder部分

昇思25天学习打卡营第12天|Vision Transformer图像分类

  1. 图像分块:ViT首先将输入图像分割成一系列固定大小的patch(例如16x16像素)。然后,每个patch通过线性层转换为固定长度的向量,这些向量将作为Transformer编码器的输入。
  2. 位置嵌入:由于Transformer模型本身不具有处理序列位置信息的能力,ViT引入了可学习的位置嵌入来弥补这一缺陷。位置嵌入是一个与patch嵌入维度相同的向量表,其中每一行代表一个位置向量。通过将位置嵌入与patch嵌入相加,模型能够捕捉到图像中不同位置的信息。
  3. Transformer编码器:ViT模型的核心组件是Transformer编码器,它负责处理经过嵌入的图像块序列。Transformer编码器由多个堆叠的编码器层组成,每个编码器层包含自注意力机制和前馈神经网络。通过多层堆叠,模型能够捕捉到图像中的多层次信息。

Transformer基本原理

Transformer模型:基于Attention机制的编码器-解码器型结构.

昇思25天学习打卡营第12天|Vision Transformer图像分类

其主要结构为多个Encoder和Decoder模块所组成,其中Encoder和Decoder的详细结构如下:

昇思25天学习打卡营第12天|Vision Transformer图像分类

Encoder与Decoder由许多结构组成,如:多头注意力(Multi-Head Attention)层,Feed Forward层,Normaliztion层,甚至残差连接(Residual Connection,图中的“Add”)。不过,其中最重要的结构是多头注意力(Multi-Head Attention)结构,该结构基于自注意力(Self-Attention)机制,是多个Self-Attention的并行组成。

所以,理解了Self-Attention就抓住了Transformer的核心。


Attention模块

整体把握Self-Attention的全部过程

昇思25天学习打卡营第12天|Vision Transformer图像分类

Multi-Head Attention,多头注意力机制就是将原本self-Attention处理的向量分割为多个Head进行处理。

昇思25天学习打卡营第12天|Vision Transformer图像分类


ViT优势与特点

  1. 全局建模能力:与CNN模型相比,ViT模型摒弃了卷积操作,完全依赖于自注意力机制来处理图像块序列。这种设计使得ViT能够捕捉到图像中的全局信息,并在大规模预训练后在多个图像识别任务中取得优异的结果。
  2. 高效性:在一些实验中,ViT模型在拥有足够多的数据进行预训练时,其表现超过了CNN,并且需要更少的计算资源来训练。
  3. 可扩展性:ViT模型简单且效果好,可扩展性强,成为了Transformer在CV领域的里程碑著作,引爆了后续相关研究。

Tips

Vision Transformer(ViT)是近年来计算机视觉领域的一项重大突破,它将Transformer架构成功引入图像识别任务中,为处理大尺寸图像和长序列数据提供了一种全新的视角。ViT模型通过图像分块、位置嵌入和Transformer编码器等技术手段实现了对图像的全局建模和高效处理,并在多个视觉任务上取得了优异的结果。随着研究的不断深入和技术的发展,ViT模型有望在未来得到更广泛的应用和发展。

VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]