量子计算论文精讲 | 量子神经网络的通用近似定理
点击查看原文
内容简介
量子神经网络是基于量子计算构建的神经网络模型,研究人员期待两者的结合能加速学习的过程,降低资源的消耗,解决以往难以解决的问题。近年来,尽管量子神经网络的应用研究如火如荼,但是鲜少有文章从数学的角度解释量子神经网络背后的数学逻辑。本次,我将分享关于量子神经网络的通用近似定理的研究。该定理刻画了量子神经网络近似任意连续函数的能力。同时,此次分享的多篇论文从不同的角度描述量子神经网络如何实现通用近似定理,这将帮助我们更好地理解并设计出更好的量子神经网络算法。
相关论文1
标题:Quantum circuit learning
作者:K. Mitarai, M. Negoro, M. Kitagawa, and K. Fujii
期刊:Phys. Rev. A 98, 032309(2018)
相关论文2
标题:Universal Approximation Property of Quantum Machine Learning Models in Quantum-Enhanced Feature Spaces
作者:Takahiro Goto, Quoc Hoan Tran, and Kohei Nakajima
期刊:Phys. Rev. Lett. 127, 090506(2021)
相关论文3
标题:Effect of data encoding on the expressive power of variational quantum-machine-learning models
作者:Maria Schuld, Ryan Sweke, and Johannes Jakob Meyer
期刊:Phys. Rev. A 103, 032430(2021)
01 量子神经网络简介
量子神经网络是基于量子计算所构建的新型神经网络模型。研究人员期待两者的结合能加速学习的过程,降低资源的消耗,解决以往难以解决的问题。近年来,量子神经网络的发展如火如荼,量子前馈神经网络,量子卷积神经网络,量子循环神经网络,量子胶囊神经网络,量子图神经网络等相继提出,并在一些任务上取得了成功。
在本文中,量子神经网络代指基于变分量子线路的量子前馈神经网络,即网络的结构与经典前馈神经网络类似,由一个输入层(输入数据),多个隐藏层(处理数据)以及一个输出层(输出结果)组成。在量子上,这样的网络结构被类似地映射为,数据编码层(编码经典数据为量子态),多层可变参数的量子线路算子(处理数据),以及最后的量子测量操作(输出结果)。
通常,量子神经网络可以被定义为如下结构
其中,|ψ〉表示量子计算机的初始态,通常置为|0〉,
将数据
映射为量子态,
表示一个由可变参数
决定的酉变换,
是一些可观测量。我们将量子测量的结果作为量子神经网络的输出值,并通过优化调整可变参数
使得量子神经网络的能够完成预定的任务。
经典和量子的前馈神经网络尽管有着相似的结构,但是其细节存在诸多不同,并不能直接认为两者是等价的。在经典上,前馈神经网络被证明能近似任意的连续函数(通常指输入和输出都在欧几里得空间中的连续函数),这种性质被归纳为万能近似定理(Universal approximation theorem),这解释了为什么神经网络在不同的问题中都有着不错的表现。在这一定理中,激活函数有着不可或缺的作用(可以简单地认为,前馈神经网络缺少激活函数就是一个线性函数)。而激活函数的主要作用就是提供非线性。而非线性在量子神经网络中是稀缺的,例如
从上式中可以看出量子神经网络的输出结果对于
而言是一个线性函数。因此我们简单地改变
和
并不会为量子神经网络增加非线性,而非线性的主要来源就是数据映射部分
。
因此,在量子神经网络面临缺少非线性的天然劣势下,量子神经网络仍否具有通用近似性是一个值得研究的问题,并且对于我们理解量子神经网络有着非常关键的作用。
因此如何提供足够的非线性,使得量子神经网络拥有足够的能力实现通用近似性是一个非常关键的问题。
02 Quantum Circuit Learning
在这篇文章中,作者提出可以通过在多个量子子系统中重复编码
的信息,从而在由这些子系统张量而成的复合系统中自然地得到变量
的高次项。例如,这篇文中提到的,由
个单量子比特选择门
,分别作用到初始态
,得到如下量子态
不难看出,其中包含
的
次项
。作者提到,如果想要通过局部测量提取到
的
次项的值,需要通过量子纠缠算子将局部测量算子变为纠缠的非局部测量算子,从而得到包含
次项的输出结果。同时,
中包含的
项,也会增强该框架学习非线性函数的能力。
以上这种方法可以很容易地拓展到多变量
,同时假设我们想要的各自的最高次数分别为
,我们可以将
映射为如下的量子态,
子系统的张量积的形式能自动的计算不同
间的交叉项,例如
等。
作者为了使得测量结果包含足够多的非线性信息,因此采用了全连接的横向Ising model作为量子纠缠算符,
并采用了如下的线路结构,
图1(来源 Phys. Rev. A 98, 032309)
作者在文中利用四个简单的函数拟合和一个二分类的例子展示了上述模型学习非线性任务的能力。在函数拟合任务中,其部分参数的选取如下,量子比特数
=6,线路深度
=6,Ising model的演化时间T=10,同时与上面提到的仅使用
不同,作者在这里使用
映射数据到量子态中。从结果可以看到,量子神经网络可以较好地拟合目标函数。
图2(来源 Phys. Rev. A 98, 032309)
在分类任务中,我们也可以看到,量子神经网络成功地将线性不可分的数据集分类。
图3(来源 Phys. Rev. A 98, 032309)
03 Universal Approximation Property of Quantum Machine Learning Models in Quantum-Enhanced Feature Spaces
在这篇文章中,作者提出如下的量子神经网络模型
具有通用近似性,并通过两个特殊的例子来证明这一性质。
图4(来源 Phys. Rev. Lett. 127, 090506)
这个模型可以总结为考虑一个可观测量的集合
,以及映射了经典数据
信息的量子态
,我们可以获得一系列的量子基函数
如果每个基函数具有足够的非线性,那么,我么可以将多个基函数通过带权线性组合得到一个新的函数
从而使得
能够近似其他的函数。
的通用近似性定义:
基于一些数据映射方式
和可观测量集合
,我们可以将
定义为函数的集合
,每个
都是由这些数据映射方式和可观测量集合组合构成的。同时,考虑一个我们感兴趣的连续函数空间
,其中
。
如果
对于
在某种范数
下具有通用近似性,则任意给定函数
,以及任意的误差界
,存在某个
,使得
成立。这时,
以
误差逼近
。
在这篇文中,作者具体地给出了两种方案,并行映射和串行映射的方法,用于论证量子神经网络
的通用近似性。
图5(来源 Phys. Rev. Lett. 127, 090506)
在这里,我们只以并行映射的方案举例。如果读者对串行方案感兴趣可以自行阅读原文。
在并行方案中,假定
是一个紧致集,给定输入向量为
,以及
的量子系统,数据的映射算子为
其中
是作用在第
个比特的旋转门
,
,
,
。
对应的基函数定义为
结论1(并行方案的通用近似性):
对于任意的连续函数
,
以及误差上界
,存在
,权重
以及可观测量集合
,其中
,使得对于任意
都有
。
一个比较关键的问题是,我们需要多少的
来实现通用近似性?很幸运的是,我们并不需要便利所有的
项测量算子,作者给出了一个上界为
该结论的定理证明过长,这里仅简单提及作者的证明思路,作者首先证明引理一,即
引理一:考虑多项式函数
,其中
的最高次不多于
,
存在一组权重系数
,使得以下等式成立
有了引理一,再结合Stone-Weierstrass定理,即任意定义在一段闭区间上的连续函数能被多项式函数以任意精度一致性近似。即可论证,上述的量子模型能近似定义域为紧致集
上的连续函数。
其实不难看出,上述的模型有一些古怪,例如作者直接将经典数据映射到量子态中,不做任何量子门操作,即开始进行量子测量。并且如果想要一个
次项,需要进行一个
体的量子测量,意味着如果想要足够的非线性,需要一个非局部的多体测量。
正如第一篇文章所描述的,这种重复映射的方式,将
的高次项映射到了一个多体的系统中,想要有效地在输出结果中得到其信息,我们需要利用量子纠缠将局部的测量转化为非局部的测量。而在这篇文章中,作者并没有给出直接采取非局部的测量,而不是采取量子纠缠线路的原因,笔者猜测,最直接的原因可能是为了简化证明过程。
另一个疑问在于,上述的量子模型其自身等于一个多项式函数,似乎并没有出彩的地方。从逻辑上来说,我们并不需要多此一举。但是换个角度来想,这篇文章是在告诉读者,量子模型也可以实现通用近似性和经典模型一样,至少不会变得更差。因此,这是一个存在性的证明,而不是有效性的证明。
04 Effect of data encoding on the expressive power of variational quantum-machine-learning models
在上篇文章中,作者首先通过量子线路模型等价于多项式函数,再利用Stone-Weierstrass定理,证明量子线路模型的通用近似性。
而在这篇文章中,作者利用傅里叶级数逼近函数的理论来证明量子模型具有渐进的通用近似性,即如果允许全局的量子系统的希尔伯特空间趋向于无限维(或者有限维量子子系统的个数趋向于无限),那么该量子模型可以在给定定义域上以任意高的精度逼近任意平方可积函数。
图6(来源 Phys. Rev. A 103, 032430)
作者提出上图的量子线路模型
其中,
可以被自然地表示成为部分傅里叶级数和(截断傅里叶级数和)
其中频谱
完全由数据映射部分
的哈密尔顿量
的谱决定,而系数
则由整个量子线路共同决定。
现在,简单地推到这个说法,假设
,其中
,为了简单起见,我们再假设
为任意的酉矩阵,并重新记
,将
的特征向量构成的矩阵吸收到中
。
考虑
的第i个分量
为了简化,令:
,
从而得到
同时,我们再考虑结合量子测量
后的结果,可以得到
其中,
令
,
可以得到:
上述的推导,成功地将作者提出的量子模型规约到了一个截断的傅里叶级数,不难看出该傅里叶级数的频谱
由
的特征值确定,而系数
由
的特征向量,量子线路
,测量算子
共同决定。
同时,作者提出,可以通过或并行或串行的方式线性地扩展频谱的范围,并且,如果考虑并行的次数和串行的次数一致的话,两者对应的傅里叶级数的频谱是一致的。
图7(来源 Phys. Rev. A 103, 032430)
以泡利矩阵举例,考虑并行次数为的泡利矩阵映射方式
,其中。容易看出存在谱分解
。容易看出
存在普谱分解
其频谱
。
考虑串行次数为r的泡利矩阵映射
,其频谱
,其中
。
不难验证,当两种映射方式的相等时,两者对应的傅里叶级数的频谱是一样的。作者也通过了一个简单的数值实验来论证了这一点
图8(来源 Phys. Rev. A 103, 032430)
其中,目标函数
。可以看到,当两种映射方式都重复次数是5的时候,都可以较好的拟合目标函数。
该量子神经网络的表达能力的上限极大地取决于频谱的范围
。对于一些特殊的例子,例如上面提到的用相同的单笔特门重复
的映射,其
。
一个有趣的问题是,是否存在一个量子映射对应于无限范围的频谱,即
在连续变量系统中相移操作对于一个谐振子的自由演化的number operator
。尽管在这个模型中,对应的傅里叶级数的频谱可以通过
的特征谱进行分析,但是系数
就不容易解析地分析,作者通过一个简单的例子来分析了不同结构的线路
对于系数的影响。
图9(来源 Phys. Rev. A 103, 032430)
可以看到,紫色的线路能生成更为丰富的傅里叶级数的系数。
作者也证明该模型的通用近似性,
定理:令
为某一通用的哈密尔顿量族,
为对应的如上定义的量子模型族,对于所有的函数
,以及任意的ϵ>0, 存在某些
,量子态
,以及可观测量
,使得
这里简要体积该定理的证明流程,其核心点是,任何有限区间上平方可积的函数
能被截断的傅里叶级数以任意精度近似,因此主要的任务是,证明该量子模型能够生成满足要求的截断傅里叶级数。这里对于
的通用性要求是为了考虑多变量情况下,依然能得到足够范围的频谱来生成所需的傅里叶级数。同时作者展示了如何利用选择初始态和可观测量的自由度来准确地得到对于目标函数
的任意精度的近似。
05 总结
本次介绍的文章从不同的角度论述了量子神经网络的通用近似定理,即多项式逼近和傅里叶级数逼近,但可以注意到,核心仍然是通过子系统的重复映射,以及联合全局的测量,或纠缠的非局部测量来得到非线性的输出结果。就目前而言,对经典数据的重复映射需要消耗大量的量子比特,或者构造足够深的量子线路,这对于当前的量子计算机来说,实现这样的模型仍然是一个严峻的挑战。除了上述这种思路外,也有一些别的方案,比如量子神经网络结合经典的激活函数,作者同样证明了其构造的量子模型的通用近似性。感兴趣的读者可以自行查看原文。上面的讨论,都是使用量子神经网络解决经典的问题的通用近似性,一个相关的问题是,对于量子神经网络解决量子问题是否仍具有类似的性质呢?同时,值得注意的是,量子神经网络的发展仍处于起步阶段,量子神经网络的实际应用,以及量子神经网络在解决经典问题以及量子问题上是否具有量子优势,都是需要继续探索的问题。
欢迎专家学者在公众号投稿分享优秀论文和创新成果,投稿录取者可获得精美礼品一份,投稿联系HiQ量子计算小助手:LLT66TT(备注“量子计算专题投稿”)
欢迎大家订阅“量子计算HiQ”,查看更多论文分享和学术活动信息