汉邦问答 / 问答 / 问答详情

爱因斯坦说的“上帝不会掷骰子”。这句话的本意是什么意思?

2023-06-11 08:54:27
TAG:
黑桃花

测不准原理,也是一个爱因斯坦的自娱

北营

好强!!!

科学和真理是爱因斯坦的神

而上帝是教徒的神

九万里风9

讲“测不准原理”的。

关于测不准原理你可以到网上搜。

隐变量什么意思

在子类对父类的继承中,如果子类的成员变量和父类的成员变量同名,此时称为子类隐藏(override)了父类的成员变量。这种情况下,子类使用的变量是它自己的变量,而不是父类的同名变量。于是,父类的成员变量不能被子类简单继承,如果子类要调用父类的变量,则必须借助super关键字。还有一种情况是子类的方法名和父类的方法名相同,并且返回值的类型和入口参数的数目。类型均相同,那么在子类中,从父类继承的方法就会被置换掉。
2023-06-10 20:11:401

高斯混合分布隐变量含义

在统计里,隐变量是不可观测的随机变量,我们通常通过可观测变量的样本对隐变量作出推断。举个高斯混合模型的例子,GMM中隐变量指的是每个observation对应的高斯component,由于产生过程是不可观测的(或者说隐藏的),故得名隐变量。我们可以通过收集样本对隐变量的后验概率进行推断,然后用估计的后验概率来对数据进行聚类。
2023-06-10 20:12:031

什么叫 hidden variable,是隐变量的意思吗?

在子类对父类的继承中,如果子类的成员变量和父类的成员变量同名,此时称为子类隐藏(override)了父类的成员变量。这种情况下,子类使用的变量是它自己的变量,而不是父类的同名变量。于是,父类的成员变量不能被子类简单继承,如果子类要调用父类的变量,则必须借助super关键字。还有一种情况是子类的方法名和父类的方法名相同,并且返回值的类型和入口参数的数目。类型均相同,那么在子类中,从父类继承的方法就会被置换掉。
2023-06-10 20:12:101

机器学习中隐变量的模型和相应的方法有哪些

第一个是Latent SVM,用在Deformable pair model里面来训练部件的位置(A Discriminatively Trained, Multiscale, Deformable Part Model,CVPR,2008). 这文章不知道养活了多少人,近几年(2012)还在更新,在VOC上应该仅次于CNN。另一个是pSLA(Probabilistic Latent Semantic Analysis),原来的思想是通过文档(document)和单词(word)这两种表象来估计隐含的主题(topic)。后来应用范围多了一些,比如有用它来提取颜色特征的(Learning Color Names for Real-World Applications,TIP,2009).这个color name学的结果非常好作者:水哥来源:知乎
2023-06-10 20:12:191

概率论最基本术语及其含义

单个随机事件,对其所有可能发生的情况的各个取值及其对应的概率。 离散型随机变量中,随机变量的取值以及对应的概率会列出一张表。你可以把这张表就看作是分布。 连续型随机变量中,随机变量的取值以及对应的概率就没法列出一张表了。只能用一个连续的函数来代替。这个函数就代表了随机变量的分布。 后验,指的是给出了相关的证据和数据。后验概率,指的就是一个随机事件或者一个不确定事件在考虑和给出相关证据或数据后所得到的 条件概率 。 先验,则是在估算一个随机事件的概率之前,就已经知道这个随机事件的 概率分布 了。先验概率就是在分布已知的情况下随机事件的概率。 似然性指的就是, 已知事件发生的结果,求出使得最符合事件发生结果的模型的参数 ,对这种模型的参数做出可能性的度量。似然性的量化由似然函数来做,在数值上等于取对应参数值的后验概率。似然性越大,则说明参数取该值的时候模型就越接近“真实”模型。 似然函数的重要性不是它的具体取值,而是当参数变化时函数到底变小还是变大。 比如下面的例子: 对同一个似然函数,其所代表的模型中,某项参数值具有多种可能,但如果存在一个参数值,使得它的函数值达到最大的话,那么这个值就是该项参数最为 “合理” 的参数值。 最大似然估计的做法是:首先选取似然函数(一般是概率密度函数或概率质量函数),整理之后求最大值。实际应用中一般会取似然函数的对数作为求最大值的函数,这样求出的最大值和直接求最大值得到的结果是相同的。 似然函数的最大值不一定唯一,也不一定存在 。与矩法估计比较,最大似然估计的精确度较高,信息损失较少,但计算量较大。 最大化在给定数据样本的情况下模型参数的后验概率。在 贝叶斯学派 的观点下,模型的参数并非一个板上钉钉的确定的值。而和随机变量一样服从某种潜在的概率分布。在已知观测数据的情况下,模型参数θ关于事件的后验概率实际上变成了关于θ的一个函数。最大化这个函数的值,也就是在寻找使得这个这次观测事件发生概率最大的参数取值,这样寻找到的参数能使得模型最 “合理” 。 不难看出,最大化后验概率和最大化似然有异曲同工之妙。不同的是,最大化后验概率在求模型的“最优”参数之前就已经对他们有一个预先假设好的分布。而整套流程下来的输出不再像是最大似然那样的一个确定的值,而是一个关于参数θ的、由原来先验假设分布更新而来的新概率分布。随着数据被不断的代入不断的计算,参数θ的分布会越来越趋近于它的真实分布,原来假设的先验分布对它的干扰会越来越小。 因此,在极大数据量的情况下,MAP和ML实际上效果一样。并且假如将MAP中的先验假设拿掉或者假设为均匀分布,MAP和ML如出一辙。 观测变量,即外部观测者可以直接观测到结果的随机变量。与此相对的,隐变量,即不可直接观测到结果的随机变量。尽管如此,潜变量可以通过使用数学模型依据观测得的数据被 推断 出来。 潜变量也称 隐变量 。后者更侧重于现实实践中那些理论上可以测量但是实际上很难做到的变量。
2023-06-10 20:12:391

态度是隐变量吗

态度是指个体对于表象事物所产生的情感色彩,包括积极、消极、中立等不同倾向。在语言交流中,态度是语言使用者表达情感、意见和观点的重要手段。由于态度难以直接观测和量化,因此在自然语言处理和计算机视觉等领域中,研究者们通常尝试将态度作为隐变量来处理。在应用中,通过对文本语义进行分析,可以进一步识别和分析文本的态度倾向,为一些文本情感分析列如舆情监测、情感推荐等任务提供了数据基础。
2023-06-10 20:12:461

如何简单易懂的解释高斯混合(GMM)模型?

网上太多讲解例子,反而看的人云里雾里,我用自己的理解,旨在用最少的公式,用最短的时间来理解GMM。讲解不足之处,还望指正。1.概述 高斯混合模型给出了一些点被分配到每个簇(Cluster)的概率,给出这些点的概率分布有何用呢?它表征了算法对结果的把握程度。如何理解呢,训练后的模型输出不再是一个具体值,不再是唯一决策函数y=f(x)作用后的唯一值,而是一系列概率值。举个例子,数据点集或者点云中的某一点,比如红色和蓝色簇边缘的那些点,既有可能属于蓝色簇,也有可能属于红色簇。函数作用后,分配到某一概率只是一个概率情况。点云的输出聚类情况,本来就是用来给控制模块去决策,输出不同簇的概率分布情况后,由后续控制模块通过融合其他诸如camera的识别概率来决策。 2.单高斯模型还是高斯混合模型 单高斯模型是指,数据集内分布的点,只有一个高斯分布即可覆盖。遵从如下概率分布函数,这是最简单最理想的情况,实际情况却是,空间中一组点云,不可能一组高斯分布就能覆盖的,那么就需要多组高斯分布,混合高斯分布即由之而来,点在空间有疏有稀,不同高斯分布权重也不能一样,但所有权重值之和等于1,也就是下式中的ak。为什么权重之和为1呢,因为它本质还是一个概率密度分布函数,概率密度函数是指在概率密度曲线下方的面积,因此必然为1。 3.什么是隐变量? 通俗理解,假如有一组点集,我们分类之前是知道有5个点{a.b.c.d.e}的,又知道任意一点肯定是属于{A.B.C}三类的中的一类的,但是又不知道a点究竟属于哪个类。这就是隐变量。 4.有隐变量如何求最佳模型参数? 用最大似然估计法(MLE)求最大期望,也就是EM算法。网上有很多例子解释,最直观的就是掷硬币的例子,两枚硬币连掷五次,统计五次内正反的概率。(参考:如何感性地理解EM算法?) 核心思想就是, (1)随机初始化一组参数θ0 (2)根据观测数据,和当前参数θ,求得未观测数据z的后验概率的期望 (3)求得的z有可能不是最优,根据最大似然法求最优的θue78d (4)重复第二三步,直到收敛 其中第二步叫做求期望,E步,第三步叫做求最大化,M步,合起来就是EM算法。 用向两个盘子盛菜举例来类比EM算法,食堂大厨炒了一个菜,分成两个盘子盛菜。大厨盛菜,看哪个盘子菜多,就把这个盘子菜向另外一个匀匀,直到多次重复,达到两个盘子的菜量大致一样的过程,然后端出去售卖。 大厨刚开始给两个盘都倒了菜,这就是赋初值,但是手感不好,一个多一个少。E步就是给两个盘子匀菜,M步最终迭代后,两个盘达到了均匀。无论赋初值多少,你会发现你去食堂买菜,相同菜品拿哪个盘子似乎菜量都是一样的。 非常直观,很容易理解。 5 如何求最大化似然概率? 单高斯比较好求,由高中数学知识可知道,函数求导,导数等于0的地方就是极值点所在。 那么混合高斯函数呢?上式log里面有求和∑,这是我们不喜欢的,log里面我们喜欢的是乘除,最困难的地方也是最不好理解的地方出现了。 如何求解?只能通过通过迭代的方法进行求解,怎么求,Jensen不等式。我贴一下图方便理解。从上图可以看到,curve曲线上的点一定小于切线(也就是求导数)的点。于是下式就成立了。我们就把和的对数,变成了对数的和,那么求导就变得容易多了。Jesen不等式,相当于应用在凹函数上,不等号的方向反向了。最后求得新一轮的迭代模型参数为下面:当|θue78d-θ|<ε收敛后,至此我们就找到了所有的高斯混合模型的参数。
2023-06-10 20:12:521

关于“平行宇宙”我想知道更多

支持三楼!!!!!
2023-06-10 20:13:017

全微分求解答

因为x和y都是自变量
2023-06-10 20:14:002

比双缝实验更恐怖,贝尔不等式检测,判断世界是否真实存在

人类是地球上最有智慧的生命,人类的诞生给地球增添了很多色彩,人类出现以后,不断地发展自己的 科技 ,现在人类已经能够走出地球 探索 宇宙,这说明人类 科技 发展的速度还是非常快的,在人类 探索 世界的道路上,出现过很多伟大的科学家,比如说牛顿、伽利略、爱因斯坦、薛定谔等等,这些人为人类 科技 的发展做出了巨大的贡献,到现在为止,人类还在不停的 探索 世界,这个世界存在太多我们无法解释的现象,就算到现在,有很多实验都让科学家感到不可思议,比如说双缝实验。 可能很多人都听说过双缝实验,这个实验被科学家称为是最诡异的实验,通过这个实验我们能够知道,单个电子在穿过双缝的时候表现的非常异常,当存在观测者的时候,单个电子会以粒子的形式随机的穿过其中一条缝隙,但是如果没有观测者,那么单个电子会以波的形式同时穿过两条缝隙,也就是说,观测者可以改变事物的结果,这就类似薛定谔的猫,如果将一只猫放在一个密闭的箱子中,然后将箱子内部慢慢放入毒气,过一段时间后,我们来判断猫是否还活着,如果我们打开箱子直接观测,那么我们就能够确定猫是否活着,而这个时候结果就只有一个。 但是如果我们不去打开箱子,那么猫的结果就有两种可能,一种是活着,另一种是死亡,也就是说,猫最终的结果其实和观测者有关系,双缝实验也是这个道理,科学家们为了研究双缝实验,曾经尝试了很多次,但是最终的答案都是一样的,这个实验让很多科学家怀疑世界的真实性,有一些科学家猜想,我们看到的世界可能并不是真的,而是高级文明设计出来的,虽然说这个说法现在还没有任何证据,但也不是没有这个可能。目前科学家也无法解释双缝实验为什么会出现这样的结果。 除了双缝实验之外,还有很多实验让科学家感到意外,比如说贝尔不等式判定,贝尔不等式是由著名物理学家玻尔提出的,他主要是为了解释量子纠缠现象,所谓量子纠缠指的就是两个相互影响的粒子,不管将它们分离多远,只要影响其中一个粒子,那么另一个粒子也会受到影响,对于这个现象,爱因斯坦认为两个纠缠的量子之间一定存在某种联系,目前这个结论还没有被科学家探测到,所以爱因斯坦把它称为是隐变量,但是玻尔认为这个隐变量是不存在的,他认为两个纠缠的粒子之间没有任何关系。 当时很多人都认为玻尔的说法不对,因为如果玻尔的说法成立,那么就意味着这个世界上真的存在感应。但是贝尔不等式的出现,让很多科学家都感到意外,贝尔不等式可以简单理解为,如果将一个母粒子分开A和B,那么我们来考虑两者之间自转的方向,由于我们生活的空间是三维空间,所以只能够选择三个坐标(xyz),由于每一个方向上的自转只有+和-两种情况,所以根据归一性原则,我们能够得出:N1+N2+N3+N4+N5+N6+N7+N8=1,后来玻尔经过多次计算最终得出了贝尔不等式。 贝尔不等式的出现证明了爱因斯坦错了,在贝尔不等式中,存在三个概率值,这三个概率值分别是Pxz、Pzy、Pxy,|Pxz-Pzy|表示求两个概率的差值的绝对值,绝对值其实就是把负的变成正的,正的依然保持正的,这样才能够保证最终的结果是正的。而这个不等式的含义很简单,就是两个概率差值中的绝对值必须小于或者等于1+第三个概率值。贝尔不等式能够作为人类区分宏观世界和微观世界的一种方式,可以说它给了两个世界一个清晰的定义,虽然到现在科学家们也在研究贝尔不等式到底是不是对的。 但是从目前的科学来看,这个公式是没有问题的,利用这个公式,科学家们证明量子纠缠确实存在,为了证明量子纠缠,科学家们也做了很多实验,曾经美国的科学家将两个配对好的粒子分别放在相距100多公里外的地方,然后将一个配对好的光子放在其中一个粒子上,科学家惊讶的发现,在100多公里外的另一个粒子上,也出现了一模一样的光子,这说明两个相互纠缠的粒子真的可以相互影响。如果说我们把其中一个粒子放在宇宙的最南边,另一个粒子放在宇宙的最北边,那么只要我们影响其中一个粒子,那么另一个粒子也会受到影响,不管它们之间的距离有多远。 这就类似心灵感应,而且这个影响的速度是瞬间完成的,这个速度已经超越了光速,不过量子纠缠为什么会出现这种现象,目前科学家也在积极的研究当中,如果人类能够将量子纠缠运用到生活中,那么人类的 科技 一定能够得到大幅度的提升,比如说我们可以利用它来观测黑洞内部的情况,现在我们都知道黑洞是宇宙中引力最强的天体,它能够吞噬任何物质,只要进入黑洞的视界范围,物质就会被黑洞吞噬,连光都没有办法逃离黑洞的引力,所以到现在为止,我们也不知道黑洞内部是什么样子的。 如果我们能够利用量子纠缠技术,将其中一个粒子放在黑洞里面,另一个粒子放在地球上,我们可以通过观测地球上的粒子,来了解黑洞内部的情况,虽然这个想法很不错,但是想要实现这个技术非常困难,所以人类还需要继续努力才行,虽然贝尔不等式证明了量子纠缠确实存在,但是贝尔不等式同样也导致了另一个假说的诞生,那就是超决定论,根据这个假说,我们可以认为,这个世界上,所有的东西都是提前安排好的,如果世界真的是这样的,那么所谓的上帝可能真的存在,不过这些理论对于一般人来说都太深奥了,宇宙到底是如何存在的?目前科学家也在积极地寻找答案,未来随着人类 科技 的发展,说不定我们能够找到真相,对此,大家有什么看法呢?
2023-06-10 20:14:131

关于量子力学

在某些方面还有争议.但是大体已经得到公认了.已经放到教科书上的一般都没什么问题了.
2023-06-10 20:14:225

爱因斯坦是量子力学创始人,怎么最后又反对量子力学?

因为爱因斯坦发现量子力学里的太多现象不符合自己提出的相对论,让他感受到失望,前途迷茫,所以就反对了。
2023-06-10 20:14:494

贝尔不等式说明了什么

贝尔不等式经过实验后否定的是“现实的非定域性”.——这一结论背后的“意味”是惊人的! 1965年,贝尔(John Bell)发明了实验方法测试定域性隐变量理论的正确性,并从中推导出一个不等式(贝尔不等式)——这个不等式因为只基于实验测定量,所以不必依赖任何特定理论.之后,人们发现贝尔定理(即贝尔不等式)的意义并不止于贝尔本人原先的预料,而且还意味着:无论隐变量是否存在(也就是说,即使现实是不确定的,即当现实是弱客观性时),如果贝尔不等式不成立,则意味着现实的非定域性.于是,随后出现大量实验对贝尔不等式进行测试,而结果表明贝尔不等式总是不成立的.由此证明:如果现实存在,那么这个现实不可能是定域性的. 定域因果(local causality)原则,或简称为定域性(locality)原则,是爱因斯坦最坚信的原则之一.事实上,直到20世纪80年代,大多数物理学家仍然信守这个原则.定域性原则规定:任何物理效应(physical effect)都不可能以大于光速的速度传递. 除定域性原则外,另一个被普遍坚信的原则是客观现实(objective reality)原则.客观现实原则是指:无论被观察与否,同样存在着一个现实. 爱因斯坦不承认现实是非定域的(nonlocal)或不确定的(indefinite).1935年,爱因斯坦与Podolsky及Rosen联合发表了著名的EPR论文,试图利用一个思想实验来表明,因为量子力学不能描述现实的定域性(local)及确定性(definite),所以是不完备的. 但贝尔不等式实验及随后的大量实验证明了现实的非定域性.
2023-06-10 20:15:241

请教origin 如何拟合隐变量函数

你的函数里没有隐含变量啊,就是 X 和 Y 而已
2023-06-10 20:15:381

高斯混合模型(GMM)

u2003u2003最近在实际工作中用到了高斯混合模型(Gaussian Mixture Model),遂写一篇笔记来整理记录相关知识点,以便复查巩固。 简单回顾一下本科概率论讲过的高斯模型。   高斯模型是一种常用的变量分布模型,又称正态分布,在数理统计领域有着广泛的应用。 当样本数据 X 是一维数据(Univariate)时,高斯分布遵从下方概率密度函数(Probability Density Function)(下文简称pdf)如下: 其中 为数据均值(期望), 为数据标准差(Standard deviation)。 当样本数据 X 是多维数据(Multivariate)时,高斯分布pdf为: 其中, 为数据均值(期望), 为协方差(Covariance),描述各维变量之间的相关度,D 为数据维度。 u2003u2003高斯混合模型可以看作是由 K 个单高斯模型组合而成的模型,这 K 个子模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。 先来看一组数据。u2003u2003所以,混合高斯模型并不是什么新奇的东西,它的本质就是融合几个单高斯模型,来使得模型更加复杂,从而产生更复杂的样本。理论上,如果某个混合高斯模型融合的高斯模型个数足够多,它们之间的权重设定得足够合理,这个混合模型可以拟合任意分布的样本。 对于单高斯模型,我们可以用最大似然法(Maximum likelihood)估算参数 的值 这里我们假设了每个数据点都是独立的(Independent),似然函数由概率密度函数(PDF)给出。 由于每个点发生的概率都很小,乘积会变得极其小,不利于计算和观察,因此通常我们用 Maximum Log-Likelihood 来计算(因为 Log 函数具备单调性,不会改变极值的位置,同时在 0-1 之间输入值很小的变化可以引起输出值相对较大的变动): 对其进行求导并令导数为0,所求出的参数就是最佳的高斯分布对应的参数。   所以最大化似然函数的意义就是:通过使得样本集的联合概率最大来对参数进行估计,从而选择最佳的分布模型。 对于高斯混合模型,Log-Likelihood 函数是: 如何计算高斯混合模型的参数呢?这里我们无法像单高斯模型那样使用最大似然法来求导求得使 likelihood 最大的参数,因为对于每个观测数据点来说,事先并不知道它是属于哪个子分布的(hidden variable),因此 log 里面还有求和,对于每个子模型都有未知的 ,直接求导无法计算。需要通过迭代的方法求解。 EM 算法是一种迭代算法,1977 年由 Dempster 等人总结提出,用于含有隐变量(Hidden variable)的概率模型参数的最大似然估计。 每次迭代包含两个步骤: 这里不具体介绍一般性的 EM 算法,(通过 Jensen 不等式得出似然函数的下界 Lower bound,通过极大化下界做到极大化似然函数,有log(E(x))>=E(log(x))),只介绍怎么在高斯混合模型里应用从来推算出模型参数。 通过 EM 迭代更新高斯混合模型参数的方法(我们有样本数据 和一个有 个子模型的高斯混合模型,想要推算出这个高斯混合模型的最佳参数): 至此,我们就找到了高斯混合模型的参数。需要注意的是,EM 算法具备收敛性,但并不保证找到全局最大值,有可能找到局部最大值。解决方法是初始化几次不同的参数进行迭代,取结果最好的那次。
2023-06-10 20:15:511

贝尔不等式的推导过程

继续发展爱因斯坦-波多斯基-罗森佯谬(简称为EPR佯谬)的论述 (但是选择采用自旋的例子,如同戴维·玻姆版本关于EPR佯谬的论述 ),贝尔精心设计出一个思想实验:从衰变生成的两颗处于单态(singlet state)的自旋1/2粒子会分别朝着相反方向移动,在与衰变地点相隔遥远的两个地点,分别三维坐标系测量两个粒子的自旋,每一次测量得到的结果是“向上自旋”(标计为“+”)或“向下自旋”(标计为“-”)。假设角动量为零的母粒子衰变成两个粒子A和B,根据角动量守恒定律,一个光子必具有与另一个光子相同的偏振态,这可以用垂直于粒子路径的静止的测量装置,并在某共同方向(比方说向上)测量其偏振态来加以证实。事实上已发现:当粒子A通过其偏振片时,B也总是通过的,即:发现了100%的关联。反之,如果偏振片相互垂直安配,那么,每当A通过则B被挡阻,这时有100%的反关联。在通常的经典力学中,这也是正确的。测量结果如表格所示: 同向轴 θ=0° : 第1对 第2对 第3对 第4对 ... 总共n对 爱丽丝: + --+ ...   鲍伯: -+ + -...   相关系数:( +1 +1 +1 +1 ... ) / n= +1           (100%一致)   正交轴 θ=90° : 第1对 第2对 第3对 第4对 ... 总共n对 爱丽丝: + -+ -...   鲍伯: --+ + ...   相关系数:( +1 -1 -1 +1 ... ) / n= 0           (50%一致)   但是当二者不处于平行或垂直,在两个地点测量得到一致结果的概率,会因为两根直轴 a 与 b 之间的夹角角度 θ而变化。现在设定实验规则,如右图所示,假设爱丽丝与鲍伯分别独自在这两个地点测量,若在某一次测量,爱丽丝测量的结果为向上自旋,而鲍伯测量的结果为向下自旋,则称这两个结果一致,相关系数为+1,反之亦然;否则,若爱丽丝与鲍伯测量的结果都为向上自旋或都为向下自旋,则两个结果不一致,相关系数为-1。那么,假设 a 与 b 相互平行,则测量这些量子纠缠粒子永远会得到一致的结果(完全相关);假设两根直轴相互垂直,则只有50%概率会得到一致的结果,得到不一致结果的概率也是50%。测量的结果可以这样表示:在空间坐标系XYZ中: Ax Ay Az Bx By Bz 出现概率 + + + - - - N1 + + - - - + N2 + - + - + - N3 + - - - + + N4 - + + + - - N5 - + - + - + N6 - - + + + - N7 - - - + + + N8 假设Pxy的意义是粒子A在x方向上和粒子B在y方向上的相关系数,那么Pxy=-N1-N2+N3+N4+N5+N6-N7-N8同理,Pzy=-N1+N2+N3-N4-N5+N6+N7-N8Pxz=-N1+N2-N3+N4+N5-N6+N7-N8|Pxz-Pzy|=|-2N3+2N4+2N5-2N6|=2|(N4+N5)-(N3+N6)|<=2[|(N4+N5)|+|(N3+N6)|]因为所有出现的概率和为1,既N1+N2+N3+N4+N5+N6+N7+N8=1 代入上式可得|Pxz-Pzy|<=(N3+N4+N5+N6)+(1-N1-N2-N7-N8)=>|Pxz-Pzy|<=1+Pxy当然,这一推导是被简化了的。隐变量不一定是离散的,而可以定义为区间λ上的一个连续函数。除此之外,还有集合式、几何式等证明方法。 贝尔原始的证明方法利用了斯特恩-革拉赫装置中电子运动的性质与自旋态跃迁概率的性质,结合经典概率论证明。 除此之外,匈牙利物理学家F. P. 维格纳在1970年曾给出对贝尔不等式的“最简捷的”证明 。他的思路是:先导出两个Pr (sa = x, tb = y)的表达式,一个表现量子力学的特征,另一个表现定域隐变量理论的特征,然后把贝尔不等式的证明归结为证明这两个表达式不能同时成立。详细的证明方法可以在参考资料及扩展阅读文献中找到。从上述推证中不难看出:贝尔不等式是由一元线性隐变量理论加定域性约束得到的,它表现了该理论对实验结果的限制情况。如果贝尔不等式成立,就意味着这种形式的隐变量理论也成立,则现有形式的量子力学就不完备。要是实验拒绝贝尔不等式,则表明量子力学的预言正确,或者是实验有利于量子力学。几十年来,人们就把贝尔不等式成立与否作为判断量子力学与隐变量理论孰是熟非的试金石。
2023-06-10 20:16:161

变分贝叶斯初探

原题:A Beginner"s Guide to Variational Methods: Mean-Field Approximation 给初学者的变分法指导:平均场近似 这种 推断-优化 的二元性,赋予我们强大的能力。我们既可以使用最新、最好的优化算法来解决统计机器学习问题,也可以反过来,使用统计技术来最小化函数。 这篇文章是关于变分方法的入门教程。 我将推导出最简单的VB方法的优化目标,称为 平均场近似 。 这个目标,也称为 变分下界 ,与变分自动编码器( VAE )中使用的技术完全相同(我将在后续文章中相信介绍它,堪称入木三分)。 1.问题的前提和符号约定 2.问题的表述 3.平均场近似的变分下界 4.前传KL与反传KL 5.与深度学习的联系 本文假设读者熟悉随机变量、概率分布和数学期望等概念。如果你忘了这些概念,可以在 这里 进行复习。机器学习和统计领域的符号约定没有被严格地标准化,因此在这篇文章中,我们约定如下符号,确定的符号将对理解文意很有帮助: 许多学术论文将术语“变量”、“分布”、“密度”,甚至“模型”互换使用。这种做法本身不一定导致错误,因为 、 和 都可以通过一对一的对应关系相互指代。但是,将这些术语混合在一起,容易让人感到困惑。因为它们的指代范畴各不相同(比如对函数进行 抽样 没有意义,对分布 积分 同样没有意义)。 我们将系统建模为随机变量的集合,其中一些变量( )是“可观察的”,而其他变量( )是“隐藏的”。 【译者按:后文称二者为“观察变量”和“隐变量”】我们可以通过下图绘制这种关系: 从 到 ,通过条件分布 这条边,将两个变量联系在一起。 说一个更形象的例子: 可能代表“图像的原始像素值”,而 是二值变量。如果 是猫的图像, 。 贝叶斯定理 给出了任意一对随机变量之间的一般关系: 其中的各项与如下常见名称相关联: 是后验概率:“给定图像,这是猫的概率是多少?” 如果我们可以从 进行采样,我们可以用它作一个猫分类器,告诉我们给定的图像是否是猫。 是似然概率:“给定 的值,计算出该图像 在该类别下的‘可能"程度({是猫/不是猫})” 如果我们可以从 进行采样,那么我们就可以生成猫的图像和非猫的图像,就像生成随机数一样容易。如果你想了解更多相关信息,请参阅我的关于生成模型的其他文章: [1] , [2] 。 是先验概率。它指代我们所知道的关于 的任何先前信息——例如,如果我们认为所有图像中,有1/3是猫,那么 并且 。 这部分是为了感兴趣的读者准备的。请直接跳到下一部分,继续学习本教程。 前面猫的示例提供了观察变量、隐变量和先验的理解角度,是传统的一个示例。 但是请注意,我们定义隐变量/观察变量之间的区别有些随意,你可以自由地将图形模型按需求进行分解。 我们可以通过交换等式的项来重写贝叶斯定理: 现在的“后验概率”是 。 从贝叶斯统计框架,隐变量可以解释为附加到观察变量的 先验信念 。 例如,如果我们认为 是多元高斯,则隐变量 可以表示高斯分布的均值和方差。 另外,参数 上的分布是 的先验分布。 你也可以自由选择 和 代表的值。 例如, 可以代之以“均值、方差的立方根、以及 ,其中 ”。 虽然有点突兀、奇怪,但只要相应地修改 ,结构仍然有效。 你甚至可以往系统中“添加”变量。先验本身可能通过 依赖于其他随机变量, 具有它们自己的 的先验分布,并且那些先验仍然是有先验的,依此类推。任何超参数都可以被认为是先验的。 在贝叶斯统计中, 先验是无穷递归的 。【译者按:1.英文中俗语“turtles all the way down”表示问题无限循环、递归,作者用了"priors all the way down"来诙谐地表达先验系统的递归性。2.先验的层次越深,对结果的影响越 小 】 我们感兴趣的关键问题是隐变量 的后验推断或密度函数。后验推断的一些典型例子: 我们通常假设,我们已知如何计算似然分布 和先验分布 【译者按:原文为“function”函数,应为讹误,后文类似情况以符号为准】。 然而,对于像上面的复杂任务,我们常常不知道如何从 采样或计算 。或者,我们可能知道 的形式,但相应的计算十分复杂,以至于我们无法在合理的时间内对其评估【译者按:“评估”的意思是给定似然函数,求出该函数在某一点上的值】。 我们可以尝试使用像 MCMC 这样的基于采样的方法求解,但这类方法很难收敛。 变分推断背后的想法是这样的:对简单的参数分布 (就像高斯分布)进行推断。对这个函数,我们已经知道如何做后验推断,于是任务变成了调整参数 使得 尽可能接近 。【译者按:“推断”在这里指的是从观察变量 的概率分布导出隐变量 的概率分布】 这在视觉上如下图所示:蓝色曲线是真实的后验分布,绿色分布是通过优化得到的拟合蓝色密度的变分近似(高斯分布)。 两个分布“接近”意味着什么? 平均场变分贝叶斯(最常见的类型)使用反向KL散度作为两个分布之间的距离度量。 反向KL散度测量出将 “扭曲(distort)”成 所需的信息量(以nat为单位或以2为底的对数bits为单位)。我们希望最小化这个量。【译者按:1.“扭曲”的意思是,把 和 贴合在一起,即通过某种映射引发函数图像的形变,使二者图像一致;2.许多研究产生式模型的论文会比较不同方法下的散度值。】 根据条件分布的定义, 。 让我们将这个表达式代入原来的KL表达式,然后使用分配律: 为了使 相对于变分参数 最小化,我们只需要最小化 ,因为 对于 来说是常数。 让我们重新写这个数量作为对分布 的期望。 最小化上面的式子等价于最大化负的式子: 在文献中, 被称为 变分下界 。如果我们能够估计 、 、 ,我们就可以计算它。我们可以继续调整式子里各项的顺序,使之更符合直觉: 如果说采样 是将观察变量 “编码”为隐变量 的过程,则采样 是从 重建观察变量 的“解码”过程。 由此得出 是预期的“解码”似然(即变分分布 能在多大程度上将样本 解码回样本 ),再减去变分近似的分布与先验 之间的KL散度【译者按:原文是“加上”,应该是减去】。如果我们假设 是条件高斯的,那么先验 通常被指定为平均值0、标准偏差1的对角高斯分布。 为什么 称为变分下界? 将 代入 ,我们有: 的含义,用大白话说就是,真实分布下的数据点 的对数似然 ,等于 ,加上 用来捕获在该特定值 处 和 之间距离的差。 由于 , 必大于(或等于) 。因此 是 的下界。 也被称为证据下界(ELBO),通过调整公式: 注意, 本身包含近似后验和先验之间的KL散度,因此 中总共有两个KL项。 KL散度函数不是对称距离函数,即 (当 时除外)第一个被称为“前向KL”,而后者是“反向KL””。 我们为什么要使用反向KL呢?因为推导的目标要求我们近似 ,所以【在 和 不能同时得到最优形式的情况下】我们要优先确保 的形式准确。 我很喜欢Kevin Murphy在 PML教科书 中的解释,我在这里尝试重新说明一下: 让我们首先考虑正向KL。正如上述推导,我们可以将KL写为,权重函数 加权下,“惩罚”函数 的期望。 只要 ,惩罚函数在任何地方都会给总KL带来损失。对于 , 。 这意味着前向KL将在 未能“掩盖” 时,将会很大。 因此,当我们确保前向KL最小化时 时, 。 优化的变分分布 被称为“避免零(zero-avoiding)”(密度 为零时 避免为零)。 如果 ,我们必须确保分母 的地方,加权功能的 ,否则KL会爆炸。这被称为“必设零(zero-forcing)”: 在机器学习问题中,使用平均场近似时,留意反向KL的后果很重要。 如果我们将单峰分布拟合到多模态分布,我们最终会得到更多的假阴性的样例(也就是说, 实际上存在概率,但我们依据 认为没有可能性)。 变分法对于深度学习非常重要。 我将在后面再写文章详细说明。这是“太长不看版”: 结合深度学习和变分贝叶斯方法,我们可以对 极其 复杂的后验分布进行推断。 事实证明,像变分自动编码器这样的现代技术,可以优化得到上文中形式完全相同的平均场变分下界! 感谢阅读,敬请期待! 鉴于标题,我们值得给出“平均场近似”这个名字背后的一些动机。 从统计物理学的观点来看,“平均场”是指忽略二阶效应,将困难的优化问题放松到更简单的问题。例如,在图模型的情境中,我们可以把估计 马尔可夫随机场 的配分函数(partition function)问题,转为最大化吉布斯自由能(对数配分函数减去相对熵)的问题。这显著地简化了全概率测量空间的全局优化的形式(参见M. Mezard和A. Montanari,Sect 4.4.2)。 整体分解: 平均场近似的分解: 从算法的观点来看,“平均场”是指用于计算马尔可夫随机场边缘概率的朴素平均场算法(naive mean field algorithm)。回想一下,朴素平均场算法的固定点【即最终解】是吉布斯变分问题的平均场近似的最优点。这种方法是“均值”,因为它是吉布斯采样器的平均/期望/ LLN版本,因此忽略了二阶(随机)效应(参见,M.Wainwright和M. Jordan,(2.14)和(2.15))。 【译者按: 1.上述说明主要针对配分函数而言的。 2.VAE的隐空间为标准高斯分布,协方差矩阵为对角单位阵,而不考虑非对角元素的影响。这体现了“平均场”的思想。 3.VAE的实验效果显示,产生图像较为模糊或“平均”,不够锐利,也许正是平均场近似的结果】
2023-06-10 20:16:291

爱因斯坦三大预言是什么

第一: “如果蜜蜂从世界上消失了,人类也将仅仅剩下4年的光阴” 第二:时空扭曲理论: 由于重力的作用 ,(例如)地球这样大质量的物体在时空构成的框架结构中的存在本身,就会使时空框架发生扭曲。通俗地说,时空框架就像一个床垫,而地球就像放在床垫上的一个小钢球,钢球使床垫凹陷成一个“小酒窝”样子的坑。 第三:地球这样的大质量物体在时空结构中的转动,会使时空结构与它一起运动。就像一个落入篮筐的篮球,在筐中转动时也带动篮筐一起运动。这两个预言构成了广义相对论的基础。第三:1918年,爱因斯坦在他的广义相对论理论中提出了新的时空理论,并预言由于重力的作用,行星、恒星或黑洞等大质量物体在自传的同时会造成周围的时空随之旋转,产生龙卷风一样的效果。
2023-06-10 20:16:507

隐性马尔科夫模型简介,只聊原理, (保证没有数学)

隐马尔科夫模型(Hidden Markov Model,HMM)通常用于处理时间序列数据,即样本之间有时间序列关系的数据。学生的作答信息是天然的、有时间属性的序列,非常适合用HMM进行建模。其他的场景还有股票时长,天气,等等 为了更好地理解HMM,我们可以先从"一阶马尔科夫模型"说起 [1] 一阶马尔科夫模型的基本思想是,一系列事件会相继发生,后一个事件发生的概率仅仅取决于前一个事件的状态。这一系列事件就像串起来的珠子。下图表示一个简单的马尔科夫模型,x1 是第一个事件,第二个事件x2 是否发生,以及如何发生,都依赖于x1。依次类推,x3的情况仅仅依赖于x2,x4的情况仅仅依赖于x3 ... ... 然而很多实际问题的依赖关系往往没有这么简单,x4的情况可能不仅依赖于x3,还与x2有关。为了表达当前状态与更早的状态之间的关系(例如 x4 和 x2),可以引入高阶马尔科夫。概括来说,M阶马尔科夫性是指当前状态取决于之相邻的前M个状态,但是与更早的状态无关。高阶马尔科夫性虽然达到了关联当前状态与更早的状态的目的,但是因为模型参数呈指数性爆炸,计算复杂度大大增加。 那么,有没有一种方法即能将当前状态与更早的状态关联起来,又不需要那么多参数呢?当然,这里有一种非常强大的手段,即引入隐变量。这里如果假设隐变量构成一阶马尔科夫模型 (z1, z2, z3, z4, ... ),而在每一个时间点上我们所观测到的情况仅仅和当前的隐变量有关 (x1 和 z1 相关,x2 和 z2 相关 .... )。这个就是HMM模型。这里隐变量 (z)就是我们无法观测的,比如学生对知识点的掌握情况: 不会,不熟练 等等。 而可见变量(x)就是我们从学生作答中看到的,比如 作答正确,选择错误选项B,选择错误答案C,等等。 HMM模型有三个非常重要的参数: 初始概率分布 (start probability)、 转移概率模型 (transition matrix)和 发射概率矩阵 (emission matrix)。对状态空间模型建模实际就是对这三者进行建模。而且此时观测变量(x)之间不再具有任何马尔科夫性。 我有两个色子,一个是正常的包含1,2,3,4,5,6 这六个个点 (A),一个是特殊的,有1,2,3,4,四个点(B),下图展示了各种色子: 一个完整的可用的HMM模型就是需要知道上边的三个参数比如:  初始概率分布 : 初始选择A色子的概率是 0.45 ,那么选择B色子的概率是0.55 即 , 需要满足 转移概率 : 如果前一个是A色子,那么接下来 40%的概率还是A 60% 的概率是B, 如果前一个是B色子,50% 的概率是A,50% 的概率是B,这个是一个矩阵 结合上边的数字就是: 发射概率矩阵 : 也是一个矩阵,表示从色子的类别,到观察到的点数的概率,针对我们这个情况,他的形式如下 因为色子是均匀的,我们可以得到 那么模型的完整工作流程是下边这样的: 已知上述三个参数,和当前观测序列,求解隐藏状态的变化 所有参数未知,只有数据,如何获得三个参数 python 提供了hmmlearn包,可以非常方便的实现以上两个问题,我们会在下一个文章中介绍如何实现 上述案例的实现,具体看这个文章 https://www.jianshu.com/p/deb71e926ccc [1] . farewell (2018.4.22), 隐马尔科夫模型, 知乎 [blog post]. Retrieved from https://zhuanlan.zhihu.com/p/27907806
2023-06-10 20:17:481

期望最大算法(EM)

1977年,DempSter首次提出EM算法。 假设四种实验结果,发生的概率依次为 ,且发生的次数为 ,求 的估计。 解:使用MLE,得到: 上式是关于 的一元三次方程,不易解。 因此,以下另作处理(引入隐变量): 将第一部分 分为 ,且出现次数为 次 将第三部分 分为 ,且出现次数为 次; 则 (1) 现在,并不知道 (隐变量)的值,只能知道分布的信息, 服从的分布为二项分布,概率数值类似于条件概率,第一个的概率是用 除以 得到的,第二个同理: 其中, , 第一步(E步):求期望的目的是为了消去隐变量 。 ; 代入(1)式,得到: 第二步(M步):取最大值。 EM算法使用迭代法来更新参数。 (精髓) 任意取 ,就可以开始按照上面的公式进行迭代了。 收敛性 : DempSter证明:在很一般的条件下,最后会收敛。(可以参考李航老师的《统计学习方法》) 解析解:能列出公式解决的,数值上是更准确的(相比迭代解),比如MLE就是列出公式求解。 迭代解:退而求其次,当解析解难求的时候,通过迭代逼近的方式,可以获得令人满意的解,比如EM就是为了解决当MLE遇到高次方程难以求解的时候,提出的方法。 问:给定参数 ,观测变量 ,隐变量 ,如何估计参数 ? 从观测序列,可以获得: 此时,对数似然函数为: 由于包含和(积分)的对数,因此直接求解困难。 解析解困难,转而使用迭代解:假设第i次迭代后的 为 ,由于我们希望似然函数 是增大的,即 。 此时,考虑两者的差: 不等式右边是 的下界,记为 ,那么,使得下界尽可能大,即: Algorithm: Estimation Maximum (EM) 举例:以三硬币模型为例。有A、B、C三枚硬币,分别有 的概率为正面。每次试验为:先投A硬币,如果A为正面,则投B硬币;否则,投C硬币。最终,可以观测到的结果为硬币的正/反面,但是不知道是由B还是C投出的(隐变量)。问:如果某次试验数为10的结果为:{1,1,0,1,0,0,1,0,1,1},如何估计参数 ? 显然,题目的 隐变量为A硬币投出的结果,此时可以采用EM解法。 先从“E”入手,求解Q函数: 然后,逐一击破: 回代 函数: 极大似然求导数,令其为0,能取得极值点: 令上式为0 ------对应书(9.6)式 令上式为0 ------对应书(9.7)式 令上式为0 ------对应书(9.8)式 至此,只要根据当前迭代下的 ,就能得到不同 下标的 ,进而得到下一次迭代的 。
2023-06-10 20:17:541

吴健雄研究成果

吴健雄为世界现代物理学发展作出了杰出的贡献,她在博士在读期间就参加了制造原子弹的“曼哈顿计划”,解决了连锁反应无法延续的重大难题,被人们称为“原子弹之母”。她还验证了著名的“弱相互作用下的宇称不守恒”和“β衰变中矢量流守恒定律”,并先后获得了各国政府及世界著名大学颁发的荣誉、学位和奖励等,成为名副其实的“世界物理女王”。 科学贡献1.1957年用β衰变实验证明了在弱相互作用中的宇称不守恒。1956年之前,吴健雄已因在β衰变方面所作过的细致精密又多种多样的实验工作而为核物理学界所熟知。1956年李政道、杨振宁提出在β衰变过程中宇称可能不守恒之后,吴健雄立即领导她的小组进行了一个实验,在极低温(0.01K)下用强磁场把钴-60原子核自旋方向极化(即使自旋几乎都在同一方向),而观察钴-60原子核β衰变放出的电子的出射方向。他们发现绝大多数电子的出射方向都和钴-60原子核的自旋方向相反。就是说,钴-60原子核的自旋方向和它的β衰变的电子出射方向形成左手螺旋,而不形成右手螺旋。但如果宇称守恒,则必须左右对称,左右手螺旋两种机会相等。因此,这个实验结果证实了弱相互作用中的宇称不守恒。由此,在个物理学界产生了极为深远的影响。 2.1963年用实验证明了核β衰变在矢量流守恒定律吴健雄对β变的一系列实验工作,特别是1963年证明的核β衰变中矢量流守恒定律,是物理学史上第一次由实验定实电磁相互作用与弱相互作用有密切关系,对后来电弱统一理论的题出起一重要作用。 3.在β衰变研究在的其他贡献关于β衰变的研究对原子核物理和粒子物理的发展具有极重要的意义。吴健雄从事这一专门领域的研究多年,被公认为是这方面的权威。 证实了β谱形状的源效应,澄清了早期β衰变理论中的一些错误,支持了费米理论。对β衰变的各种跃迁,特别是禁戒跃迁的全部级次进行了系统的研究,丰富和完善了β衰变的理论。对双β衰变的研究。1970年,吴健雄等报道了一次在美国克里夫兰附近的一个600余米深的盐矿井内进行的48Ca双β衰变则实验。实验选在深矿井内是为了尽量减少宇宙线的背景辐射。 4.关于量子力学的基本理论方面的实验吴健雄1935年爱因斯坦、波多尔斯基、罗森发表了一篇论文,对哥本哈根学派创立的量子力学描述的完备性提出了疑问,他们的看法可归结为一个佯谬。由于对量子力学关于物理量可测度性及几率概念的认识有不同看法,爱因斯坦始终认为应当有一种理想的、确定的、对物理实质有完备叙述的理论出现以代替目前的量子力学数学结构,因而导了后来有“隐变量理论”的出现,即认为量子力学中的“概率”乃是对某些目前未知的“隐变量”作某种平均的结果。因此,几十年来有一些物理学家企图寻觅这些“隐变量”以建立新的、完备的量子力学,但均未成功。而另一些物理学家则否认有这些“隐变量”存在,事实上已有人证明在希尔伯特的某些条件下,目前的量子力学的数学结构是不容隐变量存在的。 吴健雄等早在1950年就发表了一篇关于“散射湮没辐射的角关联”的文章,实验表明具有零角动量的正、负电子对湮没后发出的两个光量子,如狄拉克理论所预料,将互成直角而被极化,也证明正电子与负电子的宇称相反,说明与目前的量子力学并无矛盾。1975年吴健雄等又发表了一篇题为“普顿散射的湮没光子的角关联以及隐变量”的文章,报道他们测得的在一很宽的散射角范围内到达符合的康普顿散射光子的角分布,其结果与假设电子与正电子有相反的宇称为前提而得到的标准的量子力学计算相符。J.S.贝尔(Bell)在1964年曾对任何局部隐变量理论所能预言的角分布取值围作了限定,而吴健雄等所观察到的角分布在假设通常的量子力学康普顿散射公式是正确的前提下并不符合贝尔的限定,这样也就再次对局部隐变量理论作了否定,从而在更高程度上支持了量子力学的正统法则。 5.μ子、介子和反质子物理方面的实验研究从60年代中期开始的10年间,吴健雄集中力量从事这一中、高能物理领域的实验工作。发表了大量论文,有不少工作富有首创性和很高的学术价值。μ子物理方面的工作包括:Sn,Nd,W等元素的μ子X射线的同位素移的测定;209Biμ子X射线的磁偶极和电四极矩超精细相互作用的研究;近10种μ子原子中核γ射线的测定等。介子和反质子物理方面的工作主要是利用布鲁克海文国家实验室内的交变梯度同步加速器产生的强大的K-,Σ-和粒子流,以高分辨率Ge(Li)探测器为工具,用奇异原子方法准确地测定了这些粒子的质量和磁矩。 6.穆斯堡尔效应的测量及其应用方面的工作在1958年发现穆斯堡尔效应之后,吴健雄就开始对它进行深入研究。他们专门研制了一种闭环氦致冷器用于低温穆斯堡尔效应研究,其温度控范围为20—300K,对于放射源或库仑激发源均可使用。他们用库仑激发后产生的穆斯堡尔效应,分别测量了钨同位素(182,184,186W)和铪同位素(176,178,180Hf)的第一激发2+态中的电四极矩的比率,并与转动模型所预期的结果作了比较。 在1978年,他们进一步用一个3He/4He稀释致冷器使穆斯堡尔测量得以在低至0.03K的温度下进行,以研究氧高铁血红素的磁性质与弛豫特性,结果表明在约0.13K时该血红素进行磁跃迁;利用这一装量还在诸如收体温术、弛豫效应、与温度有关的超精细场的研究等方面进行了一些实验,得出了许多有意义的结果。7.其他实验工作吴健雄在实验核物理方面的研究工作涉及面广。她尤其注意实验技术的不断改进,曾对多种核辐射测器的开发、改进做出了贡献,例如薄窗盖革计数器、某些塑料闪烁探测器、Ge(Li)半导体探测器等。至于所涉足的实验工作,较早斯完成的有某些方射性同位索的分析,慢中子速度谱仪研究(多种材料),中子在正氢和仲氢中的散射以及核力范围的探讨,在气体中形成电子偶素时电场影响的研究,延迟符合技术用于测42Ca和47Sc的激发态的寿命,中子与3He的相互作用的研究,高能级发出的内转换谱线的观察、对正电子谱及正电子湮没的研究等等。 1934年,撰写了《证明布喇格定律》论文。 1950年就发表了一篇关于“散射湮没辐射的角关联”的文章。 她与S.A.兹科夫斯基(Moczkowski)合著有《β衰变》一书;在K.西格邦(Siegbahn)所编《α-,β-和γ-射线谱学》一书中,吴健雄也是关于β衰变和β相互作用部分的撰稿人。前面所述两项主要学术成就实际上也都与β衰变研究直接有关。 1975 年,吴发表了“普顿散射的湮没光子的角关联以及隐变量”的文章。 1992年,南京大学出版社出版了其论文演讲集《半个世纪的科学生涯》。
2023-06-10 20:18:191

量子力学的测量问题是什么?

让我们从经典力学中的测量开始。这将有助于阐明量子力学中测量的不同之处,以及为什么它会有问题。经典力学很适合预测炮弹落地的位置。给定球的质量和它发射时的初始条件(位置和速度),可以求解经典力学定律得到一个解,即一个抛物轨迹,它告诉我们在任何给定时间它的确定位置和速度。当我们测量它的位置或速度时,结果(在实验误差范围内)正好是解所预测的结果。没有问题。量子力学也是如此。给定一个电子的质量和它的初始条件,量子力学的定律就可以得到一个解。但这个解,与经典力学的解不同,并不对应于一个定义明确的轨迹,它告诉我们电子在任何给定时间的确切位置。相反,它告诉我们,它可以在任何不同的地方测量,每个地方都有特定的相关概率。但当我们实际测量电子时,当然,我们发现它只局限于一个地方,而不是在空间中模糊。因此,与经典力学的解预测一个与我们测量的位置相匹配的确定位置不同,量子力学的解并不决定一个唯一的测量结果。所以,理论预测的东西和实际测量的东西之间存在脱节。测量的问题是如何理解或解释量子力学预测的不确定性和测量的确定性之间的脱节。你会说这有什么问题吗?毕竟,许多基于经典物理的预测只是预测概率。例如,天气预报只预测一定的下雨概率。然而,我们要么测量雨,要么测量晴。那么,量子力学和这个有什么不同呢?首先,经典力学预测的可能性仅仅是由于我们对初始状态的知识的不完全性。因为我们现在的天气知识不完整,所以预测也不完整。原则上,如果我们对初始状态有完全的了解,经典的预测就不会是概率的。所以,难道不可能初始条件的不完整知识也是量子力学预测不确定性的原因吗?难道不可能存在我们不知道的隐藏变量吗?嗯,用这种方式来解释量子力学确实是可能的,这样就可以避免测量问题,但有一个陷阱:隐藏的变量必须是我们无法接触到的,即使是在原则上(海森堡的不确定度原理阻止我们在不确定度为零的情况下确定位置)。此外,隐藏变量必须是非局部的。简而言之,我们永远不可能知道隐藏的变量,而且我们必须承认,它们就像爱因斯坦所说的“幽灵般的远距离作用”。由于隐变量违反局部性,我们无论如何也无法知道它们,大多数物理学家认为,从一开始就避免假定它们的存在会更简单。换句话说,量子力学的不确定性是内在的和基本的:没有任何东西隐藏在它后面。但是,在这种情况下,我们被测量的问题困住了,因为理论预测的不确定状态和测量结果的单一确定状态之间的脱节。我们如何理解和解释量子力学对世界的描述和我们对世界的测量之间的根本区别呢?这就是问题所在。
2023-06-10 20:22:471

1. 概率图模型

对现实世界的不确定性进行建模 1.4 贝叶斯公式 通过上面的加法规则和乘法规则,以及P(X,Y)=P(Y,X)。我们可以得到 贝叶斯公式 : 其中P(X)为: 贝叶斯公式写成另外的一种常见的符号形式: 其中D表示观察到的数据,也成为Evidence, w表示相应的参数。 p(D|w)表示似然函数(likehood function)。P(w)成为参数w的先验。p(w|D)表示参数w的后验概率。 所以可以得到: 其中 优点: 图模型分为三类。 常用于描述变量之间的因果关系 贝叶斯网络中的联合概率: p(x)=P(xk|parent) 假设三个变量a,b,c上的联合概率分布p(a,b,c). 那么p(a,b,c)=p(c|ba)p(ba)=p(c|ba)p(b|a)p(a) 上面的图是全连接的。但是真实世界中变量之间确实是全连接的吗? 而且真正传递出概率分布性质的有趣信息是图中信息的缺失。 ** 为什么呢?** 因为对于全连接的图模型可以用来代表所有的概率分布。这样的状态空间是巨大的。意义不大。 但是对于图中缺少边的模型,则只能对应于具有某些条件独立性质的 概率分布。 比如说: 对于如下的图模型: 非全链接的图模型中包含了相应的领域知识和因果关系。 对于下面一个关于学生成绩的例子。 我们假设各个随机变量出现的概率如下: 有了每个因子的分布之后, 就可以得到任意的概率分布了。方法就是:使用加法公式和乘积公式。 另外的一个问题是: 对于图模型中的变量怎么快速的知道它们之间是否相互影响。例如: 在左边对应的六种情况下,只有最后一种情况X→W←Y下X的概率不会影响到Y的概率。这是因为W不是被观察变量,其值是未知的,因此随机变量X的值不会影响随机变量Y的取值。有趣的是,当中间W变量成为被观察变量,上述结论就会发生变化。如下图所示 当Wu0454Z时,即W为观察变量时,所有判断会变得相反。仍然以 X→W← Y 为例,此时W的值已知,比如已知某个学生Grade为B,那么此时学生的聪明程度Intelligence和课程难度Difficulty就不再条件独立了。比如,这种情况下如果课程比较容易,那边学生很聪明的概率较小;反之,若课程很难,则学生很聪明的概率较大。 结论: 概率影响的流动性反应了贝叶斯网络中随机变量条件独立性关系 那么贝叶斯网络中的独立性或者说影响的流动性是如何的呢? 先来看看 ,图模型结构图中,三种常见的本地结构。 一般的如果没有观察变量,见结构1中的图,但是变量c是未知的。 那么: 对两边进行积分或者求和: 因为: 结构2: 可以得到: 结构3: 因为: 考虑一个一般的有向图,其中A,B,C是任意无交集的集合。我们的目的在于希望从图中迅速的观察到在给定C的情况下A与B是否相互独立。考虑A中任意节点到B中任意节点的所有可能路径,如果路径中包含一个满足下面任何一条的节点,那么就认为该路径是被阻隔的。 马尔科夫毯 : 我们以马尔科夫毯来结束对贝叶斯网络独立性的讨论。考虑如下的图模型: 考虑变量x(i)对应节点上的条件概率分布,其中条件为所有剩余的变量。使用分解性质,可得: 最后与x(i)无关的变量可以提取,进行消除。唯一剩下的因子包括:p(xi|pai)以及p(Xk|Pak)其中xi为xk的父节点。 p(Xk|Pak)不仅仅依赖于xi,还依赖于xk的父节点。 我们可以将马尔科夫毯想象成为将xi与图中剩余部分隔离开的最小集合。 (用于引出贝叶斯概率图模型中的表示) 考虑一个多项式回归的问题: 其中参数w为多项式稀疏,a为超参,t为观测变量。x为输入,另外一个为高斯分布的方差。 概率图模型为了清晰的在图形中表明各种的变量的状态。引入了特殊的表示法:包括观察变量,隐含变量,输入,参数,以及plate的概念。 其他的参考模型:LDA, PLSA模型图。 有了t,我们可以计算w的后验概率: 最终目标是对输入变量进行预测,假设给定一个输入值x^,我们需要预测输出。概率模型图如下: 那么模型的联合分布为: 对w进行积分就可以得到相应的预测值: 图模型描述了生成观测数据的生成式模型。因此这种模型通常被称为生成式模型。 对于概率模型的实际应用,通常情况下是,数量众多的变量对应于图的终端节点,较少的对应隐变量(hidden variables)。隐变量的主要作用是使得观测变量上的复杂分布可以表示为由简单条件分布构建的模型。(具体的原因,在E-M算法部分进行说明) 一个马尔科夫随机场也成为马尔科夫网络,或者无向图模型,包含了一组节点,每个节点都对应一个变量或者一组变量。链接是无向的,即不含箭头。 无向图的连接没有了方向,所以父子节点之间的对称性也消除了。所以可以使用一下两种方法判断是否独立: 无向图的马尔科夫毯 非常简单,因为节点只依赖于相邻的节点,而z给定邻居节点的情况下,条件独立于任何其他的节点。 剩下的一个问题是:如何写出马尔科夫随机场的联合分布。也就是如何对联合分布进行 分解。 先来考虑图中的一个概念clique: 维基百科中的解释: a clique is a subset of vertices of an [undirected graph] such that its [induced subgraph]is [complete]; that is, every two distinct vertices in the clique are adjacent 。 马尔科夫随机场的联合概率可以分解为图中最大团快的势函数(potential functions )的乘积形式: 其中Z被称为划分函数,是一个归一化常数,等于: 我们假定势函数是大于0的,因此可以将势函数表示为指数的形式: 其中E(Xc)称为能量函数。 因子图主要用于模型的推断过程。 参考文献: 书籍《Pattern Recognition andMachine Learning》 第八章
2023-06-10 20:24:451

偏最小二乘回归通俗理解

偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应变量和自变量之间最大方差的超平面,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models)。当Y是分类数据时称为“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”。研究认为,集多元线性回归分析、典型相关分析、主因子分析等方法于一体的偏最小二乘回归方法( PLS) 更适用于FM 分析, 可以避免数据非正态分布、因子结构不确定性( factor indeterminacy) 和模型不能识别等潜在问题。偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是Tikhonov正则化)。偏最小二乘算法被用在偏最小二乘路径建模中,一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。偏最小二乘来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。偏最小二乘的另一个词(根据Svante Wold)是投影到潜在结构,但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中,偏最小二乘回归被广泛用于化学计量学和相关领域。它也被用于生物信息学,sensometrics,神经科学和人类学。而相比之下,偏最小二乘回归最常用于社会科学、计量经济学、市场营销和战略管理。偏最小二乘法是集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身。它与主成分分析法都试图提取出反映数据变异的最大信息,但主成分分析法只考虑一个自变量矩阵,而偏最小二乘法还有一个“响应”矩阵,因此具有预测功能。
2023-06-10 20:24:511

贝尔不等式不成立意味着什么

贝尔不等式不成立意味着贝尔定理。在理论物理学中,贝尔不等式是一个有关是否存在完备局域隐变量理论的不等式。实验表明贝尔不等式不成立,说明不存在关于局域隐变量的物理理论可以复制量子力学的每一个预测(即贝尔定理)。在经典物理学中,此一不等式成立。在量子物理学中,此一不等式不成立,即不存在这样的理论,其数学形式为∣Pxz-Pzy∣≤1+Pxy。贝尔不等式贝尔不等式是1964年贝尔提出的一个强有力的数学不等式。该定理在定域性和实在性的双重假设下,对于两个分隔的粒子同时被测量时其结果的可能关联程度建立了一个严格的限制。而量子力学预言,在某些情形下,合作的程度会超过贝尔的极限,也即,量子力学的常规观点要求在分离系统之间合作的程度超过任何“定域实在性”理论中的逻辑许可程度。贝尔不等式提供了用实验在量子不确定性和爱因斯坦的定域实在性之间做出判决的机会。目前的实验表明量子力学正确,决定论的定域的隐变量理论不成立。贝尔不等式可以应用于任何由两个相互纠缠的量子位元所组成的量子系统。最常见的范例是纠缠于自旋或偏振的粒子系统。
2023-06-10 20:25:091

《三体》中杨冬因为物理学是不存在的而自杀,为什么说“物理学是不存在的”?

为啥我不懂这是啥意思,就我一个人没有文化哎
2023-06-10 20:25:336

基于指数族分布的变分推断——变分推断(二)

让我们书接上文。 前一篇博客( 基于近似计算解决推断问题——变分推断(一) )我们说到基于高斯贝叶斯混合的 CAVI (坐标上升变分推断),那么,我们能不能将这类变分推断进行扩展,变成更为通用的算法框架呢? 显然,基于 指数分布族 (exponential families)的某些特性,这样的做法是可行的。下面让我们先看看什么是指数分布族。 本文主要参考的文献为David M.Blei 2018年发表的论文 Variational Inference: A Review for Statisticians 。 指数族分布 (exponential family of distributions)也叫指数型分布族,包含 高斯分布 、 伯努利分布 、 二项分布 、 泊松分布 、 Beta 分布 、 Dirichlet 分布 、 Gamma 分布 。指数族分布通常可以表示为: 其中有几个比较重要的参数后面可能会用到: 或者,也可以采用另一种表示形式: 其中, 是指数族的 自然参数 , 为 尺度参数 或 讨厌参数 。 和 依据不同指数族而确定的函数。注意 只由 和 决定 常见的指数分布族 一维高斯分布 一维变量 若服从均值为 、方差为 的一维高斯分布,则可以表示为 公式(a)的形式 如果按照公式(a)对高斯分布的公式进行转变,则可以变为 可以看到,自然参数可以表示为 ,对数配分函数可以表示为 。按照这个公式,我们可以计算出均值、方差与自然函数的关系 这也是上一篇博客中,公式(34)的由来。 公式(b)的形式 按照公式(b),可以化为 其中, 对概率密度函数求积分: 两边对参数求导 类似的 由于方差为正,所以 一定是凸函数 对于独立分布采样得到的数据集 的的极大似然估计为 所以,如果要进行估算参数,只要知道 充分统计量 就可以了 信息熵公式为 对于一个数据集 ,在这个数据集上的经验分布为 ,实际不可能满足所有的经验概率相同,于是在上面的最大熵原理中还需要加入这个经验分布的约束。 对于任意一个函数,经验分布的经验期望可以求得为 Lagrange 函数为 求导可得 由于数据集是任意的,对数据集求和就意味着求和项里面的每一项都是0,所以有 这就是指数族分布的公式。 在推断问题中,我们常常要计算下列式子 上式中分母积分十分难计算,为了解决积分难计算的问题,一个思路是能否绕过积分呢?我们知道存在如下关系 ,其中 是后验分布, 是似然, 是先验 如果存在这样的u2f00个先验分布,那么上u2f00时刻的输出可以作为下u2f00时刻计算的先验分布,那么这样整个计算就可以形成闭环。也就是说 如果后验分布和先验分布是同分布,此时我们称先验分布和后验分布是共轭分布,且称先验分布是似然函数的共轭先验 。u2f50如u2fbc斯分布家族在u2fbc斯似然函数下与其u2f83身共轭,也叫u2f83共轭。 共轭先验的好处主要在于代数上的方便性 ,可以直接给出后验分布的封闭形式,否则的话只能做数值计算 对于一个模型分布假设(似然),那么我们在求解中,常常需要寻找一个共轭先验,使得先验与后验的形式相同,例如选取似然是二项分布,可取先验是 Beta 分布,那么后验也是 Beta 分布。指数族分布常常具有共轭的性质,于是我们在模型选择以及推断具有很大的便利。 在上一篇博客中,我们提到,在推断问题中,对于第 个隐变量 ,其 complete conditional (完全条件)为给定其他隐变量和观测数据时,它的条件密度,即 。结合指数族分布的概念,当后验分布为指数族分布时,我们可以将隐变量的 complete conditional 写为 其中, 所以,根据上一篇博客中,我们知道 CAVI 算法的参数更新公式(17),当假设后验分布为指数族分布时,坐标上升的更新公式为 更新公式揭示了更新变分因子的参数形式,每一个更新因子都 与它对应的 complete conditional 属于同一指数族 ,它的参数拥有相同维度以及相同的基本测量 和对数归因算子 。 我们可以令 为第 个数据点的变分参数,当我们更新每个因子时,只需要令其变分参数等于完全条件的期望参数 对于指数族模型,一个比较特殊的情况是 条件共轭模型 (conditionally conjugate models),它在贝叶斯学习和机器学习中常被运用。 我们将条件共轭模型涉及的变量可以分为两类 根据 i.i.d. 假设,其联合分布可以表示为 回顾前面提到的高斯混合,用这类的模型解释的话,全局变量就是混合组件参数,而局部变量就是每个数据点 的聚类分配。 我们假设基于全局变量 ,每个数据点 的联合分布,都有指数族形式 其中 为充分统计量。 接下来,我们可以假设全局变量的先验分布是公式(42)的共轭分布 这一分布的自然参数为 ,充分统计量为全局变量及其对数归一化的负数。 有了上述的共轭先验,我们也能让得到全局变量的 complete conditional 也在同一分布 其中,基本测量为 ,自然参数为 。 而对于局部变量 的 complete conditional ,在 i.i.d. 假设下有等式 我们假设其服从指数族分布 接下来让我们将这个模型引入 CAVI 算法框架。我们将 的变分后验分布近似表示为 ( 为 全局变分参数 ),它与后验分布有相同的指数族分布;将 的变分后验分布近似为 ,其中 为数据点 的 局部变分参数 ,它与局部 complete condititonal 有相同的指数族分布。 在 CAVI 算法中,我们将迭代地进行局部变分参数和全局变分参数的更新。 局部变分参数的更新 这里我们用到前面的公式(40),可以得到更新公式 得到的结果为公式(45)中自然参数的期望。 全局变分参数的更新 全局变分参数的更新利用类似的方法,更新公式为 得到的结果为公式(44)中自然参数的期望。 ELBO 的计算 CAVI 通过迭代更新局部变分参数和全局变分参数,每次迭代我们可以计算 ELBO ,来决定模型是否收敛。将公式(44)带入 ELBO 公式(13),我们可以得到条件共轭模型的 ELBO 后面一项可以表示为 论文中附录 C 还有描述了基于 LDA 的 CAVI 算法,有兴趣的小朋友可以看一下论文,这里不过多赘述。 CAVI 给了变分推断问题一个解决问题的框架,引入指数族分布使得模型更加简化,似乎到这里问题已经解决得差不多了,但事实上真的是这样吗? 实际上,在真实场景中,我们要应对的数据可能是成百上千甚至是上十万的,这就给 CAVI 这一算法框架带来了极大的挑战。 CAVI 在计算过程中,每一次迭代都需要遍历所有数据,随着数据量的增加,计算量也越来越大,这显然是不符合我们的需要。 所以,我们还需要另外一套计算方法,对算法的效率进行优化。这也是我下一篇博客会讲到的两种方法—— 随机变分推断 (Stochastic variational inference,SVI)和 变分自编码器 (Variational Auto-encoder,VAE)。
2023-06-10 20:26:531

贝尔不等式的背景

1928年7月28日,约翰·斯图尔特·贝尔(John Stewart Bell)出生在北爱尔兰的首府贝尔法斯特。17岁时他进入贝尔法斯特女王大学攻读物理,虽然主修的是实验物理,但他同时也对理论物理表现出非凡的兴趣。特别是方兴未艾的量子论,它展现出的深刻的哲学内涵令贝尔相当沉迷。 但贝尔对概率论的哥本哈根解释不置可否。贝尔想要的是一个确定的,客观的物理理论,他把自己描述为一个爱因斯坦的忠实追随者。毕业以后,贝尔先是进入英国原子能研究所(AERE)工作,后来转去了欧洲核子研究组织(CERN)。他的主要工作集中在加速器和粒子物理领域方面。1952年玻姆隐变量理论问世,这使贝尔感到相当兴奋。贝尔觉得,隐变量理论正是爱因斯坦所要求的东西,可以完成对量子力学的完备化。1963年,贝尔在日内瓦遇到了约克教授,两人对此进行了深入的讨论,贝尔逐渐形成了他的想法,对EPR佯缪长期的争论很感忧虑。贝尔最初同意玻姆的理论,并沿玻姆的思路进行着研究,认为爱因斯坦的隐变量一定存在着,并且理应在现代物理学框架之内。1964年,贝尔意外地发现了贝尔不等式以及贝尔不等式实验验证的可能性,还有一些带推测性质的预言。他把论文投寄到科学期刊,但久无回音,原来编辑把它遗忘了。幸运的是编辑又把它重新找到,当正式发表出来,已过了一、二年。 1927年,在布鲁塞尔的第五届索尔维会议上,德布罗意在会上讲述了他的“导波”理论。德布罗意不相信玻尔的互补原理,亦即电子同时又是粒子又是波的解释。德布罗意想象,电子始终是一个实实在在的粒子,但它受到时时伴随着它的那个波的影响。德布罗意认为量子效应表面上的随机性完全是由一些不可知的变量所造成的。假如把那些额外的变量考虑进去,整个系统是确定和可预测的,符合严格因果关系的。这样的理论称为“隐变量理论”(Hidden Variable Theory)。  玻姆的隐变量理论是德布罗意导波的一个增强版,只不过他把所谓的“导波”换成了“量子势”(quantum potential)的概念。在他的描述中,一个电子除了具有通常的一些性质,比如电磁势之外,还具有所谓的“量子势”。这其实就是一种类似波动的东西,它按照薛定谔方程发展,在电子的周围扩散开去。但是,量子势所产生的效应和它的强度无关,而只和它的形状有关,这使它可以一直延伸到宇宙的尽头,而不发生衰减。在玻姆理论里,像电子这样的基本粒子本质上是一个经典的粒子,但以它为中心发散出一种势场,使它每时每刻都对周围的环境了如指掌。当一个电子向一个双缝进发时,它的量子势会在它到达之前便感应到双缝的存在,从而指导它按照标准的干涉模式行动。如果实验者试图关闭一条狭缝,无处不在的量子势便会感应到这一变化,从而引导电子改变它的行为模式。如果试图去测量一个电子的具体位置,测量仪器将首先与它的量子势发生无法直接被观测的作用。  玻姆理论能够很大程度上满足观测,数学形式却极为繁琐。且玻姆在恢复了世界的实在性和决定性之后,却放弃了另一样东西:定域性(Locality)。定域性指的是,在某段时间里,所有的因果关系都必须维持在一个特定的区域内,而不能超越时空来瞬间地作用和传播。但是在玻姆那里,他的量子势可以瞬间传播粒子所需要的信息。
2023-06-10 20:26:591

生成式模型入门: GAN 与 VAE——“以假乱真”的哲学

在图像处理中,比较常见的任务有识别、检测、追踪等,这些任务的模型通常在训练阶段通过参数估计学得如何提取输入图像的特征,并建立输入图像与输出之间的映射,在应用阶段之间提取输入图像的特征,以得到相应的结果。 但有这样一类特殊的模型,其参数估计的目的不是通过提取特征来建立输入输出之间的映射,而是学习训练数据的分布,从而模型在应用阶段能够生成与训练数据相似的图像,通常这些图像与真实图像极为相似,我愿称之为“以假乱真”的哲学,这类模型就是 生成式模型 。 基于特定分布进行数据生成,是近年来机器学习领域研究和落地,通常由由模型通过学习一组数据的分布,然后生成类似的数据。在机器学习领域,主流的生成模型共有 4 类: 这 4 类模型是基于不同的原理构建的,在本文中,我将介绍最常被用到的两类模型—— GAN 和 VAE。 生成式对抗网络(Generative adversarial net, GAN)是一种基于对抗学习的深度生成模型,最早由 Ian Goodfellow 在 《Generative Adversarial Nets》 提出,一经提出就成为了学术界研究的热点,Ian Goodfellow 也因此被人称为“GANs 之父”(没错,就是那个写了花书的大佬 ヾ(≧▽≦*)o )。 想必看过金庸小说的同学们都知道,“老顽童”周伯通有一样异于常人的本领——左右互博,有了这样一门武功,一来只有自己一个人也能玩得不亦乐乎,二来自己一个人就能切磋武艺。那是不是神经网络也可以通过这种方式来“修炼功夫”? 对抗学习就是基于这样的思想。 GAN 的思想很简单,总结起来就是 以假乱真、相互对抗 ,而它的做法也是非常之简单粗暴,同时(或者说交替)训练两个网络,通过两个网络之间的博弈,从而达到互相促进的作用。 在 GAN 的整体框架中,用于训练的模型由两个网络组成,一个网络是 生成器 G (generator),用于数据的生成;另一个网络是 判别器 D (discriminator),用于对生成器生成的数据和训练数据进行真假判别。就拿图像生成为例,在图像生成模型的训练过程中: 在训练过程中,生成器和判别器就像是两个相互博弈的人,生成网络 G 的目标就是尽量生成真实的图像去欺骗判别网络 D ,而 D 的目标就是尽量把 G 生成的图片和真实的图片分别开来。通过相互对抗,生成网络的生成能力和判别网络的判别能力将越来越强,最终当模型收敛时,我们将得到一个生成效果较好的生成器。 为了描述 GAN 如何完成这个博弈过程,我们先定义 GAN 目标函数: 让我来解释一下这个公式: 借用论文里的一张图来说明这个过程,如下图: 在实际实现中,两个网络的更新是交替进行的,这导致在超参数调节不合适时,会出现参数更新不平衡的问题,不过这个问题不是这篇博客讨论的重点,暂且挂起不谈。 其训练过程如下图所示(来自原论文): 可以看到,在每一轮迭代中: GAN 依然存在一些缺点,比如说训练不稳定,生成过程不可控,不具备可解释性等,于是后来出现了若干改进的版本。 当卷积神经网络再视觉领域大放光彩后,有人尝试将卷积操作融合到 GAN 中,也就是接下来要讲的深度卷积对抗生成网络(DCGAN)。 DCGAN 在《UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS》被首次提出,是基于 GAN 的基本框架构建的生成模型,相比于 GAN ,它有了如下的改进: DCGAN 的网络结构如下图: DCGAN的训练过程与 GAN 相同,不过由于网络结构的改变,相比于 GAN ,DCGAN 的训练相对平衡,并且对局部特征的提取和还原能力较 GAN 强。但由于 DCGAN 属于早期的 GANs ,所以依然存在部分 GAN 的问题,在 DCGAN 后 GAN 又有了若干改进版,由于数量较多、有的比较水,这里就暂且挂起,不多叙述。 如果说 GAN 在数据生成模型领域为我们选择了一条简单粗暴的道路,那接下来要讲的模型则为我们提供了更加巧妙的办法。 变分自编码器(variational autoencoder, VAE)采用变分推断的方式来构建,与其他自编码器类似,变分自编码器也是由编码器和解码器组成,其本质是对一个含隐变量的函数进行密度估计。在训练过程中, VAE 的主要目的是进行极大似然估计,为了使得隐变量服从某一分布,在参数估计的过程中采用了变分推断的思想。 假设我们现在需要在某系统中,估计模型的后验概率 ,而这个 的计算非常复杂,其中 是隐变量, 是显变量。 针对这一问题,在变分推断中,我们希望望找到一个相对简单好算的概率分布 ,使它尽可能地近似我们待分析地后验概率 ,以求我们能够用 来近似 。所以,为了度量两个概率分布 和 之间的距离,我们需要用到的一个工具就是 KL 散度 。 KL 散度(Kullback-Leibler divergence)即相对熵,两个概率分布间差异的非对称性度量。如果两个分布越接近,那么 KL 散度越小,如果越远,KL 散度就会越大。对于两个分布 和 ,其 KL 散度的公式为: 假设我们有一个判别任务,现有一个等待判别的事物 ,这个事物有一个类别 ,我们需要建立一个模型 使得 的概率尽可能大,即让 尽可能地接近 。 如果我们使用生成式模型去解决这一问题,就需要用贝叶斯公式将这个问题转换成: 让我们再考虑一下数据生成问题,则问题可以转换成:当我们有式子左边的 ,应该如何生成一个符合某种 的 (其中 为符合某种分布的隐变量)? 一个解决方式是:每次随机生成一个 ,用 计算概率,如果概率满足,则结束,如果不满足,则继续随机生成。但这种方式在某些情况下是不现实的,特别是右部的公式难以直接计算得到,所以,我们需要采用其他可行的方法来解决这一问题。这时就可以用到变分推断的思想结合自编码器,假设隐变量 服从某种分布来解决这一问题。 由于公式(2)中,右部的积分公式难以计算,我们可以用一个变分函数 去代替 。在 VAE 中,这个函数将采用编码器实现),当编码器能够将数据能够完美地将真实数据编码成服从一定分布的隐变量时,那解码器就能将服从这一分布的隐变量解码成接近真实数据的生成数据,从而解码器将能作为生成器使用,这便是 VAE 的基本思想 。 为了能采用 去代替 ,我们需要使得两个分布布尽可能地相近,于是乎我们选择了 KL 散度这个指标用来衡量两者的相近程度,于是有: 左右整理一下,我们可以得到: 我们知道在 给定的情况下, 是个固定值,而我们的目的是最大化 ,所以我们需要让等号右边那部分尽量大,所以,为了找到一个好的 ,使得它和 尽可能地相近,我们需要: 为了将数据编码到隐变量,我们需要假设隐变量 服从某种分布。通常我们假设 服从高斯分布,则计算公式为: 为了计算方便,我们再进行一个比较强的假设,假设隐变量服从标准正态分布,即服从均值为 ,方差为单位矩阵的高斯分布,则: 接下来,我们就能通过构建编码器,得到一个由输入 求解隐变量 的函数,利用梯度下降法,可根据公式(6)对网络参数进行优化,使得编码器近似接近我们想要拟合的函数。 而对于公式(4)的第一项,我们可以通过构建一个从 再变回 的解码器,通过梯度下降法进行解码器参数优化,从而实现对 的极大似然估计,我们将得到一个将符合高斯分布的隐变量变成生成数据的生成器。 条件变分自编码器(CVAE) 是 VAE 的变种。VAE 是无监督学习,但是当我们需要网络能够根据我们的需要生成特定的图片,需要加入标签 y 辅组训练,这就是 CVAE。 CVAE 可以看作是有监督学习的 VAE 。将公式(4)的右部变为: 在这里,自编码器需要重构的是 而不是 , 所以最终的生成器能够根据标签进行采样而生成对应的数据。
2023-06-10 20:27:121

一文搞懂变分自编码器(VAE, CVAE)

变分自编码器与对抗生成网络类似,均是为了解决数据生成问题而生的 。在自编码器结构中,通常需要一个输入数据,而且所生成的数据与输入数据是相同的。但是通常希望生成的数据具有一定程度的不同,这需要输入随机向量并且模型能够学习生成图像的风格化特点,因此在后续研究中以随机化向量作为输入生成特定样本的对抗生成网络结构便产生了。变分自编码器同样的以特定分布的随机样本作为输入,并且可以生成相应的图像,从此方面来看其与对抗生成网络目标是相似的。但是变分自编码器不需要判别器,而是使用编码器来估计特定分布。总体结构来看与自编码器结构类似,但是中间传递向量为特定分布的随机向量, 这里需要特别区分:编码器、解码器、生成器和判别器 先假设一个隐变量Z的分布,构建一个从Z到目标数据X的模型,即构建 ,使得学出来的目标数据与真实数据的概率分布相近 VAE的结构图如下: VAE对每一个样本 匹配一个高斯分布,隐变量 就是从高斯分布中采样得到的。对 个样本来说,每个样本的高斯分布假设为 ,问题就在于如何拟合这些分布。VAE构建两个神经网络来进行拟合均值与方差。即 ,拟合 的原因是这样无需加激活函数 此外,VAE让每个高斯分布尽可能地趋于标准高斯分布 。这拟合过程中的误差损失则是采用KL散度作为计算,下面做详细推导: VAE与同为生成模型的GMM(高斯混合模型)也有很相似,实际上VAE可看成是GMM的一个 distributed representation 的版本。GMM是有限个高斯分布的隐变量 的混合,而VAE可看成是无穷个隐变量 的混合, VAE中的 可以是高斯也可以是非高斯的 原始样本数据 的概率分布: 假设 服从标准高斯分布,先验分布 是高斯的,即 。 是两个函数, 分别是 对应的高斯分布的均值和方差,则 就是在积分域上所有高斯分布的累加: 由于 是已知的, 未知,所以求解问题实际上就是求 这两个函数。最开始的目标是求解 ,且希望 越大越好,这等价于求解关于 最大对数似然: 而 可变换为: 到这里我们发现,第二项 其实就是 和 的KL散度,即 ,因为KL散度是大于等于0的,所以上式进一步可写成: 这样就找到了一个下界(lower bound),也就是式子的右项,即: 原式也可表示成: 为了让 越大,目的就是要最大化它的这个下界 回顾 : 显然,最大化 就是等价于最小化 和最大化 。 第一项,最小化KL散度 :前面已假设了 是服从标准高斯分布的,且 是服从高斯分布 ,于是代入计算可得: 对上式中的积分进一步求解, 实际就是概率密度 ,而概率密度函数的积分就是1,所以积分第一项等于 ;而又因为高斯分布的二阶矩就是 ,正好对应积分第二项。又根据方差的定义可知 ,所以积分第三项为-1 最终化简得到的结果如下: 第二项,最大化期望 。也就是表明在给定 (编码器输出)的情况下 (解码器输出)的值尽可能高 重参数技巧 : 最后模型在实现的时候,有一个重参数技巧,就是想从高斯分布 中采样 时,其实是相当于从 中采样一个 ,然后再来计算 。这么做的原因是,采样这个操作是不可导的,而采样的结果是可导的,这样做个参数变换, 这个就可以参与梯度下降,模型就可以训练了 在条件变分自编码器(CVAE)中,模型的输出就不是 了,而是对应于输入 的任务相关数据 ,不过套路和VAE是一样的,这次的最大似然估计变成了 ,即:: 则 ELBO(Empirical Lower Bound) 为 ,进一步: 网络结构包含三个部分:
2023-06-10 20:27:301

结构方程模型

只要有数据,设计好模型之后,结构方程模型软件如Amos、Mplus等就可以运行出结果。(南心网AmosMplus结构方程模型)
2023-06-10 20:27:391

贝尔不等式怎么证明 纠缠

贝尔不等式究竟是在阐述什么问题? - 量子物理怎么“证明”不确定性原理,这个“证明”的意思很模糊。从波函数假设以及一些基本概念出发,然后用纯粹数学推导,就能证明同一个波函数在两个力学量A,B上分布的标准差之积不小于[A,B]/2,这算不算理论证明?如果说实验证明的话,那确实是无法严密验证,只能通过其推论去尝试证伪。但这在理论地位上毕竟只是基本原理推出的一个数学结论,“直接验证”难度和薛定谔方程有的一拼。根据题目中的描述,我觉得有必要先讲一下贝尔不等式实验到底是什么东西。贝尔不等式是从隐参量理论推导出来的,而让当时的人感到惊悚的是,主流量子力学推出的结果和隐参量理论居然不一样,结论是这个不等式不成立。然后按照规矩就是喜闻乐见的实验时间,看看实验中这个不等式到底成立不成立最后的结局是,实验的结果打飞了隐参量理论的脸,观测到这个不等式关系不成立,就这样。你问到底为什么会产生一个不一样的结果,这个数学推导建议看书。关键是在多个方向测量一对粒子的自旋时,量子力学的神奇性质就搞出了一些不一样的结果,但整体来说枯燥无味的东西还是建议看书。不过不要以为能否掉隐参量理论就一个贝尔不等式,隐参量理论能推出一大票和主流量子力学不一样的结果,这些结果基本上都成了否定隐参量理论的重要实验证据。其中个人印象最深的就是GHZ三粒子实验,隐参量理论推出来的结果居然直接和量子力学相反。追究到数学层面上是因为量子力学使用的三个偏导算符产生了一个负号,而隐参量理论没有。这个实验不像贝尔不等式依赖于大量粒子的统计性质,而是通过单次实验,干净利落地否掉隐参量理论。
2023-06-10 20:28:092

何为证伪,为啥科学可以证伪而非科学却不可以证伪?

伪证就是假设,科学可以伪证是因为科学无法真的体会到那个情境,但是非科学可以。
2023-06-10 20:28:163

pls中的latent variables是什么意思

latent variables潜在变量;潜变量;隐变量;潜在变数;变项This study included three latent variables: trait test anxiety, test self-efficacy, andmath scores. 考试焦虑、考试自我效能感和数学考试成绩是三个潜变量。
2023-06-10 20:29:041

量子物理是什么,它研究什么方面的问题?

研究原子、分子、原子核、基本粒子时所观察到的关于微观世界的系列特殊的物理现象
2023-06-10 20:29:133

高斯过程隐变量模型和高斯过程分类的区别

高斯过程(GPS)是一种良好的贝叶斯分类方法和回归过程,也可应用于半监督聚类方面,就此提出了一个新的算法:使用稀疏高斯过程回归模型来解决半监督二元分类问题,它是基于支持向量回归(SVR)和最大空间聚类(MMC)的半监督分类方法,此算法简...
2023-06-10 20:29:341

机器学习“判定模型”和“生成模型‘有什么区别

首先区分生成/判别方法和生成/判别模型。有监督机器学习方法可以分为生成方法和判别方法(常见的生成方法有混合高斯模型、朴素贝叶斯法和隐形马尔科夫模型等,常见的判别方法有SVM、LR等),生成方法学习出的是生成模型,判别方法学习出的是判别模型。接着对生成模型和判别模型做更详细一点的解释。这里定义训练数据为(C,X),C={c1,c2,....cn}是n个训练样本的label,X={x1,x2....xn}是n个训练样本的feature。定义单个测试数据为(,),为测试数据的lable,是测试样本的feature。1)训练完毕后,输入测试数据,判别模型直接给出的是,即输出(label)关于输入(feature)的条件分布,实际上,这个分布的条件还有训练数据---------因为实际上我们是“看过”训练数据之后,学习到了对数据分布的后验认识,然后根据这个认识和测试样本的feature来做出测试样本属于哪个label的决策的,所以有=。我们认为这个条件分布由参数决定的,即------------------------------------------------------------------------------------------------------------①那么如何由得到呢?如果我们可以求出参数关于训练数据的的后验分布(这其实就是学习过程),那么就可以由===------------②来得到想要的答案(关于②如何得到,请参考其他地方的讨论PRML第一章公式1.68如何推导? - 机器学习 - 知乎,第31页公式1.68怎么推导的啊..)。所以现在问题转化成了求条件分布的参数关于训练数据(C,X)的后验分布。那么我们来看看怎么求这个后验分布。条件分布关于训练数据的似然函数==--------------------------------------------------------------------------③有没有发现和有一点像?像在和C互换了位置,互为条件概率,可以考虑使用贝叶斯公式来进行转化,即=------------------------------------------------------------------------------④所以现在问题又进行了转化,变成了求条件分布关于训练数据的似然函数、参数的先验分布和C关于X的条件分布三个小问题。我们已经知道似然函数怎么求,先验分布也不需要求(先验知识,就是我们在解决问题之前已经知道的知识),而==----------------------------------------------⑤至此问题已经解决,综合上述①-⑤各式,我们终于可以求出输出关于输入的条件分布啦!=---------------------------------------------------⑥⑥中的两个积分的计算是很麻烦的,在实际解决问题的过程中要想办法省略掉。对于②中积分公式可以使用variational inference的方法干掉,variational inference用一句话来说就是:如果训练样本足够多的话,可以使用的最大后验分布来对进行点估计(point estimate)。即有:==----------------------------------------------------------------------⑦所以我们干掉了第一个积分问题,把问题简化成了求的最大后验概率。观察④式可以发现分子是常数,如果我们省略掉④中的分子对结果是没有影响的(只需要对分子进行normalize就可以得到后验概率),那么我们又干掉了第二个积分公式,将问题简化成了求的最大值。如果先验分布在似然函数较大的区间是固定不变或变化较小的,那么问题又可以转化成求最大似然函数!实际上,在噪声高斯分布的假设下,最小误差平方和优化问题(即求使误差平方和最小的参数)等价于求最大似然函数(即使似然函数最大的参数)。做一个总结,判别模型求解的思路是:条件分布------>模型参数后验概率最大------->(似然函数参数先验)最大------->最大似然2)现在考虑生成模型。给定输入,生成模型可以给出输入和输出的联合分布,所以生成方法的目标是求出这个联合分布。这里以朴素贝叶斯模型为例,我们要求的目标可以通过:=------------------------------------------------------------------------------------------⑧这样将求联合分布的问题转化成了求类别先验概率和类别条件概率的问题,朴素贝叶斯方法做了一个较强的假设--------feature的不同维度是独立分布的,简化了类别条件概率的计算,如果去除假设就是贝叶斯网络,这里不再赘述。以朴素贝叶斯为例,生成模型的求解思路是:联合分布------->求解类别先验概率和类别条件概率最后说一说两种模型的优缺点:生成模型:优点:1)生成给出的是联合分布,不仅能够由联合分布计算条件分布(反之则不行),还可以给出其他信息,比如可以使用来计算边缘分布。如果一个输入样本的边缘分布很小的话,那么可以认为学习出的这个模型可能不太适合对这个样本进行分类,分类效果可能会不好,这也是所谓的outlier detection。2)生成模型收敛速度比较快,即当样本数量较多时,生成模型能更快地收敛于真实模型。3)生成模型能够应付存在隐变量的情况,比如混合高斯模型就是含有隐变量的生成方法。缺点:1)天下没有免费午餐,联合分布是能提供更多的信息,但也需要更多的样本和更多计算,尤其是为了更准确估计类别条件分布,需要增加样本的数目,而且类别条件概率的许多信息是我们做分类用不到,因而如果我们只需要做分类任务,就浪费了计算资源。2)另外,实践中多数情况下判别模型效果更好。判别模型:优点:1)与生成模型缺点对应,首先是节省计算资源,另外,需要的样本数量也少于生成模型。2)准确率往往较生成模型高。3)由于直接学习,而不需要求解类别条件概率,所以允许我们对输入进行抽象(比如降维、构造等),从而能够简化学习问题。缺点:1)是没有生成模型的上述优点。
2023-06-10 20:29:441

超距作用的现代诠释

在电磁学里,为了要说明超距作用,导致发展出场论,场能够媒介电流与电荷之间隔着自由空间彼此施加于对方的相互作用。根据场论,电荷在四周生成电场,其它电荷会感受到电场的作用力,这就是两个带电粒子彼此之间库仑相互作用的机制。麦克斯韦方程组用电磁场来计算所有电磁相互作用。在麦克斯韦理论里,场的概念被提升至基础角色,场具有自己的实体,在空间拥有动量与能量,超距作用只是电荷与电磁场彼此之间局域相互作用所产生的表观效应。根据爱因斯坦的狭义相对论,瞬时超距作用违反了信息传递速度的上限。假设两个物体彼此相互作用,其中一个物体突然改变位置,另外一个物体会瞬时感受到影响,即信息传递速度比光速(光波传播于真空的速度)还快,则此现象属于“超距作用”。相对论性引力理论必须满足一个条件——信息传递速度必须低于光速。从先前高度成功的电动力学案例来看,相对论性引力理论可能需要使用场的概念或者其它类似概念。爱因斯坦的广义相对论已经对这问题给出解答,引力相互作用是依靠时空几何弯曲的机制来传递。物质促成了时空几何弯曲,并且这效应如同电磁场一样,是以光速传递。由于物质的存在,时空具有非欧几里得性质。在牛顿力学里,空间作用于物体,但物体没有作用于空间。在爱因斯坦相对论里,物质作用于时空几何,使时空几何产生形变,而时空几何也作用于物质,造成引力现象。20世纪,量子力学对于物理程序是否应该遵守局域论(排除超距作用)这问题给出了崭新的挑战。1935年,爱因斯坦、波多尔斯基和罗森共同提出了爱因斯坦-波多尔斯基-罗森思想实验,后来知名为EPR悖论,可以凸显出局域实在论与量子力学完备性之间的矛盾。大致而言,假设两个粒子相互作用后向相反方向移动,过了一段时间,虽然两个粒子相隔极远,彼此之间不存在任何经典相互作用,但是,若分别测量它们的性质所获得的结果,则可发觉它们的性质非常怪异地相互关联,意味着这其中可能存在某种超距作用。实际而言,量子力学的哥本哈根诠释表明,这是因为波函数坍缩机制,一种违反狭义相对论的超距作用。(详情请参见词条:量子纠缠)有一种类似的观点认为,如果你知道一对粒子(他们之间就像有纽带束缚着),其中一个向左自旋,另一个就会向右自旋,爱因斯坦说这证明量子理论是荒唐的,但同样,这不能表明人们能以比光快的速度传递信息1953年,英国物理学家大卫·玻姆同样认为哥本哈根诠释对物理实在的解释是不完备的,需要附加的参量来描述,他从而提出隐变量理论。1965年,北爱尔兰物理学家约翰·贝尔在提出贝尔不等式,为隐变量理论提供了实验验证方法。从二十世纪七十年代至今,对贝尔不等式的验证给出的大多数结果是否定的,但其中绝大多数实验都存在不同程度的“探测漏洞”或“通信漏洞”,不能严格证实隐变量错误。但在2015年8月24日,荷兰代尔夫特大学的物理学家罗纳德·汉森(Ronald Hanson)领导的团队在论文预印本网站arXiv上传了他们最新的论文,报道他们实现了第一例可以同时解决探测漏洞和通信漏洞的贝尔实验。该研究组使用了一种巧妙的技术,称为“纠缠交换”(entanglement swapping),可以将光子与物质粒子的好处结合在一起。他们首先取了位于代尔夫特大学两个不同实验室中的一对非纠缠电子,彼此间距离为1.3千米,每个电子都与一个光子相纠缠,而这两个光子都被发送到了第三个地点。在第三个地点他们让这两个光子纠缠,这就导致了与光子相纠缠的两个电子也处于纠缠态。“幽灵般的超距作用”得到严格检验。
2023-06-10 20:29:521

第五界索维尔会议

精彩!
2023-06-10 20:30:175

EPR悖论的贝尔不等式

为了解决这一“疑难”,不少理论物理学家企图建立量子力学的隐参量理论,他们认为迄今为止,决定微观粒子的决定性行为的隐变量尚未找到,波函数的统计解释实乃现今的一种权宜之计。1964年,在爱因斯坦去世9年以后,英国物理学家J·贝尔从隐参量存在和定域性成立出发得到一个可供实验检验的不等式,把一个长期争论不休的理论问题,变成一个可供实验判决的问题,从而对“EPR疑难”、对量子力学的理论基础作出了重大贡献。J·贝尔提出论文表明,对于EPR思想实验,量子力学的预测显著不同于局域性隐变量理论。概略而言,假若测量两个粒子分别沿着不同轴的自旋,则量子力学得到的统计关联性结果比局域性隐变量理论得到的结果要强很多,贝尔不等式定性地给出这差别,做实验应该可以观测出这差别。如同EPR作者,贝尔在论文里的导引采用了同样的两个假设:实在性:微观物体拥有实在性质,这种实在性质可以决定量子测量结果。局域性:在任意区域的实在性质不会被遥远区域进行的测量所影响。从这两个假设,贝尔推导出重要的结果——贝尔不等式,贝尔并且提出贝尔定理:“没有任何局域隐变量理论能够复制所有量子力学预测”。这意味着在这两个假设之中至少有一个假设不正确。EPR论文相当局限地只论述物理实在要素,J·贝尔1964年论文仔细论述到更多种不同的隐变量。最关键的一点是做实验能够检验重要的贝尔不等式,这促使了检验局域实在论的可能性。贝尔论文只涉及了决定性隐变量理论。后来,论文被推广为随机理论。 物理学家发现,论文所论述的并不只是隐变量,它还论述到一些并未真正执行测量的变量可能会拥有的测量结果。这种变量的存在称为“实在论假设”,又称为反事实确定性假设。 在贝尔论文发表之后,物理学家想出很多种实验来检试贝尔不等式,这些实验一般都依赖测量光子偏振的机制。1981年,A·阿斯佩克等人(1981年)利用纠缠光子对在更一般情况下,发现实验并不支持贝尔不等式而支持量子力学的正统解释。所有至今完成的实验结果,都违背贝尔不等式,符合量子力学预测。 虽然这些结果并没有证实量子力学是完备的,贝尔定理似乎终结了局域实在论,必须违背局域论,或者违背实在论,或者同时违背两者。这么简单与精致的理论导致出极为重要的量子力学结果,H·斯泰魄因此称誉其为“意义最深远的科学发现”。
2023-06-10 20:30:501

贝尔不等式的通俗解释

贝尔不等式的通俗解释为:1964年约翰·斯图尔特·贝尔提出的一个数学不等式。该定理在定域性和实在性的双重假设下,对于两个分隔的粒子同时被测量时其结果的可能关联程度建立了一个严格的限制。在经典物理学中,此不等式成立;在量子物理学中,此不等式不成立,即不存在这样的理论,其数学形式为∣Pxz-Pzy∣≤1+Pxy。目前的实验表明量子力学正确,决定论的定域的隐变量理论不成立。贝尔不等式不成立意味着,阿尔伯特·爱因斯坦所主张的局域实体论(local realism),其预测不符合量子力学理论。由于很多实验的结果与量子力学理论的预测一致。显示出的量子关联(quantum correlation)远强过局域隐变量理论所能够解释,所以,物理学者拒绝接受局域实体论对于这些实验结果的解释。贝尔其人1928年7月28日,约翰·斯图尔特·贝尔(John Stewart Bell)出生在北爱尔兰的首府贝尔法斯特。17岁时他进入贝尔法斯特女王大学攻读物理,虽然主修的是实验物理,但他同时也对理论物理表现出非凡的兴趣。特别是方兴未艾的量子论,它展现出的深刻的哲学内涵令贝尔相当沉迷。但贝尔对概率论的哥本哈根解释不置可否。贝尔想要的是一个确定的,客观的物理理论,他把自己描述为一个爱因斯坦的忠实追随者。
2023-06-10 20:31:041

请问不确定性关系可不可以这么解释?

不行吧。。如果哪天科技高了,还是可以拍清楚的。而且我们现在就能用数学方法就能把A的动量,位置计算的很准确。因为他的粒子性很强!关系不确定性是表现在微观世界里的。因为微观粒子的波动性很强,所以就会发生衍射。对于一个微观粒子,我们不可能同时知道他的位置和动量,所以,不可能描绘出他的轨迹!但是可以算出他落到某个地方的概率。A物体的轨迹都出来了,想算什么都可以知道的
2023-06-10 20:31:376

爱因斯坦说“上帝不掷骰子”是什么意思?他说得对吗?

说的对。我认为意思就是,科学就是科学,来不得半点马虎,不是上帝掷骰子而形成的,而是世界万物都要遵循一定的规律。
2023-06-10 20:31:533

EM算法及其应用GMM/pLSA/LDA

从样本观察数据(显性特征x)中,找出样本的模型参数( )。 最常用的方法就是极大化模型分布的对数似然函数。 是样本特征和label的联合分布, ,为了使得估计的结果泛化能力更好,我们将 分解为 , 就是隐变量。 这类问题有: 以上问题,主要是通过引入隐变量,把样本表述为隐变量的分布,从而简化每个样本点表述。对于此问题通用的数学描述为: 给定一个样本集 ,我们假设观察到的 还对应着隐含变量的概率分布 ,记 。则该模型 的对数似然函数为: 而 根据具体的问题来定义。 目标是求得参数 ,使得对数似然函数最大: 这时候,交叉熵为: 优化目标为: 它的梯度是 都是概率分布,即大于0且满足: 直接梯度下降是行不通的,这就需要借助EM算法。 对于最大似然函数的参数求解: 是隐变量,观测不到,为了求解上式,假设我们知道 的概率分布 : 根据 Jensen 不等式 [1],对于任意分布 都有: 且上面的不等式在 为常数时取等号。 (备注:关键的点就是Jensen不等式在x为常数时取等号(x的所有值重叠,等于1个值)。这里正好对应隐变量的分布的确定,即E步求解的隐变量的分布) 于是我们就得到了 的一个下界函数。我们要想套用上面的算法,还要让这个不等式在 处取等号,这就这要求在 时 为常数,即 。由于 是一个概率分布,必须满足 ,所以这样的 只能是 。那我们就把 代入上式,得到: 最大化这个下界函数: 其中倒数第二步是因为 这一项与 无关,所以就直接扔掉了。这样就得到了本文第二节 EM 算法中的形式——它就是这么来的。 以上就是 EM 了。至于独立同分布的情况推导也类似。 [1] Jensen 不等式: 对于凸函数 ,其函数的期望大于等于期望的函数 若 是严格凸的,则上式取等号当前仅当 为常数。 在这里 函数是严格 凹 的,所以要把上面的不等号方向 假设某个数据分布是由K个高斯分布加权叠加而来: 目标是,求出这K个高斯分布及其权重。 换一种说法,也就是,用K个高斯分布的加权和来拟合数据分布 相比于K-means,只是把原本样本一定属于某一类改成了一个样本属于某类的概率。K-means的结果是把每个数据点assign到其中某一个cluster,而GMM则是给出每个数据点被assign到每一个cluster的概率,又称作soft assignment。 pLSA 模型有两个 基本的设定: 即: 而我们感兴趣的正是其中的 和 ,即文章的主题分布,和主题的词分布。记 , 表示我们希望估计的模型参数(模型中共有 个参数)。 根据最大log似然估计法,我们要求的就是 这里由于 这一项与 无关,在 中可以被直接扔掉。 [1] 因此 这里出现了 套 的形式,导致很难直接拿它做最大似然。但假如能观察到 ,问题就很简单了。于是我们想到根据 EM 算法 ,可以用下式迭代逼近 : 其中 在 E-step 中,我们需要求出 中除 外的其它未知量,也就是说对于每组 我们都需要求出 。 根据贝叶斯定理贝叶斯定理,我们知道: 而 和 就是上轮迭代求出的 。这样就完成了 E-step。 接下来 M-step 就是要求 了。利用基本的微积分工具 [2],可以分别对每对 和 求出: 以上就是 pLSA 算法了。 EM求解方法: E-step: M-step: 在pLSA中用极大似然估计的思想去推断参数(文档的主题分布和主题的词分布),而LDA把这两参数视为概率分布,其先验信息为dirichlet分布。因此,在数据量不大的时候,LDA能缓解过拟合问题,而在数据量很大的时候,pLSA是比较好的选择。 LDA中,估计Φ、Θ这两未知参数可以用变分(Variational inference)-EM算法,也可以用gibbs采样,前者的思想是最大后验估计MAP,后者的思想是贝叶斯估计。 https://spaces.ac.cn/archives/4277 EM算法原理总结 Probabilistic latent semantic analysis (pLSA) A Note on EM Algorithm and PLSA --- Xinyan Lu 李航-统计机器学习第一版 高斯混合模型 github 推荐我的开源项目 exFM c++ deepFM
2023-06-10 20:32:541

英语翻译

Wu Jianxong concerned about the development of China"s Science and Techenology all his life, and he had been back to china for lectures several times since1973.
2023-06-10 20:33:043

极大似然估计和EM算法初步

本文来自我的个人博客 https://www.zhangshenghai.com/posts/1422/ 极大似然估计是在知道结果的情况下,寻求使该结果出现可能性极大的条件,以此作为估计值。在维基百科中,极大似然估计的定义是这样的: 首先从一个例子入手,假设我们需要调查某个地区的人群身高分布,那么先假设这个地区人群身高服从正态分布 。注意,极大似然估计的前提是要假设数据总体的分布, 不知道数据分布是无法使用极大似然估计的 。假设的正态分布的均值和方差未知,这个问题中极大似然估计的目的就是要估计这两个参数。 根据概率统计的思想,可以依据样本估算总体,假设我们随机抽到了1000个人,根据这1000个人的身高来估计均值 和方差 。 将其翻译成数学语言:为了统计该地区的人群身高分布,我们独立地按照概率密度 抽取了1000个样本组成样本集 ,我们想通过样本集 来估计总体的未知参数 。这里概率密度 服从高斯分布 ,其中的未知参数是 。 那么怎样估算 呢? 这里每个样本都是独立地从 中抽取的,也就是说这1000个人之间是相互独立的。若抽到 的概率是 ,抽到 的概率是 ,那么同时抽到它们的概率就是 。同理,同时抽到这1000个人的概率就是他们各自概率的乘积,即为他们的联合概率,这个联合概率就等于这个问题的似然函数: 对 L 取对数,将其变成连加的,称为对数似然函数,如下式: 对似然函数求所有参数的偏导数,然后让这些偏导数为0,假设有n个参数,就可以得到n个方程组成的方程组,方程组的解就是似然函数的极值点了,在似然函数极大的情况下得到的参数值 即为我们所求的值: 极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率极大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。 和极大似然估计一样,EM算法的前提也是要假设数据总体的分布, 不知道数据分布是无法使用EM算法的 。 概率模型有时既含有观测变量,又含有隐变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率估计法。 函数:完全数据的对数似然函数 关于在给定观测数据 和当前参数 下对未观测数据 的条件概率分布 的期望 含有隐变量 的概率模型,目标是极大化观测变量 关于参数 的对数似然函数,即 输入:观测随机变量数据 ,隐随机变量数据 ,联合分布 ,条件分布 ; 输出:模型参数
2023-06-10 20:33:101

为什么含有隐变量或是缺失数据时不能用最大似然估计

怎么求最大似然估计的概率密度函数? 答: 设 X 有f(x), 则最大似然估计的概率密度函数就是 X1,X2, .... Xn 的联合密度函数。由于在讨论估值时 X1,X2, .... Xn 永远都是独立同分布, 所以, 最大似然估计的概率密度函数 = f(x1)f(x2)...f(xn)
2023-06-10 20:33:171

贝叶斯网络,看完这篇我终于理解了(附代码)!

概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。 如果用一个词来形容概率图模型(Probabilistic Graphical Model)的话,那就是“优雅”。对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系, 最后基于这样的关系图获得一个概率分布 ,非常“优雅”地解决了问题。 概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中 有向边表示单向的依赖,无向边表示相互依赖关系 。 概率图模型分为 贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network) 两大类。贝叶斯网络可以用一个有向图结构表示,马尔可夫网络可以表 示成一个无向图的网络结构。更详细地说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在机器学习的诸多场景中都有着广泛的应用。 长久以来,人们对一件事情发生或不发生的概率,只有固定的0和1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率是多少?”他们会想都不用想,会立马告诉你,取出白球的概率就是1/2,要么取到白球,要么取不到白球,即θ只能有一个值,而且不论你取了多少次,取得白球的 概率θ始终都是1/2 ,即不随观察结果X 的变化而变化。 这种 频率派 的观点长期统治着人们的观念,直到后来一个名叫Thomas Bayes的人物出现。 托马斯·贝叶斯Thomas Bayes(1702-1763)在世时,并不为当时的人们所熟知,很少发表论文或出版著作,与当时学术界的人沟通交流也很少,用现在的话来说,贝叶斯就是活生生一民间学术“屌丝”,可这个“屌丝”最终发表了一篇名为“An essay towards solving a problem in the doctrine of chances”,翻译过来则是:机遇理论中一个问题的解。你可能觉得我要说:这篇论文的发表随机产生轰动效应,从而奠定贝叶斯在学术史上的地位。 这篇论文可以用上面的例子来说明,“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率θ是多少?”贝叶斯认为取得白球的概率是个不确定的值,因为其中含有机遇的成分。比如,一个朋友创业,你明明知道创业的结果就两种,即要么成功要么失败,但你依然会忍不住去估计他创业成功的几率有多大?你如果对他为人比较了解,而且有方法、思路清晰、有毅力、且能团结周围的人,你会不由自主的估计他创业成功的几率可能在80%以上。这种不同于最开始的“非黑即白、非0即1”的思考方式,便是 贝叶斯式的思考方式。 先简单总结下频率派与贝叶斯派各自不同的思考方式: 贝叶斯派既然把看做是一个随机变量,所以要计算的分布,便得事先知道的无条件分布,即在有样本之前(或观察到X之前),有着怎样的分布呢? 比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为 先验分布,或着无条件分布 。 其中,先验信息一般来源于经验跟历史资料。比如林丹跟某选手对决,解说一般会根据林丹历次比赛的成绩对此次比赛的胜负做个大致的判断。再比如,某工厂每天都要对产品进行质检,以评估产品的不合格率θ,经过一段时间后便会积累大量的历史资料,这些历史资料便是先验知识,有了这些先验知识,便在决定对一个产品是否需要每天质检时便有了依据,如果以往的历史资料显示,某产品的不合格率只有0.01%,便可视为信得过产品或免检产品,只每月抽检一两次,从而省去大量的人力物力。 而 后验分布 π(θ|X)一般也认为是在给定样本X的情况下的θ条件分布,而使π(θ|X)达到最大的值θMD称为 最大后验估计 ,类似于经典统计学中的 极大似然估计 。 综合起来看,则好比是人类刚开始时对大自然只有少得可怜的先验知识,但随着不断观察、实验获得更多的样本、结果,使得人们对自然界的规律摸得越来越透彻。所以,贝叶斯方法既符合人们日常生活的思考方式,也符合人们认识自然的规律,经过不断的发展,最终占据统计学领域的半壁江山,与经典统计学分庭抗礼。 条件概率 (又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。 比如上图,在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率: 联合概率: 边缘概率(先验概率):P(A)或者P(B) 贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。 贝叶斯网络的有向无环图中的节点表示随机变量 它们可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件概率值。 例如,假设节点E直接影响到节点H,即E→H,则用从E指向H的箭头建立结点E到结点H的有向弧(E,H),权值(即连接强度)用条件概率P(H|E)来表示,如下图所示: 简言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用圈表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。 此外,对于任意的随机变量,其联合概率可由各自的局部条件概率分布相乘而得出: 1. head-to-head 依上图,所以有:P(a,b,c) = P(a) P(b) P(c|a,b)成立,即在c未知的条件下,a、b被阻断(blocked),是独立的,称之为head-to-head条件独立。 2. tail-to-tail 考虑c未知,跟c已知这两种情况: 3. head-to-tail 还是分c未知跟c已知这两种情况: wikipedia上是这样定义因子图的:将一个具有多变量的全局函数因子分解,得到几个局部函数的乘积,以此为基础得到的一个双向图叫做因子图(Factor Graph)。 通俗来讲,所谓因子图就是对函数进行因子分解得到的 一种概率图 。一般内含两种节点:变量节点和函数节点。我们知道,一个全局函数通过因式分解能够分解为多个局部函数的乘积,这些局部函数和对应的变量关系就体现在因子图上。 举个例子,现在有一个全局函数,其因式分解方程为: 其中fA,fB,fC,fD,fE为各函数,表示变量之间的关系,可以是条件概率也可以是其他关系。其对应的因子图为: 在概率图中,求某个变量的边缘分布是常见的问题。这问题有很多求解方法,其中之一就是把贝叶斯网络或马尔科夫随机场转换成因子图,然后用sum-product算法求解。换言之,基于因子图可以用 sum-product 算法 高效的求各个变量的边缘分布。 详细的sum-product算法过程,请查看博文: 从贝叶斯方法谈到贝叶斯网络 朴素贝叶斯(Naive Bayesian)是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。**朴素贝叶斯可以看做是贝叶斯网络的特殊情况:即该网络中无边,各个节点都是独立的。 ** 朴素贝叶斯朴素在哪里呢? —— 两个假设 : 贝叶斯公式如下: 下面以一个例子来解释朴素贝叶斯,给定数据如下: 现在给我们的问题是,如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁? 这是一个典型的分类问题,转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率,谁的概率大,我就能给出嫁或者不嫁的答案!这里我们联系到朴素贝叶斯公式: 我们需要求p(嫁|(不帅、性格不好、身高矮、不上进),这是我们不知道的,但是通过朴素贝叶斯公式可以转化为好求的三个量,这三个变量都能通过统计的方法求得。 等等,为什么这个成立呢?学过概率论的同学可能有感觉了,这个等式成立的条件需要特征之间相互独立吧!对的!这也就是为什么朴素贝叶斯分类有朴素一词的来源,朴素贝叶斯算法是假设各个特征之间相互独立,那么这个等式就成立了! 但是为什么需要假设特征之间相互独立呢? 根据上面俩个原因,朴素贝叶斯法对条件概率分布做了条件独立性的假设,由于这是一个较强的假设,朴素贝叶斯也由此得名!这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。 朴素贝叶斯优点 : 朴素贝叶斯缺点 : 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。 朴素贝叶斯模型(Naive Bayesian Model)的 朴素(Naive)的含义是"很简单很天真" 地假设样本特征彼此独立. 这个假设现实中基本上不存在, 但特征相关性很小的实际情况还是很多的, 所以这个模型仍然能够工作得很好。 新闻分类 GitHub: 点击进入 【 机器学习通俗易懂系列文章 】 从贝叶斯方法谈到贝叶斯网络
2023-06-10 20:33:321

量子力学对于世界的解释到底是什么?没有观测时,处于一种波函数,未确定状态。

观测者的加入改变了波函数,
2023-06-10 20:33:403

机器学习“判定模型”,“生成模型‘有什么区别?

优点:1)生成给出的是联合分布,不仅能够由联合分布计算条件分布(反之则不行),还可以给出其他信息,比如可以使用来计算边缘分布。如果一个输入样本的边缘分布很小的话,那么可以认为学习出的这个模型可能不太适合对这个样本进行分类,分类效果可能会不好,这也是所谓的outlier detection。2)生成模型收敛速度比较快,即当样本数量较多时,生成模型能更快地收敛于真实模型。3)生成模型能够应付存在隐变量的情况,比如混合高斯模型就是含有隐变量的生成方法。缺点:1)天下没有免费午餐,联合分布是能提供更多的信息,但也需要更多的样本和更多计算,尤其是为了更准确估计类别条件分布,需要增加样本的数目,而且类别条件概率的许多信息是我们做分类用不到,因而如果我们只需要做分类任务,就浪费了计算资源。2)另外,实践中多数情况下判别模型效果更好。
2023-06-10 20:33:593