英国物理学家查德威克:在身边成长为

在这一部分,我们将提取到的通用定位深度特征用于在CUB-200-2011数据中识别200种鸟类。这个数据集包含11788张,5994张训练集,5794张测试集。我们选择这个数据集是因为它也包含边界框注解,能让我们评估我们定位的能力。表4总结了结果。

撰文 | 邢志忠(科学院高能物理研究所研究员)

arxiv怎么读 ar怎么读英文arxiv怎么读 ar怎么读英文


arxiv怎么读 ar怎么读英文


arxiv怎么读 ar怎么读英文


对抗损失使用中常见的损失函数

130年前的18年10月20日,英国物理学家詹姆士·查德威克 (James Chadwick) 降生在英格兰西北部小城博灵顿的一个普通人家。他的童年主要是在祖父母身边度过的,这一点与科学巨匠艾萨克·牛顿 (Isaac Newton) 的童年有些类似。大约在11岁那一年,查德威克来到曼彻斯特与父母团聚,并开始接受中学教育。1907年,中学毕业的查德威克获得了曼彻斯特大学的奖学金,顺利升入大学。就在这一年的5月份,36岁的新西兰裔英国物理学家欧内斯特·卢瑟福 (Ernest Rutherford) 加盟曼彻斯特大学,冥冥之中为查德威克带来了福音。

其实查德威克最初想要在大学攻读的是数学而不是物理学。阴阳错,他在1908年秋季参加了一场由物理系教师主持的面试。将错就错,生性腼腆的查德威克成为一名物理系的本科生。他在第二学年选修了卢瑟福的电磁学课程,立刻就被这位科学的魅力打动了,随后决定跟随卢瑟福做一个具体的科研项目,即研究镭元素的放射性。11年夏天,他完成了自己的本科学业后,成为卢瑟福的研究生。12年,查德威克与导师合作发表了他的篇学术论文。

卢瑟福的杰出科学才能和影响力使得曼彻斯特大学成为核物理学的研究中心,吸引了世界各地的年轻学者前来 “曼彻斯特学派” 朝拜。12年3月,27岁的丹麦物理学家尼尔斯·玻尔 (Niels Bohr) 来到曼彻斯特大学从事博士后研究,他和查德威克很快成为。一年之后,即13年7月,玻尔在久负盛名的英国《哲学与科学杂志》 ( Philosophical Magazine and Journal of Science ) 上发表了一篇重要论文,首次提出了量子化的氢原子模型。这一工作成为量子理论发展史的里程碑之一,也使得玻尔本人荣获了1922年的诺贝尔物理学奖。

身处在曼彻斯特大学如此卓越的学术氛围中,年轻的查德威克想要不成功都难。

12年夏天,查德威克以优异的科研纪录获得了硕士学位。尽管卢瑟福希望查德威克继续留在自己身边做研究,但由于其他原因,查德威克还是于13年秋作者表示, BERT 这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息,性能优于基于自回归语言模型的预训练方法 。然而,由于需要 mask 一部分输入,BERT 忽略了被 mask 位置之间的依赖关系,因此出现预训练和微调效果的异(pretrain-finetune discrepancy)。季来到德国柏林,加入到盖革计数器的发明者汉斯·盖格的实验室。

盖革也曾在曼彻斯特工作,是卢瑟福的重要合作者之一,因此爱屋及乌,对查德威克照顾有加。当时柏林是世界核物理学与放射化学的研究中心之一,后来因发现核裂变而名留青史的奥托·哈恩 (Otto Hahn) 和莉泽·迈特纳 (Lise Meitner) 等大科学家都在那里工作,这促使查德威克选择原子核的贝塔衰变作为自己的新研究课题。

一直以来,学术界以为原子核的贝塔衰变是两体过程:母核裂变成子核,并放射出一个电子,因此后者具有确定的能量,即其能谱应该呈现出的是单能分立谱。但到了13年,曼彻斯特学派与哈恩实验室给出的初步观测结果却与此预期相矛盾。利用比先前的感光胶片探测技术更先进的盖革计数器,查德威克重新测量了贝塔衰变的电子能量,发现其呈现的是连续变化的谱型。他以单一作者的身份在14年发表了这一测量结果,立即得到了卢瑟福和哈恩等人的认可,却受到了迈特纳的质疑。1927年,曼彻斯特实验室的查尔斯·埃利斯 (Charles Ellis) 和威廉·伍斯特 (William Wooster) 完成了关于贝塔衰变能谱的更可靠测量,确认了电子的能谱为连续谱。他们的实验结果随后也被迈特纳的课题组证实。于是能量在贝塔衰变的过程中是否严格守恒的问题,即所谓的 “能量危机” (energy crisis) ,成为20世纪20到30年代漂浮在核物理学天空的一朵乌云。

为了解释贝塔衰变的连续能谱问题,玻尔提出了在微观世界能量守恒可能只是一个统计平均规律的观点,即对于单个微观反应过程可能存在能量不严格守恒的情况。这一观点无疑与美国物理学家亚瑟·康普顿 (Arthur Compton) 在1923年发表的光子与电子散射的实验结果相矛盾,后者清楚地表明诸如此类的微观散射过程是严格遵守能量和动量守恒定律的。事实上,要想解释当年的贝塔衰变实验结果,理论家们还面临着另一个挑战:怎样保证初态和末态粒子的总角动量守恒?

这时候最有资格说话的人当数1925年1月提出 “不相容原理” (exclusion principle) 的奥地利物理学家沃夫冈·泡利 (Wolfgang Pauli) ,因为他对原子核和基本粒子的自旋角动量太敏感了。1930年12月,泡利在一封写给研究原子核放射性的同行们的中,提出了他解决贝塔衰变“能量危机”问题的方案。他设在原子核的贝塔衰变过程中,除了产生子核和电子,还会释放出一个质量很小、电中性的新粒子,其自旋量子数等于1/2。泡利将这种看不见、摸不着的想粒子称作“中子” (neutron) ,显然他还不知道“中子”的概念早在1920年就被卢瑟福发明和占用了——用以描述另一种电中性、质量与质子相当且可以作为原子核基本组分的的想粒子。后来意大利物理学家恩里科·费米 (Enrico Fermi) 把泡利设想的 “中子” 改称为 “中微子” (neutrino) ,意即微小的 “中子”。

有了中微子的存在,贝塔衰变反应的能量守恒、动量守恒和角动量守恒都不再是问题;而电子的能谱之所以呈现为连续谱,则是由于电子不得不与中微子分享母核与子核的质量所对应的反应能量。在这样的三体衰变过程中,中微子携带一部分能量和动量逃之夭夭。但当年的实验技术根本无法证实泡利的说。直到1956年,作为想粒子的中微子才首次在反应堆实验中被验明正身。

回到14年8月,查德威克的科研工作由于次世界大战的爆发而被迫中断。尽管得到德国同事的保护,作为敌对国公民的查德威克还是在当年的11月份遭到当局的逮捕,被关进了柏林西部的一所。不过他在狱中过得并不,甚至有机会定期给狱友们讲授电磁学和放射性的知识。巧的是,卢瑟福的另一个学生埃利斯也被囚禁在这所,他也因此成了查德威克的。由于所导致的食物短缺,查德威克在狱中因的营养不良而患上了消化道疾病。18年11月,终于结束了。查德威克和埃利斯辗转回到自己的祖国英格兰,他们二人后来成为剑桥大学的同事。

就在1930年,德国科学家沃尔特·博特 (Walter Bothe) 和赫伯特·贝克 (Herbert Becker) 在氦核与铍原子核的散射实验中观测到一种穿透力很强、不会在电场中偏转的射线,他们将其理所当然地解释为伽玛射线。两年之后的1932年,居里夫人的长女伊雷娜·约里奥·居里 (Irene Joliot-Curie) 与丈夫弗雷德里克·约里奥·居里 (Frederic Joliot-Curie) 重复了这一实验。他们发现用博特和贝克所观测到的射线轰击含有氢原子的物质时,会产生高能质子。那么,这种新型的射线究竟是不是伽马射线呢?

当然不是!查德威克和他的导师卢瑟福都不相信约里奥-居里夫妇的实验结果可以解释为质子与光子的康普顿散射。查德威克马上着手设计了一个实验,并在三周之内就得到了自己的测量结果。他发现新型的射线并非伽马射线,而是一种由电中性、质量与质子相当的新粒子构成的束流。1932年2月27日,英国《自然》期刊发表了查德威克的实验结果。他的这篇题为 “可能存在中子” (Possible existence of a neutron) 的论文长度不足一页纸,不含有任何公式和图表,仅包含大约700个单词。查德威克在论文的结尾处明确指出,“迄今为止,所有的证据都倾向于中子,而量子设(即伽马射线设)不成立,除非在某种程度上放弃能量和动量守恒”。于是中子作为原子核的另外一种基本组分被发现了!1935年,44岁的查德威克因发现中子而荣获了诺贝尔物理学奖。

不过令人欣慰的是,两年后的1934年2月10日,《自然》杂志发表了约里奥·居里夫妇合作完成的一篇题为 “一种新型放射性元素的人工产生” ( Artificial production of a new kind of radio-element ) 的论文。这篇论文也不足一页纸,仅含有大约620个单词和1个化学反应方程式,但它却是人工放射性的开山问鼎之作。凭借这一发现,约里奥-居里夫妇以超乎寻常的速度拿下1935年的诺贝尔化学奖!人们不禁要问一个有趣的问题:如约里奥·居里夫妇在1932年正确地理解了自己的实验结果,并宣布发现了中子,那么他们有可能一举包揽1935年诺贝尔物理学和化学两项吗?

主要参考文献:

1) A. Brown, The neutron and the bomb: a biography of Sir James Chadwick, Oxford University Press, New York, 1997.

2) G. Ecker, James Chadwick: a head of his time, arXiv:2007.06926, 2020.

3) J. Chadwick, Possible existence of a neutron, Nature 129 (1932) 312.

大数据人工智能培训?

这一部分,我们描述了用的global erage pooling(GAP)生成class activation maps(CAM)的过程。某一确切分类的CAM代表了用于做分类时所看的区别性区域的位置(如图3)。生成CAM的过程如图2。

How:出于兴趣而非需求,自学人工智能的方

人们可以对自己从哪儿来、到哪儿去感兴趣,去了解柏拉图、维特根斯坦和齐泽克,了解朴素唯物与机械主义,但并不需要成为哲学家。

如果你并非为了成为研究者,只是出于兴趣学习人工智能,完全不必被铺天盖地的代码困住手脚,只需遵循以下原则:

1、明确内涵和现实

每个人都知道人工智能的目标是「实现与人类相似的智能」,当下的我们处在哪个阶段?已经取得了哪些成果?

人工智能早已进入我们的生活,搜索引擎的排序、美颜相机的美化效果、今日等信息流类内容产品,全部都是当下的人工智能应用。

虽然与思考和智能相去甚远、被称作「弱人工智能」,它依然能比人类更高效的完成特定任务。除了这些互联网领域的应用,人脸识别验票闸机、医院的叫号系统这类行业应用,甚至港口管理、油田预测、新研发,通通都有弱人工智能的身影。

如果提起人工智能,出现在你脑中的是 Samantha、Wall-E 或是终结者这些机器人形象,恐怕需要更近一步了解现实。

这些应用如何实现?为什么能实现?

没有任何学科建立在空谈的基础上,人工智能也不例外。

2、理解「黑话」

机器学习、深度学习、监督学习、计算机视觉、神经网络、RNN……它们是什么?和人工智能有什么关系?

如果在这篇论文中,研究者冷静地审视了该领域的进展,并对一些常见的设提出了质疑。你听说过或是了解以上名词的含义,恭喜你,你已经踏入了人工智能的大门。

这些名词就像是历史教科书上的名,或是数学中的定理,了解它们的内涵、探寻它们之间的关系,能帮助你找到这门学科的层次和边界。

比如:

「机器学习」、「深度学习」、「监督学习」是人工智能得以实现的方式,其中「深度学习」属于「机器学习」的分支,是以超过 8 层的「神经网络」为标志的模型训练方法;

「监督学习」则是从输入数据是否带有标签的角度对「机器学习」进行划分,除此之外还有「无监督学习」和「半监督学习」;

RNN 则是「神经网络」的分支,即「循环神经网络」……

那,模型、我们观察到我们的GAP网络表现优于所有使用GoogLeNet-GAP的方法,达到了top-5上定位错误率43%,没有用任何一个带标注的边界框上训练就能达到这样表现的网络是前所未有的。我们也可以看到CAM方法明显优于反向传播的方法(比较结果见图6(b))。此外,我们发现GoogLeNet-GAP比GoogLeNet的定位性能更好,尽管得到的分类没有GoogLeNet好。我们是认为GoogLeNet(7x7)的低分辨率导致它丢失了地定位能力。,我们发现GoogLeNet-GAP比GoogLeNet-GMP表现更杰出,它的合理范围说明了erage pooling在识别物体范围上比max pooling更重要。数据、标签又是什么?

顺着这些「黑话」和它们关联的「黑话」,你会渐渐理解人工智能的能做什么、不能做什么,为什么会出现某些现象(如 AlphaGo),以及接下来会发生什么。

还有很重要的一点——

3、抛弃想象

想象宇宙中的其他文明,想象一个由机器控制的,想象一个为爱落泪的机器人。想象给了我们无限可能,是人类最宝贵的能力之一,不过我们的世界依然建立在「真实」之上。把「想象」留给艺术,把「真实」留给科学。

What:我们该怎么做?

有了方,接下来当然是……获取优质的信息。

1、课程类

经典的系统课程有很多,例如 Andrew Ng 的斯坦福机器学习课程等等,里也有很多质量相当高,在此不多做赘述。

除了学院派系统课程,很多媒体或内容平台上也有工业界人工智能专家的「公开课」。这些「公开课」更类似于讲座,有时是对现状的思考、总结,有时会针对人工智能的某一现实痛点展开。如果上一节的「黑话」过关,可以相当轻松的学到不少书本上没有的知识,以及他人的思考沉淀(这部分相当宝贵),很适合对某一领域感兴趣的人研读。

人工智能领域是高度依赖学术界,并保留有非常强学术传统的领域。

如面向 CV 领域的视觉与学习青年学者研讨会(Valse),面向NLP领域的中文人工智能学会等,这些学会机构除了定期举办公开讲座,同时会会不定期的发布相关内容。

以及这些学会机构往往也会举办暑期学校等培训课程,质量较高,对细分领域感兴趣不妨了解课程构成后报名学习。

论文也是一个不错的学习途径,知网可以搜索论文购买阅读。

以及人工智能领域是一个高度信息流通的学科,如果英文过关,不妨前往 arXiv阅读英文论文。

3、媒体及社交媒体

目前中文领域有不少细分媒体专注人工智能领域,一些科技媒体的人工智能子版块质量也相当不错。

以及不少研究者在微博、微信等社交媒体上也相当活跃,同时知乎也有不少人工智能大 V 正在活跃,可以根据自己感兴趣的方向进行关注。

4、书籍

太难了看不懂?《图解深度学习》、《科学的|漫谈人工智能》、《Python神经网络编程》这些向科普方向倾斜的书籍也不错哦。

Why:真正的知识都是免费的

重要的是去看、去思考、去实践,远比做出一个「我想要」的姿态重要得多。

寻求知识的道路异常艰辛,在此引用汪丁丁的一段话作为结尾:

「的知识只能免费,这是因为它只吸引少数能够理解它的人。这些人是最可宝贵的……他们投入的理解力和伴随着理解知识的艰辛,价值远远超过任何付费知识的市场价格。」

愿我们都有与知识相配的美德。

春节在家不再无聊,这份2019 AI研究进展回顾陪伴你

除了学术熏陶,新鲜资讯可以帮助我们了解当下、提供启发。

2019 年可以说是「预训练模型」流行起来的一年。自 BERT 引发潮流以来,相关方法的研究不仅获得了 EMNLP 大会论文等奖项,更是在 NLP、甚至图像领域里了风潮。

去年也有很多 游戏 AI 取得了超越人类的水平。人工智能不仅已经玩转、星际争霸和 Dota2 这样复杂的 游戏 ,还获得了 Nature、Science 等期刊的肯定。

机器之心整理了去年全年 在人工智能、量子计算等领域里最为热门的七项研究 。让我们以时间的顺序来看:

个重磅研究出现在 2 月,继发布刷新 11 项 NLP 任务记录的 3 亿参数量语言模型 BERT 之后,谷歌 OpenAI 于 2019 年 2 月再次推出了一种更为强大的模型,而这次的模型参数量达到了 15 亿。这是一种 大型无监督语言模型 ,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。此外,在没有任务特定训练的情况下,该模型能够做到初步的阅读理解、机器翻译、问答和自动摘要。

该模型名为 GPT-2,它是基于 Transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。训练 GPT-2 有一个简单的目标:给定一个文本中前面的所有单词,预测下一个单词。GPT-2 是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。

GPT-2 展示了一系列普适而强大的能力,包括生成当前质量的条件合成文本,其中我们可以将输入馈送到模型并生成非常长的连贯文本。此外,GPT-2 优于在特定领域(如、或书籍)上训练的其它语言模型,而且还不需要使用这些特定领域的训练数据。在 知识问答、阅读理解、自动摘要和翻译等任务 上,GPT-2 可以从原始文本开始学习,无需特定任务的训练数据。虽然目前这些下游任务还远不能达到当前水平,但 GPT-2 表明如果有足够的(未标注)数据和计算力,各种下游任务都可以从无监督技术中获益。

,基于大型通用语言模型可能会产生巨大的 影响,也考虑到模型可能会被用于恶意目的,在发布 GPT-2 时,OpenAI 采取了以下策略: 仅发布 GPT-2 的较小版本和示例代码,不发布数据集、训练代码和 GPT-2 模型权重 。

论文链接:

首先,研究者表示从理论上来看,如果不对模型和数据进行归纳偏置,无监督学习解耦表征基本是不可能的;然后他们在七个不同数据集进行了可复现的大规模实验,并训练了 12000 多个模型,包括一些主流方法和评估指标;,实验结果表明,虽然不同的方法强制执行了相应损失「鼓励」的属性,但如果没有监督,似乎无法识别完全解耦的模型。此外,增加的解耦似乎不会导致下游任务学习的样本复杂度的下降。

研究者认为,基于这些理论,机器学习从业者对于超参数的选择是没有经验法则可循的,而在已有大量已训练模型的情况下, 无监督的模型选择仍然是一个很大的挑战 。

去年 6 月,来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的研究者发表了一篇名为《Weight Agnostic Neural Networks》的论文,进而引爆了机器学习圈。在该论文中,他们提出了一种神经网络架构搜索方法, 这些网络可以在不进行显式权重训练的情况下执行各种任务 。

论文链接:

通常情况下,权重被认为会被训练成 MNIST 中边角、圆弧这类直观特征,而如果论文中的算法可以处理 MNIST,那么它们就不是特征,而是函数序列/组合。对于 AI 可解释性来说,这可能是一个打击。很容易理解,神经网络架构并非「生而平等」,对于特定任务一些网络架构的性能显著优于其他模型。但是相比架构而言,神经网络权重参数的重要性到底有多少?

来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的一项新研究提出了一种神经网络架构搜索方法,这些网络可以在不进行显式权重训练的情况下执行各种任务。

为了评估这些网络,研究者使用从统一随机分布中采样的单个共享权重参数来连接网络层,并评估期望性能。结果显示,该方法可以找到少量神经网络架构,这些架构可以在没有权重训练的情况下执行多个强化学习任务,或 MNIST 等监督学习任务。

BERT 带来的影响还未平复,CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前效果。

来自梅隆大学与谷歌大脑的研究者提出新型预训练语言模型 XLNet,在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。

基于这些优缺点,该研究提出了一种泛化的自回归预训练模型 XLNet。XLNet 可以:1)通过化所有可能的因式分解顺序的对数似然,学习双向语境信息;2)用自回归本身的特点克服 BERT 的缺点。此外,XLNet 还融合了当前自回归模型 Transformer-XL 的思路。

延伸阅读:

2019 年 7 月,在无限制六人对决的比赛中,德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 由 Facebook 与梅隆大学(CMU)共同开发,实现了前辈 Libratus(冷扑)未能完成的任务,该研究已经登上了当期《科学》杂志。

据介绍,Facebook 和卡内基梅隆大学设计的比赛分为两种模式:1 个 AI+5 个人类玩家和 5 个 AI+1 个人类玩家,Pluribus 在这两种模式中都取得了胜利。如果一个值 1 美元,Pluribus 平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元。职业扑克玩家认为这些结果是决定性的胜利优势。 这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准 游戏 中击败职业玩家 。

在论文中,Pluribus 整合了一种新的在线搜索算法,可以通过搜索前面的几步而不是只搜索到 游戏 结束来有效地评估其决策。此外,Pluribus 还利用了速度更快的新型 Self-Play 非完美信息 游戏 算法。综上所述,这些改进使得使用极少的处理能力和内存来训练 Pluribus 成为可能。 训练所用的云计算资源总价值还不到 150 美元 。这种高效与最近其他人工智能里程碑项目形成了鲜明对比,后者的训练往往要花费数百万美元的计算资源。

Pluribus 的自我博弈结果被称为蓝图策略。在实际 游戏 中,Pluribus 使用搜索算法提升这一蓝图策略。但是 Pluribus 不会根据从对手身上观察到的倾向调整其策略。

在人工智能之外的量子计算领域,去年也有重要的研究突破。2019 年 9 月,谷歌提交了一篇名为《Quantum supremacy using a programmable superconducting processor》的论文自 NASA 网站传出,研究人员首次在实验中证明了量子计算机对于传统架构计算机的优越性:在世界超算 Summit 需要计算 1 万年的实验中,谷歌的量子计算机只用了 3 分 20 秒。因此,谷歌宣称实现「量子优越性」。之后,该论文登上了《自然》杂志 150 版的封面。

这一成果源自科学家们不懈的努力。谷歌在量子计算方向上的研究已经过去了 13 年。2006 年,谷歌科学家 Hartmut Nn 就开始 探索 有关量子计算加速机器学习的方法。这项工作推动了 Google AI Quantum 团队的成立。2014 年,John Martinis 和他在加利福尼亚大学圣巴巴拉分校(UCSB)的团队加入了谷歌的工作,开始构建量子计算机。两年后,Sergio Boixo 等人的论文发表,谷歌开始将工作重点放在实现量子计算优越性任务上。

如今,该团队已经构建起世界上个超越传统架构超级计算机能力的量子系统,可以进行特定任务的计算。

量子优越性实验是在一个名为 Sycamore 的 54 量子比特的完全可编程处理器上运行的。该处理器包含一个二维网格,网格中的每个量子比特与其他四个相连。量子优越性实验的成功归功于谷歌改进了具有增强并行性的双量子比特门,即使同时作多个门,也能可靠地实现记录性能。谷歌使用一种新型的控制旋钮来实现这一性能,该旋钮能够关闭相邻量子比特之间的交互。此举大大减少了这种多连通量子比特系统中的误。此外,通过优化芯片设计来降低串扰,以及开发避免量子比特缺陷的新控制校准,谷歌进一步提升了性能。

虽然 AI 没有打败最强人类玩家 Serral,但其研究的论文仍然登上了 Nature。2019 年 10 月底,DeepMind 有关 AlphaStar 的论文发表在了当期《Nature》杂志上,这是人工感觉这篇文章对多尺度的运用非常,在编码器、和CMLP中都应用了这种思想,的效果也非常不错,很值得借鉴。智能算法 AlphaStar 的研究进展,展示了 AI 在「没有任何 游戏 限制的情况下」已经达到星际争霸Ⅱ人类对战天梯的水平,在 Battle 上的排名已超越 99.8%的活跃玩家 。

回顾 AlphaStar 的发展历程,DeepMind 于 2017 年宣布开始研究能进行即时战略 游戏 星际争霸Ⅱ的人工智能——AlphaStar。2018 年 12 月 10 日,AlphaStar 击败 DeepMind 公司里的最强玩家 Dani Yogatama;12 月 12 日,AlphaStar 已经可以 5:0 击败职业玩家 TLO 了(TLO 是虫族玩家,据 游戏 解说们认为,其在 游戏 中的表现大概能有 5000 分水平);又过了一个星期,12 月 19 日,AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。至此,AlphaStar 又往前走了一步,达到了主流电子竞技 游戏 水准。

根据《Nature》论文描述,DeepMind 使用通用机器学习技术(包括神经网络、借助于强化学习的自我博弈、多智能体学习和模仿学习)直接从 游戏 数据中学习。AlphaStar 的 游戏 方式令人印象深刻——这个系统非常擅长评估自身的战略地位,并且准确地知道什么时候接近对手、什么时候远离。此外,论文的中心思想是将 游戏 环境中虚构的自我博弈扩展到一组智能体,即「联盟」。

联盟这一概念的核心思想是:仅仅只是为了赢是不够的。相反,实验需要主要的智能体能够打赢所有玩家,而「压榨(exploiter)」智能体的主要目的是帮助核心智能体暴露问题,从而变得更加强大。这不需要这些智能体去提高它们的胜率。通过使用这样的训练方法,整个智能体联盟在一个端到端的、完全自动化的体系中学到了星际争霸Ⅱ中所有的复杂策略。

2019 年在 AI 领“千年难题”之五:杨-米尔斯(Yang-Mills)存在性和质量缺口域的各个方向上都出现了很多技术突破。新的一年,我们期待更多进展。

此外,机器之心于 2019 年 9 月底推出了自己的新产品 SOTA 模型,读者可以根据自己的需要寻找机器学习对应领域和任务下的 SOTA 论文,平台会提供论文、模型、数据集和 benchmark 的相关信息。

如何评价开放获取期刊日渐盛行这一现象

2.算术公理的相容性欧几里得几何的相容性可归结为算术公理的相容性。希尔伯特曾提出用的证明论方法加以证明。1931年,哥德尔发表的不完备性定理否定了这种看法。1936年德国数学家根茨在使用超限归纳法的条件下证明了算术公理的相容性。1988年出版的《大百科全书》数学卷指出,数学相容性问题尚未解决。

开放获取出版的数量在过去的几年里很大程度上增加了,这是由于互联网的革命,也是希望使科学更加透明和公众开放的愿望。同时也导致了许多关于开放获取出版的好处和挑战的讨论。这种模式允许读者无需支付费就可以访问学术论文。开放获取当然可以提高科学结果的可见性和影响。它还可能为研究人员和社区提供许多其他好处。然而,仍然有一些挑战阻止它进一步发展。除了掠夺性期刊的泛滥,导致了许多开放获取的质量问题,资金问题仍然是一个主要问题。 科学出版的成本

在过去的几年里,一些主要的出版商被多次指责想要赚钱而不费力气。然而事实是,高质量的学术论文不能免费发表。当然,科学出版的成本,除了研究本身的成本之外,还必须单独考虑。一般来说,出版过程包含一些步骤,包括获取和管理提交、管理同行评审、编辑提交文件的文本、表格和数据、以适当的格式编写的文章、期刊出版和传播、协调市场营销和媒体活动、归档等等。从访问的角度来看,出版商最重要的贡献之一就是平台的开发和维护,以多种方式支持研究人员。例如,移动技术、文章增强、社交网络、法律支持、警报和引用通知、引用分析、文本挖掘工具、研究性能测量工具等等。此外,大多数期刊现在都可以电子化了。因此,出版商必须支付与开发和提供适当的基础设施进行在线出版和归档相关的所有费用。在线文章被创建、数字化、组织、标记、存档,并由发布者分发,所有这些都要花钱。然而,攻击他们似乎比实际观察他们所提供的更容易。事实上,大多数出版商愿意扩大公共资助研究的渠道。然而,他们都同意,这只能成为一种经济可行模式的一部分。 谁来支付?

如果我们想在不收取费的情况下提供文章,那么就必须找到可持续的方法来支付出版成本。其中考虑了几种模式: 在某些情况下,大学或支持小型出版商,允许他们的期刊自由开放。大多数赠款允许在开放存取和混合期刊上使用基金来覆盖物品处理费用(apc)。一些出版商甚至同意减少发展家或特定成员的出版费用。 Pre -或t – print档案和存储库,如arXiv或Wellcome Open Research,也是一个不错的选择。并且,各个组织都支持这两个平台。此外,依靠单一的实体意味着肯定存在一定的风险。合作资金可以通过与几个组织合作来避免这个问题。开放的人文图书馆在这个模式下运作似乎风险较小,尽管寻找合适的合作伙伴可能具有挑战性。 涉及到、制度和图书馆

2014年,一种新的金融模式被提议用来支持开放获取。它的开发基础取决于大学和其他或机构的支付,这些机构或机构受益于发表的研究。这些费用取决于学生、教员、研究人1935年秋天,在获得诺贝尔奖之前,查德威克被聘为利物浦大学。他在那里推动建造了一台回旋加速器,使得利物浦成为欧洲核物理学的研究中心之一。查德威克也是英美两国在曼哈顿中开展合作的关键人物,因为中子的发现是制造的重要前提之一。1948年,查德威克重返剑桥大学,成为科维尔与凯乌斯学院的。他于1958年底退休,与妻子搬到北威尔士居住;十年后他们又搬回剑桥,住在离女儿们不远的地方。员或在不同机构工作的学者的数量,基金进入管理,然后可以帮助支持分发、访问和存档手稿,以及用于发展和维持现代出版的基础设施。

另一种方法是支付你能负担得起的apc(PWYCA)模型。在这种方法中,期刊不收取固定的APC,但是存在一个建议的APC费用。然后,作者们可以支付他们所能支付的任何金额。ecance2、机构、学术会议及论文rmedicalscience杂志从2014年开始使用这种新方法。 尽管开放获取带来了所有好处,但缺乏可持续的商业模式已经减缓了它的增长。然而,目前仍正在讨论一些有趣创新的想法。因此,许多学者对这一种如今非常流行的出版形式的未来抱有乐观态度。

CVPR 2020 论文阅读笔记(三维点云/三维重建)

机器学习顶会的论文,总会引起人们的广泛讨论。在今年 6 月于美国加州举办的 ICML 2019(机器学习大会)上,由苏黎世联邦理工学院(ETH)、德国马普所、谷歌大脑共同完成的《Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations》获得了其中一篇论文。研究者在论文中提出了一个与此前学界普遍预测相反的观点:对于任意数据,拥有相互表征(解耦表1930年,剑桥大学出版社出版了卢瑟福、查德威克和埃利斯三人合作撰写的《放射性物质的辐射》一书,系统地总结了氦核 (即阿尔法粒子) 与氦核、质子以及重原子核的散射实验结果,为强相互作用理论的建立奠定了初步的实验基础。1935年,日本物理学家汤川秀树(Hideki Yukawa)提出原子核之间通过交换轻介子实现相互作用的理论图像,这一工作是他的科研处女作,他一炮而红,并因此于1949年获得了诺贝尔物理学奖。征)的无监督学习是不可能的。

论文地址:

前置文章:10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云,克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知,之前的点云修复方法是输入不完整的点云,输出完整的点云,但这样会导致原有信息的缺失。这篇文章提出PF-Net,主要特点有三个:

网络的整体结构如下:

网络详细推理步骤如下:

损失函为了实现这一目标,NIN使用global erage pooling来做正则化,避免训练过程中的过拟合。在我们的实验中,发现global erage pooling的优势远不止正则化——实际上,只需要稍微调整一下,网络就可以保持卓越的定位能力,直到一层。这样的微调使辨别图像区域变得十分简单,即使对那些最初没训练的网络也是如此。如图1(a)所示,在物体分类上训练的能够成功的将动作分类的区分区域定位为与人类交互的物体而非人类本身。数使用完整性损失和对抗损失的加权平均,完整性损失使用L-中提出的CD距离:

论文地址:

PointNet提出一种基础的网络结构,可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前,点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式,然后应用2D/3D 进行处理,但这样引入了多余的体积,效率不高。本文是个直接使用点云数据的神经网络。(其实可以这样类比,在二维图像处理中,设图像是二值化的,传统方法是将这个图像直接丢到里面,但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面,对稀疏数据会有比较好的性能,但因为以下三个问题导致直接使用坐标信息比较困难)

由于点云的排列是无序的(可以想象,点云中任意一点排在前面对点云的表达都是相同的)、点云之间是有相互作用的(相邻的点云才能构成形状)、点云在某些变换下具有不变性(比如旋转不会改变点云的类别)这些特性,要求神经网络既能处理无序的数据,又能捕捉全局的结构特征,同时对刚性变换不敏感。基于这些条件,作者提出了如下的网络结构:

可以简要分析一下网络的工作流程,以点云分类问题为例:

感觉网络的结构虽然简单,但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中,也有时候必须用到坐标信息或者一些标量特征,这篇文章的方法对于怎样将这些特征融合进里面也有一定的启发意义。

论文地址:

这篇文章的主要工作是:

首先来看衡量两个点云相似程度的指标部分,作者首先给出了两个距离,EMD和CD:

在计算上,CD更为简便,而且EMD是不可导的。

基于这两种距离,作者引入了三种衡量两个点云相似程度的指标:JSD、Coverage和MMD:

定义了指标后,就可以实现自动编码器和生成模型了。作者提到了四种结构,分别是:

作者同时验证了AE的一些其他功能,比如如果给AE的编码器输入不完整的点云数据,即可训练得到点云复原的模型。使用SVM对低维表示进行分类,即可进行点云分类的任务,证明AE在点云数据形式中的潜在应用较为广泛。

论文地址:

PointNet++针对PointNet提取局部信息能力不强的弊端,提出了一种层次神经网络,可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息,然后将每个小部分整合成较大的部分,提取更高层次的信息。类似于中卷积和下采样的思想。首先来看网络结构图:

特征提取分为若干个set abstraction模块,每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后,对不同的任务需要不同的解码网络。对分类网络来说比较简单,使用全连接即可。对分割网络来说,由于对每个点都需要输出数值,则需要类似上采样的作。具体的实现作者使用了插值的方法,将较少的点插值到较多的点上去。首先找到插值的目标坐标,然后寻找K个距离最近的已知点,以距离的倒数作为权重,将K个点的特征做加权平均,作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接,即可得到最终特征(类似U-Net的skip connection)。公式如下:

感觉这篇文章和PF-Net的思想不多,都是希望提取多尺度的特征。但是思路不一样,都值得借鉴。

很难的数学题

为什么是查德威克而不是约里奥·居里夫妇率先发现了中子?很简单: 因为查德威克是卢瑟福的学生,早就知道自然界有可能存在一种与质子的强相互作用属性很相似的粒子,它的名字叫做中子。 这就是在身边工作更容易成为的绝佳例子。相比之下,约里奥·居里夫妇不得不承认,尽管他们二人也处在 (居里夫妇等) 云集的科研环境中,却对中子的概念一无所知,因此未能在时间对自己的实验结果做出正确的解释,从而错失了发现中子的良机。

世界七大数学难题:

这七个“千年问题”是: NP完全问题、霍奇猜想、庞加莱猜想、黎曼设、杨-米尔斯理论、纳卫尔-斯托可方程、BSD猜想。

美国麻州的克雷(Clay)数学研究所于2000年5月24日在巴黎法兰西学院宣布了一件被媒体炒得火热的大事:对七个“千年数学难题”的每一个悬赏一百万美元。

“千年难题”之一:P(多项式算法)问题对NP(非多项式算法)问题

在一个周六的晚上,你参加了一个盛大的晚会。由于感到局促不安,你想知道这一大厅中是否有你已经认识的人。你的主人向你提议说,你一定认识那位正在甜点盘附近角落的女士罗丝。不费一秒钟,你就能向那里扫视,并且发现你的主人是正确的。然而,如果没有这样的暗示,你就必须环顾整个大厅,一个个地审视每一个人,看是否有你认识的人。生成问题的一个解通常比验证一个给定的解时间花费要多得多。这是这种一般现象的一个例子。与此类似的是,如果某人告诉你,数13,717,421可以写成两个较小的数的乘积,你可能不知道是否应该相信他,但是如果他告诉你它可以因式分解为3607乘上3803,那么你就可以用一个袖珍计算器容易验证这是对的。不管我们编写程序是否灵巧,判定一个是可以很快利用内部知识来验证,还是没有这样的提示而需要花费大量时间来求解,被看作逻辑和计算机科学中最突出的问题之一。它是斯蒂文·考克于1971年陈述的。

“千年难题”之二:霍奇(Hodge)猜想

“千年难题”之三:庞加莱(Poincare)猜想

如果我们伸缩围绕一个苹果表面的橡皮带,那么我们可以既不扯断它,也不让它离开表面,使它慢慢移动收缩为一个点。另一方面,如果我们想象同样的橡皮带以适当的方向被伸缩在一个轮胎面上,那么不扯断橡皮带或者轮胎面,是没有办法把它收缩到一点的。我们说,苹果表面是“单连通的”,而轮胎面不是。大约在一百年以前,庞加莱已经知道,二维球面本质上可由单连通性来刻画,他提出三维球面(四维空间中与原点有单位距离的点的全体)的对应问题。这个问题立即变得无比困难,从那时起,数学家们就在为此奋斗。

在2002年11月和2003年7月之间,的数学家格里戈里·佩雷尔曼在arXiv发表了三篇论文预印本,并声称证明了几何化猜想。

在佩雷尔曼之后,先后有3组研究者发表论文补全佩雷尔曼给出的证明中缺少的细节。这包括密西根大学的布鲁斯·克莱纳和约翰·洛特;哥伦比亚大学的约翰·摩根和麻省理工学院的田刚;以及理海大学的曹怀东和中山大学的朱熹平。

2006年8月,第25届数学家大会授予佩雷尔曼菲尔兹奖。数学界最终确认佩雷尔曼的证明解决了庞加莱猜想。

“千年难题”之四:黎曼(Riemann)设

有些数具有不能表示为两个更小的数的乘积的特殊性质,例如,2、3、5、7……等等。这样的数称为素数;它们在纯数学及其应用中都起着重要作用。在所有自然数中,这种素数的分布并不遵循任何有规则的模式;然而,德国数学家黎曼(1826~1866)观察到,素数的频率紧密相关于一个精心构造的所谓黎曼蔡塔函数z(s$的性态。的黎曼设断言,方程z(s)=0的所有有意义的解都在一条直线上。这点已经对于开始的1,500,000,000个解验证过。证明它对于每一个有意义的解都成立将为围绕素数分布的许多奥秘带来光明。

量子物理的定律是以经典力学的牛顿定律对宏观世界的方式对基本粒子世界成立的。大约半个世纪以前,杨振宁和米尔斯发现,量子物理揭示了在基本粒子物理与几何对象的数学之间的令人注目的关系。基于杨-米尔斯方程的预言已经在如下的全世界范围内的实验室中所履行的高能实验中得到证实:布罗克哈文、斯坦福、欧洲粒子物理研究所和筑波。尽管如此,他们的既描述重粒子、又在数学上严格的方程没有已知的解。特别是,被大多数物理学家所确认、并且在他们的对于“夸克”的不可见性的解释中应用的“质量缺口”设,从来没有得到一个数学上令人满意的证实。在这一问题上的进展需要在物理上和数学上两方面引进根本上的新观念。

“千年难题”之六:纳维叶-斯托克斯(Nier-Stokes)方程的存在性与光滑性

起伏的波浪跟随着我们的正在湖中蜿蜒穿梭的小船,湍急的气流跟随着我们的现代喷气式飞机的飞行。数学家和物理学家深信,无论是微风还是湍流,都可以通过理解纳维叶-斯托克斯方程的解,来对它们进行解释和预言。虽然这些方程是19世纪写下的,我们对它们的理解仍然极少。挑战在于对数学理论作出实质性的进展,使我们能解开隐藏在纳维叶-斯托克斯方程中的奥秘。

“千年难题”之七:贝赫(Birch)和斯维讷通-戴尔(Swinnerton-Dyer)猜想

数学家总是被诸如x2+y2=z2那样的代数方程的所有整数解的刻画问题着迷。欧几里德曾经对这一方程给出完全的解答,但是对于更为复杂的方程,这就变得极为困难。事实上,正如马蒂雅谢维奇指出,希尔伯特第十问题是不可解的,即,不存在一般的方法来确定这样的方法是否有一个整数解。当解是一个阿贝尔簇的点时,贝赫和斯维讷通-戴尔猜想认为,有理点的群的大小与一个有关的蔡塔函数z(s)在点s=1附近的性态。特别是,这个有趣的猜想认为,如果z(1)等于0,那么存在无限多个有理点(解),相反,如果z(1)不等于0,那么只存在有限多个这样的点。

1.连续统设1874年,康托猜测在可列集基数和实数基数之间没有别的基数,这就是的连续统设。1938年,哥德尔证明了连续统设和世界公认的策梅洛–弗伦克尔论公理系统的无矛盾性。1963年,美国数学家科亨证明连续设和策梅洛–伦克尔论公理是彼此的。因此,连续统设不能在策梅洛–弗伦克尔公理体系内证明其正确性与否。希尔伯特第1问题在这个意义上已获解决。

3.两个等底等高四面体的体积相等问题。问题的意思是,存在两个等边等高的四面体,它们不可分解为有限个小四面体,使这两组四面体彼此全等。M.W.德恩1900年即对此问题给出了肯定解答。

4.两点间以直线为距离最短线问题。此问题提得过于一般。满足此性质的几何学很多,因而需增加某些限制条件。1973年,数学家波格列洛夫宣布,在对称距离情况下,问题获得解决。《大百科全书》说,在希尔伯特之后,在构造与探讨各种特殊度量几何方面有许多进展,但问题并未解决。

5.一个连续变换群的李氏概念,定义这个群的函数不定是可微的这个问题简称连续群的解析性,即:是否每一个局部欧氏群都有一定是李群?中间经冯·诺伊曼(1933,对紧群情形)、庞德里亚金(1939,对交换群情形)、谢瓦荚(1941,对可解群情形)的努力,1952年由格利森、蒙哥马利、齐宾共同解决,得到了完全肯定的结果。

6.物理学的公理化希尔伯特建议用数学的公理化方法推演出全部物理,首先是概率和力学。1933年,数学家柯尔莫哥洛夫实现了将概率论公理化。后来在量子力学、量子场论方面取得了很大成功。但是物理学是否能全盘公理化,很多人表示怀疑。

7.某些数的无理性与超越性1934年,A.O.盖尔方德和T.施奈德各自地解决了问题的后半部分,即对于任意代数数α≠0,1,和任意代数无理二十世纪的数学家们发现了研究复杂对象的形状的强有力的办法。基本想法是问在怎样的程度上,我们可以把给定对象的形状通过把维数不断增加的简单几何营造块粘合在一起来形成。这种技巧是变得如此有用,使得它可以用许多不同的方式来推广;最终导致一些强有力的工具,使数学家在对他们研究中所遇到的形形的对象进行分类时取得巨大的进展。不幸的是,在这一推广中,程序的几何出发点变得模糊起来。在某种意义下,必须加上某些没有任何几何解释的部件。霍奇猜想断言,对于所谓射影代数簇这种特别完美的空间类型来说,称作霍奇闭链的部件实际上是称作代数闭链的几何部件的(有理线性)组合。数β证明了αβ的超越性。

8.素数问题。包括黎曼猜想、哥德巴赫猜想及孪生素数问题等。一般情况下的黎曼猜想仍待解决。哥德巴赫猜想的结果属于陈景润(1966),但离最解决尚有距离。目前孪生素数问题的结果也属于陈景润。9.在任意数域中证明最一般的互反律。该问题已由日本数学家高木贞治(1921)和德国数学家E.阿廷(1927)解决。

10.丢番图方程的可解性。能求出一个整系数方程的整数根,称为丢番图方程可解。希尔伯特问,能否用一种由有限步构成的一般算法判断一个丢番图方程的可解性?1970年,的IO.B.马季亚谢维奇证明了希尔伯特所期望的算法不存在。

11.系数为任意代数数的二次型。H.哈塞(1929)和C.L.西格尔(1936,1951)在这个问题上获得重要结果。

12.将阿贝尔域上的克罗克定理推广到任意的代数有理域上去这一问题只有一些零星的结果,离解决还相很远。

13.不可能用只有两个变数的函数解一般的七次方程。七次方程的根依赖于3个参数a、b、c,即x=x(a,b,c)。这个函数能否用二元函数表示出来?数学家阿诺尔德解决了连续函数的情形(1957),维士斯金又把它推广到了连续可微函数的情形(1964)。但如果要求是解析函数,则问题尚未解决。

14.证明某类完备函数系的有限性。这和代数不变量问题有关。1958年,日本数学家永田雅宜给出了反例。

15.舒伯特计数演算的严格基础一个典型问题是:在三维空间中有四条直线,问有几条直线能和这四条直线都相交?舒伯特给出了一个直观解法。希尔伯特要求将问题一般化,并给以严格基础。现在已有了一些可计算的方法,它和代数几何学不密切联系。但严格的基础迄今仍未确立。

16.代数曲线和代数曲线面的拓扑问题这个问题分为两部分。前半部分涉及代数曲线含有闭的分枝曲线的数目。后半部分要求讨论的极限环的个数和相对位置,其中X、Y是x、y的n次多项式.的彼得罗夫斯基曾宣称证明了n=2时极限环的个数不超过3,但这一结论是错误的,已由数学家举出反例(1979)。

17.半正定形式的平方和表示。一个实系数n元多项式对一切数组(x1,x2,…,xn)都恒大于或等于0,是否都能写成平方和的形式?1927年阿廷证明这是对的。

18.用全等多面体构造空间。由德国数学家比勃马赫(10)、荚因哈特(1928)作出部分解决。

19.正则变分问题的解是否一定解析。对这一问题的研究很少。C.H.说了这么多、了这么多,点赞、收藏对于一个人的自学旅程来说,连开始都算不上。伯恩斯坦和彼得罗夫斯基等得出了一些结果。

20.一般边值问题这一问题进展十分迅速,已成为一个很大的数学分支。目前还在继续研究。

21.具有给定单值群的线性微分方程解的存在性证明。已由希尔伯特本人(1905)和H.罗尔(1957)的工作解决。

22.由自守函数构成的解析函数的单值化。它涉及艰辛的黎曼曲面论,1907年P.克伯获重要突破,其他方面尚未解决。

23.变分法的进一步发展出。这并不是一个明确的数学问题,只是谈了对变分法的一般看法。20世纪以来变分法有了很大的发展。

P(至少有两个人上同一车厢)

=P(两个人上同一车厢)+P(三个人上同一车厢)

=10( 3C2 .(1/10)^2. (9/10) + (1/10)^3)

= 7/25

[翻译]Learning Deep Features for Discriminative Localization

Mahendran等人和Dosoviskiy等人通过转化不同层的深度特征分析了的可视化解码。虽然这些方法可以转化全连接层,但是只展示了深层特征中什么信息被保留,并没有凸显出这些信息的相对重要性。不同于Mahendran和Dosoviskiy,我们的方法你能凸显出的那个区域是区别性区域。总的来说,我们的方法是对的另一种深入呈现。(又是很文艺的说法:our approach provides another glimpse into the soul of )

英文原文请点 这里

摘要 在这项工作中, 我们重新审视了《 Network in network》中提出的全局平均 池化层(global erage pooling),并阐明了它是如何通过标签就能让卷积神经网络具有卓越的定位能力。虽然这项技术以前被当做正则化训练的一种方法,但是我们发现它实际构建了一种通用的适用于各种任务的能定位的深度表示。尽管global erage pooling很简单,我们仍然能够在2014年的ILSVRC物体定位比赛中得到37.1%的top-5错误率,与的34.2%top-5错误率非常接近。我们证明了我们的网络能在各种任务中区分图像区域进行定位,尽管没有经过(定位)训练。

最近Zhou等人的《Object detectors emerge in deep scene cnns》表明的各个层的卷积单元实际上是物体检测器,尽管没有对物体的位置进行监督。尽管卷积层定位物体的能力很出色,但当用全连接层进行分类时,这种能力会丧失。最近,一些流行的全连接层和卷积层的神经网络,比如Network in Network(NIN)和GoogLeNet,已经提出通过避免使用全连接层的方式来最小化参数并且保持高性能的方法。

尽管我们的方法显得很简单,在ILSVRC的弱监督物体定位比赛中,我们的网络在测试集中达到了37.1%的top-5错误率,这与全监督的AlexNet达到的34.2%top-5错误率极其接近。此外,我们还证明所提方法中的深度特征可以很容易地用于其他数据集的分类、定位和概念发现(concept discovery)。

卷积神经网络在视觉识别任务中有着令人印象深刻的表现。近期的研究表明,尽管在级的标签上训练,在定位上也有着卓越的能力。本文中,我们证明了只要使用正确的架构,就能将这种能力泛化到不仅仅是定位物体,而是标定中具体哪一个区域正在用于分辨物体。这里,我们讨论与这些研究最相关的两条主线:弱监督对象定位和可视化的内部表示。

弱监督物体定位(Weakly-supervised object localization) 最近已经有很多用做弱监督定位的研究了。Bergamo等人提出了一种“自己学习的(self-taught)”物体定位方法,为了实现物体定位,通过掩盖区域来寻找引起激活的区域。Cinbis等人用特征结合多实例的学习定位物体。Oquab等人提出了一种能转换中级图像的方法,并且展示了一些物体的定位能通过评估在多重叠区域的输出实现。但是,这些作者并没有对定位能力做评估。此外,这些方法虽然产生了想要的结果,但并不是端到端的训练,需要提前做一系列额外工作,然后输入网络来定位物体,这使它们很难泛化到真实世界的数据集。我们的方法是一个端到端的,而且只需要输入就可以定位物体。

与我们的方法最相近的是Oquab提出的基于global max pooling的方法。不同于global erage pooling,他们用global max pooling来定位物体的点。但是,它们的定位局限于物体边缘的点,而不是确定物体的全部范围。我们认为虽然max和erage很相似,但是平均池化更鼓励网络识别完整的物体区域。背后的原理是erage pooling网络相比于max pooling识别整个物体的辨别性区域的损失更小。在3.2部分有详细的说明及验证试验。此外,不同于Oquab,我们证明了这种定位能力能够泛化,甚至能用于侦测网络没有训练过的数据。

我们使用class activation map来代表每个图中的激活图的权重,如第2部分所述。我们想要强调的是,global erage pooling不是我们提出来的新技术,我们的创新点在于用它来定位区别性区域(discriminative localization)。我们相信,这种简单的技术可移植性很好,能应用于快速地解决很多计算机视觉中的定位问题。

可视化卷积神经网络: 最近有很多关于可视化卷积神经网络内部的研究,试图对其属性有更好的表现。Zeiler等人用反卷积网络来可视化激活每个单元的模式。Zhou等人发现s被训练识别场景时会学习物体侦测,并证明了统一网络既能进行场景识别,又能进行物体定位。这些研究都只分析了卷积层,忽略了全连接层,因此是不全面的(国外论文好文艺,原文如是描述:thereby painting an incomplete picture of the full story)。通过移除全连接层并尽可能保持性能,能从头到尾更好的了解我们的网络。

全局平均池化层(GAP)VS全局池化层(GMP): 鉴于之前有的研究使用GMP做弱监督物体定位,我们认为很有必要直观地对比一下GAP和GMP的高亮区域的不同。比起GMP的鼓励网络只关注1个discriminaltive part,GAP更鼓励网络识别对象的整个范围。因为当求平均数时,这个值可以通过找所有discriminative part来激活而低激活减少了特定的输出。另一方面,对于GMP,所有图的低分区域(除了最有区分力的一个),都不会对得分有影响,因为你只取了max。我们在第三部分用ILSVRC数据集验证了此想法:GMP的分类性能与GAP相当,GAP的定位能力要强于GMP。

在这一部分,我们在ILSVRC2014数据集上评估了CAM的定位能力。我们先描述了实验的设置和用到的网络,见3.1部分。然后在3.2部分验证了我们的技术不会在学习定位时对网络产生不利影响,并详细给出了弱监督对象定位的结果。

我们用下面这些流行的网络评估CAM的影响:AlexNet,VGGnet和GoogLeNet。通常来讲,我们把这些网络的全连接层全部移除,替换为GAP,然后接一个softmax全连接层。

我们发现GAP前的一个卷积层有较高空间分辨率时网络的定位能力可以得到改善,我们之称为图分辨率(mapping resolution)。为了做到这一点,我们移除了一些网络的卷积层。具体来说,我们做了下面改动:对AlexNet,我们移除conv5之后的卷积层(pool5到prob),得到图分辨率(mapping resolution)为13x13。对VGGnet,我们溢出了conv5-3后的所有卷积层(pool5到prob),得到14x14的图分辨率。对GoogLeNet,我们溢出了inception4e后的卷积层(pool4到prob),得到14x14的图分辨率。对上述的每个网络,我们都添加一个3x3,步长为1,padding为1,1024个单元的卷积层,然后接一个GAP层和一个softmax层。对每个网络在ILSVRC的1.3M张要分成1000类的训练进行精调(fine-tuned),分别产生我们最终的AlexNet-GAP,VGGnet-GAP和GoogLeNet-GAP。

对于分类,我们与原始的AlexNet,VGGnet和GoogleNet与做了比较,也提供了Network in Network的结果。对于定位,我们与原始的GoogLeNet和NIN进行了比较,还用反向传播代替了CAM。此外,为了比较erage pooling和max pooling,我们也提供了用max pooling训练的GoogLeNet的结果(GoogLeNet-GMP)。

我们使用一样的误矩阵(top-1,top-5)作为ILSVRC对分类和定位的评估指标。对于分类,我们对ILSVRC的验证集进行了评估,对于定位,我们在验证集和测试集上都做了评估。

我们先提供了在分类上的结果,以证明我们的方法没有对分类性能产生明显的不良影响。然后我们有证明了我们的方法在弱监督物体定位上十分有效。

分类: Tb.1总结了原始网络与我们的GAP网络的分类性能。我们发现多数情况下从各个网络中移除多余的网络层使分类性能下降了1%~2%。我们观察到AlexNet是移除全连接层后分类性能受影响的网络。作为补偿,我们在它的GAP层前添加了两个卷积层,得到AlexNet -GAP网络。我们发现AlexNet -GAP与AlexNet的性能相当。因此,总体而言,我们的GAP网络很大程度地保留了网络的分类性能。此外,与预期的一样,我们观察到GoogLeNet-GAP和GoogLeNet-GMP的分类性能相似。注意,为了在定位上得到好的表现,网络的分类性能很重要,因为它决定了网络是否能准确地分类和定位的边界。

定位: 为了做定位,我们需要生成一个边界框及其关联的物体类别。为了生成CAM的边界框,我们使用简单阈值来划分热力图。我们先用大于CAM值的20%的值做一个边框,然后我们再用覆盖分割图中连通分量做一个边框。我们把预测的top-5全部如此标记出来。图6(a)展示了用这项技术生成的示例边框。在ILSVRC验证集上的定位性能见Tbl2,输出示例图见图5。

为了进一步比较我们的方法与现有的弱监督和全监督方法,我们评估了GoogLeNet-GAP在ILSVRC的测试集上的表现。使用一个稍微不同于上的边界框选择策略:我们选择两个边界框(一松一紧),一个从top 1st和2nd预测类的CAM中选择,一个从top 3rd预测类的CAM中选择。我们发现这种启发式方法对改善验证集表现很有帮助,表现在表3种陈列。启发式的弱监督GoogLeNet-GAP在达到top-5错误率37.1%,与全监督的AlexNet(34.2%)十分接近。虽然令人印象深刻,但如果想用同样的结构得到与全监督的网络相同的性能网络大概可以分为两个部分,左边是层次的点云特征提取网络,右边是针对不同任务的解码网络。,还有的路要走(如,弱监督的GoogLeNet-GAP vs 全监督的GoogLeNet)。

的更高层(比如AlexNet的fc6,fc7)已经被证明能提取到很有效的通用特征(generic features),其在各种个数据集上都有极好的性能。这里,我们证明了我们的GAP 学到的特征可以很好地作为通用特征,识别出用于分类的区别性区域,尽管没有针对这些特定任务进行训练。为了得到与softmax层相似的权重,我们在GAP的输出上简单训练了一个SVM。

首先,对比我们的方法与一些基准模型在下面场景及物体分类任务中的表现:SUN397 [27], MIT Indoor67[18], Scene15 [11], SUN Attribute [17], Caltech101[6], Caltech256 [9], Stanford Action40 [28], andUIUC Event8 [12]。实验设置与 B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva.Learning deep features for scene recognition using places database. In Aances in Neural Information Processing Systems,2014. 一样。表5对比了我们的网络GoogLeNet-GAP提取的特征与AlexNet的fc7提取的特征和GoogLeNet的e pool提的特征比较。

我们发现,GoogLeNet-GAP与现有方法表现相当,在没有用任何带边界标记的数据训练过的情况下得到了全图(full-image)63%的准确率。使用边界框训练时,准确率增加至70.5%。现在,给出我们网络的定位能力,可以用3.2部分(即阈值)的方法先标出训练集和测试集中鸟的边界框,然后我们用GoogLeNet-GAP从边界框内提取特征来训练和测试。我们发现性能提高至了67.8%。在细粒度识别中,定位能力非常重要,因为类别之间的别是极细微的,如果有更集中的裁剪区域,则会带来更好的区分度。

此外,我们发现GoogLeNet-GAP能准确定位41%的交并比为0.5(IoU,两个边界框的重叠度)的鸟,其他的只有5.5%(不确定翻译,原文为as compared to a chance performance of 5.5%)。我们在图7中足了一些可视化,进一步验证了我们方法的定位能力。

这一部分,探索我们的技术是否能识别一般元素或出物体外的模式,比如文本或者更高维的概念。给一些包含普通概念的,我们想确定网络认为哪些区域是重要的,以及是否符合输入模式。我们使用了与以前相似的方法:在GoogLeNet-GAP网络的GAP层训练了一个线性SVM,并使用CAM技术识别重要区域。我们用我们的深度特征做了三个模式的实验,结果在下方总结。注意在这种情况下,我们不需要拆分训练集和测试集——只用做视觉模式探索。

发现场景中信息丰富的物体: 我们从SUN数据集[27]中抽取10个包含至少200个完全注解图像的场景类别,从而产生总共4675个完全注解的。我们针对每个场景类别训练一对一线性SVM,并使用线性SVM的权重计算CAM。图9绘制了预测风景类别的CAM,并列出了两个场景类别的CAM高激活区域中高频覆盖的前6个物体。我们发现高激活区域经常对应于指示特定场景类别的物体。

弱监督文本检测器: 我们用350个Google Street View训练弱监督文本检测器,itive set包含SVT数据集的文本,negative set包含从SUN数据集种随意采样的室外风景。如图11所示,我们的方法没使用边界框注解就=10(27/1000 + 1/1000)准确出了文本区域。

视觉问题回答:(Interpreting visual question answering) 我们用我们的方法标出与 B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fergus.Simple baseline for visual question answering. arXivpreprint arXiv:1512.02167, 2015. 中提出的视觉问题相关的深度特征。在Open-Ended track中,整体准确率为55.89%。如图12所示,我们的方法标出了与相关的图像区域。

Zhou等人展示了不同层的卷积单元可以作为视觉概念检测器,识别诸如纹理和材质之类的low-ll concepts和物体或者场景这些high-ll concepts。深入神经网络,这些单元变得越来越有识别能力。但是,很多网络由于全连接层,变得很难确定识别不同类的不同单元起到的重要性。这里,使用GAP和排序的softmax权重,可以直接可视化这些单元对给定类的识别的重要性。这里我们将其称为的指定类单元(class-specific units)。

图13展示了AlexNet-GAP的指定类单元,分别在ILSVRC数据集做物体识别(top)和Places Database做风景识别(bottom)。我们使用与Zhou等人相似的处理估计接收区域和分割一个卷积层的每个单元的激活图。然后我们简单地使用softmax的权重来对每个单元做指定类的排序。从图中我们可以看出到底是哪个单元将物体分类的区别性区域标记了出来。例如,检测狗脸和体表皮毛的单元对分类湖地猎犬很重要,检测沙发、桌子和壁炉的单元对分类客厅很重要。 因此我们可以推断实际上学习了一个单词包,每个单词都是一个特定类区别性区域的单元。 这些特定于类的单元的组合可以指导对每个图像进行分类。

本文针对使用GAP的网络提出了一个叫做CAM的通用技术,这个技术可以让做过分类训练的网络学会进行物体定位,不需要进行额外的边界框注解训练。CAM可以可视化预测类在任何给定上的得分,标出检测到的物体的区别性区域。我们在ILSVRC上评估了我们的方法,进行了弱监督物体定位,证明了我们的全局平均池化层的可以进行准确的物体定位。此外,我们证明了CAM定位技术可以推广到其他视觉识别任务中,也就是说,我们的技术可以生成通用的用于定位的深层特征,可以帮助其他用做任务的研究人员,作为他们理解区别性区域的基础。

怎么找论文

「西瓜书」《机器学习》,李航老师的《统计学习方法》,「三驾马车」巨著《深度学习》,都是相当经典的入门书。

获取论文的途径和技巧有很多种,以下是一些常用的方法:

4) F. Joliot and I. Curie, Artificial production of a new kind of radio-element, Nature 133 (1934) 201.

1. 学术搜索引擎:学术搜索引擎可以帮助用户快速检索到相关的学术论文,如Google Scholar、Bing Academic、百度学术、CNKI等。

接下来,我们需要——

2. 学术数据库:许多图书馆和大型机构都会各种学术数据库,这些数据库包含了各种学术期刊、会议论文等资源,如Web of Science、ScienceDirect、IEEE Xplore、SpringerLink等。

3. 开放获取资源:近年来,越来越多的出版社和机构开始推广开放获取的理念,提供免费获取的学术资源,如PLOS ONE、DOAJ、arXiv等。

4. 学术社交网络:一些学术社交网络如ResearchGate、Academia.edu等,提供了许多学者上传和分享的研究成果。

5. 图书馆资源:学校和公共图书馆也是获取论文的重要途径,许多图书馆都会提供电子资源和打印文献服务。

在获取论文时,还需要注意以下几点:

1. 检查论文的来源和可信度,尽量选择具有权威性和可信度的出版社、期刊或会议论文集。

2. 尽量避免使用盗版或非法获取的论文,以免侵犯知识产权和违反法律法规。

3. 在引用和使用论文时,应该注明出处并遵守相关规范和要求,以保证学术诚信和规范性。

总之,获取论文需要综合运用各种途径和技巧,并注意论文来源的可信度和合法性,以保证学术研究的准确性和规范性。