Print

发布时间: 2021-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200838
2021 | Volume 26 | Number 2




    前沿进展    




  <<上一篇 




  下一篇>> 





NeurIPS 2020观察与分析
expand article info 林宙辰, 王奕森
北京大学信息科学技术学院机器感知与智能教育部重点实验室, 北京 100871

摘要

神经信息处理系统大会(Conference on Neural Information Processing Systems,NeurIPS)是机器学习领域的顶级会议,在中国计算机学会(China Computer Federation,CCF)推荐国际学术会议中被评为人工智能领域的A类会议,一直广受关注。NeurIPS 2020收到了创纪录的9 467篇投稿,最终录用1 898篇论文。收录的论文涵盖了人工智能的各种主题,包括深度学习及其应用、强化学习与规划、纯理论研究、概率方法、优化及机器学习与社会等。本文回顾了NeurIPS 2020的亮点及论文录用情况,详细解读了特邀报告、最佳论文、口头报告及部分海报论文,希望能帮助读者快速了解NeurIPS 2020的盛况。

关键词

人工智能; 机器学习; 深度学习; 强化学习; 理论; 优化; 学术会议; NeurIPS 2020

Report of NeurIPS 2020
expand article info Lin Zhouchen, Wang Yisen
Key Laboratory of Machine Perception(MoE), School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China

Abstract

The Conference on Neural Information Processing Systems (NeurIPS), as a top-tier conference in the field of machine learning and also a China Computer Federation(CCF)-A conference, has been receiving lots of attention. NeurIPS 2020 received a record-breaking 9 467 submissions, and finally accepted 1 898 papers, which covered various topics of artificial intelligence(AI), such as deep learning and its applications, reinforcement learning and planning, theory, probabilistic methods, optimization, and the social aspect of machine learning. In this paper, we first reviewed the highlights and statistical information of NeurIPS 2020, for example, using GatherTown (each attendee is represented by a cartoon character) to improve the experience of immersive interactions with each other. Following that, we summarized the invited talks which covered multiple disciplines such as cryptography, feedback control theory, causal inference, and biology. Moreover, we provide a quick review of best papers, orals and some interesting posters, hoping to help readers have a quick glance over NeurIPS 2020.

Key words

artificial intelligence(AI); machine learning; deep learning; reinforcement learning; theory; optimization; academic conference; NeurIPS 2020

0 引言

神经信息处理系统大会(Conference on Neural Information Processing Systems, NeurIPS)是机器学习领域的顶级会议,是神经计算方面最好的会议之一,在中国计算机学会(China Computer Federation, CCF)推荐国际学术会议中被评为人工智能(artificial intelligance, AI)领域的A类会议。在Google Scholar发布的2020年学术指标中,H5指数为198,位于计算机领域的第3位,位列所有领域出版物的第21位。

第34届NeurIPS原定于2020年12月6日—12日在加拿大温哥华举办。因为疫情,NeurIPS 2020变成了一届线上会议。

1 NeurIPS 2020的亮点

由于新冠疫情的持续蔓延,NeurIPS 2020完全采取了线上会议的形式,世界各地的参会者通过互联网参会交流。为了提升线上会议的参与体验,NeurIPS大会组委会专程邀请了两名在线体验主席,并在Poster环节使用了名为GatherTown的交互网站,十分逼真地模拟了线下交流。除此之外,会议注册费用大幅下降。学生注册费用为25美元,其他参会者为100美元,而前一年的注册费用分别为420和750美元。值得注意的是,所有人都可以在无需注册的情况下访问Tutorial、Keynote、Oral论文和Spotlight论文的宣讲内容。在会议结束后,NeurIPS 2020预计还会将Poster的录像公开。

除了涵盖人工智能领域丰富的主题,NeurIPS 2020还开始探讨机器学习的社会影响,例如投稿论文需要添加Broad Impact、审稿流程中引入道德审查机制。不过仅有290篇投稿论文被审稿人提出了道德担忧,主要集中在虚假人脸的生成、新数据集的隐私泄露风险等。同时,大会邀请报告讨论了如何避免机器学习系统的不良社会影响,并关注数据标注员的职业发展问题。还特意举办了关于新冠病毒COVID-19的特别研讨会,体现了人工智能社区和科技工作者的社会责任感。

2 论文录用情况

NeurIPS 2020的投稿量再创新高,共有9 467篇论文被提交,相比2019年增长了40%。经过7 062名审稿人的同行评议,最终有1 898篇论文入选,录取率仅为20.0%,低于前一年的21.6%,达到历史最低。其中105篇被录用为Oral Paper,280篇被录用为Spotlight Paper。Oral Paper和Spotlight Paper的录取率仅有1.11%和2.96%。

在NeurIPS 2020中,谷歌位于所有高校/机构的榜首,入选论文高达202篇。麻省理工学院排名第2,共有109篇论文入选。斯坦福大学位居第3,共有106篇论文入选。国内高校/机构中,清华大学排名第1,共有63篇论文入选,排在国内外所有高校/机构的第7位;北京大学第2,共有37篇论文入选。从作者角度,有华人参与的论文共有568篇,占总论文数的29.91%。其中华人为第一作者的论文共有321篇,占华人参与论文数的56.51%,占总论文数的16.90%。华人在NeurIPS 2020中贡献了重要力量。

NeurIPS作为机器学习领域的顶级会议,收录的论文包罗了人工智能领域的各种主题,包括深度学习及其应用、强化学习和规划、纯理论研究、概率方法、优化、机器学习和社会、神经科学和认知科学等多个方面。

3 邀请报告

NeurIPS 2020共有7个邀请报告(Invited Talk),主题丰富,涵盖了密码学、反馈控制理论、因果推断和生物学等多个学科,反映了机器学习正在与其他学科不断影响并相互交融;同时探讨了人工智能大潮下的多个社会问题,展现了科研人员的社会责任感。部分邀请报告如下:

1)“Robustness, Verification, Privacy: Addressing Machine Learning Adversaries”。2012年的图灵奖得主、MIT(Massachusetts Institute of Technology)的密码学教授Shafi Goldwasser展示了在密码学的意义下,机器学习正面临的3大挑战,包括在有限良好数据下验证机器学习模型,在私有数据背景下进行大规模训练和在最坏情况对抗样本下模型的鲁棒性问题。对于可验证性,她提到了2018年加利福尼亚的一项提案:将现金保释更改为信用评估,展现了机器学习模型对现实生活带来的冲击和人们需要特别考虑的可靠性问题,以及从密码学角度解决可验证性问题的一些思路。其次,机器学习模型需要大规模的数据,然而由于现实原因,大多数数据都是私有数据,为大规模训练带来了障碍。Goldwasser介绍了可以借鉴密码学中的常用方法,如multi party computation (MPC),来突破这一瓶颈。最后,Goldwasser阐述了机器学习中需要考虑的鲁棒性问题本质上就是密码学中经常需要考虑的最坏对手问题。总体而言,Goldwasser的演讲为解决机器学习问题开辟了崭新的视角。

2)“Feedback Control Perspectives on Learning”。阿卜杜拉国王科技大学(King Abdullah University of Science & Technology,KAUST)的教授Jeff Shamma重点介绍了一些反馈控制概念,特别是鲁棒性、被动性、跟踪和稳定性。因为反馈控制与进化博弈论、无遗憾学习(no-regret learning)和多智能体学习中的特定问题相关,已经广泛应用于各种工程领域,包括航空航天、机器人、汽车、通信、制造业和能源应用,经过几十年的努力,超越人类性能的目标已经实现。学习中的许多设置都涉及反馈互联,例如,强化学习有一个智能体与其环境反馈,而多智能体学习则有多个智能体相互反馈。通过明确地认识到反馈互联的存在,人们可以利用反馈控制的观点来分析和综合此类系统,并研究所有反馈控制系统固有的可实现性能的基本限制的权衡。

3)“The Genomic Bottleneck: A Lesson from Biology”。报告人为冷泉港实验室的神经科学家Anthony M. Zado教授。很多动物带有先天的能力,如蜘蛛先天就会结网、马会站立以及鲸鱼会游泳等。从进化角度来看,这些先天能力主要是选自那些能让它们在出生后较脆弱的时期保持存活所需要的能力,从而让它们能够顺利地进入繁殖年龄。该报告指出,大部分动物行为都不是因为学到了聪明的算法所致,而是编写在基因里。动物天生带有高度结构化的大脑,因此具有很快的学习能力。但是这种复杂的大脑连接模式很难在基因里指定,而是压缩在“基因信息瓶颈(Genomic Bottleneck)”里作为一个正则化项。基因信息的瓶颈指出了一条指向具有快速学习能力架构的途径。

4)“The Real AI Revolution”。NeurIPS 2020邀请经典教科书“Pattern Recognition and Machine Learning(PRML)”的作者、微软研究院的Christopher Bishop博士回顾具有真实应用场景的微软研究院的研究项目,分享了他对AI未来发展趋势和现实世界影响的思考。Bishop博士以对AI的定义和范围的讨论开场,涉及诸多AI创业公司并没有真正使用机器学习或者相关的技术,并进一步指出研究社区的共识是通用人工智能(artificial general intelligence,AGI), 相对我们仍然相当遥远。他认为,通过从数据中学习和创造软件,这些革命性的技术已经足以对现实世界产生重要影响。以医学影像处理为例,他认为AI不会取代人类的放射科医生,但使用AI的放射科医生会取代那些不使用AI技术的医生。作为回顾和对未来的展望,Bishop讲述了微软研究院的愿景,即致力于解决现实世界的问题,并在这个研究过程中拓展对于原理的深层理解。他认为基础研究和应用研究非此即彼的二元分类方法不再适用,促进基础理解和有现实应用并不是相互矛盾的。最后,Bishop总结,真正的AI革命不是追求实现AGI,而是学者创造技术的手段正在从手工设计软件转向从数据中学习软件。

5)“A Future of Work for the Invisible Workers in AI”。卡内基梅隆大学的客座教授Saiph Savage目前在卡内基梅隆大学领导人机交互实验室和公民技术实验室,从事智能平台系统的设计,旨在帮助公民众筹众智,培养数字化技能,获得更好的工作和待遇,应对AI时代下的世界变革。她指出:人工智能产业在不断创造出新工作的同时,也给人们带来了很多冲击和挑战。其中,最突出的问题就是这些人工智能背后的低技能、低工资以及职业发展有限的公民(隐形工人)。为了解决这个社会难题,Savage博士分享了她们近期的一项智能平台系统的工作。该项目有两大特色:(1)利用团结一致的计算方法,在完成无形劳动的同时,集体组织工人互相帮助,培养新技能;(2)利用基于集体行动理论的计算技术,引导这些无形的工人在社区中设计创造性解决方案和创业公司。紧接着,Savage博士介绍了一些案例研究,展示了该框架如何为人工智能行业背后的工人带来积极的变革。她还介绍了拉丁美洲和美国农村地区的政府和民间组织如何利用拟议的框架提供新的、公平的就业机会。

6)“You Can’t Escape Hyperparameters and Latent Variables: Machine Learning as a Software Engineering Enterprise”。美国国家科学院Kavli Fellow获得者、乔治亚理工学院计算机学院Charles Isbell教授提到:社会需要采用系统的方法来研发鲁棒性的产品,由此产生对人们生活具有重大影响的系统。他首先介绍了一些机器学习领域的有趣例子,例如:亚马逊公司废除了对女性有偏见的AI招聘工具、柯达摄影中的种族偏见问题、智能人群情绪识别系统等。在理论研究方面,Charles Isbell教授认为:提高模型精度与模型参数增加和数据需求是一致的; 机器学习泛化时需要有适当的归纳偏置; 学习一个3节点神经网络是NP完备的; 高风险决策不使用黑盒子机器学习模型等。在教育领域,Charles Isbell教授阐述了一些专业人士的看法,例如:ACM(association for computing machinery)的道德和职业行为准则、计算机学历的种族和性别占比、学士学位的薪酬排行榜、不同学科本硕博授予的学位与可提供的工作机会。最后,Charles Isbell教授得出了一些机器学习获得成功的教训(整体学习、新技术问题、道德和伦理、长远眼光以及多元团队协作等)、技术(透明模型、定义目标功能、数据增强以及数据表示等)和思维方式(软件工程、理论计算机科学以及编程语言等)。

4 会议热点论文

4.1 最佳论文

NeurIPS 2020涌现了许多优秀的工作,具有非常高的学术价值与应用价值。最佳论文奖由3篇论文获得,分别是来自米兰理工大学的“No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium”(Celli等,2020)、加州大学伯克利分校的“Improved Guarantees and a Multiple-Descent Curve for Column Subset Selection and the Nyström Method”(Dereziński等,2020),以及OpenAI的“Language Models are Few-Shot Learners”(即著名的GPT-3)(Brown等,2020):

1)“No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium”(Celli等,2020)。相关平衡(Correlated Equilibrium, CE)易于计算,并且可以获得比众所周知的纳什平衡要高得多的社会福利。在普通形式的游戏中,CE的一个功能是可以通过简单且分散的算法将特定遗憾的概念降到最低。论文说明了在大型游戏(即扩展型或树型游戏)中收敛到CE的遗憾最小化算法的存在。该结果解决了博弈论、计算机科学和经济学界的一个长期存在的开放性问题,并且可能对涉及调解员的游戏产生重大影响,例如,通过导航应用程序对有效的交通路线产生调整。

2)“Improved Guarantees and a Multiple-Descent Curve for Column Subset Selection and the Nyström Method”(Dereziński等,2020)。从大矩阵中选择列向量的一个小但有代表性的子集是一个困难的组合问题,并且已知一种基于基数受限的行列式点过程的方法可以提供一种实用的近似解决方案。论文针对最佳可能的低秩近似,推导了近似解的近似因子的新上限和下限,该上限甚至可以捕获子集大小的多重下降行为。论文将分析进一步扩展,获得了Nyström方法的理论保证。由于这些逼近技术已在机器学习中得到广泛应用,因此这篇论文有望产生重大影响,并为核方法、特征选择和神经网络的双下降行为等理论和现象提供新的见解。

3)“Language Models are Few-Shot Learners”(Brown等,2020)。AI大厂向来奉行算力至上,OpenAI的GPT-3工作更是将这个理念推到极致,基于Bengio 2003年提出的Neural Language Model,加上海量的数据和算力,实现了前所未有的表示能力。论文清晰地展示了只要算力足够,神经网络还有相当大的开发空间,通常讨论的数据集和模型大小,距神经网络的极限仍然很远。

4.2 Oral论文和Spotlight论文

此次NeurIPS 2020共收录了105篇Oral论文和280篇Spotlight论文,大会将它们分成了35个Track。下面对重点论文进行点评。

Orals & Spotlights Track01: Representation / Relational。CNN(convolutional neural network)在视觉识别任务上表现出色,但是它提取的特征并没有物理属性,限制了CNN对视觉场景的结构化理解。为了突破这一限制,Bear等人(2020)引入了“物理场景图”(physical scene graphs, PSG)的概念,将场景表示为层级图,其中各个节点对应于不同的对象,而边对应于对象间的连接。每个节点都用向量直观地表示对象属性,例如表面形状和纹理。作者提出了PSGNet,其中包括ConvRNN,组合低级和高级图像信息;图池化和矢量化操作,将空间均匀的特征图转换为以对象为中心的图结构;感知分组原则,鼓励识别有意义的场景元素。PSGNet在场景分割任务上,特别是在复杂的真实世界图像上,表现优于自监督场景表示算法,并且可以很好地推广到未知的对象类型和场景上。PSGNet还能从身体运动中学习,增强场景估计能力。

变分互信息估计器,如对比预测编码,现已在无监督表示学习中广泛使用。在多类别分类问题中,批评者试图将正样本与从(m-1)个负样本中选出(m为类别数)。使用这种方法,互信息估计的上限为log m,在实际中会被严重低估。为了克服这一局限性,Song和Ermon(2020)引入了一种基于多标签分类问题的新型估计器,其中批评者需要同时识别多个正样本。理论上,使用相同数量的负样本,多标签对比预测编码可以超过log m的界。实验表明所提出的方法能够获得更好的互信息估计,在无监督的表示学习中获得改进,并在多个任务上超过了目前的知识蒸馏方法。

在等变性研究领域,多数工作一般只考虑原始数据的变换,而很少考虑具有层次结构的数据。然而事实上,许多实用结构都是由简单模块搭建而成的层次结构,具体包括集合序列、图的图和多分辨率图像等。Wang等人(2020)观察到层次结构的对称性实际上是构建模块所具有对称性的“花环积”。作者利用构建模块的等变线性映射的直接组合来设计对于层次结构等变的映射。为了证明这种方法在模型设计中的有效性,作者考虑了其在点云数据语义分割中的应用。通过对点云进行体素化,在层次结构的数据上施加了平移和置换对称性,并在多个数据集上验证了这一技术。

Orals & Spotlights Track03: Language / Audio Applications。Glow-TTS(Kim等,2020)提出基于正则化流(normalizing flow)和动态规划的并行化文本转语音模型,在不借助外部对齐的情况下,获得了与自回归文本转语音模型相当的性能。文本转语音模型在自回归机制下可以取得较好的结果,但是生成速度较慢;而已有的并行文本转语音(text to speech,TTS)模型在训练中需要借助预训练的自回归TTS模型实现文本和声音信号的对齐。受启发于文本和语音信号的单调对齐特性,Glow-TTS借助动态规划的Viterbi算法,实现了正则化流训练中隐变量和先验分布统计量的单调对齐。该算法借助动态规划节约计算时间,仅占总训练开销的2%。Glow-TTS实现了与自回归TTS模型相仿的性能和一个数量级的加速,且表现出在长文本转语音上优于自回归模型的泛化能力。

Jenrungrot等人(2020)提出了基于定位的声源信号分离网络(cone of silence network,CoS)。声源分离是一类旨在恢复混杂的音频信号中每个声源独立信号的问题。由于真实世界场景下,混杂声音中可能存在数目不定的源信号,传统深度模型往往需要额外的组件预测声源的数目,并对不同声源数目场景应用不同的模型。受启发于经典声源定位的策略,CoS通过对声源所在的角度执行二分搜索,借助条件WaveU-Net处理不同角度的声源,同时实现了高质量的声源定位与分离。实验表明,CoS对任意数量的声源表现出较好的泛化能力,且在运动声源和复杂背景噪声的情况下鲁棒。

Orals & Spotlights Track04: Reinforcement Learning。Lee等人(2020a)提出了一种异步进化策略的强化学习算法(asynchronous evolution strategy-reinforcement learning, AES-RL),最大限度地提高了进化策略的并行效率,并将其与策略梯度方法相结合。该论文主要包含2个方面的内容:1)一个异步合并进化策略和深度强化学习算法的新框架;2)各种异步更新方法,这些方法可以充分利用异步、进化和深度强化学习算法的所有优点(探索性、时间效率、稳定性和样本效率)。深度强化学习算法和进化策略已应用于各种任务中,通常表现出良好的性能。深度强化学习算法样本的效率高,但稳定性差,而进化策略样本则相反。学者尝试将这些算法结合在一起,但这些方法完全依赖于同步更新方案,不能够最大化进化策略的并行性优势。为解决这一难题,该文提出了具有良好时间效率和多样化策略探索的异步更新方案。该论文在连续控制基准测试中对所提出的框架和异步更新方案进行了评价,结果表明,与以往的方法相比,所提出的框架和异步更新方案具有更好的性能和时间效率。

Tao等人(2020)提出了一种高效搜索的新方法,该方法利用了环境的低维编码,并结合了基于模型和无模型的目标。该方法使用基于低维度表征空间中最近邻距离的内在奖励来衡量新颖性。然后,该方法利用这些内在的奖励来实现高效的样本搜索,并在代表性空间中规划常规路线,以实现具有稀疏奖励的艰难搜索任务。该方法的一个关键元素是使用信息论的原则来塑造其表征,使模型的新颖性奖励超越像素相似性。论文在一些迷宫任务和控制问题上测试了所提出的方法,证明了其探索方法比一些基线方法更有效。

Dennis等人(2020)的论文提出了一种无监督环境设计(unsupervised environment design, UED)方法,该方法提供带有未知参数的环境,这些参数在有效的、可解决的环境中自动生成分布。现有的环境自动生成方法存在着失效模式:域随机化不能生成结构,或不能根据智能体的学习进度调整环境的难度,极小极大对抗训练导致最坏情况下的环境往往无法解决。为了使该论文的主角智能体生成结构化的、可解决的环境,该论文引入了对抗智能体,与产生环境的对手结盟。对手被激励去创造最大化遗憾(regret)的环境,定义为主角和对手智能体之间差异的回报。该论文的技术称为“主角对抗诱导遗憾环境设计”(protagonist antagonist induced regret environment design, PAIRED)。该论文的实验证明,在一个全新的环境中,配对产生日益复杂的自然环境,配对智能体实现更高的零样本(zero-shot)的迁移性能。

Orals & Spotlights Track05: Clustering / Ranking。Huang等人(2020)针对基于部分多视图对齐数据来建立全部多视图对齐的问题,提出了一种新的多视图聚类方法(partially view-aligned clustering, PVC)。该方法最大的亮点在于利用了不可微匈牙利算法的可微代理,并将其重新设计为可插拔的模块。因此,在利用“对齐”数据学习不同视图的公共空间的同时,可以在神经网络学习的潜在空间中建立未对齐数据的类别级对应关系。实验结果表明,该方法在部分视图对齐数据的聚类中取得了很好的效果。

Orals & Spotlights Track06: Dynamical Sys / Density / Sparsity。Matsubara等人(2020)研究了深度神经网络建模物理系统。物理现象一般被基于能量的理论,如哈密顿力学、朗道理论所表达,进而产生不同的定律。近来的研究利用深度网络,通过学习连续的微分动态系统来模仿能量守恒定律。但是,实际的学习和计算是在离散的时间域进行的,不一定成立,并且其他的一些物理定律并不能严格满足。针对这些问题,论文提出了一种基于能量的离散域的深度物理模型,设计了保持结构的积分子(integrator),并提出了自动离散微分,使得神经网络可以利用离散梯度,从离散时间域的数据中准确学习,并使得能量守恒、消散定律以及质量守恒定律可以自然地满足。

Rashidinejad等人(2020)针对随机噪音下未知/部分观测的线性动态系统提出高效的在线预测算法。在系统参数已知的情况下,最优的线性预测可以采用卡尔曼滤波器。但是对未知系统,预测模型的表现会较差。论文提出通过限制卡尔曼滤波系数集的广义Kolmogorov宽度来解决这个问题。利用谱方法对卡尔曼预测模型所做的凸放缩,提出了SLIP(spectral linear dynamically system improver predictor)算法。通过有限样本的分析,表明该算法和卡尔曼滤波相比只有对数遗憾值的差距。实验部分表明该算法在线性动态系统预测问题上超过SOTA(state-of-the-art)的方法。

Massaroli等人(2020)进一步分析神经网络的连续模型——神经常微分方程(Neural ODE)的内部机理。该工作列出了Neural ODE的一般表达形式,并拆分为几个主要成分,包括:输入、输出、隐状态、参数、神经向量场、输入网络和输出网络。该工作指出已有的Neural ODE不能认为是残差网络的深度极限,讨论了它们的区别,指出在函数空间存在的问题,并提出了两个变种作为解决方案。针对ANODE(augmented neural ODEs)中提出的增广策略,该工作进行了相关分析和推广,指出针对某些任务增广并非是必须的策略。首先,指出深度变化的向量场自身在维度大于1的情况下已经充分;其次,提出了两种Neural ODE范式,自适应深度版本中的积分上限被另一个神经网络所决定,数据控制版本中的神经向量场依赖于输入数据,从而允许ODE学到多种向量场而不只是一种。

Orals & Spotlights Track08: Deep Learning。Bai等人(2020)提出了一种适用于大尺度、多层次模式识别领域的新型隐式网络——多尺度深度平衡模型(multiscale deep equilibrium models, MDEQ)。MDEQ同时直接处理多个解决方案的均衡点并向后传播,使用隐式微分来避免存储中间状态(因此只需要常数内存消耗)。这些同时学习的多分辨率特性允许模型在不同的任务集和损失函数上训练单一的模型,例如使用单一的MDEQ来执行图像分类和语义分割任务。论文在两个大规模视觉任务上说明了这种方法的有效性:ImageNet分类任务和Cityscapes数据集的高分辨率图像语义分割任务。在这两种设置中,MDEQ都能够达到或超过最先进的计算机视觉模型的性能。该论文是首次通过隐式深度学习方法实现这样的性能和规模。

Galanti和Wolf(2020)将模块化的特性定义为每个输入实例有效地学习不同函数的能力。为此,论文采用该特性的表达性观点,并扩展了Devore的理论,通过消除逼近方法的鲁棒性要求,提供了神经网络作为函数逼近器的复杂度(可训练参数的数量)的下界。该论文结果与基于嵌入的方法相比,说明了超网络的模块化是一种更优的策略。此外,论文还表明,对于一个结构化的目标函数,超网络中的可训练参数的总数要比标准神经网络和嵌入方法的可训练参数的总数小几个数量级。

Karras等人(2020)提出了一种自适应鉴别器增强的机制,可以在有限的数据集上显著稳定地训练。该方法不需要更改损失函数或网络架构,无论是从头开始训练,还是在另一个数据集上微调现有GAN(generative adversarial network)时,论文方法都适用。在几个数据集上进行测试,用几千幅训练图像可以得到较好的结果,可以用更少的图像来匹配StyleGAN2结果,该论文为GAN打开新的应用领域。论文还发现,广泛使用的CIFAR-10实际上是一个有限的数据基准,它将FID(Fréchet inception distance score)(越低越好)的记录从5.59改进到了2.42。

Orals & Spotlights Track12: Vision Applications。Jabri等人(2020)将视频数据看做图,其中每一帧图像的各个区域块(patch)是节点,在相邻帧的节点之间的邻接为边。该工作对原始视频数据提供一种自监督的方法来学习视觉相关性的表征。这里相关性是由从视频里构建的时空图的连接所预测的。在这个图中,节点是每一帧的图像块采样得到的,在时间上相连接的节点共享一个有向边。该工作以成对的相似度定义的随机游走的转移概率来学习表征,从而远程相关性的预测是作为沿着图的游走计算的。通过对表征的优化对相似的路径放置大的概率。学习是在无监督的情况下通过循环一致性来构造的。目标函数是极大化以回文序列为训练数据的图游走时返回初始节点的似然函数。因此,路径级的约束可以隐式地监督中间链路。当做为相似度度量时,学到的表征在标签传播任务上,包括物体、语义部分和姿势等,超过自监督SOTA表现。此外,该工作在实施时引入边随机失活(dropout)的策略。

Zoph等人(2020)主要研究视觉任务中的预训练和自训练方法。预训练是下游计算机视觉任务中广为采用的方法,如用在ImageNet数据集上预训练的基础网络作为主干用于其他数据集;COCO(common objects in context)上的分割或检测任务。之前有研究表明,ImageNet上的预训练对COCO目标检测任务上的影响有限。这篇工作的亮点在于分析自训练的影响并与预训练进行对比。该研究得出一些结论:更强的数据增广和更多的监督数据会减弱预训练的价值,但自训练可以保持较大的帮助;在预训练能起到帮助的范围内,自训练可以在预训练基础上进一步提高。

在迁移学习中,一般在原始标准任务上预训练越好的模型迁移到目标任务上时会具有更强的迁移性能。Salman等人(2020)工作的主要亮点在于指出对抗鲁棒模型,虽然在原始任务上可能有相对较差的表现,但迁移到目标任务时,会比非对抗鲁棒版本的模型具有更强的性能。该工作在ImageNet数据集上进行了分类任务的对抗鲁棒训练,分析了在下游分类任务上产生的性能增益,以及标准模型和对抗鲁棒模型在迁移学习下的一些差异。

Orals & Spotlights Track13: Deep Learning / Theory。利用由神经网络参数化的隐式的连续可微信号表示已成为一种强有力的范式。与传统的表示相比,它提供了许多可能的好处。然而,目前用于这种隐式神经表示的网络结构无法对信号进行精细的建模,并且无法表示信号的空间和时间的导数。而事实上,这些导数对于许多隐式定义为偏微分方程解的物理信号是必不可少的。Sitzmann等人(2020)利用周期激活函数来表示隐式神经网络,并证明这些网络是表示复杂自然信号及其导数的理想工具。作者分析了这种激活函数的统计性质,从而提出了一种初始化策略。进一步揭示了如何利用周期激活函数来解决具有挑战性的边值问题。

域自适应语义分割的目的是训练一个只需要域外(源)标注就能对目标进行令人满意的像素级预测的模型。传统的解决方法是尽量减少源和目标之间的差异,以实现有效的知识迁移。以往的域差异最小化方法主要基于对抗训练,倾向于全局考虑域差异,忽略了像素级的关系,并且不太具有区分性。Kang等人(2020)提出在源像素对和目标像素对之间建立像素级循环关联,并对比加强它们之间的连接,以缩小域间隙,使特征更具区分性。该方法可以在一个阶段进行端到端的训练,并且不需要额外的参数,这将成为一个通用的框架,有助于进一步研究领域自适应语义分割。

基于耦合流的可逆神经网络(coupling flows based invertible neural networks, CF-INNs)有多种机器学习的应用,如图像合成和表示学习。然而,它们所期望的特性(如解析的可逆性)是以限制函数形式为代价的。这就对它们的表示能力提出了一个问题:CF-INNs是可逆函数的通用逼近器吗?如果没有这种普适性,则可能存在CF-INN无法逼近的可逆变换,因此它会使模型类不可靠。Teshima等人(2020)通过给出一个方便的判据来回答这个问题:如果CF-INN的层包含仿射耦合和可逆线性函数作为特例,则CF-INN是通用的。作为它的推论,可以肯定地解决一个以前未解决的问题:基于仿射耦合的规范化流模型是否可以成为通用分布逼近器?在证明普适性的过程中,作者证明了一个证明某些微分同胚类的普适性等价性的一般定理,这是一个值得关注的理论观点。

Orals & Spotlights Track16: Continual / Meta / Misc Learning。不断学习新的技能对于智能系统很重要,但是标准的深度学习方法会面临灾难性遗忘问题。一些工作通过权重或函数正则化解决了这个问题。函数正则化虽然表现很好,但是计算开销大,很少在现实运用。Pan等人(2020)通过把高斯过程先验融入网络中,找到一些值得记忆的样本,然后基于高斯先验和记忆到的样本在参数空间中训练。在这种方法中,正则化和基于内存的方法自然地结合在一起。

深度学习中,在有限的容量上训练模型很难在未知的新任务上表现良好。尽管元学习在减少新旧任务之间的干扰方面显示出巨大的潜力,但训练过程十分缓慢。Gupta等人(2020)提出了超前元学习算法(look-ahead meta learning, La-MAML),这是一种基于快速优化的元学习算法,含有少量的情节记忆。通过在元学习更新中纳入对每个参数学习率的调节,该方法可以在先前的超梯度和元下降之间建立联系。与传统的基于先验的方法相比,这提供了一种更灵活、更有效的方法来减轻灾难性遗忘。实验中,La-MAML的性能优于其他基于重播、先验或元学习的方法。

监督学习中,缺失数据往往会增大任务的难度。一些工作表明,即使是完整数据的线性函数,最佳预测变量也是观察到的条目和缺失指示符的复杂函数。因此,计算或样本复杂度取决于缺失数据的数量,并且在维数上呈指数关系。在Morvan等人(2020)论文中,作者在线性假设和各种缺失数据机制(包括随机缺失和自掩蔽)下得出最优预测变量的解析形式。基于最优预测器的Neumann级数逼近,提出了一种新结构——NeuMiss网络,优势在于融入了与缺失指示符相乘的非线性。理论上,文中给出了NeuMiss网络的贝叶斯风险的上限。实验中,论文可以很好地解决具有多个特征的问题,并且对于中等大小的样本在统计上仍然有效。此外,该方法对丢失的数据机制具有鲁棒性,包括困难的自掩蔽设置。

Orals & Spotlights Track20: Social / Adversarial Learning。Yang等人(2020a)致力于进一步提高聚合网络的鲁棒性。虽然传统的聚合方法可以使神经网络的准确率提高,然而因为CNN对抗漏洞的重叠性关系,使得不同的子网络发现的非鲁棒特征的多样性低,从而聚合后的网络的鲁棒性难以大幅提升。因此,作者设计了DVERGE (diversifying vulnerabilities for enhanced robust generation of ensembles)方法,通过蒸馏子网络的非鲁棒特征的方法来使得每个子模型获得多样性强且分散的鲁棒性,从而使聚合后的大网络能够得到更强的鲁棒性。

两篇关于神经网络公平性方法的Oral论文中,要求网络减少对敏感特征的依赖。Bechavod等人(2020)提出了一种不依赖于给定的相似性度量的方法来衡量在线学习中个体的公平性。这一结果解决了Gillen等人(2018)在2018年提出的一个未公开的问题,不假设强相似度量的情况下,在未知个体的公平性约束下进行在线学习是可能的。Evgenii等人(2020)则着眼于公平约束下学习最优回归函数的问题,该方法通过对最佳公平预测的显式表达式的离散版本来实现。并采用两阶段的方法,即第1阶段从标记数据中学习回归函数;第2阶段从另一组未标记数据中进行公平化校准,从而实现了估计损失和公平性的权衡。

Orals & Spotlights Track 23: Graph / Meta Learning / Software。Chen等人(2020)首先提出了机器学习在工业应用中所面临的一个需求,不同的公司提供的API(application programming interface)可能有不同的特点,在准确率以及费用上各有优势,如何才能在给定预算情况下,组合这些API以达到最优的性能?这篇文章将这个问题形式化为一个组合优化问题,通过发掘问题中存在的稀疏性,设计了一个高效的策略解决这个优化问题。实验中,论文在保持最优性能的情况下,最大能降低90%的费用,或者能够将准确率提升5%。

Udrescu等人(2020)提出了一种新的符号回归的办法。通过比较拟合得到的神经网络的梯度,来发现计算图中的任何类型的图模式。同时,论文采用了Pareto前沿(Frontier)方法来判断一个公式的好坏,这种方法能够高效地调高整个算法的鲁棒性。相比于之前的算法,提出的算法能够发现更复杂的计算公式,同时对噪声的鲁棒性也提升了几个量级。

自动机器学习将搜索空间、搜索算法和搜索流这3个组件耦合在了一起,因此对于3者任意的改动都会导致编程逻辑发生重大改变,这对于使用者很不友好。Peng等人(2020)提出了一种基于符号编程的新的自动机器学习框架,在这套框架下,3大组件能够互相解耦。同时,作者将这套框架实现在了一个开源软件PyGlove中,通过具体的实例,展现了软件允许使用者仅仅改变几行代码就能够改变搜索空间、搜索算法和搜索流。

Orals & Spotlights Track26: Graph / Relational / Theory。Li等人(2020)提出了一种新颖的多尺度图网络。通过比较每个节点与周围节点的互信息,选择出每次Pooling操作后的节点,这种新的Pooling操作,能够得到不同尺度的图结构。为了更有效地提升信息的传递,提出了特征融合层来交互不同尺度图结构的特征信息。在节点分类和图分类任务上,这篇文章提出的方法都有良好的性能。

直接使用深度学习的方法解决组合问题一直是一个困难,Karalias和Loukas(2020)基于Erdös的概率方法,提出了一种能够有效解决组合问题的新方法。首先,使用图卷积神经网络对组合问题中涉及的Set引入了一个参数化的分布,通过一个合适的损失函数,优化卷积网络。当选取的损失函数满足一定性质的时候,满足组合问题约束的解有足够大的概率。通过已有的方法从这个分布中抽取一个个确定解。所提出的方法能够在一些NP难的问题上得到足够好的解,如Maximum Clique问题、带约束的Min-Cut问题。

Feng等人(2020)提出了一种新的图网络框架。首先,使用随机传播来进行数据增广,然后将这些增广后的特征通过一个多层感知机预测输出,为了保持这些增广特征输出结果的一致性,在最后的损失中增加了一个一致性损失。通过大量的实验验证这种新的架构能够在大部分的图数据集上取得很好的效果。同时,这里提出的随机传播方法能够有效地解决图网络中存在的过光滑和非鲁棒等问题。

Orals & Spotlights Track27: Unsupervised / Probabilistic。Grill等人(2020)介绍了一种新的自监督图像表示学习方法BYOL(bootstrap your own latent),设计了两个神经网络:在线网络和目标网络,它们相互作用并相互学习。具体地,从图像的增强视图出发,BYOL训练在线网络预测同一图像在不同增强视图下的目标网络表示。同时,用一个缓慢移动的平均在线网络更新目标网络。BYOL最大的亮点是可以在缺少负样本的情况下在图像分类、迁移学习或半监督学习上都达到SOTA实验结果。

Orals & Spotlights Track28: Deep Learning. Vialard等人(2020)为神经微分方程引入了一个打靶方程(shooting equation),该方程把传统的按层对网络进行参数化转移到仅由一组初始条件描述的最佳网络上的参数化。同时,还提出了一种新的粒子组合参数化,完全指定了连续深度神经网络的最佳权重轨迹,并在实验上取得了不俗的结果。Lewkowycz和Gur-Ari(2020)研究了L2正则在神经网络中的作用,揭示了模型性能、正则系数、学习率和训练所需要的迭代次数之间的简单关系。同时提出了正则参数的一个动态更新方式,用于提高神经网络的训练速度。

Mu和Andreas(2020)通过识别与神经元行为近似的组成逻辑概念来解释神经元的深层表示过程,用于解答视觉和自然语言处理中模型的可解释性问题。比如在图像分类中,论文发现一部分神经元学习的特征高度抽象但在语义上却具有连贯性,而另一部分多义神经元(polysemantic neurons)则会检测多个不相关的特征,检测人类可解释性的神经元与视觉任务的性能正相关。同时,该工作还对自然语言处理问题中的模型进行了分析。

Orals & Spotlights Track34: Deep Learning。规范化操作广泛应用于深层神经网络的训练,在大多数任务中可以提高收敛性和泛化能力。规范化的有效性理论和规范化的新形式一直是研究的热点。Shao等人(2020)研究了当从网络中移除规范化层时会发生的情况,并说明如何在没有规范化层和性能下降的情况下训练深层神经网络。从保持每层输出的范数的角度出发提出了RescaleNet。RescaleNet可以在各种任务中获得相同甚至稍好的性能:ImageNet中的图像分类、MS COCO中的目标检测和分割、动力学中的视频分类以及WMT(conference on machine translation)英德语的机器翻译等。作者的研究有助于更好地理解规范化层的作用,并且可以作为标准化层的竞争替代品。

自然梯度下降(natural gradient descent,NGD)有助于加速梯度下降动力学的收敛,但由于其计算量大,需要在大规模深度神经网络中进行近似计算。实证研究表明,一些具有近似Fisher信息的NGD方法在实际应用中收敛速度很快。然而,从理论的角度来看,这种启发式近似方法为什么以及在什么条件下有效,仍然不清楚。Karakida和Osawa(2020)发现,在特定的条件下,具有近似Fisher信息的NGD与精确的NGD一样,能够快速收敛到全局最小值。考虑无限宽极限下的深层神经网络,利用神经切核(neural tangent kernel,NTK)在函数空间中分析了神经网络的渐近训练动力学。在函数空间中,具有近似Fisher信息的训练动力学与具有精确Fisher信息的训练动力学一致,且收敛速度快。快速收敛适用于分层近似。例如,在块对角近似中,每个块对应一个层,以及块三对角和K-FAC(kronecker-factored approximate curvature)近似。在某些假设下,单位近似可以实现同样的快速收敛。所有这些不同的近似在函数空间中都有一个各向同性的梯度,这对于在训练中获得相同的收敛性起着关键的作用。

Fan和Wang(2020)研究了多层前向神经网络的共轭核(conjugate kernel, CK)和神经切核(NTK)的特征值分布。在网络宽度随样本量线性增加的渐近状态下,在权值随机初始化的情况下,对于满足近似成对正交的输入样本,论文证明了CK和NTK的特征值分布收敛到确定性极限。CK的极限是通过遍历隐藏层的Marcenko-Pastur映射来描述的。NTK的极限相当于CK矩阵跨层线性组合的极限,并且可以用递归不动点方程来描述,该方程扩展了Marcenko-Pastur映射。

4.3 Poster论文

以上简要介绍的Oral论文仅仅是录用论文中的冰山一角。Poster论文中还有大量值得探索和讨论的内容:

针对深度学习模型的对抗脆弱性问题,目前最有效的防御方式是将生成的对抗样本加到模型的训练数据中,构成对抗训练。然而,即使模型通过对抗训练在已有数据(训练数据)上达到很高的鲁棒性,在全新数据(测试数据)上的鲁棒性能依旧不佳,遭遇了鲁棒泛化能力差的困境。Wu等人(2020)借助“即时”生成对抗样本的方式,成功观测到模型的参数损失曲面与鲁棒泛化误差界存在紧密联系。论文更进一步提出“对抗参数扰动”在优化目标中引入参数损失曲面的性质,显著提升了深度学习模型的鲁棒泛化能力。

长尾分布目前是深度学习技术在现实场景中经常会遇到的问题。现存的一些方法主要是基于重赋权或重采样这些技巧,缺乏坚实的理论基础。Tang等人(2020)从因果推断的视角出发,提出了一种新颖的解决该问题的框架。该工作表明SGD(stochastic gradient descent)中的动量项在长尾分布识别问题中扮演了混淆因子(Confounder)的角色。一方面,它会误导尾部样本的特征学习,使得偏向于头部样本。另一方面,又有利于头部样本的特征学习和类别预测。该文提出的框架将动量项从这种前后矛盾的影响中解耦出来,得到输入样本对结果的直接影响。该方法在多个具有长尾分布的识别问题中达到了SOTA的结果。

对于深度神经网络,学习等变特征是一种有效的方法来减少样本和模型复杂度。对于等变的球面CNN,一种方式是将函数映射到SO(3)上然后在群上进行卷积,但由于SO(3)会有一个额外的维度,计算复杂度较高;另一种方式是直接在球面上进行卷积,但这种方法局限于各向同性的算子,会限制网络表达能力。在Esteves等人(2020)的方法中,提出了一种能在球面上直接使用各向异性的滤波器,主要思想是构造具有旋转权重的球面函数,并在这种函数间定义卷积。在这种方式下,输入和输出实质上都是向量场。实验表明该方法在多个任务上优于先前的方法。

Lawrence等人(2020)提出学习可证明稳定的深度网络的方法。该工作针对离散域的随机动态模型,将Lyapunov神经网络构建为动态系统,从而自身带来可证明的稳定性。该工作提出两种方法将其应用于确定和随机的情况。一种利用Lyapunov函数的凸性质,另一种通过隐式输出层来诱导稳定性。

目前的对比自监督学习对图像学习图像层面的全局表征,不依赖于不同的视角。但是对于稠密预测任务,如语义分割等,需要像素级的表征,Pinheiro等人(2020)设计了像素层面的对比学习,研究稠密表征的无监督学习。主要想法是,匹配的特征(即不同视角下描述同一位置的特征)应该是相近的,非匹配的应该是较远的,以此来构建损失函数,进行自监督训练。所提出的方法在一些稠密预测任务上,相比ImageNet预训练的方法实现了更优的性能。

Desai等人(2020)研究了将在源环境中学习到的策略转移到具有不同动态的目标环境的问题,特别是在学习过程中减少与目标环境的交互量的情况下。这个问题在从模拟到真实的转换中尤为重要,因为仿真器不可避免地对真实世界的动力学进行非完美的建模。该论文证明了这个转移问题的一个现有解决方案GAT(grounded action transformation)与观察模仿问题(imitation from observation, IfO)密切相关:模仿行为演示观察的学习行为。在建立这一关系之后,该论文假设IfO的最先进方法可以有效地重用GAT。为了验证这个假设,基于观察技术的对抗模仿推导了一种新的算法:生成对抗强化行动转换(generative adversarial reinforced action transformation, GARAT)算法。该论文在几个不匹配的动态领域进行了实验,发现使用GARAT训练的智能体在目标环境中比现有的黑箱转移方法获得更高的回报。

Chi等人(2020)提出了一种新的卷积算子,称为快速傅里叶卷积(fast Fourier convolution, FFC),它具有卷积单元内非局部接受域和跨尺度融合的主要特征。根据傅里叶理论中的频谱卷积定理,全局地在频谱域中进行点更新会影响傅里叶变换涉及的所有输入特征,这对具有非局部感受域的神经结构设计有一定的指导意义。提出的FFC将3种不同的计算方法封装在一个单一的操作单元中:执行普通小核卷积的局部分支、处理频谱叠加图像补丁的半全局分支和处理图像级频谱的全局分支。所有分支都可以互补地处理不同的规模。FFC中包含一个多分支聚合步骤,用于跨尺度融合。FFC是一种通用的操作符,可以直接取代现有网络中的普通卷积,无需任何调整,且具有可比较的复杂性度量(例如FLOPs(floating point operations per second))。该论文在3个主要的视觉基准(ImageNet用于图像识别、Kinetics用于视频动作识别、MS COCO用于人体关键点检测)实验中评估FFC。在以上所有任务中,FFC都能持续显著提高准确率。

Chelu等人(2020)解决了强化学习中的信用分配问题,并探讨了关于智能体如何最好地利用额外计算来传播新信息的基本问题,通过规划世界的内部模型来改善其预测性能。该论文通过前向模型进行预先考虑,或对后向模型进行事后操作,来理解计划的收益和特性。该论文建立了具有相对优点、限制和互补性质的两种规划机制的情况。此外,该论文提出了规划中模型的最佳使用方法,主要用于预测重新评估的状态的选择。最后,讨论了模型估计的问题,并着重介绍了从环境动力学预测器到计划感知模型的一系列方法。

Asi和Duchi(2020)通过对逆灵敏度机制的扩展和近似,研究并提供了差分隐私中的实例优化算法。该论文提供了两个近似框架:一个只需要局部敏感性的知识和一个基于梯度的优化问题的近似,这是一个可有效计算的泛类函数。该论文补充分析了特定向量值函数的下界,表明论文的机制在一定假设下几乎是实例最优的,并且极大极小下界通常不能准确估计问题的难度:对于表现良好的实例,该论文算法可以显著优于极大极小下界。最后,使用近似框架来发展私有机制,用于无界范围的平均估计、主成分分析和线性回归。对于PCA(principal component analysis),该论文给出了一个高效的纯差分隐私算法,具有接近最优的比率。

Liao等人(2020)刻画了随机Fourier特征(random Fourier feature, RFF)回归的精确渐近性,在实际情况下,数据样本数为n,维数为p,特征空间维数为N(往往很大且具有可比性)。在这种情况下,随机RFF-Gram矩阵不再收敛到众所周知的极限高斯核矩阵(当N趋于无穷时也是如此),但它仍然有一个可控制的行为,作者的分析捕捉到了这一点,还提供了针对较大的n, p, N的训练和测试回归误差的准确估计。基于这些估计,给出了两个性质不同的学习阶段(包括它们之间的相变)的精确描述,并由此导出相应的双下降测试误差曲线。这些结果并不依赖于对数据分布的强有力假设,而且它们与真实世界数据集上的经验结果完全吻合。

经典学习理论认为,机器学习模型的最佳泛化性能应出现在中等模型的复杂度,较简单的模型表现出较高的偏差,而更复杂的模型表现出较高的预测方差。然而,这种简单的权衡并不能充分描述深度学习模型,这些模型在严重过度参数化的条件下能同时获得低偏差和方差。解释这种行为的一个主要障碍是,深度学习算法通常涉及多个随机性来源,其个体贡献在总方差中不可见。为了实现细粒度分析,Adlam和Pennington(2020)描述了一种可解释的方差对称分解,将其分解为与随机性相关的项,这些项来自采样、初始化和标签。此外,论文计算了随机特征核回归分解的高维渐近行为,并分析了由此产生的惊人的现象:偏差随网络宽度单调减小,但方差项表现出非单调性,即使在没有标签噪声的情况下,方差项也会在插值边界发散。这种差异是由采样和初始化之间的相互作用引起的,因此可以通过在样本上(即bagging)或在初始参数上(即集成学习)做边际化(marginalization)来消除。

设计等变网络的前提是已知数据集具有的对称性,由于数据量巨大,大多时候难以直接判断出数据中存在的对称性。Benton等人(2020)提出了一种新的方法,通过端到端的方法,在神经网络训练的过程中,自发地学习到数据中的对称性。其核心的思想是对于数据中可能存在的对称变换做一个参数化,在学习网络结构的过程中,同时学习这个刻画变换的参数。该文同时解决了之前旋转等变网络存在的一个问题,即当角度本身也是一种信息的时候,选择不变的网络无法利用这种信息,如数字6以及9都会被识别为同一类,这篇文章对对称性的参数化就能够很好地解决这个问题。

Fuchs等人(2020)在3维点云数据上引入了等变的注意力机制。这种机制使得网络的参数更小,需要采样的点云的点更少。同时,这个方法能够有效地解决SE(3)卷积层的限制过大的问题,有效地提升网络的表达能力。

对于现有对抗训练得到的鲁棒神经网络在干净数据上的准确率会下降的现象,Yang等人(2020b)首先在现实数据集上分析了现有的数据集在已有的攻击下仍可分,展示了实现鲁棒准确率和干净准确率的同时提高并不是一件不可能的任务。然后研究了在正常训练和各种对抗训练时局部Lipschitz常数对鲁棒性和泛化性的影响,并为未来的神经网络的鲁棒性和泛化性的同时实现指出了一条可能的方向,即通过一些可以降低局部Lipschitz常数的方法。

Awasthi等人(2020)提出了在传统机器学习中常用的低秩表示也可以被用来提升模型的鲁棒性,并从实验上指出低秩表示本身就有着不俗的鲁棒性,可以用于提供良好的可证明的鲁棒性保证(尤其是无穷范数意义下可以得到很好的结果),并在相应的任务上取得了最佳的结果。这启发学者去探究传统凸优化问题和现有神经网络问题之间的联系。

最新研究表明:复杂网络的低维嵌入不能捕获复杂网络中的局部结构,且任何由自然低维模型生成的网络都不可能既稀疏又具有高三角形密度(高聚类系数)。Chanpuriya等人(2020)针对该研究提出了不同的观点:Seshadhri等人(2020)的结果与他们使用的模型密切相关,并证明了对其模型稍加松弛就可以生成具有高三角形密度的稀疏图。此外,作者还发现同一个模型导致了许多真实网络的精确低维分解,并给出了一个基于logistic主成分分析的简单算法,成功地找到了这种精确的嵌入。

当自动微分系统应用在不可微函数时,计算结果在任何情形下都是正确的吗?针对这一问题,Lee等人(2020b)研究了一类称为PAP(piecewise analyticity under analytic partition)的函数,它几乎包括了当今深度学习中所有可能不可微的函数。对于这些PAP函数,作者提出了一种新的导数,称为强度导数,并证明了这些导数对几乎所有输入都是存在的,并且与标准导数一致。此外,论文还表明:这些强度导数是大多数自动微分系统计算的或试图从本质上计算的。这就严格地证明了应用于不可微函数的自微分系统的正确性。

Tatro等人(2020)提出通过神经对齐来实现对模式连接的优化。模式连接是指在相同的网络架构下,训练到收敛的两组参数之间有一条曲线,这条曲线上的每一点都和两端点有着相同的性能。该论文给出了一种寻找模式连接的方式:神经对齐。神经对齐是指在两个不同神经网络的同一层内,对其中一组参数寻找一个排列阵,使得两组参数之间的相似度更高。这一指派问题可以通过一些经典的算法如匈牙利算法求解。理论分析和实验均表明,神经对齐明显改善了不同神经网络的模式连接。并且,该论文还指出,在新算法寻找到的模式连接曲线上,原有提升鲁棒性的算法会变差,提示应设计更好的对抗学习算法。

Liu等人(2020)分析了对抗学习的损失曲面。论文指出对抗样本的某些尖锐变化会让损失曲面变得不平滑,导致梯度弥散现象,从而导致收敛更慢。该论文还发现,更大扰动的对抗训练会阻止模型逃离次优的区域,在训练后期会减缓模型的收敛速度,并且可以从渐进概率上证明这一收敛特性;Hessian分析也说明,更大规模的对抗训练会让损失曲面变得不平滑。该论文提出了周期对抗计划,这种方法借鉴了预热学习率,在训练过程中使用变化的对抗扰动大小,实验表明这既加速了对抗训练,又可以收敛到损失曲面平缓的点。

Ho等人(2020)基于VAE(variational autoencoders)的框架设计了一类马尔可夫链概率模型用于图像生成。DDPM(denoising diffusion probabilistic models)将图像生成过程建模为一个由噪声分布逐渐转化为图像分布的马尔可夫链。其变分推断过程由一系列高斯转移核(Gaussian transition kernel)实现,将图像分布逐渐转化为标准高斯分布,而生成过程则由一个沿时间轴共享权重的条件网络进行参数化。DDPM使用条件网络预测均值的残差,而非标准的VAE中预测高斯分布的均值。这一参数化使得DDPM基于ELBO(evidence lower bound)的训练目标函数等价于加权的去噪分数匹配(denoising score matching),而其基于重参数化的采样过程则与Langevin算法建立了联系。该模型实现了CIFAR-10非条件生成的SOTA结果,并在256×256分辨率的LSUN和CelebA-HQ上进行了验证。

Transformer系列模型的成功引起了研究社区关注与热情,改进Transformer的复杂度,进一步提升该类模型的性能成为重要的研究问题。Zaheer等人(2020)展示了一类对于序列函数的通用且图灵完备的近似器,Big-Bird。其使用随机注意力(random attention)、滑窗注意力(window attention)、全局注意力(global attention)来代替密集链接的注意力机制,并且在GPU(graphics processing unit)和TPU(tensor processing unit)层面针对Big-Bird的注意力计算进行了实现优化。实验证明,Big-Bird在MLM(masked language modeling)掩码语言建模、问答、文档总结和基因组学上获得了相对Transformer更优的表现。

除此之外,大会还举办了30个教程(tutorials)和多个研讨会(workshops),包括离线强化学习、生物学与AI、鲁棒机器学习、深度隐私模型等丰富的主题。这些教程和研讨会,为科研人员扩展视野和交流互动提供了便利的渠道和平台,利于机器学习领域的长期发展。

5 结语

在NeurIPS 2020的投稿论文中,算法(论文占投稿总量的29%)、深度学习(论文占投稿总量的19%)及其应用(论文占投稿总量的18%)、强化学习(论文占投稿总量的9%)等依旧是机器学习和计算神经科学的热门主题。值得注意的是,探讨机器学习的社会层面问题的论文增长迅速,由2019年的2%上升到5%。机器学习得到了越来越多的应用,如何避免模型可能带来的不良社会影响(公平、隐私等)成为不可忽视的问题。

在新冠病毒全球肆虐的大背景下,各类人工智能会议不得不转到线上举行。从最初ICLR (International Conference on Learning Representations)2020每篇论文分配独立的Zoom会议室,到NeurIPS 2020使用GatherTown举办Poster Session,线上虚拟会议的体验持续提升。随着虚拟会议技术的持续进行,虚拟会议的体验有可能逼近线下会议,并且注册费明显更低,有利于扩大参会人数,或许会成为未来科研交流的另一种重要形式。

致谢 本文撰稿得到凌泽南、陈勇、王一飞、何翎申、李明杰、徐大鹏、孔浩、耿正阳、杨一博、沈铮阳和徐鑫的大力协助,在此表示衷心的感谢!

参考文献