艾哈迈德(Ahmed)等人,2012年 Ahmed,A.,Aly,M.,Gonzalez,J.,Narayanamurthy,S.和Smola,A.J.(2012)。潜在变量模型中的可扩展推断。第五届ACM国际Web搜索和数据挖掘国际会议论文集(第123-132页)。
Bahdanau等,2014 Bahdanau,D.,Cho,K.,&Bengio,Y.(2014年)。通过共同学习对齐和翻译神经机器翻译。arXiv预印本arXiv:1409.0473。
主教,1995年 Bishop,C.M。(1995)。噪声训练等效于tikhonov正则化。神经计算,7(1),108–116。
主教,2006年 Bishop,C.M.(2006年)。模式识别和机器学习。施普林格。
博洛巴斯,1999年 Bollobás,B.(1999年)。线性分析。剑桥大学出版社,剑桥。
博伊德和范登堡,2004年 博伊德(Boyd,S.)和范登伯格(Vandenberghe,L.)(2004年)。凸优化。英格兰剑桥:剑桥大学出版社。
布朗与桑德霍姆(2017) 布朗,N.,&桑德霍尔姆,T.(2017)。天秤座:无限注扑克的超人AI。IJCAI(第5226-5228页)。
Campbell等,2002 坎贝尔(M.Campbell),小荷恩(Hoane Jr),A.J。和许(Hsu)F.-h. (2002)。深蓝。人工智能,134(1-2),57-83。
DeCandia等,2007 DeCandia,G。,Hastorun,D.,Jampani,M.,Kakulapati,G.,Lakshman,A.,Pilchin,A。…Vogels,W。(2007年)。Dynamo:亚马逊的高可用键值存储。ACM SIGOPS操作系统审查(第205-220页)。
Duchi等人,2011年 Duchi,J.,Hazan,E.和Singer,Y.(2011年)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(Jul),2121–2159。
Flammarion&Bach,2015年 Flammarion,N.&Bach,F.(2015年)。从平均到加速,只有步长。学习理论会议(第658–695页)。
Glorot&Bengio,2010年 Glorot,X.,&Bengio,Y.(2010年)。了解训练深度前馈神经网络的难度。第十三届国际人工智能与统计国际会议论文集(第249-256页)。
Goh,2017年 Goh,G.(2017年)。为什么动力真的起作用。蒸馏。网址:http://distill.pub/2017/momentum,DOI:10.23915 / distill.00006
Goodfellow等,2016 Goodfellow,I.,Bengio,Y.,&Courville,A.(2016年)。深度学习。麻省理工学院出版社。http://www.deeplearningbook.org。
Goodfellow等,2014 古德费洛(I.),波格特·阿巴迪(Pouget-Abadie),J。,米尔扎(Mirza),许波(B.),沃德·法雷(Warde-Farley),D。,厄扎尔(Ozair),S。…本吉欧(Y. Bengio)(2014)。生成对抗网。神经信息处理系统的进展(第2672–2680页)。
Gotmare等人,2018年 Gotmare,A.,Keskar,N. S.,Xiong,C.,&Socher,R.(2018年)。深入研究深度学习启发式方法:学习率重新开始,预热和提升。arXiv预印本arXiv:1810.13243。
Hadjis等人,2016年 Hadjis,S.,Zhang,C.,Mitliagkas,I.,Iter,D.,&Ré,C.(2016年)。Omnivore:针对cpus和GPU的多设备深度学习的优化器。arXiv预印本arXiv:1606.04487。
Hazan等人,2008年 Hazan,E.,Rakhlin,A.&Bartlett,P.L.(2008)。自适应在线梯度下降。神经信息处理系统的进展(第65-72页)。
He等人,2016a He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016年)。深度残差学习,用于图像识别。IEEE关于计算机视觉和模式识别的会议论文集(第770–778页)。
He等人,2016b He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016年)。深度残差网络中的身份映射。欧洲计算机视觉会议(第630–645页)。
赫布与赫布,1949年 Hebb,D. O.&Hebb,D.(1949)。行为的组织。卷 65.纽约威利。
轩尼诗和帕特森,2011年 轩尼诗J.L.和帕特森D.A.(2011年)。计算机体系结构:定量方法。爱思唯尔。
Hochreiter&Schmidhuber,1997年 Hochreiter,S。,&Schmidhuber,J。(1997)。长期记忆。神经计算,9(8),1735–1780。
胡等人,2018 胡建军,沉丽娜和孙光(2018)。挤压和激励网络。IEEE关于计算机视觉和模式识别的会议论文集(第7132–7141页)。
Huang等,2017 Huang,G.,Liu,Z.,Van Der Maaten,L.,&Weinberger,K.Q.(2017年)。密集连接的卷积网络。IEEE关于计算机视觉和模式识别的会议论文集(第4700–4708页)。
艾菲,2017 Ioffe,S.(2017年)。批量重新归一化:在批量归一化模型中减少最小批量依赖。神经信息处理系统的进展(第1945–1953页)。
艾菲与塞格迪(Ioffe&Szegedy),2015年 Ioffe,S.和Szegedy,C.(2015年)。批量标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167。
伊兹麦洛夫等人,2018 Izmailov,P.,Podoprikhin,D.,Garipov,T.,Vetrov,D.和Wilson,A.G.(2018)。权重的平均值导致更宽的优化和更好的泛化。arXiv预印本arXiv:1803.05407。
Jia等,2018 贾X.,宋S.,何W.,王Y.,荣H.,周F.,等等。(2018)。具有混合精度的高度可扩展的深度学习培训系统:在四分钟内培训imagenet。arXiv预印本arXiv:1807.11205。
Jouppi等人,2017年 Jouppi,N. P.,Young,C.,Patil,N.,Patterson,D.,Agrawal,G.,Bajwa,R.,…其他。(2017)。张量处理单元的数据中心内性能分析。2017 ACM / IEEE第44届年度国际计算机体系结构研讨会(ISCA)(第1-12页)。
Karras等人,2017年 Karras,T.,Aila,T.,Laine,S.,&Lehtinen,J.(2017年)。逐渐生长甘子以提高质量,稳定性和变异性。arXiv预印本arXiv:1710.10196。
Kingma&Ba,2014年 Kingma,D.P.和Ba,J.(2014年)。亚当:一种用于随机优化的方法。arXiv预印本arXiv:1412.6980。
克里热夫斯基等人,2012年 Krizhevsky,A.,Sutskever,I.和&Hinton,G.E.(2012)。深度卷积神经网络的图像网络分类。神经信息处理系统的进展(第1097-1105页)。
龚(1988) Kung,S.Y.(1988)。VLSI阵列处理器。新泽西州恩格尔伍德悬崖(Englewood Cliffs),普伦蒂斯·霍尔(Prentice Hall),1988年,685页。由半导体研究公司,SDIO,NSF和美国海军支持的研究。
LeCun等,1998 LeCun,Y.,Bottou,L.,Bengio,Y.,Haffner,P。等。(1998)。基于梯度的学习应用于文档识别。IEEE会议论文集,86(11),2278-2324。
李,2017 李明(2017)。通过系统和算法协同设计扩展分布式机器学习(博士学位论文)。CMU博士论文。
Li等,2014
Li,M.,Andersen,D. G.,Park,J.W.,Smola,A.J.,Ahmed,A.,Josifovski,V.,…Su,B.-Y. (2014)。使用参数服务器扩展分布式机器学习。第11届$ \ $ USENIX $ \
Lin等,2013 Lin M.,Chen Q.,&Yan,S.(2013)。网络中的网络。arXiv预印本arXiv:1312.4400。
Lin等,2010 Lin,Y.,Lv,F.,Zhu,S.,Yang,M.,Cour,T.,Yu,K.,等等。(2010)。Imagenet分类:快速描述符编码和大规模svm训练。大规模视觉识别挑战。
立顿&斯坦哈特,2018 Lipton,Z.C.和Steinhardt,J.(2018年)。机器学习奖学金的令人担忧的趋势。arXiv预印本arXiv:1807.03341。
Loshchilov&Hutter,2016年 Loshchilov,I.,&Hutter,F.(2016年)。Sgdr:随机梯度下降,热重启。arXiv预印本arXiv:1608.03983。
罗等人,2018 罗鹏。,王新。,邵伟,&彭志(2018)。在批量归一化中要了解正则化。arXiv预印本。
麦卡洛克(McCulloch&Pitts),1943年 McCulloch,W.S。和Pitts,W。(1943)。对神经活动固有的想法进行逻辑演算。数学生物物理学通报,5(4),115–133。
Nesterov&Vial,2000年 内斯特罗夫(Yesterov)和韦尔(J.-P.)(2000)。随机编程的置信度解决方案,随机编程电子印刷系列。
内斯特罗夫,2018 Nesterov,Y.(2018年)。凸优化讲座。卷 137.施普林格。
Park等人,2019年 Park T.,Liu M.-Y.,Wang T.-C.,&Zhu,J.-Y. (2019)。具有空间自适应归一化的语义图像合成。IEEE计算机视觉和模式识别会议论文集(第2337–2346页)。
波利亚克,1964年 Polyak,B.T.(1964)。加快迭代方法收敛速度的一些方法。苏联计算数学和数学物理,4(5),1–17。
Reddi等人,2019 Reddi,S.J.,Kale,S.和Kumar,S.(2019年)。关于亚当与其他地区的融合。arXiv预印本arXiv:1904.09237。
里德与德雷塔斯(Reed&DeFreitas),2015年 Reed,S.和De Freitas,N.(2015)。神经程序员解释器。arXiv预印本arXiv:1511.06279。
罗素和诺维格,2016年 Russell,S.J.和Norvig,P.(2016年)。人工智能:一种现代方法。马来西亚; 培生教育有限公司。
Santurkar等人,2018年 Santurkar,S.,Tsipras,D.,Ilyas,A.,&Madry,A.(2018年)。批处理规范化如何帮助优化?神经信息处理系统的进展(第2483–2493页)。
谢尔盖夫&德尔巴索,2018 Sergeev,A.,&Del Balso,M.(2018年)。Horovod:在Tensorflow中快速轻松地进行分布式深度学习。arXiv预印本arXiv:1802.05799。
Silver等人,2016年 Silver,D.,Huang,A.,Maddison,C. J.,Guez,A.,Sifre,L.,Van Den Driessche,G.等等。(2016)。借助深度神经网络和树搜索来掌握围棋游戏。自然,529(7587),484。
Simonyan&Zisserman,2014年 Simonyan,K.和Zisserman,A.(2014年)。用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv:1409.1556。
Smola和Narayanamurthy,2010年 Smola,A.和Narayanamurthy,S.(2010)。并行主题模型的体系结构。VLDB基金会论文集,3(1-2),703–710。
Srivastava等人,2014年 Srivastava,N.,Hinton,G.,Krizhevsky,A.,Sutskever,I.,&Salakhutdinov,R.(2014年)。辍学:一种防止神经网络过度拟合的简单方法。机器学习研究杂志,15(1),1929-1958年。
Sukhbaatar等人,2015年 Sukhbaatar,S.,Weston,J.,Fergus,R。等。(2015)。端到端内存网络。神经信息处理系统的进展(第2440–2448页)。
Sutskever等,2013 Sutskever,I.,Martens,J.,Dahl,G.,&Hinton,G.(2013)。关于初始化和动量在深度学习中的重要性。机器学习国际会议(第1139-1147页)。
Szegedy等人,2017年 Szegedy,C.,Ioffe,S.,Vanhoucke,V.,&Alemi,A.A.(2017年)。Inception-v4,inception-resnet以及残余连接对学习的影响。第三十一次AAAI人工智能会议。
塞格迪(Szegedy)等人,2015年 Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,…Rabinovich,A.(2015)。通过卷积进一步深入。IEEE关于计算机视觉和模式识别的会议论文集(第1–9页)。
Szegedy等人,2016年 Szegedy,C.,Vanhoucke,V.,Ioffe,S.,Shlens,J.,&Wojna,Z.(2016年)。重新思考计算机视觉的初始架构。IEEE关于计算机视觉和模式识别的会议论文集(第2818–2826页)。
Teye等人,2018年 Teye,M.,Azizpour,H.&Smith,K.(2018年)。批量归一化深度网络的贝叶斯不确定性估计。arXiv预印本arXiv:1802.06455。
Tieleman和Hinton,2012年 Tieleman,T.,&Hinton,G.(2012年)。讲座6.5-rmsprop:将梯度除以最近幅度的移动平均值。COURSERA:机器学习的神经网络,4(2),26–31。
Wang等,2018 Wang,L.,Li,M.,Liberty,E.,&Smola,A.J.(2018年)。聚合的最佳消息调度。网络,2(3),2–3。
Wang等,2016 Wang,Y.,Davidson,A.,Pan,Y.,Wu,Y.,Riffel,A.,&Owens,J.D.(2016年)。Gunrock:gpu上的高性能图形处理库。ACM SIGPLAN声明(第11页)。
瓦瑟曼,2013年 Wasserman,L.(2013年)。所有统计:统计推断的简要课程。施普林格科学与商业媒体。
沃特金斯和达扬,1992年 沃特金斯,C.J。,和达扬,P。(1992)。Q学习。机器学习,8(3-4),279–292。
Welling&Teh,2011年 Welling,M.和Teh,Y.W.(2011)。通过随机梯度朗格文动力学进行贝叶斯学习。第28届国际机器学习会议(ICML-11)(第681–688页)的会议记录。
维格纳(Wigner),1958年 Wigner,E.P。(1958)。关于某些对称矩阵的根的分布。安 数学(第325–327页)。
Xiao等,2017 Xiao,H.,Rasul,K.,&Vollgraf,R.(2017年)。Fashion-mnist:用于基准机器学习算法的新颖图像数据集。arXiv预印本arXiv:1708.07747。
熊等人,2018 熊W.,吴L.,Alleva F.,Droppo J.,黄X.,&Stolcke,A.(2018)。Microsoft 2017会话语音识别系统。2018年IEEE国际声学,语音和信号处理会议(ICASSP)(pp。5934-5938)。
你等人,2017 You,Y.,Gitman,I.和B.Ginsburg(2017)。卷积网络的大批量训练。arXiv预印本arXiv:1708.03888。
Zaheer等人,2018 Zaheer,M.,Reddi,S.,Sachan,D.,Kale,S.,&Kumar,S.(2018年)。非凸优化的自适应方法。神经信息处理系统的进展(第9793–9803页)。
Zeiler,2012年 Zeiler,M.D.(2012)。Adadelta:一种自适应学习率方法。arXiv预印本arXiv:1212.5701。
朱等人,2017 Zhu,J.-Y.,Park,T.,Isola,P.,&Efros,A.A.(2017年)。使用周期一致的对抗网络进行不成对的图像到图像翻译。IEEE计算机视觉国际会议论文集(第2223–2232页)。