机器学习为什么需要训练,模型训练
为什么机器学习模型会消耗那么多能源?
人脑是一种效率极高的智能来源,但目前的AI还达不到这样的水平。本月早些时候,OpenAI宣布已经构建起有史以来规模最大的AI模型。这套惊人的模型名为GPT-3,已经成为令人印象深刻的伟大技术成就。但在这辉煌的背后,也凸显出人工智能领域一种令人担忧的负面趋势——更可怕的是,主流舆论对此尚未给予足够的关注。
现代AI模型需要消耗大量电力,而且对电力的需求正以惊人的速度增长。在深度学习时代,构建一流AI模型所需要的计算资源平均每3.4个月翻一番;换句话说,从2012年到2018年间,AI计算资源消耗量增长了30万倍。而GPT-3,只是这股潮流的最新体现。总而言之,AI技术带来的碳排放已经不容忽视;如果行业趋势继续下去,那么情况将很快失去控制。
除非我们愿意重新评估并改革当今的AI研究议程,否则人工智能领域很可能在不久的未来成为引发气候变化的罪魁祸首。更大并不一定更好在当今以深度学习为中心的研究范式当中,人工智能的主要进步主要依赖于模型的规模化扩展:数据集更大、模型更大、计算资源更大。GPT-3就很好地说明了这种现象。这套模型中包含多达1750亿个参数。
为了帮助大家更直观地理解这个数字,其前身GPT-2模型(在去年发布时,同样创下了体量层面的纪录)只有15亿个参数。去年的GPT-2在拥有千万亿次算力的设备上训练了几十天;相比之下,GPT-3的训练时长将增长至数千天。这种靠“每况愈大”模型推动AI技术进步的问题在于,这类模型的构建与部署都需要消耗大量能源,并由此产生巨量碳排放。
在2019年的一项广泛研究当中,由Emma Strubell牵头的一组研究人员估计,训练一套深度学习模型可能产生高达62万6155磅的二氧化碳排放量——大约相当于五辆汽车从出厂到报废的总二氧化碳排放规模。如果这还不够直观,那么每个美国人每年平均产生3万6156磅二氧化碳排放量。可以肯定的是,这项估算主要针对那些高度依赖于能源的模型。
毕竟结合当前现实,机器学习模型的平均训练过程绝不至于产生60多万磅二氧化碳。同样值得注意的是,在进行这项分析时,GPT-2仍然是研究领域规模最大的模型,研究人员也将其视为深度学习模型的极限。但仅仅一年之后,GPT-2就成了“纤细瘦小”的代名词,下代模型的体量超过其百倍。为什么机器学习模型会消耗那么多能源?最重要的原因,就是训练这些模型的数据集本身也在快速增肥。
在使用包含30亿个单词的数据集进行训练之后,BERT模型在2018年实现了同类最佳的自然语言处理(NLP)性能。而在利用包含320亿个单词的训练集完成训练之后,XLNet又超越了BERT。不久之后,GPT-2开始在包含400亿个单词的数据集上接受训练。最终是我们前面提到的GPT-3,它使用的是一套包含约5000亿个单词的加权数据集。
在训练过程中,神经网络需要为每一条数据执行一整套冗长的数学运算(正向传播与反向传播),并以复杂的方式更新模型参数。因此,数据集规模越大,与之对应的算力与能源需求也在飞速增长。导致AI模型大量消耗能源的另一个理由,在于模型开发过程中所需要的大量实验与调整。目前,机器学习在很大程度上仍是一个反复实验试错的流程。
从业人员通常会在训练过程中为当前模型构建数百个版本,并通过不断尝试各类神经架构与超参数确定最佳设计方案。之前提到的2019年论文中还包含一项案例研究,研究人员们选择了一个体量适中的模型(显然要比GPT-3这样的庞然大物小得多),并对训练其最终版本所需要的电力、以及生产最终版本所需要的试运行总量进行了统计。
在为期六个月的过程中,研究人员共训练了该模型的4789个不同版本,折合单GPU运行时长为9998天(超过27年)。考虑到所有因素,研究人员们估计,该模型的构建过程将产生约7万8000磅二氧化碳,超过美国成年人两年的平均二氧化碳排放量。而到这里,我们讨论的还仅仅是机器学习模型的训练部分。而训练只能算是模型生命周期的开始;在训练完成之后,我们还需要在现实环境中使用这些模型。
在现实环境中部署并运行AI模型(即推理过程),所带来的能源消耗量甚至高于训练过程。实际上,英伟达公司估计,神经网络全部算力成本中的80%到90%来自推理阶段,而非训练阶段。例如,我们可以考虑自动驾驶汽车中的AI模型。我们需要首先对该神经网络进行训练,教会它驾驶技巧。在训练完成并部署至车辆上之后,该模型将持续不断地进行推理以实现环境导航——只要汽车仍在行驶,模型的推理过程就将不间断地进行。
毋庸置疑,模型中包含的参数量越大,推理阶段所带来的电力需求就越夸张。能源使用与碳排放要探讨这个问题,我们先要找到能源使用与碳排放之间的对应关系。那么,该如何准确判断这种对应关系?根据美国环保署(EPA)公布的数据,在美国,一千瓦时电力平均对应0.954磅二氧化碳排放量。这一平均值反映了碳足迹变化以及美国电网当中的不同电力来源(包括可再生能源、核能、天然气以及煤炭等)的客观比例。
如上所述,Strubell在分析中采用了美国本土的电力碳排放平均值,以根据不同AI模型的能源需求计算对应的碳排放量。这个假设已经相当合理,因为Amazon Web Services的电力组合就一致符合美国整体的发电来源结构,而目前的大多数AI模型都会选择在公有云端进行训练。当然,如果尽可能使用可再生能源产生的电力进行AI模型训练,其碳足迹必将有所降低。
例如,与AWS相比,Google Cloud Platform的电力结构中可再生能源的比例更高(根据Strubell的论文,AWS的可再生能源占比17%,谷歌方面则占比56%)。我们也可以再举个例子,由于所在地区拥有丰富的清洁水电资源,因此大西洋西北部区域的硬件设施在训练模型时所产生的碳排放将低于全美平均水平。
值得一提的是,目前各大云服务供应商都在强调其在碳排放控制方面做出的努力。但总体来说,Strubell认为美国的整体电力组合仍然具有充分的说服力,可用于大体准确地估算出AI模型的碳足迹。收益递减模型体量与模型性能之间的关系,则能帮助我们了解提升模型规模到底能够给AI技术发展带来怎样的帮助。这方面数据倒是非常明确:模型体量的持续增加,最终会导致性能回报急剧下降。
我们用实例来证明这个观点。ResNet是一套于2015年发布的知名计算机视觉模型。该模型的改进版本名为ResNeXt,于2017年问世。与ResNet相比,ResNeXt需要的计算资源提升了35%(按总浮点运算量计算),但精度却只增长了0.5%。在艾伦人工智能研究所2019年发表的论文中,我们可以看到更详尽的比较数据,其中记录了不同任务、模型与AI子领域的模型规模收益递减情况。
与GPT-2相比,最新发布的超大型GPT-3模型也出现了显著的收益递减迹象。如果AI社区继续沿着当前的道路前进,那么研究人员们必然需要花费更多精力构建起越来越大的模型,但由此带来的性能提升却越来越小。这意味着成本/收益率将变得愈发不相称。既然收益递减客观存在,为什么人们还在不断推出越来越大的模型呢?一大主要原因,在于AI社区当下仍过于关注能在性能基准测试中创下新高的“最新”纪录。
在众所周知的基准测试中拿下新顶点的模型(即使仅提升一个百分点),也能赢得研究人员们的一致认可与好评。正如加州大学洛杉矶分校(UCLA)Guy Van den Broeck教授所言,“我认为比较准确的比喻,就是某个盛产石油的国家能够建造一座很高的摩天大楼。在摩天大楼的建造过程中,当然能够帮国家积累下「最先进的技术」。
但这一切……无法带来任何科学意义上的进步。”目前,AI研究议程领域这种“越大越好”的偏执精神很可能在未来几年给自然环境造成重大破坏。这就要求我们在深思熟虑之后进行大胆变革,将人工智能重新引导到持续性更强、生产力水平更高的正确轨道上。展望未来首先,每一位AI从业者应该尽快将“缩短周期”作为研究目标,借此降低技术发展对环境造成的影响。
而最重要的第一步,就是增强AI模型碳排放问题的透明度与量化考核。当AI研究人员发布新模型的研究结果时,除了性能与精度两项核心指标之外,还应该附上模型开发过程中的总体能源数据。经过认真分析,艾伦人工智能研究所的团队提出将浮点运算作为研究人员们最通用也最准确的能效衡量标准。另一支小组也创建出一款机器学习碳排放计算器,可帮助从业者们借此估算当前模型的碳足迹(其中涵盖硬件、云服务供应商以及地理区域等诸多因素)。
遵循这些思路,研究人员们还需要在模型训练过程中,将能源成本与性能收益之间的关系作为不能回避的重要度量。明确量化这项指标,将促使研究人员们重要收益递减问题,进而在资源分配上做出更明智、更平衡的决策。希望随着可持续AI实践的普及,技术社区能够在评估AI研究时着重考虑这些效率指标,并把这些指标的重要性提高到精度等传统性能指标的水平,最终使其在论文发表、演讲分享以及学术成果等领域发挥更重要的作用。
当然,其他一些方法也有望在短期之内帮助AI模型减少碳排放:使用更高效的超参数搜索方法、减少训练过程中不必要的实验次数、采用更节能的硬件等等。但单靠这些补救性的措施,不足以彻底解决问题。人工智能领域需要在根本上做出长期转变。我们需要退后一步,承认单纯建立越来越庞大的神经网络并不是通往广义智能的正确路径。
从第一原理出发,我们必须逼迫自己去发现更优雅、更高效的方法,对机器中的智能进行建模。我们与气候变化的斗争,甚至是整颗蓝色星球的未来,可能也都将维系于此。引用AI界传奇人物、深度学习教父Geoff Hinton的名言,“未来可能掌握的某些研究生手里,因为他们对我所说的一切深表怀疑……他们可能会彻底抛弃我的观点,从零开始再次探索。
”AI社区必须敢于建立人工智能的新范式,这些范式既不需要指数级增长的数据集、也不需要恐怖的电力消耗。小样本学习等新兴研究领域,也许会成为我们走向光明未来的新道路。作为最初的智能来源,人脑也将给我们带来重要启发。与目前的深度学习方法相比,我们的大脑非常高效。人脑仅几磅重,运行功率约20瓦——只够让低功率灯泡亮起昏暗的光。
本文地址:http://6ezbnx3p.55jiaoyu.com/show-731068.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
推荐文档
- 11.赶紧的反义词是什么;赶紧的反义词是什么二年级下册
 - 12.NYFS是什么意思NYFS是什么英文的缩写(nyfs是什么意思nyfs是什么英文的缩写)
 - 13.计算机及应用(计算机及应用和计算机科学与技术)
 - 14.往年武昌职业学院新生缴费指南
 - 15.陂陀是什么意思陂陀的解释是什么(稚子的稚是什么意思)
 - 16.什么拂面成语(什么拂面成语四字词语二年级)
 - 17.孝顺父母的经典句子,感恩父母的一句话简短
 - 18.冯骥才苏七块为什么立这个规矩
 - 19.石家庄28中(石家庄28中2023年5月九年级模拟)
 - 20.深圳大学,分数线预测预测(深圳大学分数线预测预测往年录取分数线预测预测)
 - 21.如何当好班组长;如何当好班组长ppt
 - 22.福建省德化职业技术学校简介
 - 23.99朵玫瑰代表什么意思(9999朵玫瑰代表什么意思)
 - 24.今天,我们比任何时候都更接近梦想
 - 25.佛山科学技术学院是一本还是二本?是几本?在全国排名多少?
 - 26.如厕是什么意思;休闲如厕是什么意思
 - 27.电气自动化就业前景(石家庄铁道大学电气自动化就业前景)
 - 28.咸阳师范学院怎么样 好不好
 - 29.cdr文件用什么打开、cdr文件用什么打开电脑
 - 30.辽宁婚假最新规定,辽宁婚嫁国家规定多少天,,, 
 - 31.中国十大性闻(往年中国性氏排行)
 - 32.2023信阳职业技术学院招生计划-各专业招生人数是多少
 - 33.河北师范大学汇华学院(汇华学院:智慧教育新时代)
 - 34.鲸鱼的寓意,鲸鱼相关介绍
 - 35.女生适合学什么专业,就业好的专业排名榜前十
 - 36.形容描写语言的四字成语(形容语言描写的四字词语有哪些)
 - 37.计算机编程是干什么的
 - 38.公共管理硕士非全日制报考要求(有哪些条件?需要注意什么)
 - 39.荨麻草的花语及象征意义
 - 40.妇幼保健医学(妇幼保健医学专业就业方向与就业前景)
 - 41.科学论文怎么写—四年级科学论文怎么写
 - 42.什么是汇率,什么是汇率风险
 - 43.留言条怎么写_留言条怎么写,小学生二年级上册
 - 44.莘怎么读-莘怎么读莘莘学子是什么意思
 - 45.商鞅的妻子是谁(为什么商鞅遭车裂而秦人不怜)
 - 46.报关与国际货运(报关与国际货运专升本升什么专业)
 - 47.中原工学院在全国的排名,中原工学院在省内排名
 - 48.什么一字值千金上一句(什么一字值千金上一句通知怎么改)
 - 49.国考考什么(国考考什么科目和内容)
 - 50.唐山大地震时间预测发生的时间预测是多少(唐山大地震时间预测发生的时间预测是多少啊)
 - 51.own是什么意思_owe是什么意思
 - 52.往年辽宁统招专升本官网(辽宁专升本院校)
 - 53.长治文化艺术学校(长治文化艺术学校是公办还是民办)
 - 54.吉林市中学排名前十,吉林市最好的中学名单及排名
 - 55.经典的报山名绕口令
 - 56.ae是什么职位;ae是什么职位的缩写
 - 57.2022河北省含专科的公办本科大学-河北本科专科都有的大学排名
 - 58.高锰酸钾制取氧气(高锰酸钾制取氧气试管口略向下倾斜的原因)
 - 59.阳光语录暖人心一句话,成熟励志的经典语录
 - 60.常见的食品干燥剂(常见的食品干燥剂有哪些化学式)
 - 51.尼康相机怎么样,尼康的相机好吗?
 - 52.诺维信,NOVO公司和诺维信有什么联系么是同一家公司吗
 - 53.安岳这些地方被省上点名了,伍家沟在乐至什么位置
 - 54.18款君威后备箱按钮在哪里(18款君威后备箱开关在哪)
 - 55.加盟费和管理费有什么区别,物业费和管理费有什么区别
 - 56.三星高端手机,三星的高端机有哪些系列的?哪个是最旗舰的?
 - 57.苹果连接电脑,苹果4连接电脑后出现便捷式设备但打开是空的怎么回事
 - 58.格兰仕微波炉说明书g80f23,格兰仕微波炉光波炉G80F23DCSLF7RO,怎么使用
 - 59.高尔夫球场招聘,目前国内哪个高尔夫球场急需招聘相关专业人才
 - 60.政府采购的意义是什么,医药集采到底是什么
 - 61.什邡马井大桥什么时候修,18年前的什邡马井元宵会
 - 62.建一个排球场要多少钱,建造费用多少钱
 - 63.湿地设计资质需要什么,泗洪洪泽湖湿地景区招聘
 - 64.采购时需要有供货商的什么证件,央采入围招募供货商需要准备哪些资料
 - 65.长春至太平川多少公里,吉林省高铁运营里程突破1400公里
 - 66.建设幼儿园对周围建筑有什么要求,幼儿园办园标准
 - 67.水利工程招标是什么,其中两个涉及水利工程招投标
 - 68.玉林有什么项目招标,今天发布大量招标项目
 - 69.枞阳去武汉多少公里,武汉等地将更省时
 - 70.邮政加密离线文件怎么做,如何做好涉密文件
 

