云南数据中心建设服务网 www.ynline.com
云南数据中心建设服务网
专注数据中心领域17年
名称描述内容
更多
机房资讯
机房解决方案
更多
机房产品
  • [UPS不间断电源]

    英威腾 HT33系列 10-40KVA 高频在线式

    12040.0017200.00

  • [机房配套]

    天能电池 TN12-65E 天能蓄电池 UPS电源

    1196.001650.00

  • [机房配套]

    云南天能 铅酸免维护电池 TN12-100E UP

    1196.001650.00

  • [机房配套]

    天能电池 TIANNENG BATTERY TN1

    1042.001560.00

  • [机房精密空调]

    华为精密空调13KW恒温恒湿NetCol8000-

    0.000.00

  • [房间级风冷精密空调]

    华为120KW智能房间级精密空调

    0.000.00

更多
人工智能为何对资源需求如此庞大
来源:网络 | 作者:云南模块化机房建设 | 发布时间: 2024-04-01 | 1023 次浏览 | 分享到:
为什么生成式人工智能对资源的需求如此巨大?目前针对其潜在的能源成本和碳足迹都采取了哪些措施?分析师们已经对特定工作负载场景进行了预测,但由于云超大规模厂商在模型构建前沿缺乏公开数据,因此目前很难获得确凿的数据。


到2023年底,对生成式人工智能的能源需求进行准确预测是困难的。头条新闻等媒体猜测了各种不同的能源需求量,而专业出版物如数据中心新闻则报道称每机架的功率密度将上升到50kW或100kW。


要计算生成式人工智能的潜在能源成本和碳足迹,分析师们已经对特定工作负载场景进行了预测。然而,由于云超大规模厂商缺乏公开数据,目前几乎没有确凿的数据可供参考。


根据一份《哈佛商业评论》的报告,研究人员估计,训练一个“单一大语言深度学习模型”(如OpenAI的GPT-4或谷歌的PaLM)可能会消耗约300吨二氧化碳。


另外,其他研究人员计算出,使用神经架构搜索技术训练一个中型生成人工智能模型所需的能源相当于626,000吨二氧化碳排放量。


生成式人工智能耗电量高的原因涉及多个因素,包括数据集的大小、参数数量、模型架构、编码、解码和微调的复杂程度以及处理时间。


尽管人们常说生成式人工智能模型需要大量训练数据,但从传统数据存储的角度来看,并非如此。例如,ChatGPT-3是在45TB的Commoncrawl明文上进行训练的,并经过筛选压缩到570GB的文本数据。这个数据集免费托管在AWS上。


对于训练文本到语音、文本到图像或文本到视频模型所需的TB或PB级数据,它们应该不会给数据中心的电源和冷却系统带来特别大的压力,因为数据中心通常是为托管处理数百或数千PB级数据的IT设备而设计的。


训练数据量保持可控规模的原因之一是大多数模型构建者使用预训练模型(PTM),而不是从头开始训练搜索模型。其中两个常见的预训练模型示例是BERT双向编码器表示和生成预训练变压器(GPT)系列。


需要注意的是,由于缺乏公开数据和云超大规模厂商的数据披露,以上信息仅为分析师的猜测和推测,并不能被视为准确的数据。优化时可能需要进一步收集相关数据以支持论述。



人工智能参数和变压器


数据中心运营商对人工智能训练的另一个重要衡量标准是参数。


在训练过程中,生成式AI模型使用了大量的AI参数。参数数量越多,对预期结果的预测就越准确。例如,某个模型基于1750亿个参数构建而成,达到了非常高的性能。


然而,随着人工智能的发展,参数的数量正在快速增长。中国LLM的第一个版本WUDao就使用了1.75万亿个参数。WUDao是一个大型语言模型,可以提供文本到图像和文本到视频的服务。预计未来这一数字将继续增加。


由于缺乏确切的硬数据,我们可以合理推测,运行一个拥有1.7万亿个参数的模型所需的计算能力将非常巨大。随着我们进一步涉足人工智能视频生成领域,模型使用的数据量和参数数量将会大幅增加。


Transformer是一种神经网络架构,旨在解决序列转导或神经机器翻译问题。它能够将输入序列转换为输出序列,适用于各种任务。


Transformer层依赖循环操作,当输入数据传入Transformer层时,数据会循环回到上一层并传递到下一层。这些层能够改进对接下来事件的预测输出,对提高语音识别、文本到语音转换等任务非常有帮助。



多少电量才足够?


标准普尔全球发布的一份报告称,人工智能对电力需求的预测让行业陷入紧张状态。根据宏观数据,到2030年,人工智能将占全球电力需求的3-4%。谷歌表示,目前人工智能占其电力使用量的10-15%,即每年2.3TWh。


根据估计,每次网络搜索需要超过50万台Nvidia A100HGX服务器,总计410万个GPU。如果每台服务器的电力需求为6.5kW,则每日耗电量为80GWh,年耗电量为29.2TWh。


瑞典研究所RI.SE提供了训练AI模型所需的实际功率计算结果。他们表示,训练大型语言模型,如参数为1.7万亿个、标记为13万亿个的模型,是一项艰巨的任务。据透露,他们花费了1亿美元,耗时100天,使用了25000个Nvidia A100 GPU。每个配备这些GPU的服务器大约使用6.5kW,因此估计在训练期间消耗了50GWh的能源。


人工智能使用的能源正迅速成为公众讨论的话题,尽管目前还没有关于人工智能行业总足迹的准确估计。然而,随着机器学习和人工智能模型的投入生产和使用,我们将面临exabyte和exaflops级别的计算规模。这对于数据中心的电源供应和冷却提出了更大的挑战。