自从2022年10月ChatGPT横空出世以来,一场围绕大规模语言模型(LLM)的人工智能浪潮席卷全球,各大科技公司纷纷投入到这场激烈的竞争之中。随着LLM的数量、模型参数以及计算需求呈现指数级增长,这一领域的进步不仅展示了人工智能技术的巨大潜力,同时也引发了关于能源消耗和成本控制的新挑战。
大规模语言模型是指那些经过海量文本数据训练的深度学习模型,它们具备生成自然语言文本或理解其意义的能力。这类模型通常拥有百亿乃至万亿级别的参数,需要处理数以万亿计的Token,这无疑对计算硬件尤其是显卡提出了前所未有的要求,同时也导致了能源消耗的显著增加。
根据斯坦福大学人工智能研究所发布的《2023年人工智能指数报告》,单次训练GPT-3这样的模型就需要耗费1287兆瓦时的电力,相当于产生了552吨的二氧化碳排放。预计到2025年,AI相关业务在全球数据中心所消耗电能的比例将从2%上升至10%,而到了2030年,智能计算每年的电力消耗将达到5000亿千瓦时,占据全球发电总量的5%。
在实际应用层面,当这些庞然大物般的模型开始落地实施时,定制化和运营成本成为了新的焦点问题。以Llama 3.1 405B为例,其所需450GB显存的要求便是一个典型例子,而在A800上生成一张4096px的图片需要3分钟的时间,这对业务流程提出了严格要求。
业内推理引擎方案
在大语言模型与用户的互动过程中,推理框架扮演着至关重要的角色,它负责接收用户请求并进行处理与回应。整个AI产业都在积极探索如何更有效地利用计算资源,通过并行处理多个推理请求来优化现有架构,并推出适应新硬件环境的解决方案。
vLLM是由伯克利大学团队开源的一款大语言模型高效推理框架,它利用PagedAttention技术来高效管理注意力键值对内存,支持连续批处理和快速模型执行,显著提升了实时场景下的吞吐量与内存使用效率。
除了vLLM外,还有多家公司提供了各自的解决方案,如Hugging Face的Text Generation Inference(TGI),旨在支持大型语言模型的优化推理;NVIDIA推出的TensorRT-LLM,则是在TensorRT推理引擎的基础上专门针对Transformer架构进行优化;微软的DeepSpeed则提供了一系列分布式训练工具,支持更大规模模型的训练和推理。
LightLLM是一个基于Python的LLM推理和服务框架,以其轻量级设计、易于扩展和高性能而著称。该框架整合了Faster Transformer、TGI、vLLM和Flash Attention等优秀开源实现的优点。
尽管上述框架各有千秋,但在降低成本、提高效率方面仍有待突破。在此背景下,腾讯推出了TACO-LLM,为用户提供了一套全面的部署方案,旨在实现成本效益最大化。
TACO-LLM如何实现降本增效?
TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)是腾讯云为大语言模型推理加速推出的一个引擎。通过优化计算资源的并行处理能力,TACO-LLM能够在相同硬件条件下处理更多用户请求,提升语言模型推理效率,为用户提供高吞吐量和低延迟的服务,助力企业降低成本、提升效率。
TACO-LLM针对不同应用场景进行了多项优化,包括Generation优化、Prefill优化、长序列优化以及高性能量化算子。这些优化措施共同作用,确保了模型在多种情况下都能发挥出色表现。
Generation优化是自回归式LLM应用的核心,覆盖了从文案生成到AI助手等多种场景。TACO-LLM通过并行解码技术突破了传统限制,减少了每条请求的延迟时间,从而增加了整体吞吐量。
Prefill优化则致力于缩短TTFT(time to first token),采用GPU&CPU结合的多级Prefix Cache技术,减少了Prefill阶段的计算量,提升了用户体验。
针对长序列推理场景,TACO-LLM自主研发了TurboAttention系列算子,结合Page管理和Flash机制,特别适用于长文本创作等任务。
最后,通过高效实现W4A8、W4A16、W8A16、W8A8等量化算子,TACO-LLM有效降低了推理成本,尤其是在对精度要求不高的任务中,如文本分类或润色。
TACO-LLM实际效果与应用案例
通过一系列优化措施,TACO-LLM在性能和成本控制上均取得了显著成效。例如,在处理Llama 3.1 70B模型时,TACO-LLM相比vLLM等现有框架,在吞吐量上有1.8至2.5倍的提升,同时运营成本降低了44%到64%,并且支持无缝切换。
在实际应用中,无论是微信的文本处理业务还是某头部视频平台的推理服务,甚至是顺丰的特定场景下,TACO-LLM都展现了卓越的性能和经济效益,成功帮助企业实现了降本增效的目标。
TACO-LLM的诞生,不仅打破了传统AI应用的成本壁垒,还为企业和个人提供了更为高效、经济的解决方案,促进了AI技术在日常生活中的广泛应用和发展。