编辑推荐:
为解决大规模基础模型(LFMs)训练成本高、计算需求大这一限制其广泛应用的瓶颈问题,研究人员开展了关于 LFMs 性能提升与成本降低的研究。结果发现通过技术创新可实现这一目标,这推动了 LFM 技术的普及,意义重大。
在当今科技飞速发展的时代,人工智能领域的大规模基础模型(Large-Scale Foundation Models,LFMs)成为了备受瞩目的焦点。近年来,LFMs 取得了巨大的进步,在多个领域展现出令人惊叹的能力。然而,高不可攀的训练成本和庞大的计算需求,就像两座大山,严重阻碍了这项技术的广泛应用。想象一下,研发一个像 GPT-4 这样的模型,需要耗费数亿美元的资金,这对于大多数中小企业和研究机构来说,无疑是天文数字,使得 LFMs 的发展成为了少数科技巨头的 “专属游戏”。正因如此,探索如何让 LFMs 变得更加经济实惠,成为了人工智能领域亟待攻克的难题。
为了打破这一困境,中国科学院计算技术研究所等机构的研究人员展开了深入研究。他们的研究成果发表在《The Innovation》上,为我们带来了新的希望。
研究人员采用了多种关键技术方法来开展这项研究。在模型架构方面,以 DeepSeek-V3 为例,通过采用 FP8 混合精度训练、融入混合专家(MoE)和多头潜在注意力(MLA)技术,降低计算资源消耗、提升计算速度。在模型压缩技术上,利用剪枝、量化和知识蒸馏等技术,减少模型参数和计算复杂度。同时,借助像 A100、H100 和 H200 等 GPU 系列提升计算成本效率。
下面来看看具体的研究结果。
- 大规模模型变得更智能且成本更低:从技术进步的角度来看,大规模模型在多个领域都取得了显著进展。在数学能力方面,Llama-1 在 GSM8K 数学解题测试中的准确率仅为 50.9%,而 Llama-31.2 飙升至 96.8%,这表明人工智能的数学推理能力有了质的飞跃。在编程领域,HumanEval 测试分数从 23.7% 提升到 89%,意味着人工智能不仅能理解代码,还能编写高质量程序。在知识理解方面,MMLU 测试分数从 63.4% 提高到 88.6%,说明大型模型在获取和应用知识方面越来越得心应手。与此同时,大规模模型的使用成本也在迅速下降。例如,ZhiPu AI 将 GLM-3-Turbo 的价格从每百万令牌 0.7 美元降至 0.14 美元,降幅高达 80%,批量处理价格更是低至每百万令牌 0.007 美元。DeepSeek 也将其 API 输入价格从每百万令牌 0.14 美元降至 0.014 美元,降幅达 90%,仅为 OpenAI 的 GPT-4o 成本的 1%。
- 现象背后是技术进步:大规模模型成本降低的关键在于技术进步,主要体现在三个方面。一是模型架构的进步,DeepSeek-V3 采用 FP8 混合精度训练,理论上使计算资源消耗降至主流 FP16 模型的 50%,MoE 技术使计算速度提高 20 倍,MLA 技术降低了关键值(KV)缓存的计算开销,最终其 API 价格仅为性能相当的 GPT-4o 的 1%。二是模型压缩技术的进步,如 SparseGPT 技术可将 GPT 系列模型的稀疏度提高到 50%-60%,且无需重新训练,量化技术进一步减少存储和计算需求。三是计算成本效率的提高,A100、H100 和 H200 等 GPU 系列的发布,使计算效率从 19.5 提升到 67 TFLOPS,H100 和 H200 支持 FP8 数据格式和变压器引擎,优化了模型训练和推理效率,训练 Llama3 所需的 GPU 小时数相比 Llama1 大幅减少。
- 现状、未来与挑战:目前,随着大语言模型能力的提升,其在多个领域得到广泛应用,如亚马逊的编程助手 Copilot 拥有大量付费和企业用户,中国 70% 的大语言模型用户在工作日至少使用一次。但现状是多数 LFM 服务由科技巨头主导,中小企业创新和应用机会有限。从未来发展来看,随着经济实惠的 LFMs API 普及,计算能力和训练成本将不再是障碍,中小企业和个人可利用其开发个性化 AI 工具,深刻影响人们的生活,加速人工智能与科学研究的深度融合(AI4Science),重塑知识创新范式,多模态和视觉模型也可能借此降低成本。不过,LFMs 目前仍面临诸多挑战,包括训练数据枯竭,获取高质量数据愈发困难;计算资源壁垒,少数国家或科技巨头可能垄断高端计算资源;基础模型架构停滞,多数研究集中于优化 Transformer 架构,其存在处理长序列、整合多模态数据和高效推理等方面的局限;以及监管合规、与人类价值观对齐、安全风险和知识产权保护等问题,还有大型模型能耗较高带来的能源消耗和生态问题。
综合来看,LFMs 的快速发展标志着人工智能进入新时代,其性能不断提升、成本持续下降。像 DeepSeek-V3 这样的创新技术推动了 LFMs 的民主化,让更多中小企业和开发者受益。但研究也指出,数据枯竭、计算壁垒和架构创新等挑战亟待解决,同时数据隐私、算法偏见等伦理和社会问题也不容忽视。未来,通过持续的技术创新和广泛的合作,有望实现更包容、可持续的人工智能发展,让科技更好地造福社会。