
是石科技联合港中深王本友课题组完成华为最新开源的盘古大模型基准测试,性能表现亮眼
近日,是石科技和香港中文大学(深圳)(以下简称:港中深)王本友课题组宣布联合完成对华为开源盘古大模型(1B、7B、718B MoE)的全面基准测试(Benchmark)。测试结果显示,基于华为昇腾CANN框架优化的三款模型在响应速度、推理吞吐、资源利用率等关键指标上表现优异,充分展现了华为AI全栈技术的协同优势,为各行业的高效AI落地提供了强有力的技术支撑。
盘古大模型:性能全面突破
是石科技针对华为盘古大模型,进行了通用场景和集群部署场景的测试,主要聚焦以下维度:
1、通用评估基准
评估基准:
C-Eval 是一个基准测试,旨在评估 AI 模型在中文考试中各学科的表现,包括 STEM(科学、技术、工程和数学)、社会科学和人文学科。它由多项选择题组成,用于测试在这些领域的知识和推理能力。
C-MMLU 是一个基准测试,旨在评估 AI 模型在中文语言任务中的表现,包括阅读理解、文本分类等。
DROP基准测试旨在评估 AI 模型的阅读理解和推理能力。它包含多种任务,要求模型阅读段落并根据内容回答问题。
GSM8K(小学数学 8K)是一个包含小学数学题目的数据集,旨在评估 AI 模型的数学推理能力。
HumanEval 是一个基准测试,用于评估代码生成模型根据给定规格编写 Python 函数的能力。它由具有明确输入输出行为的编程任务组成。
IFEval 是一个用于评估指令跟随型语言模型的基准测试,侧重于模型理解和响应各种提示的能力。它包含多样化的任务和评估指标,以全面衡量模型的表现。
MATH-500 是一个用于评估 AI 模型数学推理能力的基准测试。它包含 500 道覆盖五个难度等级的多样化数学题,旨在测试模型通过生成逐步解题过程并给出正确最终答案来解决复杂数学问题的能力。
MMLU(大规模多任务语言理解)基准测试是一个综合评估套件,旨在衡量语言模型在广泛学科和任务中的表现。它包含来自历史、科学、数学等多个领域的多项选择题,为评估模型的理解力和推理能力提供了可靠依据。
测试表现:
推理框架:vllm
评估框架:evalscope(native后端,非opencompass)
参数do_sample=false
所有模型的均为非慢思考模式
1B 模型
7B 模型
*代表评估指标与openPangu官方对齐,所以直接复用其结果
718B MoE 模型的测试结果会在未来放出,敬请期待
2、部署使用性能评估
评估指标:
响应性能:TTFT(Time to First Token):从向模型输入 prompt 开始到模型生成第一个输出 token 所花费的时间。
推理吞吐:Latency(Total inference Time):从输入 prompt 到模型生成完整输出所消耗的总时间。
TPS(Tokens Per Second):模型每秒生成的tokens数量。
生成速度:TPOT(Tokens Per Output Time):模型在输出阶段 (Decode 阶段) 每个输出 token 的延时。
1B模型部署使用对比结果
↓代表这个值越小越好
↑代表这个值越大越好
7B模型部署使用对比结果
从上面两项测试中,可以看出:
1. 对于通用场景,盘古大模型针对语言理解,复杂问题推理,代码生成等方面都有优异表现。部分任务的评分(如MMLU部分评分超过75)也证明了模型强大的逻辑能力与知识融合能力,确保模型从文本生成到复杂科学推理等各类复合场景中均能有稳定表现。
2. 对于用户更关心的部署使用场景,也有巨大进步:
(1)响应性能:首Token时间(TTFT)显著优化,同时在应用侧也有新的突破
1B模型:在Atlas 200I A2设备上,TTFT缩短至毫秒级,较未优化版本提升30%,满足工业实时交互需求。
7B模型:在H20芯片上,首Token生成速度提升25%,更适用于高并发场景。
(2)推理吞吐:效率与成本双优
1B模型:TPS(Tokens Per Second)的提升使得单卡推理效率达业界领先水平,较传统方案提升25%。
7B模型:优化TPOP(Tokens Per Output Time)的同时,通过CANN动态负载均衡技术,稀疏化专家模块激活效率提升30%,集群推理吞吐量显著增加
3. 资源利用率:显存占用与计算效能平衡
1B模型在端侧仅需低显存占用,即可保持高精度输出,适配工业质检等轻量化场景。
718B MoE模型通过混合精度计算,在昇腾910B平台上实现显存利用率最大化,降低企业TCO(总拥有成本)。
技术底座:CANN框架与昇腾硬件的协同创新
华为昇腾CANN(Compute Architecture for Neural Networks)为本次Benchmark提供了关键支持:
1. 异构计算架构:优化模型在昇腾910B、H20及端侧芯片的并行计算效率。
2. 动态负载均衡:针对718B MoE模型的稀疏特性,自动分配计算资源,避免算力浪费。
3. 混合精度加速:在保持精度的前提下,显著提升推理速度。
“CANN的开源生态与昇腾硬件的高性能,为国产大模型落地扫清了技术障碍。”是石科技大模型解决方案专家戴嘉冀表示。
未来展望:共建国产AI生态
此次不仅验证了华为盘古大模型的技术成熟度,也标志着国产AI“芯片+框架+模型”全栈能力进入规模化商用阶段。未来,是石科技将与华为持续深化合作,在以下领域发力:
1. 场景化解决方案:针对垂直行业需求,优化模型微调与部署工具链。
2. 端边云协同:扩大1B模型在IoT设备的覆盖,推动边缘智能普及。
3. 生态共建:联合开发者社区,完善CANN适配能力,降低AI应用门槛。
是石科技和港中深李海洲/王本友课题组对华为盘古大模型的测试,为行业提供了权威的性能参考。三款模型在效率、成本、场景适配性上的卓越表现,将进一步加速AI在千行万业的规模化落地。随着昇腾AI生态的完善,国产大模型的技术竞争力已迈入全球第一梯队。
香港中文大学(深圳)李海洲王本友教授课题组
李海洲教授是新加坡工程院院士、香港中文大学(深圳)数据人工智能学院院长,其课题组在科学研究、人才培养和产业落地方面取得了显著成果:在SCI一区期刊及CCF A类会议上发表的论文每年超过数十篇,培养了大量博士后、博士与硕士研究生,并推动研究成果在教育、医疗、金融等领域实现应用落地。核心成员包括王本友教授,其长期专注于大语言模型与跨模态认知计算研究,在医疗人工智能、语音大模型等方向取得多项突破性成果,其主导的医疗大模型系列在国际学界和产业界均产生了重要影响。团队在国际开源社区中影响广泛,在 HuggingFace 高校排行榜中位列第14名,相关项目在 GitHub 上的收藏量超过万次。
依托李海洲教授课题组成立的深圳市跨模态认知计算重点实验室(C3 Lab),于2024年1月30日经深圳市科技创新委员会批准成立。在科研体系建设上,实验室围绕跨模态认知计算的核心问题,建设了一个多模态数据共享平台与多个科研平台,形成了从感知到认知、再到生成的完整技术链条:通过多模态数据共享平台汇聚语音、语言、脑电、医学、图像与视频等多模态资源;在多模态感知方面研发跨模态语音理解、脑电信号建模、视觉长上下文理解以及全模态中医大模型;在基础认知研究中探索推理增强、结构化认知、大模型高效对齐等关键技术;在跨模态生成方向推动跨模态生成大模型、多语言生成模型与个性化数字孪生系统的发展。整体目标是突破生成大模型、通用认知与可解释智能的理论与技术瓶颈,推动下一代人工智能的发展。在应用落地方面,实验室与华为、腾讯 AI Lab、是石科技等企业建立了紧密合作,项目涵盖大语言模型、多语言模型、多模态大模型、模型加速与推理训练等多个方向。