您当前的位置:首页 > T/ISC 0076-2025 人工智能 大规模预训练模型总体技术要求及评估方法 > 下载地址1
    T/ISC 0076-2025 人工智能 大规模预训练模型总体技术要求及评估方法
- 名 称:T/ISC 0076-2025 人工智能 大规模预训练模型总体技术要求及评估方法 - 下载地址1
 - 类 别:团体标准规范
 - 下载地址:[下载地址1]
 - 提 取 码:
 - 浏览次数:3
 
发表评论 
加入收藏夹 
错误报告
目录| 新闻评论(共有 0 条评论) | 
资料介绍
以下是T/ISC 0076-2025《人工智能大规模预训练模型总体技术要求及评估方法》的主要内容总结:
一、标准框架
- 	
范围
- 规范大规模预训练模型(大模型)系统的参考架构、技术要求及能力评估方法。
 - 适用于大模型的设计、研发、评估和应用。
 
 - 	
核心结构
- 系统参考架构:分5层(基础设施层、数据层、模型层、应用层、系统安全层)。
 - 技术要求:每层具体技术指标。
 - 评估方法:模型能力评估框架、指标、流程及数据集。
 
 
二、大模型系统参考架构
- 	
分层架构
- 基础设施层:硬件(算力/存储/网络资源)和软件(深度学习框架、分布式训练框架等)。
 - 数据层:数据接入、预处理、数据集构建与管理。
 - 模型层:训练微调、推理部署、模型纳管(通用/行业/专用模型)。
 - 应用层:		
- 通用应用(NLP、CV、语音、多模态任务);
 - 行业应用(通信、政务、医疗、能源等场景)。
 
 - 系统安全层:基础设施、数据、模型、服务及内容安全。
 
 - 	
系统角色
- 供给者:提供数据、算力、模型。
 - 汇聚者:整合硬件、数据、模型服务。
 - 运营者:优化模型在应用场景的效能。
 
 
三、技术要求
- 	
基础设施层
- 硬件:需支持多类型计算芯片(CPU/GPU/NPU等)、多种存储介质(SSD/HBM)及高速网络(InfiniBand/RDMA)。
 - 软件:需兼容主流框架(PyTorch/TensorFlow)及分布式训练工具(DeepSpeed/Megatron)。
 
 - 	
数据层
- 数据接入需标准化,预处理需清洗去噪,数据集需标注清晰且覆盖多领域。
 
 - 	
模型层
- 训练微调:支持断点续训、混合并行(数据/模型并行)、全参/低参微调。
 - 推理部署:支持量化压缩、云端/边端部署及异步推理优化。
 - 模型纳管:需纳管多类模型,支持协同调度与资源监控。
 
 - 	
应用层
- 通用能力:		
- NLP(文本分类、机器翻译);
 - CV(图像分割、目标检测);
 - 多模态(图文检索、文生图)。
 
 - 行业场景:通信(网络运维)、医疗(辅助诊断)、金融(风控)等定制化应用。
 
 - 通用能力:		
 - 	
系统安全
- 符合AIIA/PG 0074-2022可信要求,包括数据隐私保护、对抗攻击防御、内容真实性保障。
 
 
四、模型能力评估方法
- 	
评估框架
- 三维度:评估对象(模型类型)、能力与任务(理解/生成/推理等)、评估指标(主/客观)。
 - 流程:确定对象→选定能力任务→选择指标→匹配数据集→输出结果。
 
 - 	
评估指标
- 客观指标(自动化评估):		
- 理解任务:准确率(文本分类)、IoU(目标检测);
 - 生成任务:BLEU/ROUGE(机器翻译)、FID(图像生成)、WER(语音识别);
 - 推理任务:准确率(数学推理)。
 
 - 主观指标(人工评估):相关性、连贯性、生成质量等(附录A详述评分标准)。
 
 - 客观指标(自动化评估):		
 - 	
数据集要求
- 关键特性:全面性(多领域覆盖)、多样性(题型丰富)、均衡性(难度分布合理)。
 - 常用数据集:		
- 理解能力:CLUE(中文)、SQuAD(阅读理解);
 - 生成能力:APPS(代码生成);
 - 推理能力:GSM8K(数学推理)、C-Eval(综合知识);
 - 行业数据:通信/医疗等私有数据集(附录B示例)。
 
 
 - 	
行业应用示例
- 通信大模型评估:		
- 任务:客服意图识别(准确率)、网络故障定位(BLEU);
 - 流程:选取任务→计算得分→加权综合(如意图识别85%×权重0.6 + 业务分类93%×0.4 → 综合88.2分)。
 
 
 - 通信大模型评估:		
 
五、附录内容
- 附录A:评估指标定义(如F1值公式、BLEU算法)及主观评分表(5级制)。
 - 附录B:数据集列表(如MMCU多任务评测、HotpotQA多跳推理)。
 - 附录C:通信行业评估案例(场景任务分解、指标权重分配)。
 
核心价值
- 技术规范化:统一大模型开发流程,确保系统兼容性与安全性。
 - 评估标准化:提供多维度量化模型能力的方法,推动行业应用落地。
 - 跨行业适配:覆盖通用与垂直领域需求,支持场景化定制(如通信网络运维、医疗问答)。
 
注:标准中部分符号异常(如“■2”)、术语不统一(如“体标准”)属排版问题,不影响主体内容完整性。
相关推荐
- DB23∕T 2700-2020 气象灾害评估 暴雨
 - T/GDPAWS 23-2023 应急救援救助帐篷 撑伞式帐篷
 - T/CPQS XF003-2023 灭火器产品维修、更换及售后服务
 - T∕CSRME 016-2021 城市地下空间网络化拓建工程技术规范
 - T/WZSJD 2308-2024 无卤低烟阻燃交联聚烯烃绝缘电力电缆
 - T∕CPSS 1003-2019 交流输入电压暂降与短时中断的低压直流型补偿装置技术规范
 - T/QGCML 819-2023 轨道交通车辆表面保护聚脲涂层试验方法
 - T/QGCML 2562-2023 企业内部项目管理跟进系统
 - T/ZBD 100.5-2023 建设工程结算审核作业指引
 - T/CIECCPA 055-2023 燃煤发电产品碳足迹量化与评价方法
 
