网站地图 | Tags | 热门标准 | 最新标准 | 订阅

T/ISC 0076-2025 人工智能 大规模预训练模型总体技术要求及评估方法

  • 名  称:T/ISC 0076-2025 人工智能 大规模预训练模型总体技术要求及评估方法 - 下载地址1
  • 类  别:团体标准规范
  • 下载地址:[下载地址1]
  • 提 取 码
  • 浏览次数:3
下载帮助: 发表评论 加入收藏夹 错误报告目录
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
新闻评论(共有 0 条评论)

资料介绍

以下是T/ISC 0076-2025《人工智能大规模预训练模型总体技术要求及评估方法》的主要内容总结:

​一、标准框架​

  1. ​范围​

    • 规范大规模预训练模型(大模型)系统的参考架构、技术要求及能力评估方法。
    • 适用于大模型的设计、研发、评估和应用。
  2. ​核心结构​

    • ​系统参考架构​​:分5层(基础设施层、数据层、模型层、应用层、系统安全层)。
    • ​技术要求​​:每层具体技术指标。
    • ​评估方法​​:模型能力评估框架、指标、流程及数据集。

​二、大模型系统参考架构​

  1. ​分层架构​

    • ​基础设施层​​:硬件(算力/存储/网络资源)和软件(深度学习框架、分布式训练框架等)。
    • ​数据层​​:数据接入、预处理、数据集构建与管理。
    • ​模型层​​:训练微调、推理部署、模型纳管(通用/行业/专用模型)。
    • ​应用层​​:
      • 通用应用(NLP、CV、语音、多模态任务);
      • 行业应用(通信、政务、医疗、能源等场景)。
    • ​系统安全层​​:基础设施、数据、模型、服务及内容安全。
  2. ​系统角色​

    • ​供给者​​:提供数据、算力、模型。
    • ​汇聚者​​:整合硬件、数据、模型服务。
    • ​运营者​​:优化模型在应用场景的效能。

​三、技术要求​

  1. ​基础设施层​

    • ​硬件​​:需支持多类型计算芯片(CPU/GPU/NPU等)、多种存储介质(SSD/HBM)及高速网络(InfiniBand/RDMA)。
    • ​软件​​:需兼容主流框架(PyTorch/TensorFlow)及分布式训练工具(DeepSpeed/Megatron)。
  2. ​数据层​

    • 数据接入需标准化,预处理需清洗去噪,数据集需标注清晰且覆盖多领域。
  3. ​模型层​

    • ​训练微调​​:支持断点续训、混合并行(数据/模型并行)、全参/低参微调。
    • ​推理部署​​:支持量化压缩、云端/边端部署及异步推理优化。
    • ​模型纳管​​:需纳管多类模型,支持协同调度与资源监控。
  4. ​应用层​

    • ​通用能力​​:
      • NLP(文本分类、机器翻译);
      • CV(图像分割、目标检测);
      • 多模态(图文检索、文生图)。
    • ​行业场景​​:通信(网络运维)、医疗(辅助诊断)、金融(风控)等定制化应用。
  5. ​系统安全​

    • 符合AIIA/PG 0074-2022可信要求,包括数据隐私保护、对抗攻击防御、内容真实性保障。

​四、模型能力评估方法​

  1. ​评估框架​

    • ​三维度​​:评估对象(模型类型)、能力与任务(理解/生成/推理等)、评估指标(主/客观)。
    • ​流程​​:确定对象→选定能力任务→选择指标→匹配数据集→输出结果。
  2. ​评估指标​

    • ​客观指标​​(自动化评估):
      • 理解任务:准确率(文本分类)、IoU(目标检测);
      • 生成任务:BLEU/ROUGE(机器翻译)、FID(图像生成)、WER(语音识别);
      • 推理任务:准确率(数学推理)。
    • ​主观指标​​(人工评估):相关性、连贯性、生成质量等(附录A详述评分标准)。
  3. ​数据集要求​

    • ​关键特性​​:全面性(多领域覆盖)、多样性(题型丰富)、均衡性(难度分布合理)。
    • ​常用数据集​​:
      • 理解能力:CLUE(中文)、SQuAD(阅读理解);
      • 生成能力:APPS(代码生成);
      • 推理能力:GSM8K(数学推理)、C-Eval(综合知识);
      • 行业数据:通信/医疗等私有数据集(附录B示例)。
  4. ​行业应用示例​

    • ​通信大模型评估​​:
      • 任务:客服意图识别(准确率)、网络故障定位(BLEU);
      • 流程:选取任务→计算得分→加权综合(如意图识别85%×权重0.6 + 业务分类93%×0.4 → 综合88.2分)。

​五、附录内容​

  • ​附录A​​:评估指标定义(如F1值公式、BLEU算法)及主观评分表(5级制)。
  • ​附录B​​:数据集列表(如MMCU多任务评测、HotpotQA多跳推理)。
  • ​附录C​​:通信行业评估案例(场景任务分解、指标权重分配)。

​核心价值​

  1. ​技术规范化​​:统一大模型开发流程,确保系统兼容性与安全性。
  2. ​评估标准化​​:提供多维度量化模型能力的方法,推动行业应用落地。
  3. ​跨行业适配​​:覆盖通用与垂直领域需求,支持场景化定制(如通信网络运维、医疗问答)。

​注​​:标准中部分符号异常(如“■2”)、术语不统一(如“体标准”)属排版问题,不影响主体内容完整性。

收藏本站 | 热门资料 | 联系我们 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图