365体育入口中国官方网站
联系电话
新闻中心 News center
联系我们 Contact us
  • 电 话:
  • 手 机:
  • 联 系人:
  • 邮 编:
  • 地 址:
首个国产开源MoE大模型来了性能媲美Llama 2-7B计算量降低60%
发布时间:2024-03-05 22:46

  这个模型堪称19边形战士,特别是在数学和代码能力上对Llama形成了碾压。

  它就是深度求索团队最新开源的160亿参数专家模型DeepSeek MoEbat365在线官网登录入口。

  DeepSeek MoE目前推出的版本参数量为160亿bat365在线官网登录入口bat365在线官网登录入口bat365在线官网登录入口,实际激活参数量大约是28亿bat365在线官网登录入口。

  与自家的7B密集模型相比,二者在19个数据集上的表现各有胜负bat365在线官网登录入口bat365在线官网登录入口,但整体比较接近bat365在线官网登录入口bat365在线官网登录入口。

  而与同为密集模型的Llama 2-7B相比bat365在线官网登录入口bat365在线官网登录入口bat365在线官网登录入口,DeepSeek MoE在数学bat365在线官网登录入口bat365在线官网登录入口、代码等方面还体现出来明显的优势bat365在线官网登录入口。

  在20亿参数量时进行的性能测试显示,DeepSeek MoE同样能以更少的计算量bat365在线官网登录入口bat365在线官网登录入口,达到与1.5倍参数量bat365在线官网登录入口、同为MoE模型的GShard 2.8B相当甚至更好的效果。

  此外深度求索团队还基于SFT微调除了DeepSeek MoE的Chat版本,表现同样接近自家密集版本和Llama 2-7Bbat365在线官网登录入口。

  此外,深度求索团队还透露bat365在线官网登录入口,DeepSeek MoE模型还有145B版本正在研发bat365在线官网登录入口。

  阶段性的初步试验显示,145B的DeepSeek MoE对GShard 137B具有极大的领先优势,同时能够以28.5%的计算量达到与密集版DeepSeek 67B模型相当的性能。

  在总参数量一定的情况下bat365在线官网登录入口bat365在线官网登录入口bat365在线官网登录入口bat365在线官网登录入口bat365在线官网登录入口,传统模型分出N个专家bat365在线官网登录入口bat365在线官网登录入口,而DeepSeek可能分出2N个bat365在线官网登录入口bat365在线官网登录入口。

  同时bat365在线官网登录入口,每次执行任务时选择的专家数量也是传统模型的2倍bat365在线官网登录入口,所以总体使用的参数量也不变bat365在线官网登录入口bat365在线官网登录入口,但选择的自由度增加了bat365在线官网登录入口。

  这种分割策略允许更灵活和适应性的激活专家组合bat365在线官网登录入口,从而提高了模型在不同任务上的准确性和知识获取的针对性。

  除了专家划分上的差异bat365在线官网登录入口bat365在线官网登录入口,DeepSeek还创新性地引入了“共享专家”的设置bat365在线官网登录入口。

  这些共享专家对所有输入的token激活bat365在线官网登录入口bat365在线官网登录入口,不受路由模块影响bat365在线官网登录入口bat365在线官网登录入口,目的是捕获和整合在不同上下文中都需要的共同知识bat365在线官网登录入口。

  通过将这些共享知识压缩到共享专家中,可以减少其他专家之间的参数冗余bat365在线官网登录入口bat365在线官网登录入口bat365在线官网登录入口bat365在线官网登录入口,从而提高模型的参数效率bat365在线官网登录入口。

  共享专家的设置有助于其他专家更加专注于其独特的知识领域bat365在线官网登录入口,从而提高整体的专家专业化水平bat365在线官网登录入口。

  消融实验结果表明bat365在线官网登录入口,这两个方案都为DeepSeek MoE的“降本增效”起到了重要作用bat365在线官网登录入口。

  原标题:《首个国产开源MoE大模型来了!性能媲美Llama 2-7Bbat365在线官网登录入口,计算量降低60%》

  本文为澎湃号作者或机构在澎湃新闻上传并发布bat365在线官网登录入口bat365在线官网登录入口,仅代表该作者或机构观点bat365在线官网登录入口bat365在线官网登录入口,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问bat365在线官网登录入口。

Copyright 2017 365体育入口中国官方网站 All Rights Reserved