扫码阅读
手机扫码阅读

带你读论文第十一期:上海人工智能实验室孙伟高博士,分享大模型分布式训练方法!

42 2024-09-29

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

Datawhale 论文分享摘要

Datawhale 论文分享活动摘要

WhalePaper简介

WhalePaper 是由 Datawhale 团队成员发起的学术分享项目,目的在于分享学术界成熟的主题与开源方案。通过共同阅读和分享论文,WhalePaper 旨在帮助人们更有效、全面和自律地学习。目前,分享的方向包括自然语言处理(NLP)、计算机视觉(CV)、推荐系统(Res)等,未来计划扩展到更多领域。开源项目地址:https://datawhalechina.github.io/whale-paper

嘉宾简介

本期活动嘉宾孙伟高现任职于上海人工智能实验室,专注于分布式训练算法与大型语言模型。曾在华为图灵架构与设计部工作,研究高效分布式训练算法。博士毕业于华中科技大学,研究领域包括机器学习、优化算法及其工业应用。他在国际顶级会议和期刊发表过多篇论文,并拥有中美专利。

分享详情

论文题目是 "Linear Attention Sequence Parallelism",由 OpenNLPLab 联合分享,关注大语言模型的分布式训练。论文介绍了一种名为 LASP 的序列并行方法,专为线性注意力的大语言模型设计,解决了传统方法在并行效率和可用性上的不足。通过点对点通信机制和核技巧降低通信开销,并确保与不同数据并行方法的兼容性。实验结果显示,LASP 在大规模 GPU 集群上具有显著性能提升,支持更长的序列长度和更快的速度。论文地址:https://arxiv.org/abs/2404.02882

分享时间定于 2024年4月24日(周三)19点,在视频号与 B 站进行同步直播。观众可通过回复 "paper" 加入相关讨论群。

如何参与

对于希望加入讨论的观众,当群满时,可在公众号后台回复“paper”获取更多信息。

鼓励参与者通过“点赞”支持活动。

想要了解更多内容?