您的位置: 首页 > 中文期刊论文 > 详情页

AI预训练大模型发展综述

作   者:
蔡睿葛军孙哲胡冰徐玉华孙知信
作者机构:
1.南京邮电大学江苏省邮政大数据技术与应用工程研究中心
关键词:
通用大模型人工智能AI大模型垂直大模型
期刊名称:
小型微型计算机系统
i s s n:
1000-1220
年卷期:
2024 年 45 卷 010 期
页   码:
2327-2337
摘   要:
本文首先介绍了AI预训练大模型相关的部分核心技术,其中包括Transformer架构和人类反馈强化学习技术以及近端策略优化技术;研究了通用大模型的发展,重点关注了基于Transformer-Decoder架构的GPT系列、LLaMA系列模型与基于Transformer-Encoder架构的BERT、ALBERT、DeBERTa与RoBERTa模型,深入研究了它们的架构和训练方法,总结了它们的特点,探讨了其在不同领域中的应用;关注了垂直领域的大模型发展,如金融、医学、法学、自然科学和代码编程等领域.在金融领域,研究了BloombergGPT、GPT-InvestAR和TradingGPT模型;在医学领域,探讨了Med-PaLM和PMC-LLaMA等模型;在法学领域,分析了Lawformer和Chatlaw模型;在自然科学领域,介绍了华为云盘古气象大模型和FLUID-GPT模型;在代码编程领域,研究了CodeGeex和PanGu-Coder2模型.最后,对当前AI预训练大模型在知识产权、歧视、成本等方面的局限性与未来发展进行了讨论.
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充