您的位置:
首页
>
中文期刊论文
>
详情页
AI预训练大模型发展综述
- 作 者:
-
蔡睿;
葛军;
孙哲;
胡冰;
徐玉华;
孙知信;
- 作者机构:
-
1.南京邮电大学江苏省邮政大数据技术与应用工程研究中心;
- 关键词:
-
通用大模型;
人工智能;
AI大模型;
垂直大模型;
- 期刊名称:
- 小型微型计算机系统
- i s s n:
- 1000-1220
- 年卷期:
-
2024 年
45 卷
010 期
- 页 码:
- 2327-2337
- 摘 要:
-
本文首先介绍了AI预训练大模型相关的部分核心技术,其中包括Transformer架构和人类反馈强化学习技术以及近端策略优化技术;研究了通用大模型的发展,重点关注了基于Transformer-Decoder架构的GPT系列、LLaMA系列模型与基于Transformer-Encoder架构的BERT、ALBERT、DeBERTa与RoBERTa模型,深入研究了它们的架构和训练方法,总结了它们的特点,探讨了其在不同领域中的应用;关注了垂直领域的大模型发展,如金融、医学、法学、自然科学和代码编程等领域.在金融领域,研究了BloombergGPT、GPT-InvestAR和TradingGPT模型;在医学领域,探讨了Med-PaLM和PMC-LLaMA等模型;在法学领域,分析了Lawformer和Chatlaw模型;在自然科学领域,介绍了华为云盘古气象大模型和FLUID-GPT模型;在代码编程领域,研究了CodeGeex和PanGu-Coder2模型.最后,对当前AI预训练大模型在知识产权、歧视、成本等方面的局限性与未来发展进行了讨论.
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...