您的位置:
首页
>
中文期刊论文
>
详情页
以CodeBERT为基础的代码分类研究
- 作 者:
-
成思强;
刘建勋;
彭珍连;
曹奔;
- 作者机构:
-
湖南科技大学计算机科学与工程学院;
- 关键词:
-
代码片段;
迁移训练;
CodeBERT;
代码表征;
代码分类;
- 期刊名称:
- 计算机工程与应用
- i s s n:
- 1002-8331
- 年卷期:
-
2023 年
59 卷
024 期
- 页 码:
- 277-288
- 摘 要:
-
随着代码大数据的不断发展,代码库中的源代码数量逐渐增长.如何快速有效地对代码库中的代码进行分类管理,对软件工程的发展具有十分重要的意义.第一次将预训练模型引入代码分类研究,并提出了一种优化的代码分类方法CBBCC.CBBCC采用wordpiece对源代码进行数据预处理.采用CodeBERT预训练模型对源代码进行特征表征.在预训练模型的基础上进行分类任务的微调.为了验证所提模型的有效性,在POJ104数据集上进行实验分析.实验结果表明,相对于7种基准模型,CBBCC模型各项分类指标都在98%以上.其中准确率上比目前最优模型提高了1.1个百分点,达到了POJ104代码分类数据集上分类任务的SOTA值.CBBCC能有效地对代码进行标注,提高对开源社区源代码的管理,促进软件工程领域的发展.
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...