您的位置: 首页 > 中文期刊论文 > 详情页

以CodeBERT为基础的代码分类研究

作   者:
成思强刘建勋彭珍连曹奔
作者机构:
湖南科技大学计算机科学与工程学院
关键词:
代码片段迁移训练CodeBERT代码表征代码分类
期刊名称:
计算机工程与应用
i s s n:
1002-8331
年卷期:
2023 年 59 卷 024 期
页   码:
277-288
摘   要:
随着代码大数据的不断发展,代码库中的源代码数量逐渐增长.如何快速有效地对代码库中的代码进行分类管理,对软件工程的发展具有十分重要的意义.第一次将预训练模型引入代码分类研究,并提出了一种优化的代码分类方法CBBCC.CBBCC采用wordpiece对源代码进行数据预处理.采用CodeBERT预训练模型对源代码进行特征表征.在预训练模型的基础上进行分类任务的微调.为了验证所提模型的有效性,在POJ104数据集上进行实验分析.实验结果表明,相对于7种基准模型,CBBCC模型各项分类指标都在98%以上.其中准确率上比目前最优模型提高了1.1个百分点,达到了POJ104代码分类数据集上分类任务的SOTA值.CBBCC能有效地对代码进行标注,提高对开源社区源代码的管理,促进软件工程领域的发展.
相关作者
载入中,请稍后...
相关机构
    载入中,请稍后...
应用推荐

意 见 箱

匿名:登录

个人用户登录

找回密码

第三方账号登录

忘记密码

个人用户注册

必须为有效邮箱
6~16位数字与字母组合
6~16位数字与字母组合
请输入正确的手机号码

信息补充