近日,中国软件大会召开。研究室联合指导的朱琪豪同学的博士论文《语言定义感知的深度代码学习技术及应用》入选2024年中国计算机学会软件工程专业委员会博士学位论文激励计划。
博士学位论文介绍:
用深度学习模型处理代码是软件工程的发展趋势,但深度学习基于统计,难以学会程序设计语言的语法类型等严格形式化定义,已成为阻止该方向发展的关键问题。
朱琪豪的博士论文提出语言定义感知的深度代码学习技术,通过设计新型神经网络架构和程序表征,系统性引导神经网络学习语法、类型等语言定义,并进一步提出在缺陷修复和代码搜索上的应用技术。
论文产生一系列工具和模型:
l 不同规模效果最优的代码模型,比如亿级参数最优代码生成模型GrammarT5、千万级参数最优代码生成模型Grape
l 首个超过传统方法的神经网络修复工具Recoder
l 国际缺陷修复竞赛Java功能性缺陷赛道第一名ET
论文方法还应用到深度求索公司的DeepSeek-Coder模型和中兴公司的缺陷修复工具。
发表CCF-A类论文16篇,论文总引用约1565次。在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。
论文工作在学术上和产业上均产生重要影响。代码深度学习模型已经成为智能软件工程时代的基础系统软件,但该领域长期依赖GPT-4o等国外模型。该博士论文系统性揭示了如何引导基于统计的神经网络学习基于逻辑的形式化语言定义,大幅提升了深度学习模型在代码任务中的性能。基于博士论文技术,朱琪豪在深度求索实习期间主导开发了DeepSeek-Coder-V1模型,该模型是达到国际顶尖水平的国产开源代码大模型,对应技术报告不到一年被引用300余次,被全球学者广泛应用于反编译、代码分析、代码修复等多个领域。基于该论文的修复工具Recoder在深度学习修复研究4年多来首次超越传统方法,对应论文在FSE上引用前二,在多个后续第三方研究中都表现出最优的效果,引导修复领域全面转向深度学习。中兴公司基于该论文独立开发的修复工具在来自公司业务部门的 32 个真实缺陷中成功修复 21 个(65.6%),中兴通讯公司预计“可显著提高开发人员修复效率,降低软件维护成本”。
朱琪豪和熊英飞在中国软件大会上领取博士学位论文激励计划证书
入选博士学位论文激励计划证书
入选论文作者介绍:
朱琪豪,北京大学计算机学院2024届博士毕业生,指导老师为软件研究所熊英飞副教授和张路教授。研究方向为深度代码学习技术,重点聚焦于将程序语言定义的信息与深度学习技术的融合。其科研成果发表在 ICSE、IJCAI、AAAI、ESEC/FSE、ASE 等国际顶级会议上。其中,基于语法制导的程序修复技术成为首度超越传统的程序修复方法,相关研究获得ESEC/FSE 2021杰出论文提名奖。朱琪豪曾获得字节跳动奖学金、北京大学校长奖学金、国家奖学金、北京大学三好学生标兵等多项荣誉。
导师介绍:
熊英飞于2009年从日本东京大学获得博士学位,2009-2011年在加拿大滑铁卢大学工作,2012年加入北京大学,现任新体制长聘副教授。熊英飞的研究兴趣是程序设计语言和软件工程,特别是程序合成、修复和分析。他的工作帮助产生了一系列不同规模的效果同期最优代码生成神经网络模型;大幅提升了缺陷修复的正确率、修复数量和修复效率;提出了最广泛使用的两大双向变换模型之一——基于差别的双向变换;成功自动求解大量算法问题,包括世界顶级算法竞赛中的问题。他的工作也被工业界采用,比如华为公司、中兴公司、新一代Linux内核配置项目等。他在IEEE TSE担任编委,PLDI、ICSE、FSE、OOPSLA、ASE、ISSTA等会议定期担任PC,5次在ICSE和FSE会议上获得杰出审稿人奖。他承担了优青、青年973、重点研发课题等科研项目。他获得国家技术发明一等奖(排名6)、电子学会自然科学一等奖(排名1)、CCF-IEEE CS青年科学家奖、MODELS十年最有影响力论文奖,5次获得ACM SIGSOFT/IEEE TCSE杰出论文奖,是IFIP WG 2.4唯一来自中国的成员。
张路,北京大学计算机学院教授、高可信软件技术教育部重点实验室副主任。1995年毕业于计算机科学技术系,获理学学士学位。2000年获北京大学计算机科学技术博士学位,师从杨芙清院士。2000年至2003年分别在英国牛津布鲁克斯大学和利物浦大学从事博士后研究,2003年4月至2021年9月在北京大学信息科学技术学院任教,历任讲师、副教授和教授,2021年10月至今任北京大学计算机学院教授。
主要研究领域是软件分析与测试,在TOSEM、TSE、POPL、PLDI、ICSE、FSE、OOPSLA、ASE、ISSTA、ESOP、ECOOP、AAAI、IJCAI、EMNLP等重要期刊和会议上发表论文80余篇。现任《Science China: Information Science》、《软件学报》编委,曾任国际期刊《Journal of Software Maintenance and Evolution: Research and Practice》和《Software Testing, Verification and Reliability》编委,曾任2017年ICSME程序委员会共同主席和FSE、OOPSLA、ASE、ISSTA等重要国际会议的程序委员会委员。
2006年获得国家科学技术进步奖二等奖(排名第6),2012年获得国家自然科学二等奖(排名第3),2023年获得电子学会自然科学一等奖(排名第3)。2008年入选教育部新世纪人才,2010年获得CCF青年科学家奖和中创软件人才奖,2012年获得国家杰出青年科学基金资助,2014年入选教育部第十四批“长江学者奖励计划”特聘教授。