程序设计语言实验室一篇论文被ACL'25接收
时间:2025年07月13日 20:51 来源:作者:
计算语言学领域顶级会议ACL'25近日公布论文录用名单,程序设计语言研究室一篇论文《Grammar-Based Code Representation: Is It a Worthy Pursuit for LLMs?》被该会议录用。
标题: Grammar-Based Code Representation: Is It a Worthy Pursuit for LLMs?.
作者: Qingyuan Liang, Zhao Zhang, Zeyu Sun, Zheng Lin, Qi Luo, Yueyi Xiao, Yizhou Chen, Yuqun Zhang, Haotian Zhang, Lu Zhang, Bin Chen, Yingfei Xiong.
摘要: 语法是编程语言和软件工程的基石,为定义句法空间和程序结构提供了框架。现有研究表明,基于语法的代码表示在小规模模型中是有效的,显示了它们减少语法错误和提高性能的能力。然而,随着大型语言模型(LLMs)的出现,人们质疑这种严格的表示是否仍然必要,或者是否会不必要地限制模型的表达能力。本文重新探讨了在十亿参数规模的LLM中基于语法的代码表示的价值。在HumanEval (+) 和 MBPP (+) 上的实验表明,代码生成准确性有显著提高。进一步的分析表明,基于语法的表示增强了LLM辨别细微代码差异的能力,减少了由微小变化引起的语义错误。这些发现表明,基于语法的代码表示即使在十亿参数规模的模型中仍然有价值,不仅通过保持语法正确性,还通过改善语义区分。