DL时代的代码补全利器，效果远超语言模型

发布时间：2019-08-19 17:14:02 所属栏目：移动互联来源：思源、一鸣

导读：从程序员到数据工程师，编写程序代码是一项基本功，但是编写冗长代码的过程也极大地消耗了开发者的耐心。近来，有不少关于代码补全工具的消息爆出，例如，来自美国的 Kite，来自加拿大的 TabNine 等，一时间获得了不少程序员的关注。但其实很多人还并不知

在对比过程中，aiXcoder 会使用 Kite 或 TabNine 官方提供的示例代码，并测试完成这段代码到底需要多少次按键。结果表明，aiXcoder 较其他插件在效率上提升 1.5 倍以上。

aiXcoder 是如何打造的

能够实现高效代码补全的 aiXcoder，背后有着强大的技术支撑。据李戈教授介绍，aiXcoder 很早就试过了语言模型，将代码视为一种语言从而直接建模，这就和 Deep TabNine 一样。但是研究者很快发现，只有语言模型是行不通的，它总会提出一些毫无意义、很不科学的补全建议。为此，aiXcoder 融合了基于序列的程序代码语言模型、基于抽象语法树和程序逻辑关系的图神经网络等方法，共同打造一个完整的系统。

为什么直接生成代码是困难的

如果深度学习模型能根据开发者的意图，以端到端的方式直接生成对应的代码，那么这样的模型会很「优雅」。但是经过研究发现，这样的任务需求是很难实现的，这和任务本身所依赖的数据的性质有关系。

李戈教授从机器学习所依赖的数据性质的角度，对代码生成任务和传统的图像处理任务、自然语言处理任务的不同，给出一种较为形象化的解释。

对于图像识别或图像分类任务而言，机器学习的目标是建立一个连续的数据集（图像数据）到一个近乎连续的、有着接近清晰边界的数据集（标签）之间的映射关系。

这样一来，由于图像数据异常的稠密，而标签集又有足够清晰的边界，那么这就相当于一个标签拥有大量的数据可以学习。这样的映射关系是比较容易建立的，这也是机器学习中和图像相关的任务相对较为容易完成的原因。

对于自然语言处理任务而言，机器学习需要从一个较为连续的（离散度高于图像）、有着较清晰边界的数据集建立与另一个较为连续的、有着较清晰的边界的数据集之间的映射关系。

而由于自然语言处理中的文本数据相比图像数据更为稀疏，因此自然语言处理相关的任务更难取得较好的模型性能。

但是在代码生成方面，从编程者的意图（intent）生成程序代码的问题，可以看做是「程序员意图空间」到「程序代码空间」的映射，其中意图可以是由自然语言描述的信息。如上图所示，这是从一个较为连续的、有着较清晰边界的数据集，向一个更加离散而没有清晰边界的数据集进行映射。

换句话说，尽管代码生成的意图较为清楚，但是实现该意图的代码数据却比较稀疏，而且即便对于相同的意图，其对应的实现代码之间仍存在较大差距，因此这样的任务是非常难学习的。

为此，在 aiXcoder 的实际实现中，对不同应用领域的代码都采用了特定的模型，它们仅使用该领域的数据进行训练。例如，对 TensorFlow 或 PyTorch 等框架也有其特定的代码补全模型。这样做的主要目的就是加强程序分布的稠密性，在特定领域下，代码分布更加接近连续性。
可见，根据编程者的「意图」来「直接」生成完整代码是非常困难的，但李戈教授表示，可以用类似的技术来辅助人类程序员来编写代码，我们可以从程序员已经写下的代码中获取程序员的「编程意图」，然后综合分析代码，的结构信息、变量引用信息、API 序列信息、继承关系信息等等，以自动生成后续代码。然而，在这个过程中，只有语言模型是远远不够的，还需要对很多其它代码特征进行分析，才能做好生成式的代码补全。
单纯的预训练语言模型又怎么样？

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

达人魔改秒控鼠标可边	万里征程张万里媒体联
蔡司小蓝标瞩目！vivo	售2999元起！华为首款