何铁科
- 作品数:30 被引量:10H指数:2
- 供职机构:南京大学软件学院更多>>
- 发文基金:教育部人文社会科学研究基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学政治法律电子电信更多>>
- 大语言模型在代码优化任务中的能力探究及改进方法
- 2025年
- 代码优化任务作为自动化代码审查的关键环节,有助于提高开发效率和代码质量.随着大语言模型在软件工程领域中展现出远胜于传统小规模预训练模型的性能,旨在探讨两类模型在自动代码优化任务的表现,以评估大语言模型的综合优势.通过使用传统代码质量评估指标(例如,BLEU,CodeBLEU,edit progress)对4种主流大语言模型和4种代表性小规模预训练模型在代码优化任务的表现进行评估,发现大语言模型在审查前代码优化子任务的优化质量劣于小规模预训练模型.由于现有代码质量评估指标难以解释上述现象,提出基于Unidiff的代码优化评估指标,量化优化过程中的变更操作,以解释劣势原因并揭示模型执行变更操作的倾向性:(1)审查前代码优化任务难度较大,模型执行正确变更操作的准确度极低,且大语言模型比小规模预训练模型表现更为“激进”,即倾向于执行更多的代码变更操作,导致其表现不佳;(2)相比小规模预训练模型,大语言模型在代码优化任务倾向于执行更多插入(ADD)和修改(MODIFY)变更操作且ADD变更操作平均插入的代码行数较多,进一步证明其“激进”性.为缓解大语言模型在审查前优化任务中的劣势,基于大语言模型和集成学习提出LLM-Voter方法,包含Inference-based(基于模型推理)和Confidence-based(基于置信度选择)两种子方案,旨在集成不同基模型的优势以提升代码优化质量.在此基础上,进一步引入优化判定机制,以增强模型的决策稳定性与可靠性.实验证明:基于置信度选择的LLM-Voter方法能够在大幅提高EM(exact match)值的同时获得优于所有基模型的优化质量,从而有效缓解大语言模型的劣势.
- 王志鹏何铁科赵若愚郑滔
- 关键词:代码审查
- 一种交通事故损害赔偿中法律条文预测方法
- 本发明涉及一种交通事故损害赔偿中法律条文预测方法。该方法基于特征提取对事实文本和法律条文进行数据清洗和特征选择,构建用于模型训练的特征和特征向量,使用TwitterLDA学习法条的文本表示,使用word2vec提取案情特...
- 何铁科严格陈振宇李玉莹
- 文献传递
- 一种基于LDA主题模型的司法案例筛选方法
- 本发明提出了一种基于LDA的法院类案推荐方法,为法律人员高效推荐类案以供参考分析,帮助在疑难案件上提供新的解决途径,也能够统一司法裁判尺度,避免司法裁判不公。该发明的主要创新在于(1)对案例文书进行语句清洗,提取关键词;...
- 何铁科许金严格
- 社会化推荐研究进展被引量:2
- 2012年
- 文章提供了一个关于社会化推荐研究进展的概述。随着推荐系统研究的不断深入,将社会化影响融入推荐系统成为一个新的研究热点和问题丰富的研究领域。首先描述了社会化推荐的相关技术:推荐系统和社会化网络分析。对当前社会化推荐的一些最新技术方法进行分类介绍,具体包括利用社会化关系推荐物品,利用社会化关系推荐好友,根据内容推荐社会化关系,小组推荐和为团体推荐五个方面。
- 何铁科陈振宇刘嘉骆斌
- 关键词:推荐系统社会化推荐
- 移动推荐研究综述被引量:8
- 2012年
- 移动设备正在成为信息检索的一个主要平台。移动应用是移动用户检索信息的主要工具。用户进行信息检索时会面临过载问题。推荐技术通过收集用户行为数据、建立偏好模型、选取个性化内容的方法来改善信息过载带来的负面影响。移动领域具有同样的信息过载问题,融合推荐技术能提高移动应用的效率。移动推荐系统技术综述将会介绍移动推荐系统应用方面的主要技术。
- 刘嘉都兴中陈振宇何铁科朱庆华吴清
- 关键词:个性化软件技术
- 一种基于持续学习和提示模板的通用命名实体识别方法
- 本发明的技术方案一种基于持续学习和提示模板的通用命名实体识别方法。本发明的特点在于:1.本方法只需要少量的过去实体的注释样本;2.本发明不需要扩展神经网络层,也不需要每次都复制新的编码器层来构建新的模型。本方法总是在同一...
- 何铁科郑滔刘嘉 邢玉 刘克尧刘云辉 赵俊涵
- 一种基于窥孔优化的智能合约性能优化方法
- 本发明是一种基于窥孔优化的智能合约性能优化方法,该方法首先对智能合约进行收集,对智能合约集合中的每一个智能合约进行拆分指令序列处理,获得的所有指令序列再次进行去重,得到指令序列集。获得指令序列集后进行标准化处理,对指令中...
- 陈振宇王新宇赵源王兴亚何铁科史洋洋
- 一种基于自注意力机制的自融合代码理解方法
- 本发明提出了一种基于自注意力机制的路径融合的代码理解方法,用于将Java源代码文件理解为低维稠密语义向量,并基于该向量表示代码中的语义与语法信息。同时,本方法基于代码方法名称预测与代码文本相似度评估两个方面,对代码理解方...
- 何铁科郑滔刘嘉袁为邢玉
- 一种规则约束下的文本信息质量度量方法
- 本发明提出了一种规则约束下的文本信息质量度量方法,用于帮助对各领域下有规则约束的文本进行数据质量的度量,给出九大数据质量指标,对文本数据质量进行量化。例如司法文书数据等。该发明的主要创新在于(1)利用文本书写规则构建数据...
- 何铁科廉昊严格陈振宇李玉莹
- 文献传递
- 一种问答社区中的感知信息质量度量方法
- 互联网已经发展为一个高协作性和高互动性的社交环境,用户作为社交网络中内容的生产者和消费者,影响着网络中的感知信息质量。其中的两个因素,用户反馈和个人信誉对于感知信息质量的衡量尤为重要。本文通过定量的实证研究,探究了声誉和...
- 陈振宇何铁科 廉昊 秦泽民骆斌 李玉莹张欣
- 文献传递