姜高霞 作品数:34 被引量:76 H指数:6 供职机构: 山西大学计算机与信息技术学院 更多>> 发文基金: 国家自然科学基金 山西省回国留学人员科研经费资助项目 山西省高等学校科技创新项目 更多>> 相关领域: 自动化与计算机技术 理学 文化科学 经济管理 更多>>
一种个性化k近邻的离群点检测算法 被引量:12 2020年 在基于近邻思想的离群点检测算法中,参数k的选择是无法避免的,而k值过大或者过小都会对检测效果产生很大的影响.因此,如何选择k值是近邻方法研究中的重要内容之一.本文提出一种个性化k近邻(Personalized k-Nearest Neighbor,PKNN)的离群点检测方法,其每一个数据点的近邻个数是由算法自动确定,而不需要人为指定.位于稠密区域的点具有更多邻居,而位于稀疏区域的点具有更少的邻居.因此,PKNN方法确定的个性化近邻参数,更符合数据集的直观分布.实验结果表明,与现有方法相比,PKNN算法有很好的离群点检测效果. 樊瑞宣 姜高霞 王文剑关键词:离群点检测 参数选择 基于局部概率抽样的标签噪声过滤方法 被引量:4 2021年 分类学习任务中,在获取数据的过程中会不可避免地产生噪声,特别是标签噪声的存在不仅使得学习模型更复杂,而且容易造成过拟合并导致分类器泛化能力的下降。标签噪声过滤算法虽然在一定程度上可以解决上述问题,但是仍然存在噪声识别能力较差、分类效果不够理想以及过滤效率低等问题。针对这些问题,提出一种基于标签置信度分布的局部概率抽样方法来进行标签噪声过滤。首先利用随机森林分类器对样本的标签进行投票,从而获取每个样本的标签置信度;然后根据标签置信度的大小,将样本划分为易识别样本和难识别样本;最后分别采用不同的过滤策略对样本进行过滤。实验结果表明,在标签噪声存在的情况下,所提方法在大多数案例上能够保持较高的噪声识别能力,并且在分类泛化性能上也具有明显优势。 张增辉 姜高霞 王文剑关键词:噪声过滤 面向回归任务的数值型标签噪声过滤算法 被引量:8 2022年 回归任务中的数值型标签噪声可能误导模型训练,进而弱化模型泛化能力.作为一种常用的标签噪声处理技术,噪声过滤通过去除误标记样本来降低噪声水平,但无法保证过滤后模型能够获得更好的泛化表现.一些过滤算法过于关注噪声水平,以至于大量无噪样本也被去除.尽管已有样本过滤框架能够平衡样本去除量和噪声水平,但其形式过于复杂不利于直观理解和实际应用.根据无噪回归任务中的学习理论提出了面向数值型标签噪声数据的泛化误差界,从而明确了影响模型泛化能力的关键数据因素(数据量和噪声水平).在此基础上提出一种可解释的噪声过滤框架,其目标是以较小的样本去除代价最大程度地降低噪声水平.针对噪声估计问题,从理论上分析了噪声与覆盖区间关键指标(中心和半径)之间的变化趋势,进而构建了相对噪声估计方法.此方法与所提框架结合形成了相对噪声过滤(relative noise filtering,RNF)算法.在标准数据集和年龄估计数据上均验证了算法的有效性.实验结果表明:该算法能够适应各类噪声数据,显著提升模型泛化能力.在年龄估计数据上RNF算法检测出一些标签噪声数据,有效提升了数据质量和模型预测性能. 姜高霞 王文剑关键词:噪声过滤 面向回归任务的数值型标签噪声过滤算法 回归任务中的数值型标签噪声可能误导模型训练,进而弱化模型泛化能力。作为一种常用的标签噪声处理技术,噪声过滤通过去除误标记样本来降低噪声水平,但无法保证过滤后模型能够获得更好的泛化表现。一些过滤算法过于关注噪声水平,以至于... 姜高霞 王文剑关键词:噪声过滤 极限距离噪声估计与过滤方法 被引量:2 2023年 近年来,机器学习不断取得显著性进展并被成功应用于诸多领域,然而很多学习模型或算法高度依赖数据的标签质量。实际应用中大量数据集普遍存在复杂的标签噪声,因此机器学习在低质数据建模和标签噪声处理方面面临严峻挑战。文中针对回归中的数值型标签噪声,从理论分析和仿真实验的角度研究了标签估计区间与噪声的关联性,提出了一种极限距离噪声估计方法。在最优样本选择框架下,基于此噪声估计方法提出了一种极限距离噪声过滤(Limit Distance Noise Filtering, LDNF)算法。实验结果表明,所提噪声估计方法与真实标签噪声具有更高的相关性和更低的估计偏差。在标准数据集和真实年龄估计数据集上证实了所提过滤算法可以在不同噪声环境下有效识别标签噪声并减小模型的测试误差,其表现优于最新的其他过滤算法。 姜高霞 秦佩 王文剑关键词:噪声估计 基于主动学习的标签噪声清洗方法 被引量:4 2020年 在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种基于主动学习的标签噪声清洗方法(active label noise cleaning based on classification with gaussian process,GP_ALNC),该方法将高斯过程模型和主动学习相结合,从已有标签样本集中筛选出不确定性最高的样本交给人工专家进行检验,通过这种迭代方法清洗掉大部分噪声数据的同时保持了原有数据的完整性;并针对二分类任务中的标签噪声问题,在MNIST数据集和UCI数据集上,与已有方法ALNR(active label noise removal)以及ICCN_SMO(iterative correction of class noise based on SMO)进行了实验对比,并取得了不错的表现。 孟晓超 姜高霞 王文剑关键词:高斯过程 数据增强的联合标签清洗方法 2025年 标签噪声可能对监督学习模型的泛化能力产生较大影响.噪声过滤通过删减噪声样本来提升数据质量,是解决标签噪声问题的有效方法.然而,目前大多数标签噪声过滤算法会将一些潜在的有价值样本错误地标记为噪声,这种过度清洗会导致样本信息缺失.针对此问题,本文提出一种基于数据增强的联合标签清洗方法(Combined Label Cleaning Method based on Data Augmentation,CCDA),该方法通过多次在数据集上进行特征加噪增强、特征划分增强和组合增强,使用多次增强后预测结果的信息熵和一致性来评估样本的稳定性.将最不稳定的样本交由专家标注进行主动清洗修正标签值;将最稳定的样本利用模型预测的集成结果自动清洗.通过主动与自动方式联合实施针对性标签清洗,以较小的人工标记代价有效降低了标签噪声对模型性能的影响,提高了模型的泛化能力.实验结果表明,与所比较的方法相比,本文所提CCDA方法在不同噪声环境下都取得了更高的分类准确率,而且人工修正标记代价小. 刘昕雨 姜高霞 王文剑关键词:噪声过滤 稳定性 考虑季节及地域的月降水量三层回归模型及应用 2012年 基于不同地域月降水量的特点,采用聚类方法选取两个具有代表性地域的气象数据。将交互结构数据转化为嵌套分组结构形式,从而将地域因素和季节因素作为层次效应纳入分层线性模型(HLM)。据此建立相应的三层线性模型(HLM3),按照模型理论方法进行模型计算、优化和分析以解释层次效应和检验残差。结果表明,各层解释变量(气象因素、季节效应、地域效应)能很好地解释月降水量的差异,定量指导不同地域不同季节月降水量的回归。 朱勇华 姜高霞关键词:月降水量 基于相对离群因子的标签噪声过滤方法 2024年 分类任务中含有类别型标签噪声是传统数据挖掘中的常见问题,目前还缺少针对性方法来专门检测类别型标签噪声.离群点检测技术能用于噪声的识别与过滤,但由于离群点与类别型标签噪声并不具有一致性,使得离群点检测算法无法精确检测分类数据集中的标签噪声.针对这些问题,提出一种基于离群点检测技术、适用于过滤类别型标签噪声的方法--基于相对离群因子(Relative outlier factor,ROF)的集成过滤方法(Label noise ensemble filtering method based on rel-ative outlier factor,EROF).首先,通过相对离群因子对样本进行噪声概率估计;然后,再迭代联合多种离群点检测算法,实现集成过滤.实验结果表明,该方法在大多数含有标签噪声的数据集上,都能保持优秀的噪声识别能力,并显著提升各种分类模型的泛化能力. 侯森寓 姜高霞 王文剑关键词:离群点检测 噪声过滤 基于非均匀采样的相关系数最大化曲线排齐方法 被引量:2 2016年 在函数型数据分析中,为提高曲线排齐效率,提出如下2种非均匀采样方法对函数曲线进行排齐:基于斜率的非均匀采样(SBNS)和基于弧长的非均匀采样(ALBNS).SBNS按照函数曲线的斜率大小采样,ALBNS在函数曲线的弧长上采样.这两种方法都不是在时间轴上均匀采样,而是根据曲线的形状特征进行采样,因此可在一定程度上克服均匀采样方法由于采样点数量和位置分配不当而产生的缺陷,提高曲线排齐效果.在模拟数据和真实数据上的实验表明,两种方法在时间效率和效果上均优于均匀采样方法. 张文凯 王文剑 姜高霞关键词:函数型数据 非均匀采样 弧长