江苏省高校自然科学研究项目(2008DX065J) 作品数:5 被引量:27 H指数:2 相关作者: 黄树成 曲亚辉 沙爱晖 李甜 朱霞 更多>> 相关机构: 江苏科技大学 更多>> 发文基金: 江苏省高校自然科学研究项目 国家自然科学基金 江苏省研究生培养创新工程项目 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
一种基于图划分的混合属性数据聚类算法 被引量:2 2013年 实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。 黄树成 李甜 沙爱晖关键词:混合属性数据 图划分 谱聚类 数据流分类技术研究综述 被引量:20 2009年 数据流高速、连续无限和动态的特性使得传统的数据分析和挖掘技术无效或需要改进。以数据流分类为重点,分析了数据流分类中的一些关键问题,综述了典型的数据流分类技术;针对现有方法的不足,给出了应用主动学习和半监督学习的新思路。 黄树成 曲亚辉关键词:数据流挖掘 半监督学习 一种基于网络社团结构和模块化函数的聚类算法 被引量:2 2014年 结合复杂网络社团结构的相关研究,提出一种基于网络社团结构和模块化函数的聚类算法CSMFBCA(Community Structure and Modularization Function Based Clustering Algorithms)。算法通过数据点之间的关系进行融合,形成一定的数据簇,然后定义一个统筹全局的模块化函数,再通过最大化模块函数值,得到最优的聚类结果。实验结果表明,该算法不仅能很好地解决凹形数据聚类以及聚类个数识别的问题,而且能处理权重无向网络的社团发现问题,比现有的典型算法有明显的优势。 沙爱晖 黄树成 李甜关键词:复杂网络 社团结构 聚类 数据流分类变化的分析和检测 2011年 针对主动挖掘和被动挖掘2种典型分类方法的特点,分析实际问题中数据流的基本变化类型及衍生的各种变化情况,证明主动挖掘方法在许多情况下无法有效工作,给出一个有效检测数据流变化的思路。采用主动学习方法,利用有限的资源可以组织高质量的类标数据,降低训练数据的需求量。 黄树成 朱霞关键词:数据流 概念漂移 半监督学习在研究生调剂中的应用 被引量:3 2011年 研究生调剂是研究生招生中的重要环节。传统的调剂方法都是通过手工操作的,考生很难从往年大量的调剂数据中分析出规律,选报合适的学校。提出了基于半监督学习的数据挖掘方法,也即是从已知类别的训练样本提取出其中的关联规则作为分类的监督信息,并结合非监督学习方法中的K-mean聚类算法,对大量未标识样本进行分类的算法,此方法克服了研究生调剂涉及因素繁多,无法准确填报的弊端。该方法实现过程简单,分类准确,可推广性较强。 黄树成 曲亚辉关键词:半监督学习 关联规则 聚类