耿玉良
- 作品数:6 被引量:24H指数:2
- 供职机构:南京中医药大学信息技术学院更多>>
- 发文基金:上海市教委科研基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文网页聚类系统的研究与设计被引量:1
- 2007年
- 设计中文网页聚类系统是为了便于从动态Web文本集中快速、有效地挖掘知识。该系统以经典聚类算法为基础,通过比较网页相似度,将相似度高的网页聚合,并提交用户界面显示。通过应用模糊数学中的不确定度,表达了样本类属不同的模糊性,从而更为真实地反映客观情况,改善了以往确定归属某一类的不完整信息收集,结果更具客观性。
- 于铁军耿玉良
- 关键词:文本挖掘聚类信息检索网页
- 中文网页聚类系统的设计与实现被引量:1
- 2005年
- 为便于从大量组织松散动态性强的Web文本集合中快速有效地发现知识,提出了一种基于Agent的聚类系统,它以聚类算法为核心,自动聚合相似内容的网页,并最终提交给用户界面显示。通过模糊聚类得到的样本属于各种类的不确定性程度,表达了样本类属的中介性,能更客观地反映现实世界,因而更有效地改善了查询结果,使其更具客观性。
- 于铁军耿玉良
- 关键词:聚类WEB挖掘信息检索中文网页WEB文本发现知识
- 一种可交互的数据清洗系统被引量:11
- 2005年
- 对于各个领域的信息资源而言,数据质量一直是一个非常关键的问题,而现实世界中的数据往往存在着各种各样的质量问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据质量。在归纳总结数据质量问题和数据清洗相关研究的现状的基础上提出一个可交互的数据清洗框架的定义。系统提供了方便、易用的可视化的数据清洗流程定义环境。
- 王咏梅陈家琪耿玉良
- 关键词:数据质量数据清洗系统数据仓库
- 基于遗传算法的模糊聚类在临床决策分析中的研究被引量:2
- 2008年
- 模糊聚类通过样本类属的不确定程度,表达样本类属的中介性。基于遗传算法的模糊聚类,通过遗传算法的全局搜索性能,优化模糊聚类算法的初始聚类原型,再在初始聚类原型基础上利用模糊聚类算法精确求得最优聚类。将其应用于内科腹痛医疗诊断,可有效提高诊断准确率。
- 周金海耿玉良
- 关键词:遗传算法模糊聚类
- 可交互数据清洗系统研究
- 2004年
- 在数据仓库构建和数据集成中,面临着大量的数据清洗任务。要把数据清洗过程做得灵活并不容易,已有的工具过于依赖特定的应用。该文分析了数据质量中存在的问题,数据清洗技术的现状、发展趋势,同时提出了一个可交互的数据清洗框架。
- 王咏梅陈家琪耿玉良
- 关键词:数据质量数据清洗数据集成数据仓库构建
- 中文Web检索中聚类算法的改进被引量:9
- 2005年
- 对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。
- 耿玉良陈家琪王咏梅
- 关键词:文本聚类算法信息检索WEB挖掘