余旸 作品数:4 被引量:5 H指数:2 供职机构: 北京航空航天大学经济管理学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
Wikipedia中的语义析取 被引量:1 2009年 维基百科(Wikipedia)现有搜索模块采用关键词匹配方式导致搜索效率相对低下.为了提高Wikipedia中的知识获取效率,提出基于链接分析的词间距算法(TDL,TermDistance based on Linkage).利用可扩展的计算模型,通过内部链接结构分析发现词簇,并且引入排序和推荐机制.基于Wikipedia 2009年5月快照数据的实验表明,TDL有效增强了Wiki-pedia知识检索的准确性,经由用户评判检验证实TDL算法能有效提高用户意图识别度达7%. 余旸 林漳希 夏国平关键词:WIKIPEDIA 链接分析 知识发现 开放内容中的知识发现——基于WIKIPEDIA链接分析 被引量:3 2009年 作为世界上最大的开放内容工程,Wikipedia仅其英文版本就拥有超过200万的条目数以及超过1亿的内部链接。目前,Wikipedia中的相关内容查询是采用关键词匹配的方法,其中丰富的链接结构所蕴涵大量的相关信息未充分利用。利用Wikipedia中的内部链接关系析取语义关系,进而提高查询的精度。定义了一种新的算法,使用词条"相容率"(Mutual Awareness Ratio)来描述词间距及对知识空间节点(词条)进行相关度的重新排序,从而重新构造知识空间。实验证明,此算法有效地提高了查询精度与用户满意度。 余旸 林漳希 夏国平关键词:链接分析 知识发现 开放内容空间的Spam页面侦测 2009年 基于链接分析自动侦测Spam页面,提出了一个分阶段机制。采用决策树和链接分析模型对Wikipedia中的所有节点进行Indegree和Outdegree检测,从而产生出一个候选列表,并引入一个启发算法来降低第一类型的错误。设计一个分类器用于分类候选列表,采用TrustRank和SpamRank算法分别从信任种子集和Spam种子集中推算系统页面各自可信概率和Spam概率,从而减少第二类型的错误。然后将产生的候选集合推送至页面编辑,根据编辑判断的结果反馈训练模型,调整权重。结果表明,分阶段侦测模型可自动地侦测Spam页面,其查准率和查全率分别达到78.3%和94%。 余旸 Lin Zhangxi 夏国平关键词:知识发现 基于链接结构分析的主题搜索 被引量:2 2011年 针对目前一般文本搜索引擎采用的关键词匹配方法导致搜索效率相对低下的问题,在分析语义相关性的度量方案基础上,利用Wikipedia丰富链接结构所蕴涵信息,提出基于链接结构分析的主题搜索策略.设计了词条相关性算法,用以描述词间距离,并对词条进行相关度的重新排序.实验中引入用户评价机制,并与传统策略搜索结果进行对比.结果证明,该策略在扩大主题覆盖度的同时保证了较高的用户意图识别度. 余旸 Zhangxi LIN 夏国平关键词:维基百科 网络聚类 知识发现