赵爱华
- 作品数:3 被引量:22H指数:2
- 供职机构:山东省分布式计算机软件新技术重点实验室更多>>
- 发文基金:山东省自然科学基金国家自然科学基金山东省教育厅科技计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 面向网络新闻的话题检测技术研究
- 随着互联网的飞速发展,网络作为一种新的媒体,成为人们获取信息的重要渠道。面对海量的网络新闻信息,如何快速准确的获取到热点新闻话题,并对这些新闻信息进行有效地组织和分析,是当前信息处理领域研究的重点和热点。话题检测与追踪技...
- 赵爱华
- 关键词:向量空间模型文本聚类相似度计算
- 基于LDA的新闻话题子话题划分方法被引量:18
- 2013年
- 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.
- 赵爱华刘培玉郑燕
- 关键词:KL距离相似度计算
- 基于反馈报道的话题模型动态修正方法被引量:3
- 2012年
- 在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同话题的特性,提出了在修正话题模型时增大相关命名实体权重的方法,从而获得更准确的话题表示模型。实验结果表明,该方法能有效避免话题漂移现象,降低话题追踪过程中的漏报率和错报率。
- 郑燕鲁燃赵爱华
- 关键词:动态阈值