郑燕
- 作品数:3 被引量:25H指数:3
- 供职机构:山东省分布式计算机软件新技术重点实验室更多>>
- 发文基金:山东省自然科学基金国家自然科学基金山东省教育厅科技计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于LDA的新闻话题子话题划分方法被引量:18
- 2013年
- 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.
- 赵爱华刘培玉郑燕
- 关键词:KL距离相似度计算
- 基于增量学习的自适应话题追踪技术研究
- 话题追踪是话题检测与追踪的一项子任务,目的是监控新闻报道流,识别出与已知话题相关的后续报道,是实现舆情监测不可或缺的一部分。本文主要针对传统话题追踪存在的问题做出改进,提出一种基于反馈报道的自适应话题追踪方法,并成功应用...
- 郑燕
- 关键词:动态阈值
- 文献传递
- 基于反馈报道的话题模型动态修正方法被引量:3
- 2012年
- 在话题追踪过程中,由于给定的初始话题相关报道少,而且话题具有动态演变的特点造成话题模型不准确。针对这一问题,提出了利用动态阈值收集反馈报道构造话题修正模型,实现了话题模型的动态修正;同时结合命名实体能够更加有效地区分不同话题的特性,提出了在修正话题模型时增大相关命名实体权重的方法,从而获得更准确的话题表示模型。实验结果表明,该方法能有效避免话题漂移现象,降低话题追踪过程中的漏报率和错报率。
- 郑燕鲁燃赵爱华
- 关键词:动态阈值