上海市自然科学基金(09ZR1409500)
- 作品数:2 被引量:4H指数:1
- 相关作者:孙蕾钱江许志坚更多>>
- 相关机构:华东师范大学更多>>
- 发文基金:上海市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于数据富集区域的Web内容自动抽取
- 2013年
- 对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。
- 许志坚孙蕾
- 关键词:树匹配数据记录
- 基于Hadoop的朴素贝叶斯算法在中文微博情感分类中的研究与应用被引量:4
- 2015年
- 通过对文本情感分类的研究,考虑微博文本信息的篇幅短小、情感符号丰富及大量网络词汇的特点,提出一种适用于中文微博情感分类的基于Map/Reduce的分布式朴素贝叶斯算法。算法通过构建适用于微博文本的情感词典来完成情感特征属性的提取,以期达到较为理想的分类效果。实验结果表明,这种方法能够很好地适用于微博情感分类,达到较理想的分类效果,满足针对海量的微博文本数据处理的可行性与高效性的需求。
- 蒋婉婷孙蕾钱江
- 关键词:情感分类HADOOPMAP/REDUCE朴素贝叶斯