潘涛
- 作品数:2 被引量:13H指数:2
- 供职机构:广西大学计算机与电子信息学院更多>>
- 发文基金:广西壮族自治区自然科学基金广西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- Nutch中PageRank的并行实现被引量:5
- 2010年
- 针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。
- 梁正友潘涛
- 关键词:PAGERANK算法MAPREDUCE模型机群并行计算
- Nutch中网页排序效果的改进方法被引量:9
- 2010年
- Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。
- 潘涛梁正友
- 关键词:MAPREDUCE模型PAGERANK算法