您的位置: 专家智库 > >

徐宏博

作品数:1 被引量:0H指数:0
供职机构:河南理工大学计算机科学与技术学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇MAPRED...

机构

  • 1篇河南理工大学

作者

  • 1篇赵文涛
  • 1篇孟令军
  • 1篇徐宏博

传媒

  • 1篇电脑知识与技...

年份

  • 1篇2016
1 条 记 录,以下是 1-1
排序方式:
一种基于MapReduce的改进文本输入方式的并行分词方法研究
2016年
中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类,自定义文本输入方式MylnputFormat,并在实现createRecordReader方法过程中返回RecordReader对象。其次自定义MyReeordReader类来说明读取文本〈key,value〉键值对的具体逻辑。最后自定义MapReduce函数实现不同类别文本的分词结果。实验证明,基于改进后的MylnputFormat文本输入方式比默认的TextlnputFormat输入方式,更能处理大量文本文件。
徐宏博赵文涛孟令军
共1页<1>
聚类工具0