李宁
- 作品数:5 被引量:364H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce的并行PLSA算法及在文本挖掘中的应用被引量:7
- 2015年
- PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。
- 李宁罗文娟李宁罗文娟庄福振
- 关键词:MAPREDUCE语义分析
- 曙光4000A超级服务器
- 孙凝晖孟丹张佩珩马捷冯圣中熊劲安学军严隽琪杨晓君詹剑锋聂华刘淘英赵晓芳傅文彪历军霍志刚侯建如陈明宇焦丽梅苗艳超王磊刘涛吴冬冬冯高锋李蕾李博刘学照刘新春江先阳高文学赵延波王晖赵毅邵宗有曾宇李宁
- 曙光4000A超级服务器峰值运算速度达到每秒11万亿次浮点运算(11.264TFLOPS),LINPACK运算速度超过每秒8.06万亿次浮点运算,在2004年6月22日公布的全球高性能计算机TOP500排行榜中位列第十,...
- 关键词:
- 关键词:高性能
- 大数据下的机器学习算法综述
- 随着产业界数据量的爆炸式增长,大数据(Big Data)概念引发的热情也越来越高涨。产业界需求与关注点发生了重大转变:企业关注的重点转向数据,计算机行业正在转变为真正的信息行业,从追求计算速度转变为关注大数据处理能力,软...
- 何清李宁罗文娟史忠植
- 关键词:大数据聚类
- Space文件系统安全可靠机制的研究与实现被引量:1
- 2008年
- 首先通过对传统文件系统在安全可靠方面存在的问题进行研究分析,然后提出了一种基于Linux操作系统的文件系统安全可靠机制,即将操作系统安装在相对独立的物理空间中,与其他应用软件在物理空间上分隔开来,同时将安装操作系统的物理存储介质限定为只读方式,使所安装的操作系统在物理层上不可被改写,从而达到安全可靠;同时将用户空间在物理上与系统空间相互隔绝,当用户需要安装软件或保存各种文档时,可以透明地存储在该空间中。透明是指对用户来说,看到的文件系统视图或在操作方式上与传统操作系统完全相同,感觉不到底层系统空间和用户空间的存在。同时,详细描述了提出的SpaceFS文件系统的设计原理和实现细节,最后通过对其进行充分的测试数据,得出了在不损失系统性能的基础上保证了安全可靠的结论。
- 刘金刚李宁
- 关键词:LINUX安全可靠
- 大数据下的机器学习算法综述被引量:356
- 2014年
- 随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注.由于大数据的海量、复杂多样、变化快的特性,对于大数据环境下的应用问题,传统的在小数据上的机器学习算法很多已不再适用.因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题.文中主要分析和总结当前用于处理大数据的机器学习算法的研究现状.此外,并行是处理大数据的主流方法,因此介绍一些并行算法,并引出大数据环境下机器学习研究所面临的问题.最后指出大数据机器学习的研究趋势.
- 何清李宁罗文娟李宁
- 关键词:大数据聚类