何清
- 作品数:104 被引量:1,637H指数:14
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金北京市自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术理学文化科学经济管理更多>>
- 基于Spark的高效并行自动编码机被引量:1
- 2018年
- 机器学习中一个非常关键的问题就是如何获取良好的数据特征表示,许多经典的特征提取方法是基于数据间关系或利用简单线性组合降维后得到数据的特征表示。其中深度学习算法在各种学习任务中都可以取得良好的效果,而且可以学到很好的数据特征表示。但现有深度学习算法或模型大多为单机串行实现,不能处理较大规模的数据且运行时间较长。本文设计实现了一种基于Spark分布式平台的高效并行自动编码机,该编码机可以有效地进行特征表示学习,并且利用分布式计算平台Spark对算法进行加速,优化了对稀疏数据的操作,大大提升了运行效率。本文通过在文本数据特征学习以及协同过滤两个任务上的实验,表明本文所实现的并行自动编码机的有效性和高效性。
- 庄福振钱明达申恩兆张大鹏何清
- 关键词:SPARK
- 一种采用决策树的数据分类方法和系统
- 本发明公开了一种采用决策树的数据分类方法和系统。所述方法,包括下列步骤:基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;根据所述决策树,对输入的数据记录进...
- 庄福振何清
- 文献传递
- 机器学习与文本挖掘若干算法研究
- 本文研究了机器学习和文本挖掘的若干算法。在第一部分,针对支持向量机对海量数据进行分类遇到的困难,基于拓扑学中的Jordan曲线定理,提出了基于分类超曲面的数据分类方法。这一部分研究工作主要有以下几方面创新: (1)...
- 何清
- 关键词:隐式马尔可夫模型自组织映射概念语义空间语义索引
- 文献传递
- 基于超曲面的多类分类方法被引量:3
- 2003年
- 使用支持向量机对非线性可分数据进行分类的基本思想是将样本集映射到一个高维线性空间使其线性可分 .基于 Jordan曲线定理 ,提出了一种通用的基于分类超曲面的分类法 ,它是通过直接构造分类超曲面 ,根据样本点关于分类曲面的围绕数的奇偶性进行分类的一种全新分类判断算法 ,不需作升维变换 ,不需要考虑使用何种核函数 ,而直接地解决非线性分类问题 .对数据分类应用的结果说明 ,基于分类超曲面的多类分类法可以有效地解决非线性数据的分类问题 ,并能够提高分类效率和准确度 .
- 何清史忠植任力安
- 关键词:支持向量机
- 基于集合效用边际贡献学习的可解释薪酬预测算法被引量:1
- 2024年
- 知识技能对薪酬影响作用视为一种多变量影响下高维元素集合的效用建模问题.深度神经网络为解决复杂问题提供了新的机遇,但针对知识导向的细粒度薪酬预测问题,仍缺乏能够对复杂变量影响下的集合效用进行准确、可解释建模的神经网络结构.为此,提出一种基于边际贡献的增量式集合效用网络(marginal contribution-based incremental set utility network,MCISUN)来拟合元素加入时的效用增量,从而灵活且可解释地建模集合效用.区别于以往基于池化层的排列不变性建模算法,MCISUN构建顺序敏感的中间结果,利用集合的排列不变性实现数据增强,有效提升模型数据效率及泛化性.最后,大规模真实薪酬数据上的实验结果表明所提模型在基于技能的薪酬预测任务上比最先进的(state-of-the-art,SOTA)模型效果提升超过30%.同时,定性实验证明模型能够为技能设置合理的贡献值且发现技能间的关联.
- 孙莹章玉婷庄福振祝恒书何清熊辉
- 关键词:神经网络可解释性
- 综合函数与扩展原理被引量:3
- 1999年
- 本文首先对合情扩展映射的公理化条件的完备性与独立性进行讨论,之后给出了扩展原理的一般形式及合情扩展映射的等价定义。最后,利用综合函数,特别是变维综合函数列。
- 何清李洪兴
- 关键词:综合函数
- 一种并行的垂直交叉网络数据采集方法及系统
- 本发明提供一种并行的垂直交叉网络数据采集方法及系统,方法包括:S1确定采集方式,若是普通URL列表采集方式根据URL列表直接下载待下载网页数据及其元数据,若是垂直交叉采集方式利用交叉关键字列表检索待下载页,并下载该网页数...
- 敖翔何清庄福振
- 文献传递
- 一种大数据分类方法及系统
- 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据...
- 何清吴新宇庄福振敖翔
- 基于超曲面的分类算法研究进展
- 2007年
- 综述了基于超曲面的分类算法,该算法通过区域合并计算获得多个超平面组成的双侧闭曲面作为分类超曲面对空间进行划分.分类超曲面可以有效地解决在有限连通区域分布很复杂的非线性数据多类分类问题,分析了算法准确率与极小样本集的关系,总结了已有成就和最新进展,指出了基于超曲面的分类算法进一步发展的方向.
- 何清史忠植
- 关键词:超曲面
- 幂群的表示与同构提升
- 揭示了幂群及其生成群与拉丁方的联系。以拉丁方作为幂群的一种直观表示,研究了幂群性质在拉丁方中的表现。最后提出了群的同构提升的概念,并讨论了Hopf群与同构提升的联系。
- 何清李洪兴
- 关键词:幂群拉丁方