刘勘 作品数:52 被引量:468 H指数:12 供职机构: 中南财经政法大学 更多>> 发文基金: 教育部人文社会科学研究基金 国家社会科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 文化科学 经济管理 社会学 更多>>
数据可视化的研究与发展 被引量:159 2002年 针对数据可视化是可视化技术在大型数据库的应用中提出的新的数据分析和处理技术。该文介绍了数据可视化的概念和发展状况,然后针对大型数据集介绍了几种数据可视化技术以及它们的代表方法,并对数据可视化和科学计算可视化进行了分析和比较,最后探讨了数 据可视化技术的研究发展方向。 刘勘 周晓峥 周洞汝关键词:数据可视化 数据库 数据仓库 基于句法和语义关联的科技文献“问题—方法”联合抽取模型 2024年 [目的/意义]发现海量科技文献中的研究问题及其对应的研究方法,有助于挖掘科学研究中的热点,促进技术方法的创新,探索知识的演化传播规律。[方法/过程]提出一种融合句法结构和语义关联信息的科技文献“问题—方法”联合抽取模型,模型采用编码器—解码器结构。在编码层,以科技文献的摘要文本为对象,从中抽取SAO三元组句法结构用以表达研究问题和研究方法的关系(即:研究方法—作用于—研究问题),基于SAO三元组构造语义关联图并利用图注意力网络进行编码,再与摘要文本编码融合作为解码器的输入特征;在解码层,通过指针网络基于先抽取的研究方法再抽取研究问题,实现“问题—方法”的联合抽取。[结果/结论]实验结果表明,模型在测评指标及人工测评中均能取得较好的效果,能够提升从科技文献中抽取核心问题和核心方法的能力。 刘勘 李冶 石锴文基于情感增强非参数模型的社交媒体观点聚类 2025年 观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。 刘勘 陈昱 何佳瑞关键词:非参数模型 社交媒体 基于随机森林分类的微博机器用户识别研究 针对网络上机器用户大量散布谣言,发布虚假信息,误导网民舆论,严重影响网络环境的问题,以微博中的机器用户为研究对象,结合其自动化程度高、伪装能力强、信息发布有针对性的特点,从行为模式、微博内容、用户关系和发布平台4个维度分... 刘勘 袁蕴英 刘萍关键词:信息识别 特征向量 文献传递 基于潜在语义索引的科技文献主题挖掘 被引量:4 2014年 提出了一种基于潜在语义的科技文献主题挖掘方法,描述了科技文献的主题挖掘模型。对科技文献集进行预处理,计算特征词权重,构造出词汇-文献矩阵。用改进的LSI算法对稀疏矩阵进行降维得到固定的主题-文献矩阵。取权重最高的主题作为该文献的主题。该方法利用Frobenius范数来规范矩阵,对稀疏矩阵进行降维,可以快速精确地挖掘出科技文献的主题。 刘勘 朱芳芳关键词:潜在语义索引 主题挖掘 基于自动编码器的短文本特征提取及聚类研究 被引量:33 2015年 针对短文本的特点,提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上,引入L1范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性。实验结果表明,将提取的文本特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维、稀疏问题。 刘勘 袁蕴英关键词:特征提取 聚类 基于随机森林分类的微博机器用户识别研究 被引量:21 2015年 针对网络上机器用户大量散布谣言,发布虚假信息,误导网民舆论,严重影响网络环境的问题,以微博中的机器用户为研究对象,结合其自动化程度高、伪装能力强、信息发布有针对性的特点,从行为模式、微博内容、用户关系和发布平台4个维度分析机器用户的特征指标,利用信息熵、内容重复率等8个指标构建微博用户的特征向量,通过随机森林算法设计微博中机器用户的识别模型。最后,在真实的新浪微博数据集上进行验证,结果表明本模型识别机器用户的准确度达到96.7%,可以有效地区分微博中的机器用户和普通用户。 刘勘 袁蕴英 刘萍大型数据库中的数据可视化技术 本文重点介绍了几种主要的对大型数据集的数据可视化技术包括基于层次的技术、基于几何投影技术、面向象素的技术和基于几何投影技术等,这些技术和方法都有进一步扩展和完善的空间,另外大型数据库中数据的可视化技术在未来的数据库开发和... 刘勘 周洞汝关键词:大型数据库 数据可视化 数据分析 数据挖掘 文献传递 基于数据挖掘的课程管理信息系统研究 2012年 本文设计了一个基于数据挖掘的课程管理系统,采用了关联规则、分类、聚类等几种主要的数据挖掘方法,对学生学习过程中各类数据进行分析,挖掘学生成绩与教学过程中各类课堂数据之间隐藏的关系,为教师教学及学生日后的学习提供指导。 刘勘 甘小亚关键词:数据挖掘 课程管理 信息系统 一种对学术论文关键词权值的动态调整方法 1引言人们要想在众多的网络信息中获取对自己有用的信息,就离不开检索系统。对于学术论文数据库检索系统,如中国期刊网(CNKI)、万方数字化期刊、维普科技期刊数据库等,与一般的文本检索、Web挖掘、搜索引擎、新闻检索等都不同... 刘勘 刘萍关键词:TFIDF VSM 文献传递