刘英涛
- 作品数:9 被引量:81H指数:6
- 供职机构:重庆理工大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金重庆市教委科研基金重庆市自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 短文本相似度研究及其在微博话题检测中的应用被引量:11
- 2015年
- 针对微博短文本特征稀疏导致文本相似性度量不精确的问题,提出一种基于多视角的微博短文本相似度算法。根据词形相同与词义相近寻找微博短文本中的公共块,以公共块所含词项总数与公共块之间的组合顺序,构建基于公共块序列的语义相似度;利用微博短文本发布时间、转发与评论等信息来修正该语义相似度,形成新的微博短文本相似度算法,度量微博短文本之间的相似性;将新的微博短文本相似度算法融入Single-Pass聚类算法中以检测微博话题。实验结果表明,将该算法应用于微博话题检测时,能够有效降低话题检测的平均漏检率与误检率等,提高了话题检测的质量。
- 黄贤英陈红阳刘英涛
- 关键词:结构化信息语义相似度
- 基于变系数词性空间权值定义的英文句子相似度算法研究被引量:1
- 2015年
- 对短文本中词项按词性进行切分构建词性向量,将词性向量中词项进行归并构建词性空间,首次提出对词性空间的权值进行动态定义。词项在词性空间中映射权值通过词项词频信息和Word Net语义词典得到,短文本之间相似度运算转换为各词性空间相似度协同运算。将改进的文本相似度算法运用于微软研究院释义语料库上,实验结果表明,改进的文本相似度算法使得文本相似度计算的准确率和稳定性有了较大的提高。
- 黄贤英张金鹏赵明军刘英涛
- 一种基于公共词块的英文短文本相似度算法被引量:7
- 2015年
- 短文本相似度计算是自然语言处理方面的研究热点,传统基于词项的文本相似度算法只考虑了词项因素,忽略了词序对短文本相似性的影响。为此提出了一种基于公共词块的短文本相似度计算方法,综合考虑了词项和词序因素,将基于词项重合的重叠相似度算法与公共词块间的词序相似度算法相结合,并采用自适应的加权组合方式得到短文本相似度值。实验结果显示:与传统算法相比,该算法在稳定性和F值方面都具有较好的结果。
- 黄贤英刘英涛饶勤菲
- 关键词:词序相似度算法
- 智能机械办公手
- 本实用新型提出了一种智能机械办公手,工作圆台通过轴承连接智能机械办公手的活动转盘,活动转盘以工作圆台为轴进行运动,活动转盘中心部位连接机械手后臂一端,机械手后臂另一端通过连接栓连接机械手前臂一端,机械手前臂另一端连接活动...
- 刘小洋黄贤英刘英涛
- 文献传递
- 基于类别特征改进的KNN短文本分类算法被引量:24
- 2018年
- KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。
- 黄贤英熊李媛刘英涛李沁东
- 关键词:KNN分类HOWNET
- 短文本分类研究
- 伴随着移动互联的快速发展,越来越多的像微博,微信,短信等短文本信息开始充斥着人们的日常生活。在推荐,舆情等方面,短文本信息的提取也起到越来越重要的作用,文本分类是一种有效的文本信息提取方法,然而由于短文本长度短,矩阵稀疏...
- 刘英涛
- 关键词:信息检索数据挖掘文本分类程序语言
- 一种新的微博短文本特征词选择算法被引量:17
- 2015年
- 针对微博短文本有效特征较稀疏且难以提取,从而影响微博文本表示、分类与聚类准确性的问题,提出一种基于统计与语义信息相结合的微博短文本特征词选择算法。该算法基于词性组合匹配规则,根据词项的TF-IDF、词性与词长因子构造综合评估函数,结合词项与文本内容的语义相关度,对微博短文本进行特征词选择,以使挑选出来的特征词能准确表示微博短文本内容主题。将新的特征词选择算法与朴素贝叶斯分类算法相结合,对微博分类语料集进行实验,结果表明,相比其它的传统算法,新算法使得微博短文本分类准确率更高,表明该算法选取出来的特征词能够更准确地表示微博短文本内容主题。
- 黄贤英陈红阳刘英涛熊李媛
- 关键词:朴素贝叶斯分类算法
- 基于词项语义映射的短文本相似度算法被引量:11
- 2015年
- 针对HowNet语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依据词频和HowNet语义词典,词项完成词性向量中权值映射,将短文本之间相似度运算转换为词性向量之间相似度运算。将该算法运用于信箱测试数据集,实验结果表明,该算法提高了文本相似度运算的准确率和相似度平均值。
- 黄贤英张金鹏刘英涛赵明军
- 结合词性的短文本相似度算法及其在文本分类中的应用被引量:11
- 2017年
- 针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。
- 黄贤英李沁东刘英涛
- 关键词:词性分类准确率