李翠平 作品数:100 被引量:748 H指数:15 供职机构: 中国人民大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
一种基于约束的多维数据异常点挖掘方法 数据中的异常点常常反映了企业经营中潜伏的问题或暗藏的商机,数据分析人员经常需要从大量的数据中来找出这些异常点.文献[5]中提出了一种从数据中自动发现异常点的方法,将人们从繁重的体力劳动中解放出来.然而,该方法在计算效率和... 李翠平 李盛恩 王珊 杜小勇关键词:联机分析处理 异常点 数据挖掘 文献传递 无线传感器网络中隐私保护通用近似查询协议 被引量:10 2014年 无线传感器网络中实现隐私保护通用近似查询是具有挑战性的问题.文中提出一种无线传感器网络中隐私保护通用近似查询协议PGAQ.PGAQ将传感器节点编号和其采集数据隐藏于设计的数据结构中,在基站构造线性方程组解出直方图,根据直方图具有的统计信息,不泄露隐私地完成Top-k查询、范围查询、SUM、MAX/MIN、Median、Histogram等近似查询.PGAQ使用网内求和聚集以减少能量消耗,并且能够通过调节直方图划分粒度来平衡查询精度与能量消耗.PGAQ协议分为H-PGAQ和F-PGAQ两种模式.H-PGAQ模式使用数据扰动技术加强数据安全性,F-PGAQ使用过滤器减少连续查询通信量.通过理论分析和使用真实数据集实验验证了PGAQ的安全性和有效性. 范永健 陈红 张晓莹 彭辉 李翠平关键词:无线传感器网络 隐私保护 近似查询 数据聚集 物联网 面向传感器网络的隐私保护通用近似查询方法 本发明提出一种面向传感器网络的隐私保护通用近似查询方法,包括如下步骤:通过基站与传感器节点共享的数据结构,将传感器节点的编号和采集数据隐藏于向量之中;聚集节点通过树状路由将向量向基站传送;在基站构造线性方程组,解出带全局... 陈红 范永健 李翠平 张晓莹Co-Training——内容和链接的Web Spam检测方法 被引量:5 2010年 Web spam是指通过内容作弊和网页间链接作弊来欺骗搜索引擎,从而提升自身搜索排名的作弊网页,它干扰了搜索结果的准确性和相关性。提出基于Co-Training模型的Web spam检测方法,使用了网页的两组相互独立的特征——基于内容的统计特征和基于网络图的链接特征,分别建立两个独立的基本分类器;使用Co-Training半监督式学习算法,借助大量未标记数据来改善分类器质量。在WEB SPAM-UK2007数据集上的实验证明:算法改善了SVM分类器的效果。 魏小娟 李翠平 陈红关键词:WEB “数据科学与大数据技术”人才培养模式探讨 针对人工智能、大数据和云计算等新技术和新经济对计算机专业人才培养提出的新要求,探索从传统的以计算为中心的计算机专业教育,向新时代下以数据为中心升级转换,探索计算机工科教育如何加强通识教育,以及大数据、人工智能等专业教育如... 李翠平关键词:计算机专业 课程设置 教学策略 自动术语抽取研究综述 被引量:26 2020年 自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望. 张雪 孙宏宇 辛东兴 李翠平 陈红关键词:文本处理 智能数据分区与布局研究 被引量:2 2022年 大数据时代,数据规模庞大,由数据进行驱动的应用分析场景日益增多.如何快速、高效地从这些海量数据中提取出用以分析决策的信息,给数据库系统带来重大挑战.同时,现代商业分析决策对分析数据的实时性要求数据库系统能够同时快速处理ACID事务和复杂的分析查询.然而,传统的数据分区粒度太粗,且不能适应动态变化的复杂分析负载;传统的数据布局单一,不能应对现代大量增加的混合事务分析应用场景.为了解决以上问题,“智能数据分区与布局”成为当前的研究热点之一,它通过数据挖掘、机器学习等技术抽取工作负载的有效特征,设计最佳的分区策略来避免扫描大量不相关的数据,指导布局结构设计以适应不同类型的工作负载.首先介绍了智能数据分区与布局的相关背景知识,然后对智能数据分区与布局技术的研究动机、发展趋势、关键技术进行详细的阐述.最后,对智能数据分区与布局技术的研究前景做出总结与展望. 刘欢 刘鹏举 王天一 何雨琪 孙路明 李翠平 陈红关键词:数据库系统 动态模糊粗糙特征选取算法 被引量:2 2020年 由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。 倪鹏 刘阳明 赵素云 陈红 陈红关键词:模糊粗糙集 依赖度 基于端到端分布式框架的符号网络预测方法 被引量:3 2018年 社交网络中的链接关系根据其潜在的含义可分为正关系和负关系.若对网络中的链接关系进行正负标注,则可形成一个符号网络.符号网络在社会学、信息学、生物学等多个领域存在广泛应用.针对符号网络中链接关系的正负预测,已经成为当前研究的热点之一.在大数据背景下,随着符号网络规模的日益扩大,符号预测算法的可伸缩性问题日益突出.一些研究者提出了分布式环境下的符号预测方法,使得算法的可伸缩性问题部分得到缓解.但是由于大多数算法采用了服务器-客户端方式的分布式框架,导致问题并没有得到根本上的解决.提出了一种端到端分布式框架(client to client distributed framework,简称C2CDF),相比传统服务器-客户端架构的集中通信模式,C2CDF的各个节点间地位平等,不存在集中通信,集群的带宽瓶颈和压力得以减轻.通过在社交网络正负符号预测、广告点击率预测及森林类型预测这3个不同真实数据集上的实验结果表明:C2CDF能够在拥有更高准确性的同时,获得2.3倍~3.3倍的加速比,而且拥有良好的泛化性,不仅应用在了社交网络正负符号预测方面,也能作用于广告点击预测等其他领域. 赵衎衎 张静 张良富 李翠平 陈红群组最近邻查询方法、第一终端、第二终端和服务器 本发明提供一种群组最近邻查询方法、第一终端、第二终端和服务器,包括:将位置排列信息发送给第二终端;根据所述位置排列信息将第一终端的真实位置和与所述第一终端的真实位置关联的假位置组合成第一位置集合;根据所述位置排列信息生成... 陈红 李翠平 吴云乘 郭若杨 赵丹 梁文娟 吴垚文献传递