徐赛赛 作品数:4 被引量:5 H指数:1 供职机构: 上海市公安局 更多>> 发文基金: 教育部“新世纪优秀人才支持计划” 国家科技支撑计划 上海市科学技术委员会资助项目 更多>> 相关领域: 自动化与计算机技术 更多>>
一种挖掘不确定数据频繁模式的深度优先算法 被引量:1 2015年 随着信息技术日新月异的发展,在金融、物流以及天体研究等众多领域,时刻都会产生和记录海量的数据。而多数情况下,这些数据都存在着误差或者仅是部分完整的,数据的不确定性导致传统的数据挖掘方法不再适用于不确定数据。因而提出了一种基于垂直结构的不确定数据频繁模式挖掘算法Pro Eclat。Pro Eclat采用数据集的垂直格式表示,避免了对数据集的多次扫描,使用两阶段模型的频繁项集判断方式,大幅提高了计算效率。实验证明,Pro Eclat伸缩性良好,性能优于同类算法。 徐赛赛 谈飞 简玲 邱卫东关键词:数据挖掘 不确定数据 基于LOCP特征的JPEG2000二次压缩检测 被引量:1 2014年 JPEG2000二次压缩检测,即对图片进行二次JPEG2000压缩的检测,对于分析图像篡改、隐写等有重要价值。文中分析了现有的JPEG2000二次压缩检测算法的优势,结合LOCP特征,提出了一种改进的JPEG2000二次压缩检测算法。该算法对对象图片的高频成分提取LOCP特征,并用支持向量机SVM分类器进行训练和检测。在哥伦比亚大学篡改检测图像数据集上的实验显示,提出的JPEG2000二次压缩检测算法较原有算法有较大提升,并获得了TODO的检测率。 周超 徐赛赛 黄豫蕾 赖骏尧关键词:JPEG2000 SVM分类器 一种挖掘不确定数据最大模式的深度优先算法 被引量:3 2015年 不确定性数据挖掘是数据挖掘领域的研究热点,但其应用于最大频繁项集的算法较少。根据不确定数据挖掘的特点,把挖掘确定性数据最大频繁模式的Gen Max算法扩展到不确定数据中,提出一种U-Gen Max算法。对Tid集进行扩展,在id域的基础上增加概率域,实现垂直数据格式转换。在频繁项集判断方面加入前置判断来剪枝非频繁项集,相比直接计算置信度的方式,降低了计算量。基于栈式结构给出多步回退剪枝新策略,从而避免Gen M ax算法只能单步回退的缺陷。实验结果证明,该算法计算性能良好,可适用于各种情况下的稀疏数据集与支持度较高情况下的稠密数据集。 李雨明 邱卫东 徐赛赛 郭英凯关键词:不确定数据 频繁项集 剪枝策略 置信度 基于GPU的高性能彩虹表生成 被引量:1 2015年 利用时间空间折中思想的彩虹表是针对无盐口令加密算法的强大工具,然而为了生成有一定成功率的彩虹表,链长与链数必须足够大,因而在生成时需要消耗相当长的时间。针对这一问题,提出利用GPU加速彩虹表的生成,即将彩虹链的生成,主要是Hash以及Reduct函数的计算移植到GPU上进行。实验表明该方案能将彩虹表生成的时间缩短至原先的36.9~52.8分之一。 简玲 徐赛赛 邱卫东 郭奕东关键词:彩虹表 GPU GPU通用计算