王婧
- 作品数:3 被引量:28H指数:2
- 供职机构:吉林大学计算机科学与技术学院更多>>
- 发文基金:吉林省自然科学基金吉林省科技发展计划基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 考虑层数信息的XML文档聚类方法
- 2014年
- 提出了一种层数敏感的XML文档数据集聚类方法CXLI。首先提出结构表概念,消除XML文档的重复和嵌套结构。然后提出考虑层数信息的XML文档基本编辑操作约束。进一步给出考虑层数信息的XML文档间相似性度量方法。最后使用凝聚型层次聚类方法对XML文档数据集进行聚类。在ACM SIGMOD数据集和人工生成的数据集上进行了实验验证,结果表明:在计算时间基本相同的情况下,CXLI方法具有更好的精确度。
- 刘兆军赵浩宇王婧李雄飞李巍
- 关键词:数据挖掘可扩展标记语言聚类层数
- 云计算中的数据放置与任务调度算法被引量:22
- 2014年
- 在海量数据的云计算中,通常面临着数据传输时间长的问题.针对目前大多数数据放置与任务调度算法存在的副本静态性和传输标准精确度的不足,提出了一种动态调整副本个数、以时间作为衡量数据传输标准的数据放置与任务调度算法.该算法根据数据访问频率和存储大小,动态地调整副本个数,一方面减少了低访问率副本对存储空间的浪费;另一方面也减少了高访问率副本所需跨节点传输次数.考虑到节点间网络带宽的差异性,确定以数据传输时间作为传输衡量标准,提高了传输标准的精确度.实验结果表明,除了任务集和网络节点均较少的情况外,该算法均能有效地减少数据传输时间,甚至在任务集合和网络节点较多的情况下,能减少近50%的传输时间.
- 王强李雄飞王婧
- 关键词:云计算数据放置任务调度数据传输数据副本