陈元
- 作品数:3 被引量:2H指数:1
- 供职机构:北方工业大学更多>>
- 发文基金:北京市大学生科学研究与创业行动计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向数据湖存取性能优化的数据并行处理技术研究被引量:1
- 2024年
- 本文围绕数据湖应用背景下海量数据的高性能存取需求,以新型数据存储模型和分布式存储及缓存机制为目标,通过对数据湖存储结构、数据访问模式和数据处理方法进行分析,开展数据湖存取性能优化问题研究。首先,结合数据湖系统中的文件系统存储方式,设计了一种基于列式存储的数据存储结构,并通过索引优化技术提高数据访问速度。其次,针对数据湖中常用的批处理和流处理这两种访问模式,提出了一种基于数据分区和缓存机制的访问优化方案,以提高数据访问的效率和稳定性。最后,针对数据湖在大规模数据情况下更新和增量计算出现的计算时间长问题,提出了一种基于Spark并行计算和分布式文件系统(Hadoop Distributed File System,HDFS)的数据处理方案,以提高数据处理的速度和可靠性。实验结果表明,本文提出的数据湖存储性能优化技术相对于现有方法能够有效地提高数据的存储、访问和处理效率。
- 赵卓峰陈元陈元
- 关键词:存取性能数据分区并行计算索引优化
- 面向结构化数据的数据湖存取性能优化技术研究
- 随着大数据应用的深入和发展,数据湖正成为一种大数据背景下更加灵活、可扩展的数据存储和处理方案。数据湖的出现是为了解决传统数据仓库以及Hadoop为代表的大数据体系无法有效地存储和灵活处理大规模多样化数据的问题。数据湖架构...
- 陈元
- 关键词:存取性能数据分区并行计算索引优化
- 数据爬取工具在智慧旅游中的应用
- 2016年
- 在线旅游近年来取得了长足的发展,各类旅游网站积累了大量数据,获取这些数据进行精细化分析以服务智慧旅游的需要值得研究。设计了使用数据爬取工具获取在线旅游网站数据的应用方案并予以实施,结果表明数据爬取工具可以较为便捷地按需批量获取网页数据,为实现智慧旅游提供基础数据集。
- 叶玮方晓陈元贾俊卿邓文佩
- 关键词:采集器大数据智慧旅游