李成赞 作品数:20 被引量:80 H指数:6 供职机构: 中国科学院计算机网络信息中心 更多>> 发文基金: 国家自然科学基金 国家科技基础条件平台建设计划 中国科学院战略性先导科技专项 更多>> 相关领域: 文化科学 自动化与计算机技术 经济管理 更多>>
基于知识图谱和主题模型的短文本特征增强方法 被引量:3 2023年 【目的】中文短文本具有特征稀疏的问题,构建高质量的短文本特征表示将对文本的分类、推荐等处理具有重要意义。【方法】针对这一问题,本文提出了一种基于知识图谱和主题模型的短文本特征增强模型,借助知识图谱获取外部知识对短文本进行特征扩展,使用主题模型对短文本进行语义挖掘,最后通过向量拼接生成短文本特征增强向量。【结论】本文将提出的方法应用到中文短文本分类任务中,并进行了对比实验,实验结果证明本文提出的方法能够更好地对短文本进行特征表示。 许淞源 李成赞 刘峰关键词:主题模型 知识图谱 基于区块链的农业科学数据溯源应用初探 被引量:4 2020年 农业科学数据是农业科学研究得以持续发展和科学技术不断创新的宝贵资源。农业科学数据溯源目的是为了实现数据的追溯,确保单个溯源记录真实性及记录顺序不会被修改。而区块链具备数据的防篡改、可追溯特性,两者的结合对于农业科学数据溯源具有重要作用。科学数据标识技术将在互联网环境下为科学数据提供便利的访问途径,确保数据溯源信息互联互通,实现对数据全生命周期的跟踪与溯源。针对农业科学数据溯源和标识问题,本文提出了基于区块链的农业科学数据溯源应用方案,通过区块链技术记录数据集的变化和演变过程,在数据使用过程中,可以根据溯源链通过数据标识解析技术对科学数据进行快速寻址定位,并利用科学数据的签名信息检验数据集是否正确。农业科学数据集溯源信息存储到区块链上后,其他节点可从区块链上获取溯源对象的记录信息,进行溯源数据的真实性验证,为广泛的研究人员提供有效地共享和验证科学数据的解决方案。最后本文通过使用科学数据存储库中数据集更新及版本变化过程记录进行了试验验证。 王姝 孙善鹏 樊景超 樊景超 郭志斌 郭志斌 李成赞 李成赞 周园春关键词:区块链 科学数据 全球科学数据出版发展态势分析--基于Web of Science数据库的调研 被引量:14 2021年 科学数据出版是推动科学数据共享,实现科学数据价值最大化的重要方式。本文通过对全球科学数据出版数据进行分析,探求全球科学数据出版发展态势。对Web of Science数据库中的数据论文和数据集记录进行检索,通过数据统计方法从时间、国家/地区、研究方向、出版来源、影响力等维度进行分析。从时间维度看,科学数据出版整体呈现蓬勃发展的态势。国家/地区维度上,美国处于领先地位,中国虽然取得巨大成就,但与美国依旧存在巨大差距。研究方向维度上,科学数据出版在自然科学、社会科学等研究领域均具有重要的科学价值。出版来源维度上,中国虽然科学数据出版数量领先,但科研人员更倾向于选择国外出版物、存储平台进行数据发布。影响力维度上,中国科学数据的影响力与欧美国家存在一定差距。 王卫军 李成赞 郑晓欢 郑晓欢 褚大伟 陈昕 陈昕 杜一关键词:科学数据 数据集 科学大数据开放共享:模式与机制 被引量:30 2017年 文章结合科学大数据开放共享的案例场景,提炼出5种典型的开放共享模式:大科学装置的单源数据共享模式、广域合作驱动的分布式注册模式、基于数据存储库的集中存缴模式、以数据期刊为代表的科学数据出版以及数据集市,并对这些模式进行分析,识别出关键角色及主要共享瓶颈。在此基础上,探讨了数据开放共享激励机制、评价机制、传播机制等关键机制。希望上述研究能够有助于厘清当前科学大数据开放共享的有关现状,并对其未来推进有所裨益。 李成赞 张丽丽 侯艳飞 周园春 黎建辉关键词:数据共享 共享机制 一种数据出版物学术影响力评价预测方法 本发明提出一种数据出版物学术影响力评价预测方法,包括如下步骤:提取数据论文个体的不同时间段的引用次数和引用格式文件下载次数,计算得到不同时间段的引用转化率数据;选择回归模型,根据引用转化率数据,利用曲线拟合方法进行拟合;... 李成赞 杜一RDF在科学数据集成检索中的应用 '十一五'信息化专项建设的数据应用环境中整合了多个领域的海量数据.为了充分发挥共享科学数据的价值,在利用中间件技术将共享科学数据以RDF方式进行集成的基础上开发了面向科学数据的搜索引擎Voovle,以解决共享科学数据统一... 李成赞 沈志宏 李晓东关键词:科学数据 资源集成 搜索引擎 文献传递 我国科技期刊数据政策制定研究 被引量:8 2023年 【目的】提出适用于我国科技期刊的关联数据存缴共享政策模板,为我国科技期刊制定数据政策提供基本要素、结构框架和主要内容参考。【方法】通过文献调研、实证研究等方式,分析我国科学数据管理规范体系,研究梳理国际出版商期刊数据政策、国际组织期刊数据政策框架建议、我国科学数据管理体系等内容,分析我国科技期刊数据政策基本要素。【结果】根据调研分析,提出一套通用型科技期刊数据政策模板,该模板可依据期刊实际需要自由组合、个性定制,可为不同期刊制定数据政策提供参考。【结论】目前已有44种期刊采用此模板,此模板帮助部分科技期刊“从无到有”制定数据政策,有利于论文关联数据的开放共享和长期存储。 张泽钰 姜璐璐 高瑜蔚 李成赞 王鹏尧 周园春关键词:科学数据 科技期刊 全球科学数据仓储平台的建设实践现状与展望 被引量:7 2023年 科学数据仓储平台是支撑开放数据实践的重要基础设施。科学数据仓储平台的建设在全球范围内已有较为广泛的实践,并探索形成了日臻完善的指导原则体系。本文整理了国际主要的数据仓储平台建设原则,并基于re3data的注册平台开展了针对性的调研,分析了现阶段国际科学数据仓储平台的建设实践情况,并重点分析了典型领域专业型数据仓储平台和全学科通用型仓储平台的实践特色。最后,本文重点分析了国际科学数据仓储在可信化、开放化、生态化方面的发展趋势,为我国科学数据仓储平台的建设和发展提供有益参考。 姜璐璐 张泽钰 李宗闻 盖虹羽 王鹏尧 李成赞 周园春关键词:科学数据共享 一种基于图数据库的数据集文件版本控制方法和系统 本发明涉及一种基于图数据库的数据集文件版本控制方法和系统。该方法对数据集文件建立图数据库模型;基于图数据库模型,通过创建节点和关系,以镜像的方式构建新的数据集文件版本;对于新的数据集文件版本,通过构建中间件驱动程序实现文... 王鹏尧 周园春 姜璐璐 李成赞 张泽钰 李宗闻 盖虹羽一种插件式可扩展科学数据文件可视化预览方法及设备 本发明公开一种插件式可扩展科学数据文件可视化预览方法及设备,该方法包括:从消费队列中获取待处理文件,该待处理文件通过对科学数据文件组装得到;在待处理文件对应的文件类型为该插件的目标类型的情况下,消费待处理文件消息,生成预... 王鹏尧 姜璐璐 李成赞 周园春 张良谋 王杨 李宗闻 张泽钰 盖虹羽