化柏林 作品数:113 被引量:1,400 H指数:21 供职机构: 北京大学信息管理系 更多>> 发文基金: 国家社会科学基金 国家自然科学基金 中国博士后科学基金 更多>> 相关领域: 文化科学 自动化与计算机技术 经济管理 政治法律 更多>>
语法开发平台的关键技术实现 2006年 对语法开发平台中算法性很强的功能模块进行了算法剖析,包括句法结构线性表达的分析算法,规则与词典的提取算法,成分结构树图与功能结构集图的生成算法,成分结构与功能结构的转换算法。最后对系统作了简单的功能测试。 化柏林 王惠临数据中台在科技情报中的应用 被引量:1 2022年 随着数据资源的不断积累与信息化建设的不断推进,在传统烟囱式IT建设方式下,科技情报机构独立采购或自建的各种信息系统,在内部形成诸多数据孤岛;而在互联网、移动互联背景下,各种APP、服务号、小程序、O2O平台等新模式下产生的外部数据与传统系统的内部数据无法互通,这进一步加剧了数据孤岛问题。系统的多样性、多态性,数据的多源性、异构性增加了IT架构的复杂度。为解决系统平台底层数据打通与适应快速部署应用的需求,科技情报领域开始重视数据中台的建设与应用。大数据的兴起与人工智能的新发展,给向来重视数据基础以及情报与智能密切关系的情报学带来了新的机遇与挑战,并于最近10年来形成了一些新的模式,渐渐成为情报学的主流,典型的有:基于事实型数据的工程化情报、计算型情报、快速响应情报以及情报3.0。这些情报理论研究的探索为数据中台在科技情报中的应用提供了理论基础。在这些模式的指导下,众多科技情报实践机构在实践领域也产生了一些紧扣时代特点、富有数据特色的情报分析业务系统。中国科学技术信息研究所、中国科学院文献情报中心、北京市科学技术情报研究所、上海科学技术情报研究所、湖南省科学技术信息研究所等情报机构以科技文献、科技管理统计数据、政策文本、科技新闻等数据为基础建立了一系列科技查新系统、科技动态监测、科技统计填报系统、科技决策剧场等情报业务系统,这些系统既有按传统模式建立的独立系统,也有打通了一些多源异构数据、初步运用了数据中台或大数据理念的集成决策系统。同时,数据中台在阿里巴巴、华为等大数据公司的成功应用为科技情报界探索与建设数据中台提供了良好的业务实践与经验参考。数据中台在科技情报领域的应用与建设既有坚实的 化柏林 陈丹蕾 汪大锟关键词:科技情报 情报系统 从IPO分析未来的搜索引擎 本文主要从搜索引擎的爬行范围、对网页内容的分析处理以及用户查询接口三个方面分析了搜索引擎的最新进展,并根据技术发展的规律以及人机交互的需求对搜索引擎的信息采集、信息分析、信息提供三大处理过程和支撑资源的建设等方面的发展作... 化柏林关键词:搜索引擎 信息抽取 知识获取 自然语言处理 多媒体 文献传递 文本数据的增强方法研究综述 被引量:1 2025年 【目的】梳理文本数据增强的方法与体系,揭示其发展现状与趋势。【文献范围】以“textual data augmentation”“text augmentation”“文本数据增强”和“文本增强”为关键词在Web of Science、Google Scholar和中国知网等数据库检索,筛选出代表性文献88篇。【方法】从操作对象、实现方式、生成结果多样性等角度总结文本增强方法,在此基础上对各种方法的颗粒度、优缺点、适用场景等进行详细对比。【结果】文本增强方法可以划分为基于文本空间和基于向量空间的增强方法,前者直观可解释,但可能会破坏文本的整体语义;后者能够直接操纵深层的语义特征,但计算复杂度更高。现有的增强方法往往需要依赖启发式规则和任务信息等外部支持,深度学习算法的引入能够提升生成数据的新颖性和多样性。【局限】主要对已有方法的技术细节及性能特质进行结构化分析,未量化地统计平台工具的开发情况。基于筛选后的文献进行综述分析,尚未涵盖文本增强方法的全部应用场景。【结论】未来应进一步探讨和完善文本数据增强方法的测评指标,通过提示工程提高增强方法在不同下游任务中的稳健性,利用检索增强生成和图神经网络应对长文本、低资源挑战,激发文本增强技术在自然语言处理领域的应用潜力。 冯冉 陈丹蕾 化柏林关键词:自然语言处理 语法规则 抄袭检测系统将给中国学术界带来的变化 被引量:7 2009年 学术抄袭是个敏感的话题,加强管理、强调自律等措施发挥着重要作用。然而,利用技术手段解决学术抄袭也是一个重要举措。清华同方(中国知网)研发的学术不端检测系统、武汉大学沈阳副教授研发的ROST反剽窃系统、笔者研发的文章自写度测评系统ANES-SM等,运用不同的技术手段来解决学术抄袭检测的问题。 化柏林 关增建关键词:学术界 清华同方 测评系统 基于过程范式的网络信息采集与获取方法研究 被引量:5 2013年 基于过程范式对网络信息采集与获取方法进行归纳,包括信息查找、信息下载、信息提取3个过程,并对每个过程中的常用方法进行总结与归纳。 化柏林关键词:信息采集 信息检索 信息提取 大数据环境下的多源融合型竞争情报研究 被引量:75 2015年 大数据给情报工作带来了新的机遇与挑战,如何构建一个适用于大数据环境下竞争情报工作过程的情报方法体系,是当前情报研究适应新环境的关键所在。文章从数据环境、业务需求以及流程对比三个角度剖析了大数据环境下竞争情报的特点,提出大数据环境下的多源融合型竞争情报。通过分析发现,多源融合型竞争情报不仅仅是多源信息融合,还包括分析方法等方面的多层次融合。 化柏林 李广建关键词:大数据 多源信息融合 竞争情报 情报分析 从棱镜计划看大数据时代下的情报分析 被引量:23 2014年 棱镜计划自被曝光之日起,就受到了世界各方面的广泛关注,而大家关注的焦点主要集中在个人隐私与保护上,其实棱镜计划针对哪些大数据、通过哪些分析、实现了何种战略目标,更值得关注与讨论。文章从情报分析的视角剖析了棱镜计划的数据基础、分析过程与方法、实施目标,进而对大数据时代下的情报分析进行探讨。 化柏林关键词:大数据 情报分析 情报转化理论(下)——从信息到情报的转化 被引量:24 2012年 通过诸多实例分析发现,情报的来源是信息而不是知识。信息分析是信息转化为情报的重要路径,信息分析的过程需要知识的支撑。对信息转化为情报的类型归纳总结为:去伪存真型分析、对比分析型、见微知著型分析、由此及彼型分析、化零为整型分析等五类途径,通过这些分析把信息转化为情报。 化柏林 郑彦宁关键词:情报 知识转化 中国科协青年科学家论坛 2007年 2006年12月27日至29日,经中国科协批准,由中国科学技术情报学会、中国科学技术信息研究所(以下简称中信所)主办,黑龙江大学信息管理学院承办的青年科学家论坛第126次活动在哈尔滨举行。 张新民 化柏林关键词:青年科学家论坛 中国科协