张均胜 作品数:58 被引量:207 H指数:10 供职机构: 中国科学技术信息研究所 更多>> 发文基金: 国家自然科学基金 国家社会科学基金 中国博士后科学基金 更多>> 相关领域: 文化科学 自动化与计算机技术 天文地球 语言文字 更多>>
多语言科技语料库建设研究 被引量:1 2015年 多语言科技语料库建设的重要意义在于它能够服务于多语言科技文献信息的组织、科技文献的自动翻译,以及科技文献的情报分析等。科技语料库的建设采用的主要技术方法是运用自然语言处理和计算机处理技术实现语料的采集、自动加工和处理。本文介绍多语言科技语料库建设方面的相关研究工作,主要涉及多语言词表、平行语料的获取与处理,及多语言语法资源的建设等方面的工作成果。研究工作的不足之处在于语料库的数据资源和语法资源的质量和规模有待于提高和完善。 曾文 张均胜 徐红姣 李颖 刘敏 屈鹏 刘丹关键词:多语言 语料库 面向科研想法挖掘的问题——方法组合推荐研究 2025年 [目的/意义]科技论文中包含的问题以及解决方法是描述科学研究成果的重要组成部分,对问题与方法的新组合进行挖掘可以得到科研想法,这些新的想法有可能启发研究者的思路、促进科研创新。[方法/过程]提出一个科研想法挖掘的方案。首先,利用通用信息抽取模型在少样本情况下实现从科技论文中识别问题与方法,建立问题—方法网络。其次,利用基于图神经网络的推荐算法,通过改进推荐算法的排序机制,挖掘问题与方法的新组合作为科研想法。[结果/结论]选取情报学领域的部分代表性期刊进行实证研究,实验结果证实提出的问题—方法组合推荐方案能够挖掘出新的科研想法。改进的基于图神经网络的推荐算法在科研想法挖掘上具有较好的效果。 周则旭 韩红旗 张均胜 张均胜 徐紫燕智慧情报·战略思考--记第68次情报科学读书会 被引量:1 2024年 2024年7月9日下午,第68次情报科学读书会在中国科学技术信息研究所举行。本次读书会的主题为“智慧情报·战略思考”,来自教育和科研一线的读友聚焦人工智能时代情报学的发展变革,共同讨论智慧情报(情报工作智能化)与战略思考相关问题。中国科学技术信息研究所的李孟秋读友分享了美国总统科学技术顾问委员会2024年发布的研究报告“Supercharging Research:Harnessing Artificial Intelligence to Meet Global Challenges”,分享了自己的阅读体会。 李孟秋 张均胜 王忠军关键词:情报科学 情报工作 情报学 读书会 一种科技创新数据的图谱构建方法及装置 本公开公开了一种科技创新数据的图谱构建方法和装置,其中,方法包括:从多类型的科技创新数据源中采集多种类型的科技创新数据;对所述科技创新数据进行实体以及实体关系的抽取,并进行实体的地理信息的识别;根据所述实体关系对不同类型... 姚长青 刘志辉 杨岩 张均胜 张兆锋中心语驱动短语结构语法研究综述 被引量:3 2013年 系统介绍国外中心语驱动短语结构语法(HPSG)的研究成果,包括理论思想的早期建立,形式化处理的后续完善,相关语言技术的实际应用,以及在中文语法设计方面的探索工作,最后根据当前研究趋势展望中文HPSG的应用发展方向。 范子衿 王惠临 张均胜汉语文本中事件之间时间关系分析试验研究 针对文本进行分析,抽取文本中的事件和时间,并建立事件之间的时间关系是对文本内容进行分析和时序挖掘的基础.本文基于ISO-TimeML标准进行汉语文本时间关系解析研究.本研究工作利用TimeBank语料库和前期构建的Chi... 李路标 张均胜 王惠临关键词:汉语文本 语料库 基于科技文献的科技创新供需矩阵构建及评估应用研究 被引量:2 2023年 [目的/意义]通过科技创新供需矩阵构建及矩阵评估研究,探究科技文献集合对应研究领域内科技创新供需状况,发现研究热点,预测研究趋势,辅助研究机会发现.[方法/过程]提出一种基于科技文献的科技创新供需矩阵,并将其应用于科技创新供需状况评估.该方法将科技文献中的研究问题与研究方法映射到需求与供给并形成矩阵表示,对矩阵维度进行组织排序,依据研究问题与研究方法的共现关系开展矩阵供需状况评估.实验结果显示,该方法具有可行性与有效性.[结果/结论]基于研究问题和研究方法对科技文献文本进行细粒度知识单元关联分析,构建科技创新供需矩阵,有助于分析相关领域研究状况,了解研究进展与趋势,发现潜在研究机会. 朱宇寒 张均胜 乔晓东 张吉玉跨语言信息检索研究进展 2014年 文章从研究意义、研究热点和发展方向这三个角度对跨语言信息检索技术进行了较为全面的梳理。关注跨语言检索的含义和研究意义,使我们清晰地看到它从产生到发展的深刻社会需求背景和相关技术背景;关注跨语言检索的关键技术发展,使我们了解该项技术如何将繁多的网络资源用不同的语言提供给需要的用户,如何用可互换的语言形式描述相同或相似内容的信息资源;最后也是最重要的,是跨语言检索技术的未来,研究者们清醒地认识到技术和市场的关系,"从研究到实践",跨语言检索技术还有很长的路要走。建立以用户为中心、快速高质量、资源丰富、实用化多语言信息获取系统是未来的发展目标。 高影繁 王惠临 徐红姣 张均胜 屈鹏关键词:跨语言信息检索 大模型辅助发现新颖科研问题的方法 2025年 [目的/意义]科学研究从问题开始,问题推动研究、引导研究。由计算机生成新颖的科研问题,有利于激发科研人员的创造性思维和创新灵感,辅助科研人员提出新的科研问题。[方法/过程]借鉴基于片段预测的词汇约束文本生成方法,提出一个基于大模型的科研问题生成方法,能根据用户输入的关键词生成新的科研问题,其生成过程包括问题句子抽取、训练数据构造、大模型微调、生成文本处理和科研问题选择等5个环节。[结果/结论 ]选择通义千问Qwen2-1.5B-Instruct作为基座模型进行实验研究,采用约束关键词比例、文本相似性、文本多样性、文本流利度4项指标评估生成文本的效果,采用人工方法评估生成问题的新颖性,并将生成的问题与论文中新提出的问题进行对比,以说明科研问题生成的价值。实验发现,提出的方法能生成可理解的、新颖的、具有参考价值的科研问题;与Bart模型对比发现,大模型(Qwen2)生成的问题文本能很好地包含约束关键词,且在文本多样性方面表现突出。 韩红旗 张均胜 张均胜 吴光TimeML应用于汉语文本时间关系标注的可行性分析 2014年 【目的】对TimeML应用于汉语文本时间关系标注的可行性进行研究并验证。【方法】基于TimeML标准及其主要标签,针对汉语时间表达的特点,探讨主要标签在汉语中的适用性。【结果】虽然汉语语言和英语语言在语法结构和句法结构上存在差异,但是TimeML标准在汉语上的应用是可行的。【局限】英汉语言结构的不同导致在TimeML五个主要标签中涉及语法结构的属性在英汉对译文本之间不能完全平行实现。【结论】TimeML作为英文时间关系标记语言,可以有效地应用于汉语文本时间关系的标注。本研究为汉语文本中事件时序推理及深层次的汉语文本时间关系解析研究奠定了基础。 李路标 张均胜 张寅生 王惠临关键词:汉语