您的位置: 专家智库 > >

于东

作品数:48 被引量:108H指数:6
供职机构:北京语言大学更多>>
发文基金:中央高校基本科研业务费专项资金国家自然科学基金国家社会科学基金更多>>
相关领域:自动化与计算机技术电子电信语言文字艺术更多>>

文献类型

  • 24篇期刊文章
  • 13篇会议论文
  • 11篇专利

领域

  • 33篇自动化与计算...
  • 4篇电子电信
  • 2篇语言文字
  • 2篇艺术
  • 1篇哲学宗教
  • 1篇医药卫生
  • 1篇政治法律
  • 1篇文化科学

主题

  • 10篇自然语言
  • 10篇文本
  • 8篇中文
  • 7篇语言
  • 6篇矩阵
  • 6篇可读性
  • 6篇汉字
  • 6篇抽取
  • 5篇语言处理
  • 5篇自然语言处理
  • 5篇向量
  • 5篇句子
  • 4篇对话管理
  • 4篇汉语
  • 3篇道德
  • 3篇语块
  • 3篇事件抽取
  • 3篇手写
  • 3篇手写汉字
  • 3篇字形

机构

  • 47篇北京语言大学
  • 5篇中国科学院自...
  • 1篇首都医科大学...
  • 1篇中国科学院
  • 1篇中央民族大学
  • 1篇中国科学院大...

作者

  • 48篇于东
  • 11篇荀恩东
  • 5篇贾磊
  • 3篇吕晓晨
  • 2篇江新
  • 2篇饶高琦
  • 1篇吴安石
  • 1篇杨丽娜
  • 1篇冯洋
  • 1篇张永谦
  • 1篇徐波
  • 1篇芮燕
  • 1篇赵艳
  • 1篇田悦
  • 1篇刘春花

传媒

  • 15篇中文信息学报
  • 2篇计算机科学
  • 2篇“文字与信息...
  • 1篇世界汉语教学
  • 1篇中华麻醉学杂...
  • 1篇清华大学学报...
  • 1篇计算机应用
  • 1篇软件学报
  • 1篇语言文字应用
  • 1篇中国科技术语
  • 1篇第十七届全国...

年份

  • 2篇2025
  • 9篇2024
  • 3篇2023
  • 3篇2022
  • 4篇2021
  • 4篇2020
  • 4篇2019
  • 1篇2018
  • 1篇2017
  • 2篇2016
  • 5篇2015
  • 1篇2014
  • 1篇2013
  • 3篇2012
  • 5篇2011
48 条 记 录,以下是 1-10
排序方式:
汉语文本可读性特征体系构建和效度验证被引量:42
2020年
本文研究如何利用汉语文本的语言特征对文本的可读性进行分析。首先从汉字、词汇、句法和篇章四个层面出发,构建了一个预测汉语文本可读性的多层面、多维度特征体系,该特征体系包含13个维度共104项指标。然后以12个年级的语文教材语料库为基础,通过建立机器学习模型考察不同层面、不同维度语言特征的预测能力。实验结果显示:汉字、词汇、句法和篇章四个层面中,基于词汇层面特征的模型准确率最高,基于篇章层面特征的模型准确率最低;13个维度中,预测准确率最高的前5个维度依次为汉字熟悉度、汉字多样性、词汇多样性、短语句法结构复杂度和词汇熟悉度。我们还发现,四个层面语言特征对低难度文本的预测能力均最强。
吴思远于东江新
关键词:语言特征效度验证
自然语言显式命题自动识别和解析方法被引量:1
2021年
自然语言中包含很多显式命题,正确理解这些命题是理解文本信息的关键。正确识别显式命题并解析其中的关键成分有助于理清语言中的逻辑关系、辅助自然语言理解。该文基于百度百科数据构建了自然语言显式命题标注数据集,并提出两个研究任务:自然语言显式命题自动识别和命题关键成分解析。其中,显式命题自动识别任务判断一个自然语言句子是否为命题;显式命题关键成分解析任务从已获取的命题中解析出支撑该命题成立的关键成分。针对任务一,构建基于BERT的二分类模型;针对任务二,构建基于BERT-BiLSTM-CRF的序列标注模型。实验结果表明,模型在任务一的正确率达到74.95%,超过基线模型15.30%;在任务二的F值达到90.74%,超过基线模型17.69%。该文为下一步研究提供了可靠的标注数据集和基线方法。
刘璐彭诗雅玉郴于东
文本可读性的自动分析研究综述被引量:17
2018年
文本可读性问题最初由教育学家提出,初衷是辅助教师为语言学习者推荐适合其阅读水平的文本。随着计算机技术的发展及网页文本的涌现,对文本进行可读性分析有了更加丰富的技术手段和应用场景。该文对可读性自动分析的相关研究进行了梳理,将可读性自动分析的方法总结为公式法、分类法和排序法三类;然后进一步介绍了可读性自动分析中的两项重要内容:文本特征的选择和数据集的使用;最后对可读性研究的发展方向进行展望。
吴思远蔡建永于东江新
关键词:特征提取
基于Word Embedding语义相似度的字母缩略术语消歧被引量:6
2014年
该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系。在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能。该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权。针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%。
于东荀恩东
关键词:WORDEMBEDDING语义相似度
面向人工智能伦理计算的中文道德词典构建方法研究被引量:3
2021年
道德词典资源建设是人工智能伦理计算的一个研究重点。由于道德行为复杂多样,现有的英文道德词典分类体系并不完善,而中文方面目前尚未有相关的词典资源,理论体系和构建方法仍待探究。针对以上问题,该文提出了面向人工智能伦理计算的中文道德词典构建任务,设计了四类标签和四种类型,得到包含25012个词的中文道德词典资源。实验结果表明,该词典资源不仅能够使机器学会道德知识、判断词的道德标签和类型,而且能够为句子级别的道德文本分析提供数据支持。
王弘睿刘畅于东
关键词:道德判断
基于点关联测度矩阵分解的中英跨语言词嵌入
研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题.以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息.分别设计目标函数学习中英跨语言词...
于东赵艳韦林煊荀恩东
关键词:跨语言矩阵分解
基于知网义原词向量表示的无监督词义消歧方法被引量:15
2015年
词义消歧一直是自然语言处理领域中的重要问题,该文将知网(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,该文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,该方法大大降低了词义消歧的计算和时间成本。在SENSEVAL-3的测试数据中准确率达到了37.7%,略高于相同测试集下其他无监督词义消歧方法的准确率。
唐共波于东荀恩东
关键词:《知网》词义消歧
一种基于文图注意力机制的多模态机器翻译方法及装置
本发明涉及机器翻译技术领域,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置。方法包括:将源语言文本输入到训练好的文图生成模型,基于文图生成过程、源语言文本的文本向量、对应的生成图像,得到扩散注意力矩阵;根据翻译...
于东郭雯钰刘鹏远
结合深度学习和语言难度特征的句子可读性计算方法被引量:6
2022年
该文提出了可读性语料库构建的改进方法,基于该方法,构建了规模更大的汉语句子可读性语料库。该语料库在句子绝对难度评估任务上的准确率达到78.69%,相对前人工作提升了15%以上,证明了改进方法的有效性。同时,将深度学习方法应用于汉语可读性评估,探究了不同深度学习方法自动捕获难度特征的能力,并进一步探究了向深度学习特征中融入不同层面的语言难度特征对模型整体性能的影响。实验结果表明,不同深度学习模型捕获难度特征的能力不尽相同,语言难度特征可以不同程度地提高可读性评估模型的难度表征能力。
唐玉玲张宇飞于东
基于领域信息分解式学习的大语言模型修辞认知增强方法
2025年
中文修辞手法多样且概念差异性大,大语言模型对部分修辞手法的认知存在缺陷。针对该问题,该文提出了QAKAG框架,此框架首先引入信息分解式学习思想,通过问答形式检测大语言模型的修辞认知缺陷,然后以四种不同的知识组合方式探究最优信息补充机制,实现了大语言模型修辞认知能力的增强。该文构建了多类别中文修辞句数据集MCRSD和修辞知识库MCRKB,并在ChatGPT4等六个大语言模型上开展实验研究,验证了QAKAG框架对增强大语言模型修辞认知能力的有效性以及其各阶段的必要性。结果表明,在QAKAG框架的增强下,六个大语言模型在多类别修辞识别任务上的性能相较直接回答识别问题的平均F_(1)值提高22.1%,优于Zero-shot-CoT、RAG-BaiKe、Few-Shot5提示策略。
王雯于东刘鹏远
关键词:修辞认知
共5页<12345>
聚类工具0