季晓慧 作品数:15 被引量:287 H指数:5 供职机构: 中国地质大学(北京)信息工程学院 更多>> 发文基金: 中央高校基本科研业务费专项资金 国家自然科学基金 中国地质大学(北京)教学研究与教学改革项目 更多>> 相关领域: 自动化与计算机技术 天文地球 文化科学 电气工程 更多>>
基于知识图谱多跳推理的中文矿物知识问答方法与系统 被引量:5 2024年 已有相关矿物数据库用于存储和查询相关矿物知识,常用的搜索引擎也可以对矿物知识进行查询,但无法回答用自然语言进行提问的矿物问题,查询返回的答案需要进一步筛选。亦有基于知识图谱进行矿物知识问答的相关研究,但只能回答涉及知识图谱中一个三元组的简单问题,无法回答涉及多个三元组的多跳复杂问题。为此,本文提出基于知识图谱多跳推理的矿物复杂知识问答方法,采用ComplEx模型将矿物实体、关系和问句表示为复数向量,以更好地获取相互之间的语义及推理关系。输入矿物问句后,通过Bert-LSTM-CRF获取其中心词,采用基于编辑距离及分词的方法获得中心词的候选实体集合,然后采用全连接网络确定最相关的实体作为推理起点,与矿物问句拼接后通过全连接网络获得当前跳的最相关关系。根据当前跳的起始实体及最相关关系,在矿物知识图谱中获得另一实体作为下一跳的推理起点,并将下一跳的问句更新为原问句,与当前跳最相关关系拼接,以将当前跳的推理信息带入到下一跳推理中,直到获得的最相关推理关系为预定义的结束标识符,推理结束,返回最后一跳的实体为答案,并给出推理路径。采用Python语言,在Tensorflow框架下实现了本文提出的矿物复杂知识问答并与相关模型进行对比,证明了本文方法的有效性。采用前后端分离架构,使用RESTful API、React、Ajax、echarts和Flask等框架和技术,开发了基于知识图谱多跳推理的矿物复杂知识问答系统,为矿物知识获取及相关地质研究提供了平台和工具。 季晓慧 董雨航 杨中基 杨眉 何明跃 王玉柱关键词:矿物 问答系统 知识图谱 基于数据增强和集成学习的矿物图像识别 被引量:7 2024年 矿物识别是地质学研究的一个重要部分,对于资源勘探、岩石分类和地质环境监测都有着重要的意义。然而,传统方法通常依赖人的经验进行主观判断,并且效率低下。近年来,已有许多研究将深度学习的图像分类技术应用于矿物识别,以客观快速地识别矿物,这些研究都取得了一定的成果,但可识别矿物种类有限且精度需要进一步提升。为此本文首先解决了矿物数据集图像数据样本分布不平衡问题,对数据集中矿物图像较少的11个矿物类别采用DCGAN生成矿物图像进行数据增强,对比选择效果更好的方案对数据集进行扩充。其次,为了得到更可靠、精确度更高的识别模型,将ImageNet上表现较好的ResNet、RegNet、EfficientNet和Vision Transformer模型迁移到本文使用的矿物数据集上。针对训练好的基模型排列组合得到11个子模型,分别使用平均软投票法和加权软投票法两种方法进行集成,得到22个集成模型并对其训练得到识别结果,对比22个集成模型的结果选择出精度最高的集成模型。实验结果表明:使用DCGAN进行数据增强,在不同的模型上平均提升了3.12%的准确率,充分证明了DCGAN数据增强的有效性;在所有集成模型中,使用加权软投票法的模型表现较好,其中精度最高的是利用4个基分类模型进行加权软投票得到的集成模型,在扩充后的36种常见矿物数据集上达到了87.47%的准确率。 王琳 季晓慧 杨眉 何明跃 张招崇 曾姗 王玉柱关键词:矿物识别 基于渐进多粒度训练深度学习的矿物图像识别 被引量:3 2024年 近年来,随着深度学习在地学领域中的应用,矿物图像识别变得越来越重要。虽然已经有研究将深度学习应用于矿物图像识别,并取得了一定的成果,但在大规模矿物数据集上的识别准确率仍然有待进一步提高。不同矿物之间可能存在细微的形态、纹理和颜色差异,符合细粒度识别算法特征,但以往的研究中很少有人采用细粒度方法进行矿物识别。所以本文提出了一种基于Next-ViT模型的细粒度矿物识别方法,通过引入渐进式多粒度训练拼图技术,实现对矿物图像的精确分类。首先采用Next-ViT模型作为特征提取器,该模型结合了Transformer结构和卷积神经网络的优势,能够提取到丰富的图像特征;接下来利用随机拼图生成器创建不同粒度级别的矿物拼图,这些拼图包含从细节到整体的多种信息。训练过程中采用渐进式多粒度训练策略,在训练的早期阶段,模型主要关注细粒度的特征,通过学习拼图中的细节信息来区分不同的矿物,随着训练的深入,模型逐渐将注意力转移到更大粒度级别的特征上,学习更加抽象和全局的信息。通过这种方式,模型能够充分利用不同粒度级别的信息,提高矿物识别的准确性。实验结果表明,该模型在常见的36种矿物数据集上取得了86.5%的准确率,有效地提高了矿物识别的准确率。这表明,细粒度识别方法对于矿物识别是有效的。 万成舟 季晓慧 杨眉 何明跃 张招崇 曾姗 王玉柱关键词:矿物识别 矿物大语言模型 矿物大语言模型如图1所示。首先从百度百科、百度问答、维基百科和国家岩矿化石标本资源库爬取中文矿物数据,清洗后将数据结构化为问答对和矿物文档。问答对用于微调开源大语言模型,矿物文档经过格式转换和建立索引后转化为矿物知识库用... 季晓慧 刘成健 杨眉 何明跃 张招崇关键词:矿物 CPU与GPU协同并行的多分量地震数据各向异性叠前时间偏移 被引量:2 2019年 地震勘探工区规模的日益庞大,造成多分量地震数据的各向异性叠前时间偏移算法耗时巨大。目前常用CPU集群方式并行加速该类算法,而集群方法必将导致节点间通信时耗增大;同时受限于CPU结构特点,只能通过扩大集群规模提高加速比。针对上述问题,提出一种基于CPU与GPU协同并行的多分量地震数据各向异性叠前时间偏移算法,利用OpenMP和CUDA实现CPU与多个GPU的协同并行,使用内存映射方法降低I/O耗费;并根据CPU与GPU的结构特点优化地震数据及速度数据的读取和存储方式,分割成像空间以节省算法内存消耗,每次只计算与开启的GPU个数相同条数的主测线,主测线内部采用一个GPU线程对应一道地震数据的偏移计算方法,以充分利用GPU计算能力。应用约29G的实际工区多分量地震数据分别比较不同个数GPU协同CPU并行的加速比,得知使用6个GPU协同CPU对实际纵波及转换波数据进行并行偏移处理时,加速比分别达到444和449。 刘帅 季晓慧 芦俊 荣骏召关键词:各向异性 叠前时间偏移 CUDA OPENMP 大语言模型及其在矿物问答系统中的应用 2025年 大语言模型(LLMs,Large Language Models)具有极强的自然语言理解和复杂问题求解能力,本文基于大语言模型构建了矿物问答系统,以高效地获取矿物知识。该系统首先从互联网资源获取矿物数据,清洗后将矿物数据结构化为矿物文档和问答对;将矿物文档经过格式转换和建立索引后转化为矿物知识库,用于检索增强大语言模型生成,问答对用于微调大语言模型。使用矿物知识库检索增强大语言模型生成时,采用先召回再精排的两级检索模式,以获得更好的大语言模型生成结果。矿物大语言模型微调采用了主流的低秩适配(Low-Rank Adaption,LoRA)方法,以较少的训练参数获得了与全参微调性能相当的效果,节省了计算资源。实验结果表明,基于检索增强生成的大语言模型的矿物问答系统能以较高的准确率快捷地获取矿物知识。 季晓慧 刘成健 杨眉 何明跃 张招崇 曾姗 王玉柱关键词:矿物 问答系统 基于LSTM与XGBoost组合模型的超短期电力负荷预测 被引量:248 2020年 为进一步提高电力负荷预测精度,提出了基于LSTM(longshorttermmemorynetwork,LSTM)和XGBoost(eXtremegradientboosting)的组合预测模型。针对电力负荷数据,首先建立了LSTM预测模型和XGBoost预测模型,然后使用误差倒数法将LSTM与XGBoost组合起来进行预测。采用2016年电工数学建模竞赛的电力负荷数据进行算例分析,结果表明所构建的LSTM和XGBoost组合预测模型的MAPE(mean absolute percentage error)为0.57%,明显低于单一预测模型。将上述方法与GRU(gated recurrent unit)和XGBoost两者组合的预测模型相比较,结果表明所提出的方法具有更高的超短期电力负荷预测精度。 陈振宇 刘金波 李晨 季晓慧 李大鹏 黄运豪 狄方春 高兴宇 徐立中关键词:电力负荷 负荷预测 C程序设计教学中的在线评测系统应用 被引量:5 2014年 讨论了在线评测系统在C程序设计实践教学中的题库建设、随堂及课后练习的题目分类及使用方法、考试方式及分数评定方法等。 季晓慧 张玉清关键词:C程序设计 在线评测 题库 练习 考试 C程序设计教学初探 2011年 从C程序设计的教学实践出发,讨论了C程序设计课堂教学中需注意激发学生学习兴趣、培养学生程序设计思想和现场编程教学等问题,以及实验教学中需注意引入具有一定规模的综合实验和培养学生良好的编程习惯等问题,并论述了培养学生自学能力及综合评价学生成绩的重要性。 季晓慧 严红平 辛晓辉关键词:C程序设计 课堂教学 实验教学 “数据结构”课程教学初探 被引量:11 2009年 文章从数据结构的教学现状入手,讨论了数据结构教学改革的必要性和重要性,给出了课堂教学改革和实验教学改革的具体方案。论述了深化算法设计与分析能力的培养及改革成绩评价体系的重要性,并给出了具体可行的办法。 季晓慧 王群 管建和关键词:数据结构 教学改革 课堂教学 实验教学