王昊
- 作品数:222 被引量:1,240H指数:18
- 供职机构:南京大学信息管理学院更多>>
- 发文基金:国家社会科学基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:文化科学自动化与计算机技术电子电信经济管理更多>>
- 融合语义增强的社交媒体虚假信息检测方法研究被引量:16
- 2023年
- 【目的】通过构建自动化检测模型有效识别社交媒体中的虚假信息,探讨如何解决人工识别、单特征机器学习等现存方法难以兼顾海量数据处理的速度与准确性的问题。【方法】本文以新浪微博社交平台为研究对象,以单一文本特征BFID模型作为实验基准模型,提出两种融合语义增强的虚假信息检测方法。【结果】以单一文本特征BFID模型的结果为基线,本文提出的融合情感特征的BFID-SEN模型在虚假信息识别的部分准确率上提升约1.59个百分点;融合图片特征的BFID-IMG模型通过结合深度残差网络ResNet,在虚假信息识别的部分准确率上稳定提升约0.78个百分点。【局限】由于融合情感特征的语料数量、情感类别与多模态虚假信息数据集有限,模型训练不充分,因此语义增强的融合效果有限。【结论】本文提出的两种融合语义增强方法均能在一定程度上更好地识别虚假信息。
- 王昊龚丽娟周泽聿范涛王永生
- 关键词:虚假信息多模态情感分析
- 在线音乐歌单播放量预测及影响因素分析被引量:3
- 2021年
- 【目的】通过预测歌单播放量并探究影响播放量的因素,帮助甄别歌单的优劣,方便在线音乐平台对歌单质量进行把关。【方法】利用爬虫获取网易云音乐歌单的数值特征和文本特征,采用Word2Vec和BERT对文本进行预训练,然后分别建立RF、XGBoost、DNN模型对歌单播放量进行多组预测对照实验。【结果】DNN模型的预测准确率要高于RF和XGBoost模型,歌单的初始播放量、评论、收藏、转发数对播放量的影响最为显著,而文本特征会使预测准确率下降。【局限】受到网易云音乐歌单推荐每日更新这一不可控因素的影响,只获取了歌单12h后的播放量数据。【结论】通过构建播放量预测模型,可以帮助在线音乐网站对歌单优劣进行初步判断。
- 刘渊晨王昊高亚琪
- 关键词:DNN
- 我国心理学期刊h指数分析被引量:2
- 2010年
- 本文以CSSCI(1998~2007)引文数据为基础,计算了14种中文心理学学术期刊的h指数,并从h指数排名、与绝对被引次数和相对影响因子的对比以及Hirsch核心等方面对计算结果进行深入分析。
- 王昊陈凤娟李轩
- 关键词:H指数心理学
- 融合音频特征的古籍文本分析研究
- 2025年
- 【目的/意义】将古籍的文本特征和语音特征进行融合,以多模态的方式对古籍进行分析研究。【方法/过程】首先利用BERT对文本特征进行提取,MFA语音强制对齐模型和Librosa音频处理工具对音频特征进行提取;然后,在多模态融合层对文本特征和音频特征进行融合;最后,将融合特征输入BiLSTM-CRF层进行标签预测并输出结果,构建融合音频特征的古籍文本分析模型TAMAF。【结果/结论】融入合适的音频特征后,所提模型在4个下游验证任务中的表现均优于基线模型。其中,断句效果最高提升了8.54%;分词效果最高提升了0.21%;命名实体识别效果最高提升了0.97%;词性标注效果最高提升了0.85%。本文提出的TAMAF模型具有一定的优越性,能够有效捕捉模态间的交互关系,提升对古籍的处理效果。【创新/局限】语音处理领域还有表达其他物理意义的音频特征可以融入模型进行探究分析。此外,可以在更广泛的数据集更好地对音频和文本特征进行融合交互。
- 龚成楷王昊李晓敏孟序阳
- 关键词:音频特征多模态融合文本分析
- 基于本体的CSSCI学术知识地图构建研究被引量:5
- 2009年
- 本文试图借助本体对学术知识单元及其关系的语义描述能力,将CSSCI中的各类学术资源以面向对象的形式联系成一个整体,构建CSSCI学术知识地图。其实质是在本体概念模型的指导下,实现对学术资源数据的语义标注,完成领域内的知识描述。
- 王昊杨建林
- 关键词:本体语义标注
- 全评价视域下面向我国学术成果评价工作的学术知识图谱构建方案研究
- 2025年
- 利用大数据等技术手段全面认知学术成果的多元价值成了近年来我国学术成果评价工作的重要目标,学术知识图谱作为一项渐趋成熟的语义组织技术为该目标的实现提供了新的实践思路。本研究首先在全评价体系框架的指导下对不同维度评价研究场景中的信息组织需求进行梳理,并对学术知识图谱应用于成果评价工作的可行性进行理论分析,其次在场景化信息需求的指导下分别从内容和技术层面提出面向学术成果评价场景的学术知识图谱构建框架,最后结合当前我国学术评价改革背景提出针对性的图谱构建策略,以期为我国学术成果评价辅助工具的开发与实施提供参考,为学术成果评价工作的开展提供更为全面和准确的数据支持,从信息组织的角度推进我国学术成果评价工作的改革与发展。
- 王左戎邓三鸿宋欣雨杨文霞王昊
- 关键词:学术评价知识图谱信息组织
- 基于汉字多模信息与象形视觉对齐增强的古籍文本命名实体识别研究
- 2025年
- 古籍的语义解析与人文计算是建设文化强国的重要组成部分,而古籍文本命名实体识别(named entity recognition,NER)是开展后续古籍知识发现与组织的前提和基础,设计一种适用于简体化文言文特性的命名实体识别模型具有重要的研究意义。汉字本身具有大量象形特征的视觉信息与发音信息,这些更贴合汉字发展历史的知识能够为识别古籍中的实体提供更多的信息以提高模型性能。基于此,本文构建了基于多模态汉字象形表示的GMAE-NER(guwen multi-information alignment enhanced NER)模型,该模型创新性地提出了汉字象形层面里图像与笔画信息的多模态特征处理和对齐方法,实现了将BERT(bidirectional encoder representations from transformers)表征与汉字视觉信息、发音信息相融合,有效增强了古籍文本命名实体识别的效果。本文将模型在纪传体史书《后汉书》上进行了大量的实验与对比,发现相较于基线模型,GMAE-NER在各个类别实体识别的F1指标上均得到了1.32~15.00个百分点的提升,并且能更好地识别出古籍文本中重叠表述的实体,消融分析结果也充分证明了该模型中视觉编码、发音编码与特征融合模块的有效性。
- 郑旭辉王昊裘靖文
- 关键词:中文命名实体识别汉字字形
- 领域术语层次关系的确定方法、装置
- 本申请的实施例提供了一种领域术语层次关系的确定方法、装置。该方法包括:获取目标领域内的至少两个术语,以及各个术语所对应的定义文本;基于所述定义文本,构建关键词矩阵,该关键词矩阵用于表征定义文本中的关键词特征,对所述关键词...
- 张卫王昊
- 基于细粒度深度学习文本分解的感知价值受人格影响研究
- 2024年
- 【目的】运用深度学习方法分析用户生成内容,探究顾客感知价值如何受其人格影响。【方法】提出基于群体知识与细粒度文本分解的研究框架。首先,利用主题模型挖掘商品或服务的感知因素框架用于分解评论,改进的Doc2Vec-IOVO多分类策略计算细粒度的感知价值分数,并基于NLP深度学习模型测量用户大五人格。其次,研究人格对感知价值的影响,采用多种方式分析人格的影响力差异。最后,研究提出人格指标用于预测的价值。【结果】改进策略多级情感识别效果最高准确率达96.50%,相较基准提升18.28个百分点。融入新特征的人格识别准确率最高提升2.66个百分点。神经质、外向型、尽责性与开放性对感知价值有显著影响,神经质为负向影响,其余为正向影响,外向性与神经质的影响力强于其他人格,且利用人格指标使得准确预测用户行为提升3.82~7.72个百分点。【局限】训练数据局限于James英文意识流数据集,缺乏其他语种与领域的数据。【结论】本文提出的细粒度感知因素挖掘评分与基于文本的人格识别方法,可替代问卷调查法,以高效、低成本的方式帮助商家分析用户心理,并预测感知倾向,调整经营策略。
- 郑旭辉王昊宋华宋华
- 关键词:自然语言处理感知价值
- 基于社会网络分析的我国图书馆大数据研究的内容关联分析被引量:2
- 2017年
- 基于CSSCI期刊的刊载论文,采用社会网络分析方法对我国"图书馆大数据"领域相关学术对象的内容关联特征及其变化进行了深入探讨和详细分析。在关键词网络中,词间关联非常稀松,但关键词的控制能力以及独立性都较强,经过一段时间的发展融合,资源、技术、服务成为该领域的主要研究方向。在期刊网络中,各期刊在研究内容的选择上并没有太大区别,《情报资料工作》《图书与情报》《情报理论与实践》和《图书馆建设》处于较核心的地位。学者网络也较为松散,研究共性不突出,核心学者也不突出。总体来看,目前我国"图书馆大数据"研究还处于初级阶段,"服务"是当前研究的主要方向,"技术""资源"研究还没有形成一定规模,呈现出重理论、轻实证,重想法、轻方法,重服务、轻技术的典型特点。
- 张小琴孙承军王昊
- 关键词:大数据图书馆社会网络分析