智能文本分析与知识图谱构建一体化平台
数字人文研究中工程学思维与文学思维的融合——关于"古典戏曲文本分析与智能再造平台"的建设经验
当前戏曲相关数字人文研究有两种路径,一是作为客体套用成熟工具和范式,二是作为主体建设数据库,应用知识图谱开发,及结合前沿技术的活化利用设想与实践,但智慧数据的缺乏导致戏曲相关数字人文研究,活化利用难以大规模实现.武汉大学文化遗产智能计算实验室正在搭建中的"古典戏曲文本分析与智能再造平台"以戏曲作为主体,以内容为中心聚合戏曲文献和文物的智慧出版及活化利用相关技术,旨在借助平台汇集戏曲类智慧数据,就其活化利用进行有益尝试,也将有利于俗文学的本体研究.基于平台建设经验,可以发现数字人文项目实践秉承"工程师"分解,实现,量化的思维,因而文学的数字人文研究需要先转化文本中可被量化的要素,借助工程学的理论,模型,后以传统研究的"艺术家"思维进行阐释.数字人文研究融合两种思维,可取"细读""远读"之长,在中观角度重审研究对象.基于多模态知识图谱的智能教学辅助平台的设计与实现
知识图谱(Knowledge Graph)作为表述知识结构关系的关键技术,自提出以来在各领域中被广泛应用.在教育教学领域,多源异构的教学数据存在复杂的结构关系.以知识图谱为载体,结合多种人工智能处理技术构建教育领域的多模态知识图谱智能应用具有重要的研究价值和现实意义.基于多模态知识图谱的智能教学辅助平台(后文简称:多模态教学辅助平台)是围绕多模态知识图谱技术,构建融合多源视频,语音和文本的教学辅助系统.系统的实现通过YOLOv3-tiny完成课堂学情的实时监督,利用Paddle OCR和Deep KE构建细粒度知识点图谱.通过构建对数几率回归模型将教学视频自动切分,并实现图谱中细粒度知识点,视频教学,课堂学情等多模态数据的链接与映射,从而完成"智能学情分析","多维度量化考核","知识图谱热力图","个性化题库生成"和"学情劣化定界定位"等多模态综合应用.多模态教学辅助平台不是单一模态的推理与应用,而是多模型,多模态的协调工作,涉及到算力,推理实时性,任务调度等诸多问题.论文从知识图谱构建,多模态教学数据处理和智能教学应用构建与部署三个方面进行介绍.多模态教学辅助平台的设计与实现主要内容如下:(1)课程知识图谱的构建:基于Deep KE框架,完成概念性知识数据的实体抽取,从而为多模态数据生成链接锚点.根据实体关系文本数据集标注实体关系.将实体关系集载入Deep KE训练,生成实体关系抽取模型.分析命名实体识别(Named Entity Recognition,NER)和关系抽取(Relation Extraction,RE)在测试集的结果数据,从而研究知识概念实体作为图谱节点的实际应用效果.(2)多模态处理与链接:在课堂教学中的视频线分为两个部分,教师授课的视频线和学生听课的视频线.两条视频线中涉及3种模态,分别是多源视频,文本和音频.三种模态在某个时间窗口内都是围绕一个细粒度的实体锚点,但是所表达的内容是不同的,学生视频模态中包含学生上课的学习动作状态数据,教师音视频和多源文本模态包含对某个锚点的深度描述.因此基于已经构建的课程知识图谱,需要将上述多源异构信息分别处理,然后准确链接并挂载到相应的知识锚点上.(3)多模态教学辅助平台的设计与实现:基于多模态的知识图谱锚点,将多模态信息整合,从而构建一个基于多模态知识图谱的智能教学教辅平台.包括学情劣化定界定位,学情热力图分析,多维度量化考核与评价等多种功能的设计与实现.多模态教学辅助平台的构建,有利于学生梳理知识结构关系,简化数据处理流程,有利于教师动态监测学情数据,量化分析教学成果,展示学习数据和制定个性化学习方案,解决了"教"和"学"过程中的数据组织,量化和展示的问题,为智慧教育落地实践提供了具体的应用思路和解决方案.铁路人工智能审计平台构建与关键技术研究
铁路各领域信息化建设累积下来海量数据,如何有效地将数据转化为信息,进而得出审计线索已成为审计领域亟需解决的重要问题.随着大数据与人工智能技术迅速发展,智能审计成为推动审计工作价值升级的重要方向,但铁路智能审计刚刚起步,缺乏基础性支撑平台.针对该问题,面向铁路企业内部智能审计全流程开展需求分析,提出铁路人工智能审计平台构建方案,设计铁路人工智能审计平台系统架构和功能架构,研究票据识别,文本分析,知识图谱以及数据挖掘等铁路人工智能审计平台相关关键技术.铁路人工智能审计平台既可以独立为铁路审计业务提供智能服务,也可以赋能其他审计信息系统及应用,对于进一步提高铁路企业内部审计的工作效率,实现对审计重点关注领域和关键风险点常态化,持续性的动态监督具有重要意义.基于知识图谱的技术功效图自动构建及其应用研究
技术创新是企业间竞争的重要砝码,对企业发展的支撑作用日益明显。了解所在领域的技术竞争态势和专利布局,并在此基础上,确定自己的技术创新思路,研发核心技术,进行有效的专利组合布局,是企业面临的重要课题。专利是企业技术竞争情报获取的重要来源,通过对专利信息的分析挖掘,可以了解领域技术发展趋势、市场竞争态势,以支撑正确的决策等。专利分析有定量分析、定性分析和拟定量分析,专利地图是专利分析的可视化展示工具。专利技术功效图是专利地图的一种,采用定量与定性相结合,是一种拟定量分析方法。它以横轴表示技术类别、纵轴表示功效类别(纵横轴可交换)、交叉点表示相应专利数量,通过矩阵方式展示领域专利的内容和布局,可用于对专利进行技术层面深度分析。目前技术功效图的研制还是以人工为主,包括技术和功效词的标引、技术功效列分类、制图等,此方式的人力成本高,制作周期长。已有自动或半自动化构建的探索,但多是局部过程的优化,分析粒度较粗,鲜有系统化的研究,缺乏令人满意的研究成果和产品。因此需要对技术功效图自动构建全过程进行研究,实现最大程度的自动构建,从而提高构建效率,降低人工成本。本文的研究内容和思路是通过调研技术功效图构建、知识抽取和知识图谱构建等技术的国内外研究进展和相关的理论技术基础,分析现有技术功效图构建方法的不足,提出自动构建的需求;根据技术功效图的要素分析和所需知识点在专利文献中的分布特征及句法特征,提出技术主题、应用领域、功效等知识的抽取策略;设计面向技术功效图自动构建的专利知识图谱语义模型,结合抽取的知识和汉语科技词系统中的知识进行专利知识图谱构建;设计基于知识图谱进行技术功效图自动构建模型和流程,并开发原型,进行实证分析:最后,基于自动构建效率高的特征,拓展了跨领域技术借鉴和相似专利检测两种应用模式。本文主要创新点如下:(1)设计了面向技术功效图自动构建的知识抽取策略。在系统研究技术功效图构成要素、构成原理、构建模式、专利知识点分布特征和句法特征的基础上,设计了各类知识相应的抽取策略。综合运用文本规则和依存句法分析的方法实现了知识点的精准抽取,改进了通过机器聚类或基于分类法形成的技术功效图技术分类粒度较粗的问题。根据专利中功效描述只讲优点不谈缺点的特点,采取最简关键词匹配策略,实现了功效抽取的更大覆盖。该部分工作一方面丰富了技术功效图构建的理论基础,另一方面利用抽取的知识对专利进行标注,极大改善了靠人工标注效率低下的现状。(2)设计了面向技术功效图自动构建的专利知识图谱语义模型。该模型使专利中隐含的知识点实现了关联化、立体化展现。其中包括技术词、功效词、领域词等概念词及其词间关系以及与专利权人、发明人等各类实体之间的关联关系。把抽取的知识和汉语科技词系统知识进行融合,构建专利知识图谱,基于该知识图谱扩展了技术功效图矩阵结构生成的模式类型,有效支撑了技术功效图的自动构建。(3)提出了技术功效图自动构建一体化解决方案。该方案包括自动构建模型和数据流程设计,覆盖技术功效图制作全周期,能针对某领域主题,按照一定机制、流程和技术层次控制实现专利技术功效图的自动构建;同时,设计了工程应用时自进化机制,使得技术功效列分类不断优化。该方案提高了构建的速度和灵活性,功能更加丰富,提升了专利情报分析效率,降低了人力成本。(4)拓展了技术功效图两种新的应用模式。传统的技术功效图受制于人工标注的低效率,制作周期长,因此应用模式比较有限。本文实现了技术功效图自动构建,可实时生成图形并满足人机交互需求,随时修改参数,查看改后效果。因此,基于快速构建的优势可实现技术功效图的应用模式扩展,本文提出了其在跨领域技术借鉴和相似专利监测中的应用模式。基于文本分析的双碳知识图谱数据分析方法及系统
糖尿病电子病历实体及关系标注语料库构建(Construction of Corpus for Entity and Relation Annotation of Diabetes Electronic Medical Records)
"电子病历是医疗信息的重要来源,包含大量与医疗相关的领域知识.本文从糖尿病电子病历文本入手,在调研了国内外已有的电子病历语料库的基础上,参考坉圲坂圲实体及关系分类,建立了糖尿病电子病历实体及实体关系分类体系,并制定了标注规范.利用实体及关系标注平台,进行了实体及关系预标注及多轮人工校对工作,形成了糖尿病电子病历实体及关系标注语料库(Diabetes Electronic Medical Record entity and Related Corpus DEMRC).所构建的DEMRC包含8899个实体,456个实体修饰及16564个关系.对DEMRC进行一致性评价和分析,标注结果达到了较高的一致性.针对实体识别和实体关系抽取任务,分别采用基于迁移学习的Bi-LSTM-CRF模型和RoBERTa模型进行初步实验,并对语料库中的各类实体及关系进行评估,为后续糖尿病电子病历实体识别及关系抽取研究以及糖尿病知识图谱构建打下基础."基于多源文本分析的机器人领域知识图谱构建
人工智能和机器人是当前技术发展的重要领域,专利及其他科学技术文献反映了基础研究和技术创新的进展.应用自然语言处理技术,将机器人等重要技术发展领域和专利等科学技术文件结合起来进行深入研究,可以帮助领域从业人员高效地找到产品设计问题的解决方案,实现领域知识挖掘,学科发现与关联性评价,以及演化趋势分析.这对于理解不同科学技术领域的互动与渗透,发现潜在商业机会具有重要意义. 知识图谱是 Google为了优化搜索引擎而提出的一种揭示实体之间关系的知识表示模型.和传统知识库相比,知识图谱能够帮助人们更快速有效地获取知识之间的逻辑关系,实现知识之间的智能推理.在分析现有知识图谱构建方法的基础上,本文研究了基于多种数据源构建垂直领域知识图谱的方法,并对知识图谱应用系统的开发提出了设计方案,并予以实现.本文的主要贡献和具体工作如下: (1)针对机器人领域缺乏领域训练语料的现状,给出了基于远程监督的机器人领域训练语料构建方法.首先建立机器人领域知识的树形结构图,然后通过网络爬虫技术采集百度百科中机器人领域的结构化信息作为初始三元组,并利用远程监督方法自动获取训练语料. (2)针对不同类型的实体关系抽取任务,分别使用了两种抽取方法.针对实体识别任务,使用了基于启发式的规则筛选方法和基于K最近邻(k-Nearest Neighbor,KNN)分类筛选方法;针对实体关系抽取,使用了基于句法规则的实体关系抽取方法,以及基于远程监督的关系提取模型. (3)用上述方法获得的机器人领域知识三元组作为知识图谱数据源,提出了一种基于Neo4j图数据库的知识存储方案对机器人领域三元组进行存储,并通过图数据库的可视化平台实现机器人领域知识图谱的查询与展示. (4)根据构建的知识图谱设计上层领域应用,对段落文本进行实体识别,快速把握文本的关键信息;针对领域内实体构建树形图,对获取的问题,解决方法等关键信息进行展示;设置实体关系查询模块,快速返回查询内容;设置问答模块,返回问题答案和相关专利推荐.跨媒体科技大数据知识图谱构建与动态精准画像
随着科技资源规模的指数型增长,现有的科技资源正面临着指标繁多,类别细分,难以完整覆盖,精确提炼等问题.将人工智能与科技领域相结合,借助于知识图谱实现科技资源的高精度画像具有广阔的应用前景和现实意义.基于科技大数据的特点进行跨媒体科技大数据的收集,处理与存储,跨媒体科技大数据知识图谱的构建研究,跨媒体科技大数据的动态精准画像研究,最终实现跨媒体科技大数据的知识图谱构建与动态精准画像系统.本文的工作如下:(1)在跨媒体科技大数据的收集,处理与存储方面,针对跨媒体科技大数据数据的特点,提出了一种获取非结构化和结构化数据方法.利用各大网络信息公开平台以及分布式爬虫工具进行数据的获取,同时构建相应的跨媒体科技大数据词库进行数据降噪与归一化处理,最后利用MySQL关系型数据库进行有效的数据存储.获取了"北京","上海","广州"等23个省共263725条原始政策数据.(2)在跨媒体科技大数据的知识图谱构建方面,基于现阶段知识图谱领域的研究现状以及跨媒体科技大数据文本数据自身特点,针对原始的非结构化的文本数据,从构建知识图谱的关键技术中提出了基于BERT-BLSTM-CRF的实体识别算法与基于BGRU-BATTENTION的实体关系抽取算法.利用命名实体识别与实体关系抽取这两个关键技术进行跨媒体科技大数据知识图谱的构建,在图形数据库Neo4j完成数据的存储和可视化分析.其中在命名实体识别方面,提出的基于BERT-BLSTM-CRF的实体识别算法相较当前同类竞争算法在跨媒体科技大数据数据集上的准确率提高了 3.69%左右.同时在实体关系抽取方面,提出的基于BGRU-BATTENTION的实体关系抽取算法相较同类竞争方法法在跨媒体科技大数据上的准确率提升了 2.65%左右.(3)在跨媒体科技大数据的动态精准画像方面,由于源数据的变化,提取需求的改进,以及信息的细化,丰富等原因,采用基于时间序列自动爬取新的数据来完成数据信息的叠加和图的扩展,并且基于传统的机器学习方法解决因数据递增带来的实体歧义,以保证大数据画像的精准度.基于时间维度,构建不同时间序列的跨媒体科技大数据精准画像,完成了时间维度的跨媒体科技大数据动态精准画像的构建.(4)设计并实现了跨媒体科技大数据的知识图谱构建与动态精准画像系统的构建工作.通过跨媒体科技大数据的收集,处理与存储模块,以及跨媒体科技大数据知识图谱的构建模块与跨媒体科技大数据的动态精准画像模块三个主要模块实现了针对跨媒体科技大数据的数据收集处理,知识图谱构建,动态精准画像等功能.设计了方便用户调用的算法接口和简洁明了的可视化交互界面,并对所提出的算法模型运行的结果进行全面展示.未经允许不得转载:>北京启檬科技有限公司 » 智能文本分析与知识图谱构建一体化平台
北京启檬科技有限公司