TCMKB - 中医药知识服务平台

本体(Ontology)技术源于信息科学,具有坚实的理论基础,体现出术语学与信息科学相结合的趋势。 本体与主题词表、分类法等传统技术相比,具有逻辑严谨、易于维护,支持推理等特点。 在中医药领域,本体成为实现术语规范化的一种新兴技术。 为推动大型术语系统的应用,实现按需、动态的术语服务,亟需实现术语系统内容的抽取方法。 从本体技术的角度分析,这实质上是从大型本体中抽取子本体的方法。 为此,提出一种基于语义网技术的子本体抽取方法, 并实现了相关的子本体抽取工具。 这套方法与工具在中医药学语言系统等大型本体上得到了成功应用, 能为中医药本体工程与服务提供技术支持。


项目背景


子本体(sub-ontology)是从某个基础性本体中衍生的, 独立、正确且满足特定需要的物化本体(materialized ontology)(Bhatt et al., 2004)。 例如,TCMLS作为一个大型领域本体,涵盖了中医药学科及生物、 化工、哲学等相关学科中的专业术语。 为支持中药学研究以及新药发现等应用,可从TCMLS中排除疾病、证候、针灸等内容, 仅保留中药、方剂、药物成分、药材等内容,从而生成TCMLS的“中药子本体”。 子本体体量小,易于维护、传输、共享及合并, 因此能更好地满足信息系统对术语资源的需求(Mao et al., 2008)。

子本体抽取已成为大型本体应用中的一个常规环节。 中医药领域的概念体系极其复杂,领域本体的规模也非常巨大。 例如,TCMLS已收录了约12万个概念、30万个术语和127万条语义关系[3] 。 中医药领域本体已如此之大,以至于很难整体性的加以使用。 在中医药信息化实践中,经常需要从大型本体中提取一部分内容,以支持特定的应用。

子本体抽取还为本体重用提供了必要手段。本体工程往往是一项复杂而繁琐的工作。 通过子本体抽取,可从已有的本体中提取出与目标领域相关的内容,融入新的本体之中, 从而实现本体资源的重用,显著提升本体工程的效率。 因此,子本体抽取方法是中医药本体工程与服务技术体系中非常重要的一环。


系统介绍


子本体抽取的基本功能是“概念信息抽取”,即从本体中抽出某个概念的语义信息, 包括概念的正名、异名、定义、相关概念、上下位概念和语义类型等等。 在“概念信息抽取”的基础上,可实现一系列更为复杂的操作。 首先,可基于词表从大型本体中抽取子本体。 例如,为构建中药子本体,可建立一张中药词表; 对于词表中的每个概念(如人参、甘草、茯苓等),从中医药本体中抽取出概念信息, 再将概念信息融合起来。 接下来,可将方剂、化学成分、药用植物等类型的概念融入中药子本体: 对于每一类型,都可基于词表抽出该类型对应的子本体,再将它们融合起来, 从而构成完整的中药子本体。也可基于上下位关系实现子本体抽取。 例如,若要开展“补气药”的研究, 可根据TCMLS得到“补气药”的下位概念(如人参、白术等),再抽取这些概念的信息, 从而获得“补气药”子本体。若缺少目标领域的词表,则可采用中文分词及实体识别等方法, 从目标领域的专业文献中找出领域术语,生成领域词表,进而实现子本体抽取。

为实现上述方法,开发了中医药子本体抽取工具。 它不仅实现了概念信息抽取、基于词表的子本体抽取、 基于上下位关系的子本体抽取、子本体融合等功能, 而且实现了基于文本解析的子本体抽取功能: 用户在输入框中输入一段文本,系统会对文本进行解析, 从中设别出领域概念,再抽取出这些概念的相关信息,构成子本体输出。

该工具以语义网(Semantic Web)的规范化数据格式表示子本体。 语义网技术旨在构建一个机器可以理解的互联网, 支持各种应用程序从互联网上抽取语义信息(于彤等,2013)。 语义网为本体的表示提供了一系列标准化语言, 从而使本体可在互联网上进行发布和共享。将子本体抽取方法与语义网技术相结合, 可实现动态、按需的术语服务,促进中医药术语系统的推广应用。

该工具已被用于从TCMLS中抽取“中药子本体”。 以这个中药子本体作为框架,整合中药领域的一系列数据库, 构成了一个完整、系统的“中药知识图谱”(于彤等,2015); 接下来,搭建了具有知识浏览、知识编辑、知识可视化等功能的维基网站, 为中药知识的共享提供了一个开放性的平台。 实践表明,通过子本体抽取,能快速生成面向特定领域或应用情境的本体, 构建领域知识库,有效实现领域知识的汇聚和共享。


小结


在中医药领域,亟需构建规模巨大、结构严谨的领域本体, 以解决海量信息资源的语义异构性问题。 近年来,在中医药领域中已出现了TCMLS等一系列大型本体, 它们在各种知识系统的构建中发挥着重要作用。 在很多本体应用中,都需要从大型通用本体中抽取与应用情境相关的部分,构成子本体。 本文所提出的子本体抽取方法和工具,在TCMLS等大型本体上得到了成功应用, 能实现不同的本体工程之间的本体内容重用,提升本体工程的效率, 为实现精准的术语服务奠定了基础。


参考文献


  1. Bhatt M, Flahive A, Wouters C, et al. A distributed approach to sub-ontology extraction[P]//In 18th International Conference on Advanced Information Networking and Applications, 2004:636-641.

  2. Mao Y, Wu Z, Tian W, et al. Dynamic sub-ontology evolution for traditional Chinese medicine web ontology[J]. Journal of Biomedical Informatics, 2008, 41(5):790-805.

  3. 于彤,崔蒙,李敬华. 语义Web在中医药领域的应用研究综述[J]. 世界中医药, 2013, 8(1):107-109.

  4. 于彤,刘静,贾李蓉,等. 大型中医药知识图谱构建研究[J]. 中国数字医学, 2015, 10(3):80-82.