TCMKB - 中医药知识服务平台


中医药领域中出现了中医药学语言系统等一系列术语系统,这些系统已初具规模并投入使用。 实践表明,单个术语系统往往难以满足科研或临床应用的需求,多术语系统的融合已成为实现术语系统实用化的先决条件之一。 鉴于此,我们研发了中医药术语集成系统,它将多个术语系统集成在同一个平台中, 通过万维网提供一站式的术语信息检索与访问服务,支持术语标准化研究工作。


中医药领域的术语系统


术语系统是实现医学名词术语规范化的有效手段,在医学文献检索、临床决策支持和知识发现等应用中发挥着基础性作用[1]。本体(Ontology)是实现术语系统的一种新兴技术。 本体是一种用于表示领域知识的计算机模型,其中定义了类、属性和关系等一系列知识表示原语(primitive)[2]。 语义网络(Semantic Network)是一种常用的本体表示方法,它的基本思想是将领域知识表示为带标签的图结构,其中“节点”表示领域概念,“边”表示概念之间的语义关系。 语义网络因其简单、灵活、丰富、易读等优点,在计算语言学、生物学、医学等诸多领域得到了广泛的应用。医学领域中的UMLS(Unified Medical Language System)[4]和SNOMED CT[5]等国际知名的医学语言系统都体现了本体和语义网络的技术理念[6]。

在中医药领域中,出现了中医药学语言系统、中医药临床术语系统等一系列术语系统。 中国中医科学院中医药信息研究所(IITCM)从2002年开始,借鉴UMLS的成功经验, 采用本体技术研制了“中医药学语言系统(Traditional Chinese Medicine Language System, TCMLS), 它是以中医药学科体系为核心的大型计算机化语言系统,目前收录约12万个概念、30 万个术语和127万条语义关系[7][8]。 “中医药临床术语系统(Traditional Chinese Medicine Clinical Terms System, TCMCTS)” 是一个面向中医临床领域的大型术语集,它与TCMLS具有同等规模的,共收录约11万条概念词,27万个术语和100万条语义关系[9]。 另外,在中医基础理论、温病学、针灸学、中医古籍等领域中也出现了基于本体技术构建的术语系统[10]。

术语系统的应用实践表明,单个术语系统(即使是TCMLS之类的大型系统)一般难以满足科研或临床应用的需求,多术语系统的融合已成为实现术语系统实用化的内在要求。 将中医药领域主要的术语系统集中起来,进行统一的存储和管理,面向术语使用者提供一站式的术语服务,能显著提升术语应用开发的效率以及术语服务的质量。 另外,术语集成系统能显著提升术语系统管理人员的管理能力和工作效率。现有系统一般是由多名加工人员分头加工完成的,加工规则不够明确,掺入个人的主观因素(如个人判断、个人专业知识等), 这就不可避免地造成了术语信息不全面、不规范、错误率高等问题。管理人员需要对术语系统进行统一访问、归纳总结、比较分析和集中处理,从而不断完善术语系统的加工原则,改进术语系统的质量。

基于上述考虑,我们采用本体技术,研发了一套中医药术语集成系统,将TCMLS、TCMCT等术语系统集成在同一个平台中,通过万维网向术语使用者提供一站式的术语信息检索与访问服务, 支持语言学家对术语系统之中的语义网络进行归纳、浏览和比较研究。下面对该系统所集成的工具和提供的服务进行介绍。


术语集成检索工具


该系统实现了术语检索功能,支持用户采用检索词对多个术语系统的内容进行检索。用户可在多个术语系统之间切换,浏览和比较各个术语系统的内容。 如图1所示,在用户输入检索词后,系统会提供相关概念的基本信息以及概念信息展示页面的链接。如图2所示,该系统为每个概念提供了信息展示页面, 展示概念的类型、正名、异名、定义、语义关系。该系统还基于术语系统中定义的语义关系,实现了术语信息导航功能,支持用户在相关概念信息页面之间进行跳转。 该系统可将某个概念在多个术语系统中的信息综合呈现,让用户看到完整的术语信息;用户也可选择某个术语系统,单独查看该系统中的术语信息。

...
图 1 术语检索界面
...
图 2 术语信息展示界面

中医药复杂语义网络分析工具集


语义网络归纳工具

本系统包括一个语义网络归纳工具,它能从大量的语义关系(如TCMLS中定义的100多万条语义关系)中归纳出一个“顶层语义网络”。 对语义网络进行归纳,是指从一系列形如“四君子汤 治疗 气虚证”、“银花解毒汤 治疗 风热证”的具体关系中,归纳出形如“方剂,治疗,证候”的顶层语义关系。如此得到的 “顶层语义网络”可用于指导术语系统的顶层设计。 因此,语义网络归纳工具对于TCMLS等术语系统的规范化加工具有重要意义。该系统还支持用户以“顶层语义网络”作为框架,对具体的语义关系进行检索和浏览,下面进行具体介绍。

语义网络浏览工具

该系统丰富了TCMLS等复杂术语系统的检索方式。传统的术语服务系统主要基于分类体系对术语系统进行检索:用户通过概念的分类树来定位到某个概念,再以这个概念作为入口对术语系统的内容进行浏览。 本系统实现了基于顶层语义网络的术语系统检索方式:用户可选择某条顶层语义关系——如“方剂 治疗 证候”,系统则会列出这条关系的具体实例,如“四君子汤 治疗 气虚证”、“银花解毒汤 治疗 风热证”等。 如图3所示,系统以万维网的方式实现语义网络的浏览和展示功能。在界面左侧,统计每个语义类型的实例个数,并按实例数量大小顺序对语义类型进行排列。当用户选择某一类型时,系统会在右侧显示该类型涉及的语义关系。 当用户选择某一语义关系时,系统会显示该语义关系的一些实例。例如,当用户选择“方剂 治疗 证候”时,系统会给出“银花解毒汤 治疗 风热证”、“红轮散 治疗 热证”、“三光散 治疗 风淫证候”等治疗关系。 该界面中的每个概念都带有超链接,用户点击某个概念的超链接则可转到该概念信息的展示界面。

...
图 3 语义网络展示界面

语义关系搜索工具

如图4所示,系统还提供了另一种语义网络展示方式,被称为“语义关系搜索”。用户可以任选主体、谓词和客体的类型,系统则将符合条件的语义关系分门别类地展示出来。 例如,用户若想了解“哪些类型的事物可以治疗证候”,则可选择主体为“任意事物”,谓词为“治疗”,客体为“证候”,系统会显示一个列表: “方剂 治疗 证候”、“治法 治疗 证候”、“食疗-药膳 治疗 证候”等等。系统为每条顶层语义关系举出一些实例以供用户参考。 例如,“方剂 治疗 证候”的例子包括“银花解毒汤 治疗 风热证”,“红轮散 治疗 热证”等。术语学家可通过该工具来发现错误的语义关系。 例如,用户通过该系统可以看出,TCMLS中一般通过“由…组成”来表达“方剂”与“中药”之间的组成关系,而极少用“有...部分”关系将“方剂”与“中药”相连。 用户可以据此将“有...部分”改为“由...组成”。又如 “方剂 影响 中医疾病”极少出现,可被替换为“方剂 治疗 中医疾病”。

...

图 4 语义关系搜索界面

语义网络比较工具

该系统包括一个语义网络比较工具,其核心功能是比较某个类在两个语义网络中的用法。如图5所示,该工具支持语言学家对TCMLS系统和“古籍语言”系统的语义网络进行比较。 它列出了两个语义网络共有的语义类型,仅在“古籍语言”系统中出现的语义类型,以及仅在TCMLS中出现的语义类型。当用户选择一个语义类型——如“中药性能”,系统会列出与该类型相关的语义关系, 包括:(1)在两个语义网络中均出现的语义关系,(2)仅出现在“古籍语言”系统中的语义关系,以及(3)仅出现在TCMLS中的语义关系。该工具能辅助术语专家对两个语义网络进行比较,分析它们的共性与差异。

...

图 5 语义网络比较界面


总结


本文介绍了一套中医药术语集成服务系统,该系统汇集了中医药领域的主要的术语系统,提供语义网络的浏览、搜索、纠错、分析等共性服务,有助于术语学家归纳中医药术语系统的共性特征, 对中医药术语系统进行比较分析,总结各个中医药术语系统的特色、成功经验、不足与缺陷,从而对中医药术语系统进行进一步的改进和扩展。下面将该系统的主要作用总结如下:

  • 该系统向网络用户提供一站式的术语服务,支持用户对多个术语系统的内容进行检索,查看完整的术语信息。该系统支持可定制的术语服务:用户可从大型术语系统中导出一部分内容(即本体模块), 或将多个术语系统的内容融合起来,从而满足特定信息系统对术语资源的需求。
  • 该系统可帮助用户理解语义网络的用法。例如,用户可查到“方剂”和“中药”之间主要有“由...组成”和“有...的概念部分”这两种语义关系,并通过实例来理解它们的用法。这项功能有助于术语系统加工的规范化。
  • 该系统可帮助用户检出术语系统中的不规范之处。例如,用户可找出极少使用的语义类型,以及错误的语义关系。如在TCMLS中“方剂 执行 中医病因病机”仅有“人森养荣汤 执行 瘟疫”一个实例,这是一个个错误用法。用户可在术语系统的新版本中去除所发现的错误信息,从而不断提升术语系统的质量。


参考文献


  1. 贾李蓉,杨硕,董燕等. 中医药学名词术语规范化现状[J].中国数字医学,2012,7(4):2-4.

  2. Gruber TR. Ontology. Entry in the Encyclopedia of Database Systems, Ling Liu and M. Tamer Özsu (Eds.), Springer-Verlag, 2008.

  3. Allemang D, Hendler J. Semantic Web for the Working Ontologist[M].Elsvier,2011.

  4. McCray AT. An upper-level ontology for the biomedical domain[J]. Comparative and Functional Genomics, 2003, 4(1), 80-84.

  5. Stearns MQ, Price C, Spackman KA, et al. SNOMED clinical terms: overview of the development process and project status. In Proceedings of the AMIA (American Medical Informatics Association) Symposium, 2001:662.

  6. 于彤,崔蒙,杨硕等. 生物医学本体工程进展[J].中国数字医学,2012,7(11):3-6.

  7. 尹爱宁,张汝恩.2003a.建立《中医药一体化语言系统》[J].中国中医药信息杂志,10(3):90-91.

  8. 贾李蓉,朱玲,董燕等.中医药学语言系统评价体系的研究与建立[J].中国数字医学,2012,07(10):13-16.

  9. 郭玉峰, 刘保延, 李平等. 知识本体与中医临床术语规范化工作[J]. 中华中医药学刊,2007,25(7): 1368-1370.

  10. 于彤,崔蒙,李敬华等. 中医药本体工程研究现状[J]. 中国中医药信息杂志,2013,20(7):110-112.