TCMKB - 中医药知识服务平台

随着互联网技术的迅猛发展,日积月累并不断涌现大量内容丰富、种类各异的数据,结构化、 半结构化、非结构化数据并存的混合型数据具有海量、异构、个性化、复杂的特点。 当前应用中, 对信息个性化增值服务方面存在广泛需求。本项目基于我所构建的12个中药相关数据库, 分析数据库集成信息与结构,将已存、分布、自治、异构的数据库系统连接起来, 抽取信息形成规范化数据模型, 提出数据库与数据模型之间映射的数据集成方法,建立基于语义web的中药数据库集成框架。

Herbnet是一个基于语义网技术构建的中药数据库集成与访问框架。它基于一个规范化的中药领域本体模型, 集成了中药药理实验数据库、中药化学实验数据库、中国中药化学成分数据库一系列的异构数据库资源, 面向网络用户提供一站式数据查询和访问服务,以支持中药学研究。

查看详情


1 介绍


近年来,中医药工作者大力开展中药领域的数据库建设,建成了“中国中药数据库”、“中药药理实验数据库”、“中药化学实验数据库”、“中国中药药对数据库”、“中国中药化学成分数据库”、“中国方剂数据库”等一系列内容丰富的数据库资源[1]。它们在文献标引、数据分析和知识发现中发挥着基础性的作用,为药效研究、新药研发和临床决策支持提供了有力的支持[2][3]。

中药数据应用的一大特点,在于需要将许多数据库集成起来,支持中医药工作者开展多学科、多角度的综合性研究工作[4]。中药数据库具有数量众多、异构性强、高度分散、自治性高等特点,且各种数据应用的需求各异、个性化较强,因此中药数据库集成的难度很大[1]。如何建构专门面向中药领域的数据库集成框架,消除中药领域的“信息孤岛”现象,仍是中药信息学领域需要研究并解决的重要问题[5][6]。

语义网(Semantic Web)是一项新兴的万维网(World Wide Web)技术,旨在解决万维网上的数据发布与互联问题,构建一个全球性的巨型数据网络,以支持更为智能的万维网应用[7]。构建语义网的一个重要目的,在于实现关系型数据库在万维网上的直接发布,使之可被机器直接处理。语义网将是继关系型数据库之后,在数据管理领域发生的又一场革命:正如关系型数据库大大提升了企业信息系统的智能水平,语义网将使整个地球变得更加智能[7]。作为实现语义网的基石,本体是一种用于表示领域知识的计算机模型,其中定义了类、属性和关系等一系列知识表示原语(primitive)[8]。本研究旨在基于语义网技术,实现专门面向中药数据库的语义集成框架。本研究构建了一个简单的中药领域本体,建立了本体与中药数据库之间的映射关系,实现了针对多个中药数据库的统一查询机制。下面进行具体介绍。


2 中药领域本体设计


本体是针对某个领域概念结构的精确规范,明确定义机器可以处理的概念以及概念之间的关系。医学领域中的UMLS(Unified Medical Language System)[9]和SNOMED CT[10]等国际知名的医学语言系统都体现了本体的技术理念。在中医基础理论、温病学、针灸学、中医古籍等领域中也出现了一系列的领域本体[8]。构建本体的目的之一,在于实现数据的跨域集成和异构系统的互操作。

本研究构建了一个简单的中药领域顶层本体,作为实现中药数据库集成的基础。如图1所示,它主要包括 “中医疾病”、“方剂”、“中药”、“中药化学成分”、“医学专家”、“中医药文献”、“药理作用”、“化学实验”等基本的类型。鉴于方剂、中药、化学成分都属于药用物质,在本体中引入“药用物质”作为“方剂”、“中药”、“化学成分”等类型的共同父类。在本体中只需建立“药用物质”与其他类型之间的关系,其子类即可继承这些关系。因此,引入“药用物质”这一父类,实质上简化了本体的结构。

在UMLS的Semantic Network中,定义了54种语义关系。在中药本体中,重用UMLS的语义关系在类型之间建立连接。例如,在“中药”和“方剂”之间,建立“...成分(ingredient of)”关系;在“中药”和“中药化学成分”之间,建立“由...组成(consists of)”关系;在“药用物质”和“中医疾病”之间建立“治疗(treats)”关系。另外,该本体重用了都柏林核心(DC)中的“主题(subject)”和创建者“(creator)”来定义“中医药文献”的属性。

中药领域本体示意图
图 1 中药领域本体示意图

3 基于语义网的关系型数据库集成方法


3.1 资源描述框架

语义网以资源描述框架(Resource Description Framework, RDF)作为数据存储和查询的基础模型。 在RDF中,数据被统一表示为形如主体–谓词–客体(Subject-Predicate-Object)的三元组,即RDF陈述(Statement)。 一组RDF陈述可被表示为一个带标签的有向图,即RDF图。 如图2(a) 所示的图g表示“人参为一种草药,性温、味甘,可治疗肾阳虚证”的事实。其中,带框的节点代表概念,带单引号的节点代表文字,有向边代表一条陈述。 在图中:

  • 陈述〈人参,rdf:type,草药〉、〈肾阳虚,rdf:type,证候〉分别表示“人参为一种草药”和“肾阳虚为一种证候”的事实,其中‘rdf:type’ (简写为“a”)是RDF标准中表示实例与类的隶属关系的属性);
  • 陈述〈人参,味,‘甘’〉和陈述〈人参,治疗,肾阳虚〉分别表示“人参味甘”和“人参治疗肾阳虚证”的事实;
  • 陈述〈草药,rdfs:subClassOf,植物〉和〈草药,rdfs:subClassOf,药物〉表示“草药既为植物也为药物”的事实,其中属性“rdfs:subClassOf”表示“父子类关系”。

3.2 Sparql语言

Sparql语言是语义Web的标准查询语言。一个Sparql语句实质上是一个泛化模式,用于在RDF图中搜索相匹配的实例。设用户关心“哪些草药用于治疗病位在肾脏的证候(如肾阳虚证)”,这一请求可以表示下面的Sparql查询:

SELECT DISTINCT ?n, ?f
WHERE  
{
?h   rdf:type  :草药;
     :治疗     ?s;  
     :名称     ?n;  
     :flavor   ?f. 
?s   rdf:type  :证候;  
     :病位     '肾'.
}
                            

该查询的WHERE子句的模式如图2(b) 所示。其中?h 代表一个草药,?s代表一个证候,?h可以治疗?s,?s的病位为‘肾’,而?n和?f分别代表?h的名称和味。该模式在图g中匹配的实例如图2(c) 所示,其中,映射函数为:?h = 人参,?s = 肾阳虚,?n =‘人参’,?f = ‘甘’,而SELECT子句指定用户关注的变量名?n和?f,故而查询的最终结果为(‘人参’,‘甘’)。

RDF图与SPARQL查询实例
图 2 RDF图与SPARQL查询实例

3.3 语义映射

可基于语义网实现多个异构的关系型数据库的语义集成和统一查询方法。其核心思想是建立本体与关系型数据库之间的语义映射,其基本的原则包括: (1)本体中的类型对应关系型数据库中的表;(2)本体中的属性对应关系表中的某一列;(3)本体中的实例对应关系表中的某一行。 通过映射方案,可以建立一个统一的本体与多个数据库之间的映射关系,映射文件将被用于实现数据库的集成查询。


4 中药数据库的语义集成框架


如图3所示,我们采用基于语义网的关系型数据库集成方法,构建了中药数据库集成框架。该系统的查询处理过程如下:当Web服务器收到一条查询请求(如关于实体“人参”的信息)时,它会向查询服务器转交这一查询;查询服务器会根据数据库映射关系,将该语义查询重写为一系列针对底层数据库的SQL查询;查询分派器会将这些SQL数据分派给对应的数据库;查询结果组合器会将各个数据库返回的结果组合起来,返回给Web服务器;最终Web服务器会将查询结果呈现为一张网页,返回给客户端。

目前,该系统支持用户输入关键词进行检索;例如,用户输入关键词“大黄素”,则可检出数据库中与“大黄素”相关的实体。系统列出与用户输入的关键词相关的领域实体,点击链接可进入相关实体的信息页面。系统会将中药科技基础信息数据库、中药药理实验数据库等多个数据库中的实体信息进行集中展示,并标出了信息来源。用户可通过其中的超链接转到相关实体的信息展示页面。系统不仅展示实体的结构性信息,而且列出了实体的相关文献。例如,对于某个中药“大黄”,系统会给出对该中药进行实验的相关文献。该系统能够从整体上有效地组织和管理中药数据资源,为各种中药数据应用提供了一个统一的平台。

中药数据库的语义集成框架示意图
图 3 中药数据库的语义集成框架示意图

参考文献


  1. 刘丽红,于彤,李强等. 基于语义web的中药数据库集成研究思路[J]. 中国数字医学, 2013, 8(8):85-87.

  2. 万仁甫,徐伟亚.中药数据库的现状及发展趋势探讨[J].中国药房,2006,17(10):794-796.

  3. 刘海波,彭勇,肖培根等.当前中药数据库建设中的几个问题[J].世界科学技术-中医药现代化,2009,11(3):339-343.

  4. 于彤,陈华钧,李敬华.面向中药新药研发的语义搜索系统[J].中国医学创新, 2013, 10(33):152-154.

  5. 刘静.建立中医药数据服务与利用平台[J].世界科学技术-中医药现代化,2009,11(4):582-584.

  6. 吴园园,章新友.我国中药信息系统存在的问题与对策[J].时珍国医国药,2009,20(10):2583-2584.

  7. 于彤, 赵阳, 崔蒙等. 语义网技术在生物医学中的应用现状及发展趋势[J]. 中国数字医学, 2012, 7(10), 9-12.

  8. 于彤,崔蒙,李敬华等. 中医药本体工程研究现状[J]. 中国中医药信息杂志,2013,20(7):110-112.

  9. McCray AT. An upper-level ontology for the biomedical domain[J]. Comparative and Functional Genomics, 2003, 4(1), 80-84.

  10. Stearns MQ, Price C, Spackman KA, et al. SNOMED clinical terms: overview of the development process and project status. In Proceedings of the AMIA (American Medical Informatics Association) Symposium, 2001:662.