TCMKB - 中医药知识服务平台


中医药文献是中医药文化的重要载体之一,记载着历代医家的智慧和经验。中医药文献的数字化对于中医药知识遗产的保存、传播、开发与利用具有重大意义。 本文回顾中医药文献数字化的发展历程,对文献标引、文献检索、文本挖掘等技术在中医药领域的应用现状进行了综述,讨论了存在的问题和发展趋势。


介绍


中医药学历经数千年的传承发展,留下了浩如烟海的古籍。近年来,随着中医药科研事业的蓬勃发展,也积累起了大量的现代文献。 面对如此规模庞大、内容复杂的文献资源,如何对其进行有效的分类、整理、评鉴和保存,是中医药传承与创新发展中的重点和难点问题。 近年来,随着个人计算机、数据库、文字识别等信息技术的广泛应用,大量的中医药文献被转换为文本文件和数据库等数据资源。 中医药文献的数字化,为将文献检索等各种信息等技术应用于中医药领域奠定了基础,在中医药文献的妥善保存和深度利用中发挥了重要作用。 本文回顾中医药文献数字化的发展历程,介绍文献标引、文献检索、文本挖掘等技术在中医药领域的应用现状,并讨论存在的问题和发展趋势。


中医药文献数字化发展历程


在上世纪八十年代,中医药工作者开始利用个人计算机和数据库等技术实现中医药文献的数字化存储与检索。 例如,中国中医科学院在1987年建成了“中医药学文献数据库检索系统(TCMLARS)”,该库当时收录了1984至1987年之间发表的中医药相关文献约5万余篇[1][2]。 TCMLARS经过逐年扩展,已收录自1949年至今的国内外1000余种生物医学及相关中文期刊中的80余万条中医药文献,内容涵盖中医、中药、中西医结合、各种民族医药、针灸、气功、按摩、养生等方面, 已成为国内外广泛使用的中医药文献检索与分析工具。另外,该院还于1986年研制了“针灸文献分析检索系统”(ACULARS),该系统当时收录了1984年以来国内外460多种生物医学期刊中有关针灸、 针麻、经络方面的文献和专业会议资料约9000余条,为促进针灸事业发展做出积极的贡献。

除现代文献之外,数字化手段对于中医古籍的保护和利用亦尤为重要。采用扫描和文字录入等手段对中医古籍进行处理,既可永久保存中医古籍的原图原貌,又可通过网络广泛传播,避免阅读原书对古籍造成的损伤[3]。 鉴于此,中国中医科学院构建了“中医药古籍资源数据库”,现已收录1500种中医古籍的元数据信息和其中的850种中医古籍的原文图像,为中医古籍保护和利用开辟了新的途径[4]。

随着中医药数字文献的大量积累,如何对文献资源进行有效的分类、组织和检索,成为具有挑战性的问题。由于文献资源具有很高的临床价值和理论价值,大量的人员在从事文献的手工编辑任务[5]。 其中的一项重要工作是对文献进行主题标引,以提升文献检索的查全率与查准率[6]。为解决中医药文献主题标引的一致性问题,IITCM从20世纪70年代开始研制《中国中医药学主题词表》[7]。 该词表于1987年出第一版,于1996年出第二版,于2008年出第三版。其中,第三版共收录主题词13905条(其中正式主题词8307,入口词5598条)。 该词表具有编制技术先进、词表体系结构科学、词语标准规范、收词完备、一表多用、实用性强、与国际权威医学词表Mesh兼容等特点,在国内外的中医药文献管理领域得到广泛的应用[8]。

中医药工作者在数十年的文献标引实践中积累了丰富的经验,总结出了主题标引的原则和方法,能较为有效地控制文献标引的一致性[9]。然而,手工的主题标引仍是一项费时费力的工作,单凭手工作业已经越来越难以跟上中医药文献的更新速度。 鉴于此,学者们开始研究基于文本挖掘的中医学文献主题自动标引方法[5];并在自动标引的基础上,再由加工人员对机器自动标引的结果进行干预,从而提升文献数据库建设的效率。

中医药文献库系统普遍基于文献的著录信息和主题标引,实现了文献检索功能。例如,TCMLARS支持用户通过文献的作者、主题词、副主题词、关键词、期刊名等进行检索,并使用AND、OR、NOT等布尔运算符进行扩展检索。 文献检索系统一般分为单机版和网络版两种:单机版一般通过光盘进行传播,在用户的个人计算机上进行安装和运行;网络版则部署在服务器上,通过互联网向中医药工作者提供文献检索服务。 如上文提到的TCMLARS和“中医药古籍资源数据库”都提供了上述两种服务方式。


中医药文献数字化研究进展与趋势


目前,在中医药领域中建立了许多文献库,并积累了海量文献资源,但检索效率仍较为低下,从文献中发掘知识的难度很大。实现中医药文献的数字化管理和深度挖掘,仍是一项艰巨的任务,尚需开展大量的研究工作。 下面介绍文献元数据、文献检索、文本挖掘等方面的研究工作,探讨其中存在的问题和发展趋势。

中医药文献元数据规范

目前,中医药领域的众多文献库系统之间彼此异构,难以实现信息交互,严重阻碍了中医药文献的传播、共享与利用。因此,需要在中医药领域中实施统一的文献元数据规范,用于编制规范化的文献资源联目和索引, 实现文献管理系统之间的互操作,为中医药工作者提供更为全面的检索结果。中医药文献具有鲜明的领域特色,通用的元数据标准都不完全适合中医药领域,因此需要建立一套专门面向中医药领域的文献元数据标准。 鉴于此,中医团体提出在国际标准化组织(ISO)的框架下实现文献元数据标准化,并于2013年编制完成了“Traditional Chinese Medicine Literature Metadata(中医药文献元数据)”技术规范[10]。 该规范是在充分参考DC等元数据标准的基础上,结合中医领域数据集的特性编写完成的。它将在中医药文献资源的保护和利用中发挥基础性作用,促进中医文献资源的全球共享以及中医的国际化进程。 TCMLM即将出版,如何在全球范围内实施该规范,成为接下来需要考虑的问题。可进一步将该规范内容写入一个中医药文献元数据本体,并采用该本体对中医药文献元数据进行规范化标注,从而实现文献元数据在互联网上的共享。

中医药本体驱动的语义检索

中医药领域术语使用非常复杂,主要表现为一词多义,多词同义,语义不明,以及语义关系不明等现象,影响了文献检索的全面性和准确性。学者开始探索基于本体技术构建大型术语系统,并开发本体驱动的语义检索系统,以改进文献检索的效果。

语义检索系统的核心特点,是基于本体对文本内容进行语义标注,并建立语义索引。传统的搜索系统一般基于关键词索引,它不能准确地体现用户请求与文本内容之间的语义相关性。 语义索引则是针对文本中蕴含的语义信息所建立的索引,它能更好地体现文本之间的语义关联,并支持机器自动推理。在语义索引的基础上,可实现同义词检索、关联检索、分类导航等高级功能,从而提高搜索结果的查准率与查全率, 使文献检索系统兼具关键词检索的灵活性和主题检索的准确性。

中国中医科学院采用本体技术研制了“中医药学语言系统”(TCMLS),它以“概念”为核心对中医药学的名词术语进行了系统梳理,建立了中医药概念的层次结构,并描述了概念之间复杂的语义关系[11]。 TCMLS已初具规模,收录约12万个概念,30万个术语以及127万条语义关系,已具备了在文献检索系统中实际应用的能力。贾李蓉等以中医药学语言系统为基础,开发了中医药文献检索服务平台,该系统基于互联网, 为中医药临床、科研、教学人员提供中医药文献资源的检索服务,为中医药临床和科研提供新的方法和思路[12]。付志宏等开发了面向中医药领域的智能搜索系统,该系统基于TCMLS实现了面向中医药文献的智能分词和语义索引等方法, 提供丰富的内容和强大的搜索功能,有效满足Web用户的知识检索需求,促进虚拟组织内的知识共享[13]。

中医药文本挖掘

随着中医药数字文献的大量积累,如何从这些文献中发现有意义的知识,成为中医药和计算机领域专家共同关注的热点问题[14]。文本挖掘,亦称文本知识发现,是从文本集中发现模式、模型、趋势、规则等知识的非平凡过程[5][14]。 学者已将各种文本挖掘技术用于中医药领域,从海量文献中自动提取知识,支持方剂配伍规律、中药的作用机理等方面的研究。下面介绍其中的一些代表性研究。

Cao et al.提出了一种基于本体从半结构化文本(Semi-structured Text)中抽取中药和方剂知识的方法[15]。他们根据课本、抄本、百科全书、字典等7个知识来源,开发了中药和方剂等2个领域本体;再利用这些本体, 从中药学文献中获取知识,产生了一个包含2710种草药和5900种方剂的知识库。

Zhou et al.以少量已知方剂名称作为种子,从中医药文献中反复提取新的方剂名称;其提取方剂名称的准确率超过95%[16]。他们进一步利用所提取的方剂名称,通过启发式规则从半结构化的文献摘要中提取的方剂药物成分的信息, 并通过关联规则挖掘算法从方剂组成信息中挖掘方剂配伍规律。

Zhou et al.采用文本挖掘方法,从TCMLARS、MEDLINE等文献库中抽取中医证候、疾病和基因之间的关系,从而生成基于证候的功能性基因网络[17]。例如,该项研究发现了一组与“肾阳虚”相关的基因,如CRH、PTH、PRL、BRCA1和BRCA2等。 通过分析这些基因的功能,发现它们彼此之间具有功能性的关联关系,并聚集成一个功能性的网络模块。此类研究能帮助我们从中医药的角度分析基因的功能。

Fang et al.采用文本挖掘的方法,从中医药文献中识别中药、基因、疾病、中药化学成分和疗效等概念实体,并挖掘它们之间的关联关系,从而自动构建了TCMGeneDIT数据库[18]。 TCMGeneDIT中记录了848种草药的化学成分、疗效、相关疾病、相关基因等知识,可被用于研究中药化学成分的作用以及中药的作用机理。

综上所述,文本挖掘技术已在中医药领域得到成功应用,能够提升知识库加工的效率,促进文献的结构化,以及从文献中发现隐含的知识。与生物医学领域的大量研究工作相比,文本挖掘在中医药领域的发展仍处于早期阶段。 需要针对中医药文献的特点,进一步研发实用的文本挖掘方法,深度挖掘中医药文献中蕴含的知识,以辅助中医药科学研究。


参考文献


  1. 陶惠宁. 我国医药学文献检索系统的发展概况及趋势[J]. 南京中医学院学报, 1991, 7(3):175-176.

  2. Fan W. The Traditional Chinese Medical Literature analysis and Retrieval system (TCMLARS) and its application [J]. INSPEL, 2001, 35(3): 147-156.

  3. 李兵,刘国正,符永驰,等. 从中医古籍数据库建设看中医古籍数字化[J]. 中国中医药信息杂志, 2009, 16(3):92-93.

  4. 符永驰,李斌,郭敏华,等. 中医古籍电子化系统的研究与实现[J].中国中医药信息杂志,2008, 15(2):103-104.

  5. 周雪忠,崔蒙,吴朝晖,等. 基于文本挖掘的中医学文献主题自动标引[J]. 中国中医药信息杂志, 2003, 10(1): 71-74.

  6. 董小芸. 中医药文献标引与检索之关系初探[J]. 医学情报工作, 2000, 21(5):50-52.

  7. 吴兰成主编;中国中医科学院中医药信息研究所编制. 中国中医药学主题词表[M]. 北京:中医古籍出版社, 2008.

  8. 崔蒙,尹爱宁,范为宇,等. 中医药科学数据建设研究进展[J].中国中医药信息杂志,2006,13(11):104-105.

  9. 陈志鹏,陆惠民. 中医药文献主题标引研究概况[J]. 湖南中医杂志, 2005, 21(2):84-85.

  10. 于彤,杨硕,贾李蓉,等. 中医药文献元数据标准化研究进展[J]. 中国数字医学, 2013, 8(7):66-69.

  11. 尹爱宁,张汝恩. 建立《中医药一体化语言系统》[J].中国中医药信息杂志, 2003,10(3):90-91.

  12. 贾李蓉,刘丽红. 基于中医药学语言系统的文献检索服务平台[J]. 医学信息学杂志, 2012, 33(1):54-56.

  13. 付志宏,陈华钧,于彤,等. 基于中医药集成知识库的智能搜索[J].东南大学学报(英文版),2009,25(4):460-463.

  14. Zhou X, Peng Y, Liu B. Text mining for traditional Chinese medical knowledge discovery: a survey [J]. Journal of biomedical informatics, 2010, 43(4): 650-660.

  15. Cao CG, Wang HT, Sui YF. Knowledge modeling and acquisition of traditional Chinese herbal drugs and formulae from text [J]. Artificial Intelligence in Medicine, 2004, 32(1):3-13.

  16. Zhou X, Liu B, Wu Z. Text mining for clinical Chinese herbal medical knowledge discovery. Lect Notes Comput Sci, 2005, 3735:396–8.

  17. Zhou X, Liu B, Wu Z, et al. Integrative mining of traditional Chinese medicine literature and MEDLINE for functional gene networks [J]. Artificial Intelligence in Medicine, 2007, 41(2): 87-104.

  18. Fang Y, Huang H, Chen H, et al. TCMGeneDIT: a database for associated traditional Chinese medicine, gene and disease information using text mining [J]. BMC Complement Altern Med, 2008, 8:58.

  19. 于彤,赵阳,崔蒙,等. 语义网技术在生物医学中的应用现状及发展趋势[J]. 中国数字医学,2012,7(10), 9-12.

  20. 于彤,崔蒙,李敬华,等. 中医药本体工程研究现状[J]. 中国中医药信息杂志,2013,20(7):110-112.