(3)能否迅速地找到所需要的信息?
(4)一旦找到所需信息,它们是否可读和被理解?
(5)能否将新的观测数据以某种一致的格式可靠地更新该数据,以满足未来使用的需要?
传统的纸质的记录方式对上述问题的回答大都是否定的,尽管有这些缺点,但是在计算机时代以前,纸质记录,手工的档案系统就是那个时代的医学信息管理系统。
随着计算机时代的来临,传统的手工方式,医学信息的纸质记录逐步被取代,而进入使用计算机管理医学信息的时代。
3)医学信息管理的内容及功能
如前所述,医学信息学涵盖了从分子到组织、器官、个体、群体的广阔的范围,医学信息管理也就要对这整个范围内的信息以及所涉及的所有方面(患者,医疗卫生机构,医疗卫生财务等)进行管理,并为各有关方面提供服务,大致上,医学信息管理的内容和功能可以分为:医疗记录的管理、医疗质量的管理、患者的管理、医疗卫生机构的管理、医疗卫生财务资源的管理、为临床决策提供支持、为医学科研提供支持。
2.3医学数据挖掘技术
医学数据的利用技术和管理方式是一个广泛的论题,医学数据挖掘技术是目前发展最快、关注最多、最富于活力的内容,本章将以较大的篇幅介绍它的原理及在医学领域的应用。
2.3.1数据库与数据仓库
说到数据挖掘,我们常常会碰到数据仓库的概念。数据库和数据仓库是两个概念。
简而言之,数据库是面向事务的设计,数据仓库是面向主题的设计。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计;数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间、部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它决不是所谓的“大型数据库”。W.H.Inmon 关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别——市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。
同样都是累计购买过9000元产品的顾客,一位是最近三个月购买9000元,一位是最近一年从未买过,这对于决策者意义是不同的。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其他数据源。数据仓库反映的是历史信息,并不是数据库处理的那种日常事务数据。因此,数据仓库中的数据是极少或根本不修改的。当然,向数据仓库添加数据是允许的。
数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成,各有千秋。数据仓库建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库必须有如下几个优点:第一、效率足够高;第二、数据准确;第三、具有良好的扩展性。
2.3.2医学数据挖掘概述
数据挖掘(data mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。
在当今的信息时代,随着信息和计算机技术的飞速发展,人们可以在短时间内搜集和积累大量的数据。但是,如何快速、准确地从这大量的数据中发现有用的知识,已成为人们迫切需要解决的问题。数据挖掘正是为满足这种需求而提出的一种新技术。
数据挖掘是当前研究的热门领域,它是集信息科学、管理科学、统计学和人工智能等学科于一身的交叉学科。数据挖掘在生物医学领域中的应用有着广阔的前景。医学数据挖掘为医学信息管理通向知识管理架设了一座桥梁。
由于医学信息自身具有的特殊性和复杂性,与常规数据挖掘相比,医学数据挖掘在挖掘对象的广泛性,挖掘算法的高效性和鲁棒性,提供知识或决策的准确性方面有着更高的要求。在医学数据挖掘方法中,决策树、神经网络、模糊逻辑、进化计算、关联规则、粗糙集理论和支持向量机等算法都显示出了各自独特的优越性,已经在医学数据挖掘中得到了成功的应用。随着理论研究的深入和进一步的实践摸索,数据挖掘技术在疾病的诊断和治疗,医学科研与教学以及医院的管理等方面将会发挥更大的作用。
医学领域存在着大量的数据,包括完整的人类遗传密码的信息,大量关于病人的病史、诊断、检验和治疗的临床信息,药品管理信息,医院管理信息等,数据挖掘理论应用于医学,对医学数据进行分析,提取隐含的有价值有意义的信息,对医院管理者做出明智决策,医生对病人正确的诊断和治疗,以及人类疾病和健康的遗传规律的研究都起着极为重要的作用,这对促进人类健康,具有积极作用。
1)医学数据挖掘的过程
数据挖掘是一个完整的过程,该过程从大型数据库中挖掘出先前未知的、有效的、实用的信息,并使用这些信息做出决策或丰富知识。
这些过程同样适用于医学数据挖掘,基本过程如下:①确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的。②数据准备。搜索所有与业务对象有关的内部和外部数据信息,从中选择出适用于数据挖掘应用的数据。将数据转换成一个分析模型,这个模型是针对挖掘算法建立的。真正适合挖掘算法的分析模型是数据挖掘成功的关键。③数据挖掘。对准备好的数据进行挖掘。除了选择合适的挖掘算法外,其他一切工作都能自动地完成。④结果分析。其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。⑤知识应用。将分析所得到的知识集成到业务信息系统的组织结构中去。
2)医学数据挖掘的特点
在医学数据挖掘中必须充分考虑医学数据的特点而采取相应的措施。这些特点是:
(1)医学数据的异质性。医学数据具有大容量和复杂性,医学数据包括图像、病人表述、医生的解释等,这些都是疾病诊断、预后及治疗的基础,是数据挖掘应该考虑的问题。医生对图像信号及其他临床数据的解释是用非结构化的语言来表示的,很难标准化,甚至于同一部门专家对病人状态的含糊描述也不能达到一致意见,他们不仅用不同的名称描述同一个疾病,还用不同的语法结构描述医学术语之间的关系,因此对其数据挖掘是很困难的。医学数据的低数学特性,医学数据自然语言的描述及其图像很难用公式以及模式来描述。
(2)伦理的、法律的和社会问题。医学的数据是关于人的资料,因此医学资料涉及伦理、法律方面的问题;涉及数据私有性和安全性问题,涉及数据所有权问题,这些都是数据挖掘要考虑的。
(3)医学数据的隐私性。医学数据不可避免地涉及患者的一些隐私信息,医学数据挖掘者有义务和职责在保护患者隐私的基础上进行科学研究,并且确保这些医学数据的安全性和机密性。
(4)医学数据的多样性。由于大量的医学数据是从医学影像、实验数据以及医生与病人的交流中获得的,所以原始的医学数据具有多种形式。医学数据包括影像、信号、纯数值、文字等。医学数据的多样性是它区别于其他领域数据的最显着特征。
(5)医学数据的不完整性。医学数据的搜集和处理过程经常相互脱节。搜集是以治愈患者为直接目的,而处理是以寻找某种疾病的一般规律为目的,因此搜集的信息可能无法涵盖研究需要的所有信息。病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映。
(6)医学数据的冗余性。医学数据库是一个庞大的数据资源,每天都会有大量的记录存储到数据库中,其中可能会包含重复的、无关紧要的、甚至是相互矛盾的记录。此外,医学数据还具有时间性特征,医学检测的信号、影像都是时间函数,具有较强的时效性。
3)数据挖掘在医学中的应用
(1)在疾病辅助诊断中的应用。医学专家系统是将专家的诊断治疗经验转化为规则,只要向系统中输入患者的相关信息,就能迅速地作出判断,这样可以减少医生的失误。
但是专家系统的诊断标准是根据某个或某几个专家的经验来制订的,缺乏客观性和普遍性。此外,专家系统的推理规则和结论都是预先设计好的,有些患者的临床表现可能不在此范围内,因此,有一定的局限性。采用数据挖掘可以通过对患者资料数据库中大量历史数据的处理,挖掘出有价值的诊断规则,这样根据患者的相关信息等就可以作出正确结论,从而排除了人为因素的干扰,客观性强,此外由于处理的数据量很大,因此得到的诊断规则有着较好的普遍性。
(2)在疾病预测和分析中的应用。确定某些疾病的发展模式,根据病人的病史预测病情的发展趋势,从而有针对性地预防疾病的发生。应用粗糙集理论根据以往病例归纳出诊断规则,用来预测新的疾病的发生,现有的人工预测早产的准确率只有17%-38%,应用粗糙集理论则可提高到68%-90%。在病案信息库中有大量的关于病人的病情信息,对数据库中的信息进行关联规则挖掘可以发现有意义的关系及模式。
(3)在药物开发中的应用。在新药的研究、开发过程中,先导化合物的发掘是关键环节,有两种基本途径,一是随机筛选与意外发现,二是定向发掘。采用数据挖掘技术建立的药物开发系统可以用来寻找同药效学相关的有效化学物质基础,确定药效基团,指导新药的研究与开发,从而缩短新药的研究开发周期,降低研究开发费用。
(4)在医疗管理中的应用。医疗管理的核心是数据、标准、计划以及治疗的质量。目前医疗管理只是停留在基于数据库技术支持的操作型事物处理的水平上。利用数据挖掘技术构建数据挖掘模型、选用适当算法就可以预测医院利润,未来某些时间段内哪些药品使用频率最高或最低,那些疾病发病率最高等问题。
(5)在遗传学方面的应用。用序列模式分析DNA 序列,有助于遗传性疾病的鉴定,胎儿先天性疾病的诊断。
综上所述,医学数据库包括电子病历、医学影像、病理改变、化验结果等,而目前数据挖掘技术主要应用于以结构化数据为主的关系数据库、事务数据库和数据仓库,对复杂类型数据的挖掘尚处在起步阶段。结合医学信息自身具有的特殊性和复杂性,选择适合医学数据类型的数据挖掘工具,并解决好数据挖掘过程中的关键技术,只有这样才能尽可能大地发挥数据挖掘技术在医学信息获取中的价值,从而更好地服务于医学、受惠于患者。
2.3.3医学数据挖掘系统
数据挖掘的核心技术是人工智能、机器学习和统计学,但是数据挖掘系统不是多项技术的简单组合,而是一个完整的有机的体系,它还需要辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表达这一系列任务,最后将分析结果呈现在用户面前。因此,数据挖掘系统是一个集信息管理、信息检索、专家系统、分析评估、数据仓库等为一体的应用软件系统。它由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。
典型的数据挖掘系1)数据库管理模块
该模块负责对系统内数据库、数据仓库、挖掘知识库的维护和管理。这些数据库,数据仓库是对外部数据库进行转换、清理、净化得到的,它是数据挖掘的基础。挖掘知识库记载有经验、规则、技术、方法、理论、事实以及挖掘过程中用到的知识等,也称作领域知识库。其主要用来指导挖掘的过程以及用来评价挖掘出来的候选模式。
2)挖掘前处理模块
该模块对所收集到的数据进行清理、集成、选择、转换,生成数据仓库或数据库。其中,清理主要是清理噪音;集成是将多种数据源组合在一起;选择是指选择与问题相关的数据;转换是将所选择数据转换成可挖掘形式。如果因为数据的问题影响到挖掘模式,模式评估将会发现,并返回重新进行数据处理过程或程序。