第17章医学信息标准化(2)

2）分类的方法

分类的基本方法有线分类法、面分类法和混合分类法。所谓线分类法，又称为树型分类法，是依据某一属性或特征，逐层分解展开，形成分类体系，例如ICD 分类法。所谓面分类法是依据分类对象的若干个特征或属性分为若干个“面”，每个“面”中又可分成彼此独立的若干类目，然后根据需要将这些“面”中的类目组合在一起，形成一个复合类目。例如在医院财务统计中，收费项目的“面”包括了住院费、药品费、手术费、检查费等类目；付费方式的“面”中包含了医疗保险、公费、自费等类目。这两个方面类目组合，就形成复合类目，如全年“医疗保险病人的药品总费用”、“自费病人的检查总费用”……从而为院长的“合理收费”提供统计依据。混合分类法则是将线分类法和面分类法进行组合使用。本章将介绍医学信息最常用的分类法——线分类法。

4.2.3分类的序化原理

分类法实质上是一个序化系统，即将某一要素或特征作为分类的依据，并将所有分类的对象按照这个要素或特征的序化关系或内在规律进行排序。贯穿整个分类过程中的序化标准称为轴，分类系统若是采用了一个序化标准就称为单轴分类系统，若采用多种不同的序化标准，则称为多轴分类系统。

我们以疾病分类ICD 来说明分类的序化原理。建立ICD 的目的是为了对疾病和健康问题进行统计分析。疾病和健康问题是分类的对象，研究所有对象我们发现它们具有四大特性，即病因、部位、病理和临床表现，这就是分类的依据，每一个依据是一个分类的轴线，多个依据就形成多轴系统。

当我们确定了一个轴心进行具体分类时，可以依据特性中所包含的属性关系再分为“类目”、“亚目”、“细目”等，这三者之间从属关系就形成了序列。

在ICD 第一章“某些传染病和寄生虫病”中，它的各个类目都是以不同的致病原因分类的，如A00为霍乱（霍乱弧菌感染），A01为伤寒（伤寒杆菌感染），A06为阿米巴原虫感染……类目下亚目却依疾病的其他特性分类。例如A06类目下属的亚目是依据疾病情况（急性还是慢性）和病理改变（痢疾或仅原虫寄生）两个轴心进行分类，所以A06.0为急性阿米巴痢疾，A06.1为慢性肠道阿米巴病，A06.2为阿米巴非痢疾性结肠炎，A06.3为肠道阿米巴。

4.3编码

4.3.1编码概念

编码是指定一个对象或事物的类别或者（如多轴分类）类别集合的过程。这里所说的类别通常是用代码来表示的。具体来说，就是将一个表示对象或事物信息的某种符号体系（常见的是文字）转换成便于人或计算机识别和处理的另一种符号体系（代码）的过程。

例如，用文字表示的“急性阿米巴痢疾”，我们就可以用代码“A06.0”表示，它是对这种疾病（一个对象）的符号，A06.0代码包含了这种疾病的若干信息：病因是阿米巴原虫导致的传染病，临床表现是急性的、痢疾样的。

编码有不同的类别，以适应不同的用途。主要有命名法（nomenclature）编码，它是以具体事务为对象，对每一个事务给以惟一的、确切的代码名称。另一类是分类法（classification）编码，即首先将某一范畴的对象分类，再对每一类至每一个具体对象予以编码。后者是最常用的分类编码方式，也是本章介绍的编码方式。

4.3.2代码

代码是编码的基本构件，它可以是数字型、字母型或者是混合型，常见代码类型如下。

（1）数字代码：为最常见的代码，通常采用顺序形式，每一新的类别都以下一个未曾用过的数字来表示，每一类别与每一数字一一对应，无重复。其优点是使用方便，易于添加新类别。

（2）记忆代码：由类别名称的一个或多个字符组成。这种代码编码容易，用户易于记忆，使用方便。例如使用英文词汇的首字母组合作为代码：

ECG（electro cardiogram）表示心电图；LDL（low density lipoprotein）表示低密度脂蛋白。

中国人最常用的记忆代码是利用汉语拼音中每一个字的首字母组合来编码的，例如药品编码中青霉素用QMS（qing mei su）表示，利福平用LFP（li fu ping）表示。这种记忆代码只要会读就会用，无需培训，不用死记硬背。缺点是如果分类庞大时，重码过多。

（3）分级代码：为了增加下一个分类级别，常常在上一级类别的代码上增加一个或多个字符以扩展分级代码。分级代码增加了类的分级内容，分级代码作为子级代码含有相关类的进一步分级的细节信息，同时表明了它与上一级类，即父类的从属关系。父类在上层，子类在下层，这样即使低级层次上发生了重要的扩展和修改，但对整个分类系统不产生影响，便于整个分类系统不断地完善。

国际疾病分类（ICD）即采用此种分类代码，例如：

S82小腿骨折，

S82.0髌骨骨折，

S82.01髌骨开放性骨折。

（4）双重代码：是一个分节的组合代码，每一节包含一种类的特征代码，组合起来便从不同类的特征去表示同一对象包含的多重信息，以利于更全面地表达这一对象归类特性。

例如国际疾病分类代码中含有的星剑号分类代码。剑号代码“ ”表明疾病的原因，星号代码“ *”表明疾病的临床表现。这样，结核性乳突炎代码是A18.0H75.0*，其中A18.0表示疾病的原因是感染了结核菌，H75.0*表明疾病的临床表现为乳突炎。

除上述常用代码以外，尚有复合代码、数值相加代码、矩阵码等等，不同用户常根据自己的需要设计出相应的编码方式。

4.4医学信息标准

4.4.1医学信息标准的艰巨性

（1）医学信息面广量大、种类繁多，包括数值、文字、图像、声音、气味等等，各种类的信息表示内容不一、表达形式不一，难以标准化。

（2）患者信息数量庞大，而且十分复杂细致，个性突出，共性和可重复性差，加之病人流动频繁、病情多变，形成极为复杂的海量信息。

（3）医学信息量化困难，它不同于工程信息，各变量的相互关系及变化规律难以用数学语言表达。例如头痛的性质和程度会因患者的个性特质、痛域高低不同而表达不一。

（4）自然语言标准化的困难。病历中的病史、病程录、病情讨论分析多采用自然语言，常因医师的学术水平、文化素养、书写习惯不同而迥然不一，自然语言标准化是全球共同的难题。

（5）共享性突出。复诊、转诊、会诊需要共享同一患者信息；电子病历需要共享不同专业和医生的信息；社区医疗、区域医疗则要共享不同地域的信息。范围越大，标准化难度越大。

因此医学信息的标准化是十分艰巨的任务。

4.4.2医学信息标准的类型

医学信息标准是一个宽泛的范畴，类型也有多种，主要种类如下：医学信息的标准、医学信息交换的标准、医学信息处理与流程的标准和医学信息应用软件和硬件的标准。

（1）医学信息的标准。医学信息的标准主要是指信息表达类标准，是标准化的基础，它更注重信息本身的内容，它分门别类地定义各个医学专有名词的代码，形成医学分类系统或医学词汇表，例如在下节介绍的ICD、SNOMED 等。

（2）医学信息交换的标准。信息交换标准的目的就是解决不同系统之间数据能以准确、精细、完整的方式被交互和通信，为此，双方所传输的信息的语法和语义必须一致，才能“读懂”和“交流”。信息交换标准比信息表达类标准要复杂，因为需更注意信息交换时的格式和规则。例如在下节介绍的HL7、DICOM 等。

（3）医学信息处理与流程的标准。医学信息处理与流程的标准对于医学信息系统的开发与推广应用有着十分重要的意义，它规范了一个系统或不同系统之间信息的处理流程。例如下节介绍的美国IHE 标准。

（4）医学信息硬件与软件的标准。医学软件的标准大致包括以下三大方面：一是软件产品的标准，二是生产和管理软件工程的标准，三是软件开发环境的标准。这中间又以医学信息软件产品的标准最为困难。

医学信息软件种类繁多，这里以我国应用最广泛的医学信息软件“医院信息系统”

（hospital information system，HIS）为例予以说明。卫生部曾于1997年颁布了《医院信息系统软件基本功能规范》，对HIS 的标准化、规范化起了重要指导作用；于2002年又重新修订颁发了《医院信息系统基本功能规范》，该规范强调了标准化是信息化的基础，并将HIS 中数据、数据库、数据字典编码标准化作为一个独立章节予以阐述，突出了标准化在医院信息化建设中的重要地位。

硬件的标准化范围很广，例如计算机的标准化，网络布线的标准化，网络设备的标准化，存储设备的标准化，以及原材料的标准化等。医学信息硬件与一般信息硬件相同，是医疗卫生信息系统建设的基础保障。

本章主要介绍医学信息的标准和医学信息交换的标准。

4.4.3医学信息分类编码的方法

医学信息分类编码的一般步骤如下：

（1）首先要确立分类设计的目的，这是分类的价值所在，没有明确、实用目的的分类是毫无意义的。

（2）遵从目的，找出对象最本质的一个或多个特性或要素作为分类的依据，每一个要素或特性即是一个轴心，多个特性即多个轴心，要素或特性是否反映对象本质是分类成败的关键。

（3）然后围绕这个轴心进行具体分类，将依从这一准则的具有共同特征和属性的对象归并在一起，而将不具备上述共同属性和特征的对象排除在外，这样就形成了各种“类”。

（4）再依从对象的属性关系作有序的排列。即围绕一个轴心具体分类时，可以依据特性中所包含的属性关系分为“类目”、“亚目”、“细目”等，在各类目、亚目和细目之间是平行的，但三者之间却是从属关系，即每一类目下含若干亚目，每一亚目下含若干细目。同一目中只应有一个轴心，但不同目中可取不同轴心。

（5）最后仍按序化关系为每一具体对象编码。

我们以种类繁多，数量巨大的西药分类编码为例说明具体方法。

首先要明确药品分类的目的是为了有利于治疗和计费。分类的依据是药品最本质的特性：病理作用和作用对象（部位）。

根据这个原则，将具有相同药理作用或相同作用对象的药品归为一类（类目）、前者如“抗生素类”；后者如“心血管类”、“呼吸类”等，并进行序化排列。然后再根据药理特性在类目下分为若干亚类，例如“心血管类”的亚目依次为“强心类”、“抗心律失常类”、“抗高血压类”

等。亚目下又分为若干细目，例如“抗高血压”的细目依次为“利尿剂”、“血管扩张剂”、“受体阻断剂”等。细目下再分为若干项目（即药品），如“扩血管剂”的药品依次为“肼莱哒嗪”、“米诺地尔”、“硝普钠”、“尼群地平”等。如果考虑到剂型、剂量等特性、还可以继续细分下去。

最后进行编码。编码就是根据每一种药品所属的类别，给予一个代码，用以标识这一特指的药品，并包含了它的诸多药理特性。

编码要注意两个问题：①代码的位数：不仅要考虑某一类别现有的数量、同时要考虑将来扩展的最多数量予以制定。②代码的符号：应力求简洁，易于理解记忆。例如西药字典中的类目小于26种，采用英文首字母“A -Z”来表示，只需1位，且易于记忆。亚目、细目、项目均采用两位的十进制数字码“1-99”，因为在同一分类中，数量可能大于9个而小于99个。

4.4.4医学术语系统、分类系统和词汇汇编

在讨论医学信息分类编码时，我们应区分以下概念，以利应用。

对象：特指实际存在的事物如“心脏”，也可以是抽象的，如“建议”。

概念：是由一组对象的共同属性抽象出来的一个思维单元，例如“医院”。术语：是用某种语言表达的概念或对象的名称，例如“感染”。临床术语在健康概念或对象上是数量巨大的词汇，在设计理念上，临床术语可以提供更细微的分割层次，形成术语系统来描述健康保健的概念。

分类系统：是将相关性的自然语言列入分类范畴，它是一种聚合的术语，是一种为了知识整理的逻辑系统。因此，分类系统和术语系统是不同的，前者有更严谨的分类，它所有的代码都是预先设定的；而后者分类的逻辑是粗糙的，其代码可以根据遇到的任何情况自由进行编码的复合，用途却比分类方法更广。

医学词汇汇编：是一种特定应用范围内的一系列术语的汇编，它们对某一领域的覆盖更完整和全面，常包含了一系列同义词，如“诊断术语汇编”等。

4.5与医学信息相关的国际标准化机构和组织

国际及国内广为应用的标准都是由标准发展组织（Standards Develepment Organization，SDO）所批准和推广。此类组织大都不直接制定标准，而是选择或培育各个领域中最适用、最优化的标准加以论证、批准和推广。而且此类组织大都是非政府性的专业学术组织或机构。下面将介绍这些公认的、权威性的、有关医学信息的组织。

第17章 医学信息标准化(2)

第17章医学信息标准化(2)