网关比较简单,使用方便。但由于网间的协议转换和数据传输都要经过网关,会降低通信传输率,成为网络通信的瓶颈。此外,想在一次事物处理中同时调用两个不同系统的数据也很困难。当连接系数增大时,网关数会急剧增加,如果系数为n时,网关数为n(n-1)。网关的设备费用也比较高。在客户/服务器(C/S)模式下,网关也是一种中间件(middleware)产品。目前中间件产品发展较快,因此也存在利用其他中间件来解决异构系统集成的可能性。
(3)建立多数据库系统
在企业级信息集成的方案中,从系统和规模上解决异构系统信息集成问题的方法当首推多数据库系统。多数据库系统是指一种能够接受和容纳多个异构数据库的系统。它对外呈现出一种集成结构,对内允许各个异构数据库的“自治性”。
这种多库系统与分布式数据库系统有所不同,两者研究的方法和目标也有所不同。
因为异构情况在前,集成需求在后,所以多数据库系统主要采用自下向上的信息集成方法;而分布式数据库系统主要采用自上向下的信息集成方法,全局数据库是各子库的交集。多数据库系统主要解决异构信息集成,保护原有信息资源,使原有的各局部数据库享有高度的“自治性”;而分布式系统是在数据的统一规划下着重解决数据的合理分布和对用户透明的问题。当然,两者之间在技术上有很多交叉,可以相互借鉴。
多数据库系统一般分为两类:全局统一模式的多数据库系统和联邦数据库系统。全局统一模式的多数据库系统是指多个异构数据库集成时,有一个全局统一模式的概念视图,通过映射各异构的局部数据库的局部概念模式或者外模式而得到。联邦数据库系统是指各个局部数据库之间仅存在一种松散的联邦式耦合关系,不存在全局统一模式,各数据库享有高度“自治性”,通过协商机制使彼此之间协调工作。
5.1.5信息集成的优点
在企业信息化工程中,实现信息集成可以消除信息孤岛,从而使整个计算机系统发挥整体效益。
具体说来,信息集成具有如下优点:
(1)可以减少数据冗余,实现信息共享
企业如果不进行信息集成,在不同的子系统(信息孤岛)内会有大量的相同数据,学术上称这种现象为数据冗余。数据冗余很容易引起数据的不一致性,因为不同地点存放的同一数据很可能有不同的数值。
几个部门都在使用相同的BOM文件。这个文件由技术科产生后以书面形式送到其他部门,再分别录入各自的信息系统。由于多次录入会产生意外的错误,又由于设计更改时各部门可能没有及时修改BOM等原因,过了一段时间各部门的BOM会出现差异,产生数据不一致。如果实现了信息集成,各部门使用的BOM都取自共同的数据库,就不会发生数据的不一致性了。
(2)便于数据的合理规划和分布
信息管理归根结底是一个管理整个单位数据资源的问题。在没有计算机和刚开始使用计算机的年代,数据分散在各个部门或各个员工手上,存在大量冗余和不一致,使用极不方便。到了集中式数据库阶段,数据又被集中堆放在计算机室的主机上,各部门都通过网络媒体调用主机上的数据,主机和网络的负担重,运行效率低,传输速度慢,用户并不满意。现代的数据库管理系统支持分布式(distributed)的数据管理,理论上不管数据放在什么地方,用户都可以透明地访问它们,但是为了减轻网络的负担,有必要对数据的分散与集中进行合理平衡。一般可以把数据分为全局数据和局部数据两个层次。全局数据集中管理,例如主题数据库;局部数据由本地数据库管理,例如专业数据库。这种数据库只有在信息集成的环境中才能够统一计划、统一安排。
(3)便于进行规模适化
一个单位的计算机和信息资源与该单位处理的业务相匹配时便称为规模适化。
信息系统的规模过大或过小都不适宜。规模适化可以保证现有资源得到充分利用,达到高水平的系统性能价格比,并且能随着日后对信息需求的增长,在原有投资的基础上进行系统的扩充和升级。为了以后系统的扩充和升级,在设计企业主干网时应该留有足够的余量,因为铺设主干网是比较麻烦的事情,不要轻易变动。
有两种规模适化的略:规模上适化(upsizing)和规模下适化(downsizing)。规模上适化是指扩大系统规模,例如将微机及局域网互连到高档次的机器、大型网络和数据库环境中,使系统的能力更强,数据访问的速度更快。规模下适化主要是指以C/S结构取代以大中型计算机为中心的集中式系统,将大中型计算机上运行的应用程序下移到工作站或高档微机上,这样既可控制初期投资,又具有扩充性和灵活性。上面谈到的数据合理分布特别适合于规模下适化。这两种规模适化策略都必须站在集成的高度对系统做总体规划时才可能全面考虑。
(4)有利于人与人的协调
系统集成给人与人及时沟通信息和商议问题创造了便利条件。管理在某种意义上就是沟通和协调。信息共享是管理的基础,在集成化的信息系统中,用户可以很方便地查询自己有权查询的信息。大家还可以通过网络及时交换意见。企业信息化将促使企业的组织模式从层级式结构转向扁平型结构,以充分调动每个职工的积极性。信息集成将对企业文化、人们的思想观念带来冲击,有利于企业在激烈的市场竞争中调整机构和人际关系。信息集成在这一方面带来的好处往往是无形的,这种无形的效益不可小看。
5.2数据集成和共享
5.2.1数据集成的目标
简单地讲,数据集成的目标是为了实现子系统的信息共享,以便有效地利用资源,提高系统的整体性能。学术上和概念上追求的是一种理想目标。理想目标分为单一系统映像和单一数据映像。由于技术和资金等原因,企业信息化工程的初期不要追求理想目标,可以先实现现实目标。
5.2.1.1单一系统映像
数据集成的理想目标是在集成环境中给最终用户提供一个单一系统映像(SSI),这就意味着各子系统之间的相互作用必须以透明的方式进行,或者说使用户看到的是一个完全无缝的集成系统。
透明的含义表现在以下几个方面:
a.位置透明性(位置独立性)。是指用户不必知道数据的物理位置,就好像所用到的数据全部存储在本地一样。这是由一个专门的分布式数据库管理系统(DDBMS)来实现的。
b.名字空间透明。是指应该用同一命名规则定位网络上的任一资源。
c.注册透明。是指可以给出一个口令,既能够在整个系统中起作用,又能够在网络的所有设备上起作用(称为“一次注册”)。
d.复制透明性。是指给定的关系(或片断)可在物理级用许多不同存储副本或复制品在许多不同场地存储。支持数据复制的系统也应该支持复制独立性,用户在使用中并不感觉副本的存在。
e.分布式存取透明。是指可以处理网络中的任何资源,如同它们在本地机器上一样。系统必须管理存取控制,同时提供设备记录。在分布式数据库系统中有3类查询:局部查询、远程查询和全局查询。局部查询和远程查询仅涉及单个结点的数据,查询优化采用的技术是集中式数据库的查询优化技术。全局查询涉及多个结点上的数据,其查询处理和优化要复杂得多。
5.2.1.2单一数据映像
如果仅从数据的角度考虑问题,则主要实现单一数据映像(SDI),即对于系统的任何一个用户,不管其所需要的数据在什么地方,来自什么数据源,在用户看来,这些数据是透明的,仿佛就是为用户自己准备的一样。具体地说,应该达到如下几个目标:
a.分布透明性(分布独立性)。分布式系统如果将给定的关系分割为若干块或者片,可以提高系统的处理性能。利用分片将数据存储在最频繁使用它的位置上,使大部分操作是局部操作,减少网络的信息流量。如果系统支持分布独立性,用户工作起来不会感觉数据被分割成片段。
b.异种数据源的透明性。主要表现在两个方面:一是不同数据库管理系统(DBMS)下的常规事务型数据之间的透明性,二是常规事务型数据与非常规数据(工程数据、实时数据、多媒体数据等)之间的透明性。支持前一种透明性相对容易一些,主要策略有:
DBMS本身带有数据转换接口(网关或调用接口)来实现数据互访。例如Sybase Client/Server Interface,Sybase Gateway,Informix Enterprise Gateway,Ingres/Gate-way,Oracle的OCI等。
在C/S结构下,通过支持中间件来实现异种数据源的互访,例如Sybase Open Client通过支持第三方接口标准ODBC,Informix Gateway with DRDA是基于IBMDRDA标准的连接产品,实现对其他数据源的访问。
通过开发应用程序实现不同DBMS之间的数据转换。实现常规事务型数据与非常规数据之间的透明性要复杂得多,关键技术还处在研究阶段。由于技术不够成熟,本书不做进一步介绍。
c.数据的一致性和完整性。主要通过分布事务管理来实现。事务管理包括两个主要方面:恢复控制和并发控制。在分布式系统中,单个事务会涉及多个场地上的代码执行,并涉及多个场地上的代码的更新。可以说每个事务都是由多个“代理”组成,每个代理代表在给定场地和给定事务上的执行过程。在分布式系统中,必须保证事务的代理集,或者全部一致交付(commit),或者全部一致回滚(rollback)。
更新分布式数据库可能导致一系列复杂问题,例如:分布式更新导致数据库不同部分的不同步;2PC协议用于保证更新数据的一致性;2PC协议在分布式环境下实现commit/rollback处理;2PC事务的ACID基本特性(即事务的不可分性、一致性、隔离性和持久性)。这些特点保证了系统能同时处理多种事务,不需要人工干预,并且每个事务都是一个整体,它要么全部完成,要么作为一个独立的工作单元失败。
5.2.1.3现实目标
企业信息化工程的现实目标强调因地制宜,主要是针对企业的具体情况,利用成熟的数据库技术实现多数据库的信息共享,达到如下目标:
a.采集企业的各类数据,包括现场数据、管理数据、工程数据和多媒体数据,以合理的结构存储它们,并以最佳的方式、最少的冗余、最快的响应速度为多种应用服务。
b.为企业级信息集成系统中的各种应用共享所需数据创造良好条件,采用多种手段使得从经营决策、办公,到产品的设计、计划、制造的整个生产过程中的数据融为一体,实现信息集成,以支持企业对市场的快速响应和产品的快速生产。
5.2.2共享数据的存储机制
5.2.2.1体系结构的发展
企业的计算机系统经历了以下几个发展阶段:
(1)主机/多终端方式
在70年代至80年代,流行的计算机系统结构为主机/多终端方式,具有多用户单任务系统和集中式数据库管理系统的支持。所有资源集中于主机,用户通过终端按照分时制调用数据库系统。在这种系统中,数据集中存放,管理也集中在主机上。这种系统结构的主要弱点是一次性投资很大,而且不容易扩展。随着应用的扩大,对系统资源的需求也越来越大,这种形式的弊病越来越明显,到80年代末逐渐为网络化计算机系统所替代。
(2)计算机网络
计算机网络是指互连起来的计算机集合,其中每台计算机是独立自主的。随着微机的发展和局域网的普及,网络化计算机系统从80年代中期开始逐渐普及。
随着应用需求扩大,在这种结构下可以方便地进行系统扩展,不像主机/多终端方式那样需要大量投资和改造。
从TCP/IP网来看,已有下列网络软件:
a.Telnet:实现虚拟终端;
b.FTP:实现网络文件传输,通过文件支持数据共享;
c.电子邮件:实现用户之间发送和接受电子邮件。
在这种体系结构下,可利用文件共享和数据库技术实现不同应用之间的数据共享。对文件共享的技术而言,必须用第三代语言开发应用系统,工作量非常大,在多用户并发存取的情况下,其实现有一定难度。而利用数据库系统来实现共享数据,应用系统容易开发,可方便地实现并发控制。
(3)客户/服务器计算环境
客户/服务器(C/S)计算环境是基于网络的,把应用分割成几个部分,并将它们分配在整个网络上,这样能最佳地使用计算机资源。在前端客户机上运行应用程序,在后端服务器上提供DBMS的核心操作、物理存取、事务处理。客户机通过远程过程调用(RPC),以结构化查询语言(SQL)形式请求服务,服务器执行所需要的处理,然后将结果返回给客户机。客户机和服务器之间通过网络实现无缝协同计算。