书城社会科学数字媒体资产管理系统
49625400000037

第37章 内容管理系统的基础结构(4)

7.3.3.4基于硬盘的在线存储

在机器人技术中,硬盘不作为存储设备,但也被放置在SAS、NAS或SAN系统中。这里讨论硬盘有2个原因。第一,硬盘是大型存储体系结构的一部分,正如在SAN中所看到的,这些体系结构对于使用它的内容管理系统正在变得越来越透明;第二,对于低带宽媒体(如浏览音频和视频)的长期存储,硬盘是一种较为节省成本的选择。

对基于硬盘的存储结构来说,数据安全是通过在RAID模式中安装硬盘来实现的。从完全磁盘镜像到子集的复制,目前已经开发出许多不同的RAID模式。硬盘技术的发展正在以突飞猛进的速度进行着,它也开始变得比其他存储技术更具有竞争力,甚至达到了若干TB的存储容量。

7.3.3.5结合性的技术

各种硬盘种类和基于磁带的机器存储选项可以结合起来达到更优的功能,同时能节省成本。在结合不同的存储选择时,使所选择的组件、网络和结合架构没有控制、带宽或其他方面的瓶颈是非常重要的。各种存储方案持续不变的数据率能够相互兼容是非常重要的,如果不能做到,就必须提供措施以保证过载时不会丢失数据。

实际上,结合不同的存储技术能够提供一种较好的方式,在统一的系统环境中整合和解决对存储子系统的不同需求。然而,必须保证结合的系统是完整的,没有对系统结构的改变。结合性的存储技术可能会导致个性化的解决方案,以至于难以支持和维护。任何这样的解决方案都要加以避免。

7.4以基准系统基础结构来支持工作流

大规模的内容管理系统不是异乎寻常的产品,因为它们必须适应使用它们的组织的特殊要求。因此,没有能够让所有的系统作为设计依据的基础体系结构蓝图或标准体系结构。然而,在为大规模内容管理系统设计特殊的技术基础结构以前,考虑一个总的基准硬件基础结构是十分必要的。这个基础结构包含内容管理系统基础结构所有的相关要素,它也考虑了重要的设计原理(如可扩充性)以满足容量、有效性和执行的增长需求。这个基准基础结构允许具体的内容管理系统能够识别所需的组件,评估升级的潜力及所需的成本。我们在本节提出了这样一种基准硬件基础结构,并将组件放到体系结构的环境中,还将探讨体系结构所覆盖的工作流。

7.4.1一般的系统设计

组织内的基础结构及素材和元数据采用了一种基准硬件基础结构,而此结构的处理方式是工作流和执行程序得以进行的基础。为满足功能和可升级需求所设计的内容管理系统的一般基础结构的一种可能的执行过程。这个基础结构可被用来管理系统组件的交互及通过不同网络的素材和元数据的流动。

所给出的基础结构支持标准工作流中的下列操作:

·录入、存储、编辑和播放各种格式的高码率资料。

·低码率资料(如浏览副本和关键帧)的创建和存储。

·元数据的生产、存储和修改。

·自动索引。

·高级检索功能。

·以合适的质量从分布式工作站访问元数据和素材,改善整个工作流。

与上面的设计规则一致的是,有3类服务器被用于建立内容管理系统基础结构,即集群数据库服务器、应用服务器和SAN服务器。在本例中,应用服务器只有快速以太网接口,而SAN服务器有快速以太网、GB以太网和光纤通道接口。而且,接口服务器可将基于IT的系统连接到广播环境中。

下面简要介绍所建议的基础结构的各种模块。为了达到最大限度的可升级性,某些服务必须分散在多个服务器系统中。很显然,每种服务只是显示在一个服务器上,怎样升级系统和组件在下文都有描述。

7.4.2投稿和上载

在处理内容的组织中,有许多可以获取资料的方式,如通过各种格式的磁带、各种规格的胶片、光纤传输、卫星下行线和使用文件传输网络。

当素材通过信号(从磁带、胶片、光纤和卫星)上载到系统时,信号通过矩阵开关,使用SDI或SDTI选择记录设备。矩阵开关、转换控制器和所有连接的记录设备都由标准协议(如RS-422)进行控制。典型的记录设备是磁盘记录器或如7.1.3.5所描述的作为接口服务器的视频服务器。

文件传输时,素材并不通过矩阵开关路由,而是通过标准的IT网络。目标系统可以是内容管理系统中任何适合的IT设备;一个很自然的选择又是接口服务器,因为它能立即提供文件形式的素材和矩阵开关的信号,因此也适合标准广播基础结构。

7.4.3上载控制和记录

如上文所描述的,输入的素材被默认记录到接口服务器上。接口服务器将素材编码成标准的制作格式。在SDTI传输或文件传输的环境中,素材被直接写入到接口服务器的磁盘上。通过IT网络的文件传输将记录的素材从接口服务器送到内容管理系统中。注意,在大多数情况下,广播设备并不在内容管理系统的唯一控制下,因为它们也被其他组件(如演播室自动控制系统)所使用。

编码设备(接口服务器)的选择主要依赖于生产和归档格式的要求。当使用磁盘记录器作为编码设备时,让若干或所有的磁盘记录器共享一个SAN是明智之举。SAN能使磁盘记录器将SAN作为一个本地磁盘进行寻址,从而能避免不必要的材料迁移。然而,这样的结构对SAN的执行有较高的要求,不能在录入过程有丝毫失败。这对于现场记录有一定的难度,因为这样的记录不能重复。

定义一种共同的交换文件格式用于素材的记录是很重要的。这样一种标准的文件交换格式的成功例子是媒体交换格式(MXF)或高级制作格式(AAF)(见第5章)。如果一个接口服务器不支持这样一种标准的文件交换格式,必须要有文件格式转换器将不兼容的文件格式进行转换。当素材编码格式相同,但不同的制作设备使用不同的格式时,这种转换是必须的。文件格式转换器可以直接访问接口服务器或SAN,或者也可以访问内容管理系统中以高码率在线存储的文件。

录入和平行记录成多种目标格式是通过向自动或广播控制系统输入命令来处理的。自动控制系统控制所有参与记录的设备。

当信号、用于浏览目的的低码率副本录入时,应该在将引入流送入低码率(浏览)编码器(如支持帧准确记录的MPEG-1编码器和SMPTE时码)的同时进行记录,并将编码的流写入内容管理系统的低码率在线存储域(在线SAN的浏览和关键帧域)。

在传送的过程中,当传统的以视频为中心的操作仍处于主导地位时,按照用于节目交换的专业磁带格式提供用于室内制作和播出的磁带副本是很重要的。

7.4.4生产质量素材的传输

许多组织有现存的SDI/SDTI基础结构,可用于从传统生产到基于文件的生产中的高码率质量内容的传输。由于SDI是点到点的协议,这些网络要求经由矩阵开关(即路由器或交叉开关矩阵)的信号路由。在这种环境中的接口服务器(磁盘记录器)整合了SDI基础结构和IT基础结构。文件传输可用于从接口服务器到基于文件的制作系统(如NLE)中的素材拷贝,而同时记录仍在进行中。

最终的目的是将所有的生产和传输过程迁移到文件访问和交换中。在此,高效的网络连接(如光纤通道或GB以太网)是首选的技术。

7.4.5对浏览副本和关键帧的访问

在内容丰富的组织中,成百上千的桌面工作站可以经由标准的共同网络访问和重放浏览质量的内容。为了可升级和最小化内容的复制(这种复制会增加存储的成本),本章所介绍的体系结构将多种浏览流服务器连接到单个的SAN上。通过引入适当数量的流服务器来升级目前有效浏览流的数量。所有的服务器共享同样的磁盘空间,因此避免了在线存储内容的复制。

有些时候,在给用户快速总览视觉内容方面,选用键帧甚至是一种比浏览视频更好的方式。快速访问关键帧是内容管理系统的重要特征,因此,应该保持所有关键帧在浏览和关键帧SAN中的永久在线。这能避免近线存储系统在阶段性处理过程中引入的潜在危险。为保证可升级性和减少成本,在处理上千个并发用户的请求时,采用的策略是使用多个关键帧服务器,共享SAN以保证负载平衡。

7.4.6实时分析和注释

在录入过程中,内容管理系统应该提供元数据实时产生的选项。在这种环境中,元数据的产生可以是自动的或手工的过程。前者与辅助数据(相关说明、ANC数据等)的自动提取、自动视频分析(镜头发现、关键帧提取等)、自动图像分析(面部识别、屏幕OCR等)和自动音频分析(关键字定位、语音识别、简单音频分类等)同时发生。手工注释被称为标引,它是个实时的过程。

自动分析过程在涉及处理容量和计算时间时非常需要。要想比实时更快地完成处理过程就要有功能强大的处理器。因此,为了按比例决定并发分析处理过程的数量,就必须尽可能地使视频和音频分析服务分布在多个服务器上。这种设置也添加了冗余,增加了有效性。

如果分析服务使用流服务器访问内容,那么分析服务可以驻留在应用服务器上。如果分析服务必须在文件层面上访问素材,则分析服务必须连接到SAN上。在这种情况下,分析服务就属于SAN服务器。

除了自动产生元数据,系统应该提供接近实时的手工注释(标引)的用户界面。在标引的过程中,用户需要在记录标引时访问浏览副本。理想的情况是,在实际的记录和资料的察看之间有个很短的(即几秒的时间)时间延迟。

典型的情况是,素材分析结果可以是时间编码的文本,也可以是新的素材(如关键帧)。手工注释创建了文字的元数据,关键帧被存储在关键帧服务器上,元数据可以分散在各种数据库中,如数据管理系统的数据库或现存的编目系统。与素材相关的元数据(如文件的位置、编码格式、文件大小等)被保存在素材管理数据库中。

7.4.7归档

素材的关键帧、高码率和低码率的副本在大规模存储系统中要进行永久性的归档。支持归档的基准硬件基础结构的相关部分。根据要求的存储数量,大规模存储系统的核心要么是自动数据磁带库系统(在生产质量的视频和胶片的情况),要么是基于硬盘的存储系统(可应用于生产质量的音频、视频和音频浏览副本及关键帧)。当视频和音频素材以生产质量(包括音频浏览副本)作为近线副本存储,并根据需求放在各自的在线存储SAN文件系统中时,音频浏览副本、网络质量的素材和关键帧通常在线存储。对于这些素材格式,大规模存储系统是作为备份设备服务的。

数据从SAN文件系统到数据磁带的传输是通过高效数据磁带驱动来完成的。现代磁带驱动的吞吐量是相当可观的,传输率大于30MB/s。处理这些传输率,系统设计仍然采用分布式处理。每个磁带驱动都要连到光纤通道开关上,因此它们是SAN上的有效资源。大量的传输服务器都要连到SAN上,因此从一方面看是数据磁带驱动,从另一方面看是SAN文件系统。理想的情况是,每个归档传输服务器应该主要访问一个专门的磁带驱动器。根据磁带驱动和服务器的性能,在某些配置中是有可能通过一个归档传输服务器使用2个或更多个磁带驱动器而不降低性能的。

SAN体系结构允许一个磁带驱动器被分配给一个以上的服务器,用于增加方案的有效性。在这种情况下,一个归档传输服务器的失效不再意味着相关磁带驱动的丢失。当超过需求的更多的归档传输服务器被添加到方案中操作磁带驱动时,一个归档传输服务器的失效甚至不会影响服务的质量。

归档传输服务器直接在SAN文件系统与磁带间传递内容和回传。由于所有的单元都被连接到SAN上,当一个服务器或磁带驱动失效时可进行资源的重新分配。归档传输服务器也被用于在在线SAN和基于磁盘的大规模存储系统间的文件传输。根据所采用的软件解决方案,归档传输服务器也能将文件拷贝到接口服务器或从接口服务器将文件拷贝过来。

大规模的存储系统是长期的归档设备。在线SAN只是高速缓存,它能对文档内容进行优化的快速和直接访问,即存储在这些组件上的内容是随时可用的。文件经由归档传输服务器(见6.4.1.3)在在线SAN和大规模存储系统之间迁移。

需要一些附加的服务来管理这样一种基础结构。首先,对于库索引的需求,要知道所归档的内容和在哪里能找到这些内容。而且,这个索引要接受归档、检索和内容删除的请求(所谓的文档管理服务器)。第二,当采用一些归档传输服务器时,必须要从相应的整体上来决定由哪个归档传输服务器来处理哪个引入的请求。这就要将这些请求排序,并根据优先权和资源的有效性将它们分布到有效的归档传输服务器上,这个组件就是文件传输管理器。最后,在线SAN的有效存储容量和所管理的接口服务器需要具有可设置的不同程度的水印功能。这是由高速缓存服务器来完成的。在提到硬件体系结构时,这些服务必须被放在单独的服务器上或分布在多个服务器上(取决于系统负载)。文档管理服务器和文档传输管理器都要运行在应用服务器上,而高速缓存服务器要运行在SAN服务器平台上,因为缓存服务器要访问SAN,以便能够监控有效的存储空间和删除文件。