文‖中国银行数据中心总经理 孟茜
在经济发展全球化趋势大潮下,信息科技的发展和应用正以前所未有的广度、深度和速度渗透到银行业客户服务和经营管理的方方面面,而银行业信息系统的安全运行,已经不仅仅关系到业务开展和银行声誉,更关系到金融和社会稳定大局。建设一套与之要求相匹配并持续完善的数据中心风险管理体系,已成为摆在银行科技部门面前的关键课题和必然要求。
风险管理体系产生背景
中国银行于2011 年实现境内34 家分行应用系统和数据的大集中,形成“两地三中心”的基础设施架构和生产运维格局。近年来,我行数据中心集中运维规模不断扩大,业务支撑能力和安全运行水平持续提高。目前,数据中心运营管理的重要信息系统达数百套,运维设备达数千台,骨干网络线路达数百条,客户数、账户数、交易量快速攀升,生产压力逐年增大。此外,按照我行海外系统整合转型项目规划,2013 年9 月,我行已成功将亚太12 个国家和地区的系统集中到总行数据中心,预计到2015 年,我行将初步完成海外系统的集中统一,形成全球一个生产中心的一体化运营格局。
对商业银行而言,信息科技风险已经事关银行业务发展和经营管理的命脉。而随着运营规模的快速扩大和集中度的不断提高,数据中心面临的全局性、关联性和结构性风险也进一步集中和加剧。运维风险可以说是科技风险最集中的载体、最直接的体现,因而也成为应对风险的最前沿,必须将之纳入全行风险管理体系框架,强化顶层设计、遵循最佳实践、创新方法机制、打造管理体系。另一方面,全球一体化运营的发展趋势对数据中心风险管理提出全新的要求,需要我们面对各个国家和地区230 个不同监管制度的数千项条款,海外监管合规要求更趋严格,差异较大,监管遵从形势复杂;在海外系统集中后,如何支持全球集中系统多时区条件下的生产运营,如何应对系统环境架构的更趋复杂,具备前后台一体化联动和快速有效响应能力,都将对我行数据中心7×24 小时运维产生深远影响,形成新的挑战。
在这样一个背景下,中国银行数据中心风险管理体系应运而生。
风险管理概述及其核心
数据中心运营风险的复杂性可以用“其大无外、其小无内”来形容,它蕴涵于生产运维活动的各个方面、各个环节,如何清晰地识别它、处置它、化解它,对管辖范围内的信息系统风险真正做到心中有数、妥善应对,是我们面临的首要问题。
为此,我们充分借鉴巴塞尔委员会《关于加强银行公司治理的指导意见》,结合数据中心的运维实际和风险分析,明确数据中心面临的两类风险——运维风险及合规风险,并进行内涵的明确和细化。
运维风险:运维风险是唯一可能使银行业务在瞬间全部瘫痪的重大风险,具有隐蔽性、突发性和灾难性的显著特征,关系到金融稳定、社会稳定甚至国家安全。在中国银行系统和数据集中化的进程中,数据中心维护的客户数、账户数、系统数、设备数等均成倍增长,业务量也随之快速激增,海外时区差异要求绝大部分系统需真正实现7×24小时不间断运行和技术保障,这意味着一旦信息系统服务中断或服务质量降低,将引发全局性的重大业务影响。
合规风险:海外30 多个不同国家和地区的差异性监管要求是我们需要面临另一大类风险,即合规风险。海外银行业IT 监管制度繁多,关注点各有不同,不仅对我们的科技风险管理体系的科学性、应急容灾机制的有效性、内控制度建设的完整性、监管遵从的差异性提出更高标准,也对我们的政策理解和监管沟通提出新的要求。如果不能及时进行有效识别、控制、规避和化解,将可能会面临法律制裁、监管处罚、财务损失或声誉损失,这些损失往往是难以弥补的。如:卢森堡对数据跨境传输的要求为“若欧盟议会或监管当局发现第三国不具备适当的保护措施,则禁止将数据传输至该国”,如果不符合该项监管要求将直接影响我行海外业务的正常开展。
风险基线是风险管理体系的核心。根据运维风险及合规风险的特点,我们建立符合中国银行业务发展、海内外监管要求和国际信息安全最佳实践的运维风险基线和合规风险基线。风险基线是我们评估自身安全能力的标尺,据此全面评估各领域的风险管控缺失和差距,做到对风险状况心中有数、对风险控制有的放矢,实现全面、标准、精细的风险管理。
运维风险基线:信息资产是运维风险的载体,我们的运维风险基线基于信息资产建立。通过信息资产目录,确保运维风险的管控覆盖全部信息资产;同时,依据数据中心系统架构及运维经验,建立对应的威胁及脆弱性分析,全面、深入识别资产面临的运维风险。
合规风险基线:全面选取我国人民银行、银监会和海外各个国家(地区)监管机构的信息科技类监管制度,并结合业界标准和最佳实践,在风险管理框架基础上进行分类、整合、映射,形成覆盖国内监管、海外监管、国际标准的监管合规信息库,作为合规风险管理的
基线。
风险管理建设实践
基于上述风险管理方法和理论模型,我们形成了一套分层次、递进式、全链条、重实效的数据中心风险管理实践,主要包括:确立三级架构的风险管理框架;建立合规和运维风险基线;基于风险基线开展风险评估并采取控制措施;采取安全审计等机制保证持续改进和完善。详见图1。
1. 风险管理框架。风险管理框架以COSO 企业风险管理(ERM)为基础,运用层次分析法,划分领域层、目标层、控制层三级架构。领域层依据我国银行业监管要求,分为信息科技治理、信息科技风险管理、信息安全管理等7 个与数据中心风险直接相关的领域。目标层参考业界最佳实践,明确领域层二十余个具体管控对象,例如对于事件、问题、配置、变更、发布等8 个方面实施的风险控制。控制层为实现目标层更为具体的风险管控要求。
2. 合规风险基线。基于风险管理框架,我们对国内外监管要求进行科学分类和逐项分析,并特别提炼出各海外监管机构的重点关注领域。数据分析显示,海外监管机构对安全审计最为关注,相应监管条款占比高达15%,其中尤其重视生产运维的内部控制及合规管理;故障管理(10%)、第三方管理(10%)紧随其后。如图2 所示。
随之,我们对监管要求进行深入的差异性分析,总结各监管机构的监管偏好。以访问控制为例,多数海外监管机构都要求对IT 资源的访问情况进行监控,尤其是对特权用户、远程用户等敏感权限用户行为的监控,但侧重点大不相同,如:卢森堡重点关注对访问主体身份的验证,要求确保可在任何时候对所有信息系统访问及数据输入的访问身份进行检查及记录;美国重点关注访问日志的完整性、机密性和可用性,要求银行严格控制和监控日志文件的访问;澳门重点关注访问监控技术工具的使用,要求银行采用安全工具监控所有重要信息系统未经授权的访问等。
殊途同归,我们依据海内外监管要求及业界最佳实践的逐一的映射,形成合规风险基线。同时,本着“就高不就低”的原则,落实相应的风险防范措施。
3. 运维风险基线。运维风险基线的建立思路是以信息资产为核心,开展对资产价值、威胁、脆弱性的分析,形成覆盖数据中心所有信息资产的全面、完整、科学的风险基线,继而开展风险评估、明确风险等级、制定风险处置计划。
运维风险基线建设过程中,关键流程分“资产识别、威胁和脆弱性评估”两个部分,包括数据中心6 大类资产,百余项固有脆弱性,以及可能利用这些脆弱性的内外部威胁。
4. 风险控制。在全面识别合规和运维风险的基础上,我们通过管理制度、技术工具、风险应对等三种方式进行风险控制,进行事前、事中、事后各阶段的运维风险管控。
事前,部署覆盖机房环境、硬件、系统、网络、应用层面的自动化监控平台,从基础组件和应用交易两个维度进行端到端实时监控。经过近年来的不懈努力,目前自动化监控覆盖所有关键IT 组件,做到异常事件的有效预警。事中,开展7×24 小时全球一体化运维值班服务,确保第一时间进行应急响应和快速处置。事后,建立问题管理和后评价机制,排查症结,防微杜渐,深层次挖掘分析系统缺陷和不足,提升IT 服务质量。
以上,靠制度管人、按流程分责、照标准做事的运维机制已建立统一的运维流程管理平台,利用工具手段将管控措施嵌入到数据中心各项日常管理流程之中,实现对核心运维流程的闭环支撑和自动化管控。
5. 持续完善。风险管理是一个动态变化的过程,需要建立PDCA 的持续完善机制。通过定期评估、触发式评估、第三方审计等方式,对风险管控措施进行紧密跟踪、及时完善、确保落实。
中国银行数据中心的风险管理体系在“两地三中心”生产运维格局和海外整合转型项目进程中得到有效实施和验证,实现对风险的规范化、科学化、精细化、体系化管理,全面提升风险控制能力。同时, 体系于2012 年通过ISO20000 服务管理体系认证,于2013 年以“零不符合项”通过ISO27001 信息安全管理体系认证,于2013 年8 月以“零不符合项”通过独立第三方审计机构依据ISAE3402 国际审计标准的安全评估,于2014 年5 月顺利通过印度尼西亚金融服务管理局对数据中心运维风险管理的现场检查。
***********************************************
欢迎订阅《金融电子化》杂志,发行征订热线:010-88232443、010-68291255,发行传真:010-68291377(请说明是在微信上看到的哦!)