阿里百万主机安全管控演进分享
author:一佰互联 2019-03-27   click:183

简介:讲师介绍:首先说一下我个人,我叫王建(铭智)。不能说是第一代做运维的,应该算是1.5代了,因为2004年开始做运维行业,之前做的比较杂。现在很少看到SA、PE这种,像我以前什么系统工程师、应用工程师、开发监控、 ...

阿里百万主机安全管控演进分享

阿里百万主机安全管控演进分享

讲师介绍:首先说一下我个人,我叫王建(铭智)。不能说是第一代做运维的,应该算是1.5代了,因为2004年开始做运维行业,之前做的比较杂。现在很少看到SA、PE这种,像我以前什么系统工程师、应用工程师、开发监控、日志分析、架构,还有些海外的运维,这一整套基本上是我之前做的比较杂的。2015年的时候加入阿里,这三年一直是聚焦于在阿里巴巴的主机系统安全领域,同时也关注于运维效率。从某种意义上来讲,我见证了整个阿里巴巴主机演进的过程,所以接下来给大家分享一下这方面的内容。

阿里百万主机安全管控演进分享

今天的内容主要分为四部分:
  • 第一、现状介绍
  • 第二、主机安全管控演进
  • 第三、思考与总结
  • 第四、未来

阿里百万主机安全管控演进分享

1. 现状介绍

阿里拥有成千上万的业务群分布在全球各地,在运维行业里70%到80%的业务场景在阿里都可以见到。阿里现在的业务已经不能说是一家公司或者集团,阿里现在的叫法是“经济体”。经济体一般是一个国家或者一个地区才有经济体,从这方面我想说的是它的业务形态已经不单单是家公司了,业务形态非常地复杂。这是对外公开的一张图,它是一个生态型的,涉及到方方面面。所以说在这种场景下对于安全的要求挑战也是蛮大的。

阿里百万主机安全管控演进分享

阿里拥有国内领先的百万规模主机体量,并且这个量级每年还有很大幅度的增加。这块我也问过国内的同行,私下了解过,目前的主机规模来说在国内还是领先的。这种场景下对于我们日常的安全管控还是挑战很大,不是一台两台,几百台几万台,是分布在全球总体管控的。

阿里百万主机安全管控演进分享

这块大家之前可能不太清楚,我们每年要面对国内外的审查特别多,我这边和他们打交道是比较多,我们的安全有一部分来源于他们,因为这个监管不合规会带来很多业务的障碍,比方说像ISO20071,每年都要来审查,SOX404,以及SOC2、C5、PCI-DSS、ITGC等。这审查刚开始我们都是被动的,所以这也是促使我们的动力。监管合规对我们来说是非常重要,银监、证监没事就要过来查一下。

阿里百万主机安全管控演进分享

上午听了一个同行的将说,腾讯也有一万五千人参与编码,在阿里的生产管理也有几万的技术人员参与,大家可能都是分布在全球各地,那这里的风险也是需要我们统一来把控。

阿里百万主机安全管控演进分享

阿里的三大战略,全球化、农村、语言,在全球化过程中业务范围越大,安全这块也必须要跟得上,对于我们的挑战就是边界问题、分布、人员办公带来的不确定性。

阿里百万主机安全管控演进分享

像阿里很多的应用已经是作为国民应用了,成为国家关键信息基础设施,每次遇到大问题的时候社会反映都是比较强烈的。刚才讲了第一部分,主要是业务规模化的场景,包括全球化给整个阿里经济体带来的威胁。

阿里百万主机安全管控演进分享

2. 主机安全管控演进

这块我们主要分为这么几个阶段:
  • 主机安全,这个概念可能大家理解的不一样,主机安全到底包括哪些内容每个企业可能定义的不一样,对于阿里来说整个体系里面包括正向管控措施、逆向监测措施。在整个发展过程中主要经历了这样几个阶段,我刚接触的时候其实很多现状和之前的差不多
  • 后来经历了系统化,就整个管控体系的落地;
  • 体系化主要是数据联动、组合拳、正逆互动,最后达到安全闭环,然后体系化和智能化是现在在做的。

阿里百万主机安全管控演进分享

大家都会经历过这个阶段,注册密码可能随便给,比方说大家为了方便或者好记,是有关联含义的。体系化设计、生命周期管理,包括一些人员的操作,在操作过程中人员的一些误操作,能不能在这方面做一些防范,难免大家有时候状态不好,这时候能不能有措施防范。权限,像有人私自跨账号访问,对于重点系统的保护,这些问题其实都有。其实阿里之前的状态也是这样,我刚接手这块也是有很多问题的。

阿里百万主机安全管控演进分享

下面说一下在整个建设过程中参考的依据,这应该是大家比较熟悉的,控制论在各行各业都有应用的,其实很简单,输入输出里面两个东西,控制者和受控对象,用今天的话来说受控对象就是主机(服务器),控制者就是管控系统,管控系统对受控对象进行管控。其实在没有接触这个理论之前,大家都喜欢做正向管控建设,能管控它就好了,但其实会忽略下面的反馈。就说如何验证你前面做的有没有效或者是否全部覆盖,这个反馈就很重要,就说能知道有没有人在破坏你这个规则,有没有人逃逸在这个规则之外的。

阿里百万主机安全管控演进分享

下面就是权限模型,一个是RBAC一个是ABAC,我们是把这两个有机的结合在一起。

阿里百万主机安全管控演进分享

业务的全球化导致整个管控也是要全球化,比方说现在一些堡垒都是全球化部署,不是国内的战略,包括其他的监测也直接是全球覆盖。

阿里百万主机安全管控演进分享

下面就讲一下过程,0到1,正向管控系统建设,以及从入职到离职的全生命周期管理。在这里面还包括一些信息化,安全的东西光靠制度肯定是不行的,是需要系统来承载来实现的。数据化,阿里最大的特点是在于基本所有的数据都会存项,这在阿里是作为保卫的资源,阿里是所有的业务数据化,所有数据业务化。这是说的整个正向建设的过程,刚才说的控制论图中正向建设的过程,当然在建设过程中也是一点一点的,并不是说一下子全部弄出来。下面我们说一下反馈过程,反馈整个体系建立完之后导致体系化.

阿里百万主机安全管控演进分享

1到N。这主要包括两部分,逆向监测体系建设过程,如何评价现在是安全的,有一些手段能监测到它是否是安全的,哪些正常,哪些违规,或者哪些不在预期之内的操作,这是需要我们去构建的。今天来说反向监测体系是非常重要的,必须要有感知能力。逆向系统建设完之后,为什么说体系化,是和前面的产生联动,监测发生异常,前面去拦截阻断,这些管控手段是一整套体系中完成的。它是安全的闭环,不是脱节的,这是这几年我们一直在做的。

阿里百万主机安全管控演进分享

这是威胁治理的情况,这张图是真实的,前面有很多还是振荡波动的安全威胁,到后面就很平稳,这是最终的效果图。

阿里百万主机安全管控演进分享

刚才和大家简单回顾了一下我们安全管控的过程,这里面没有细讲,因为也是第一次和大家讲这个,我们也希望慢慢地把里面更细的部分拿出来给大家分享,整个管控的过程说实在也还有很长的路要走。

3. 思考与总结

运维的本质或者运维的核心大家可能放在这几个方面,到底哪个优先级高、优先级低,最终肯定是归在其中的一部分。每个公司对这的看法是不一样的,初创公司可能更多关注的是效率和成本,当达到一定规模的时候安全和稳定性就会提出了,像阿里的当前规模体系下不能只关注效率和成本,稳定性是我们的重中之重,牵一发而动全身,稍微有点故障就会引起社会很大反响。

阿里百万主机安全管控演进分享

本文仅代表作者个人观点,不代表巅云官方发声,对观点有疑义请先联系作者本人进行修改,若内容非法请联系平台管理员,邮箱2522407257@qq.com。更多相关资讯,请到巅云www.yinxi.net学习互联网营销技术请到巅云建站www.yx10011.com。