外观
安全
什么是运维安全?
运维安全是保障 IT 基础设施和应用程序在运行维护过程中免受威胁的实践体系。它贯穿系统整个生命周期,从部署到维护,聚焦于身份控制、漏洞管理和事件响应。运维安全不是独立环节,而是融入日常运维的每个操作。
运维安全防护范围示意图:
[外部威胁] --> [网络边界] --> [内部系统] --> [数据存储]
↓ ↓ ↓ ↓
[防火墙] [身份验证] [补丁管理] [加密保护]安全运维体系
身份与访问管理
身份验证和授权是运维安全的第一道防线。特点包括最小权限原则和多因素认证。
- RBAC 模型:基于角色的访问控制,特点是将权限与角色绑定,而非直接赋予用户。
用户 --> 角色 --> 权限 --> 资源
(例如:张三 --> 运维员 --> SSH访问 --> 服务器)- 多因素认证:结合密码、手机令牌和生物特征,显著提升账户安全性。
登录流程: [输入密码] --> [手机验证] --> [系统访问]网络安全防护
网络层安全关注流量过滤和分段,特点是通过纵深防御降低攻击面。
- 防火墙规则:控制网络流量,仅开放必要端口。
入站请求: [任何源IP] --> [防火墙] --允许--> [Web端口80/443]
│
--拒绝--> [SSH端口22](除管理IP)- 网络分段:将网络划分为隔离区域,限制横向移动。
[DMZ区] --受限访问--> [应用区] --受限访问--> [数据区]
(Web服务器) (业务逻辑) (数据库)漏洞管理
系统化处理安全漏洞,特点包括自动化扫描和优先级评估。
漏洞管理生命周期:
[发现] --> [评估] --> [修复] --> [验证]
↓ ↓ ↓ ↓
[定期扫描] [风险评级] [补丁部署] [重新扫描]日志与审计
集中收集和分析日志,特点是通过关联分析检测异常行为。
安全信息与事件管理流程:
[设备日志] --> [日志收集] --> [标准化] --> [关联分析] --> [警报]
↓ ↓ ↓ ↓ ↓
[服务器] [Logstash] [Elasticsearch] [检测规则] [通知]数据保护
保护静态和传输中的数据,特点是通过加密和备份确保机密性与可用性。
数据保护层次:
[应用层] --TLS加密--> [网络层] --存储加密--> [磁盘层]
↓ ↓ ↓
[API安全] [传输安全] [静态数据安全]安全运维工具链
基础设施安全工具
- HashiCorp Vault:集中管理密钥和证书,特点是动态生成短期凭据,降低泄露风险。
[应用] --> [Vault API] --> [数据库凭据](有效期1小时)- OSQuery:将操作系统抽象为 SQL 查询,特点是可以实时查询所有端点的安全状态。
网络安全工具
Suricata:开源入侵检测系统,特点是基于规则的流量分析和实时威胁检测。
Zero Trust 网络:基于“从不信任,始终验证”原则,特点是微隔离和持续验证。
访问请求: [用户设备] --> [身份验证] --> [策略检查] --> [应用访问]
↓ ↓
[设备健康检查] [最小权限授权]漏洞扫描工具
Nessus:全面漏洞扫描,特点是丰富的插件库和准确的风险评估。
OpenVAS:开源替代方案,特点是持续更新和社区支持。
安全监控工具
- Wazuh:开源安全监控,特点集成 HIDS、日志分析和合规检查。
[终端代理] --> [事件收集] --> [规则匹配] --> [安全警报]安全运维实践
安全基线配置
为所有系统定义安全配置标准,特点是自动化检查和修复。
基线配置实施:
[标准制定] --> [自动化检查] --> [偏差报告] --> [自动修复]
↓ ↓ ↓ ↓
[CIS基准] [Ansible] [报告仪表板] [修复脚本]变更安全控制
所有运维变更都需经过安全审查,特点是通过自动化流程降低人为错误。
安全变更流程:
[变更申请] --> [安全评估] --> [审批流程] --> [实施] --> [验证]
↓ ↓ ↓ ↓ ↓
[工单系统] [风险分析] [多级审批] [自动化] [监控]应急响应计划
建立安全事件响应流程,特点是通过预案和演练提升应对能力。
事件响应阶段:
[准备] --> [检测] --> [遏制] --> [根除] --> [恢复] --> [总结]
↓ ↓ ↓ ↓ ↓ ↓
[团队] [监控] [隔离] [清除] [修复] [改进]
[培训] [工具] [系统] [恶意软件] [服务] [文档]供应链安全
确保第三方组件和服务的可靠性,特点是通过软件物料清单和漏洞扫描。
供应链安全控制点:
[代码开发] --> [依赖检查] --> [构建过程] --> [部署运行]
↓ ↓ ↓ ↓
[代码审计] [组件扫描] [可信镜像] [运行时保护]云环境安全考量
共享责任模型
云安全是提供商和用户的共同责任,特点是明确分工边界。
责任划分示意图:
[云提供商] [用户]
↓ ↓
[基础设施] [客户数据]
[物理安全] [访问控制]
[hypervisor] [应用配置]云原生安全工具
- 容器安全:扫描镜像漏洞,监控运行时行为。
镜像生命周期: [构建] --> [扫描] --> [部署] --> [运行时监控]- CSPM:云安全态势管理,特点是自动化合规检查和错误配置修复。
运维安全度量
量化安全效果,特点是基于数据驱动改进。
关键安全指标:
[平均检测时间] <--> [平均响应时间]
↓ ↓
[改进监控] [优化流程]通过持续监控这些指标,团队可以评估安全控制的有效性并针对性改进。