UDN-企业互联网技术人气社区

板块导航

浏览  : 3429
回复  : 2

[实践集] DevOps实践集——运维体系

[复制链接]
jingyun1的头像 楼主
发表于 2015-7-13 16:21:10 | 显示全部楼层 |阅读模式
本帖最后由 jingyun1 于 2015-7-13 20:27 编辑

1. 运维主体
ops_frame.png

2. 运维框架
ops_framework.png

3. 运维角色
根据运维主体和框架,将运维角色分为以下五种,在设置运维岗位或者职责时,可以参考这五种角色:
3.1 基础运维
基础运维主要包括网络和机房相关运维职责
职责:
  • IDC机房网络规划
  • 设备的上下架管理
  • 网络设备的维护,策略规划
  • 与运营商沟通解决日常出现的问题
  • 处理日常应用中出现的网络问题
  • 机房业务双冗余设计、管理、变更等操作
  • 机房权限管理
  • 机房资源预警
  • 公共服务的维护管理
3.2 系统
职责:
  • 操作系统的研究与适配
  • 系统基础组件的研安与维护,如DNS、LDAP等
  • 运维自动化工具的开发与维护
  • 监控体系的建立与维护
3.3 应用
职责:
  • 部署应用:部署线上环境,中间件,代理转发,及其他线上环境
  • 针对应用编写自动化脚本
  • 补全cmdb信息中各项数据
  • 提交所负责应用的监控需求并验证监控结果,负责人为监控报警的第一响应人
  • 根据日志收集规范收集日志,并定期检查,每周一次
  • 维护线上环境主机整洁,定期检查关键目录
  • 根据运维规划进行应用备份,定期恢复验证,每月一次
  • 冗余策略检查,配合网络以及数据库进行线路通断演练
  • 灾难故障演练,down掉应用集群中的任意主机,应用不间断运行,每月一次
  • 充分了解所负责产品从研发环境开始到上线的各环节,以及各环节所使用的技术
  • 充分了解应用架构知识,能够对研发提出的临时需求进行风险预测
  • 解决研发日常提出的各种需求,把可量化的需求优化到流程中
  • 配合迭代开发的上线需求

3.4 数据库
职责:
一、日常
  • 日常DB的健康状态检查
  • 日常DB的备份检查
  • 定期的DB恢复验证
  • 日常的DB更新
  • 日常的开发测试等支持
二、监控分析报告
  • 数据库健康状态的周报,数据的全面分析,连接数,使用负载,慢查统计等
  • 数据库备份的报告(每天)
  • 数据库备份文件恢复报告(最好每天都做,每周或月一个报告)

3.5 安全
  • 信息安全规划
  • 防护设备的管理及维护
  • 参与安全事件应急响应
  • 日常漏扫结果验证及修复
  • 跟踪最新漏洞信息,进行业务产品的安全检查
  • 定期进行安全审计
  • 定期进行安全培训
  • 全面制定规范. 标准,协助产品安全开发生命周期的管理与控制
  • 对各业务系统进行安全加固
  • 密切跟进研究业界先进安全产品安全与技术

注:
  • 监控是每个角色都必须掌握的能力

4. 运维规范
运维是精细化工种,需要完善的流程规范约束操作,以降低风险
  • 域名使用规范

    • 应对特殊域名进行保留
    • 域名取名规范

      • 域名中只能包含以下字符:

        • 26个英文字母
        • “0,1,2,3,4,5,6,7,8,9”十个数字 3. “-”(英文中的连词号,不得用于开头及结尾处)

      • 域名中字符的组合规则:

        • 在域名中,不区分英文字母的大小写
        • 域名的长度保证在10个以内,自生成的随机域名在15个以内为佳
        • 整体长度不得超过26个字符(包括".")

  • 机器命令规范
    主机名规范

    • {环境}-{产品线}-{应用类型$主机序号}-{硬件类型}-{机房}
      • 环境:产品线,应用类型
        • dev,开发(测试)环境,
        • allinone,集成环境,
        • moni,模拟(仿真)环境,
        • prod,生产环境

      • 主机序号:为两位,如01,02,03
      • 硬件类型:
        • p,物理机
        • v,虚拟机
      • 机房:
        park,园区,
      • 举例
        • prod-xxx-rest01-p-park
        • moni-xxx-server02-p-park
        • allineone-xxx-server04-p-park
        • allineone-xxx-compute60-p-park

    • 注意: 开发环境无法知道具体的产品线信息的,前后都保持一致,中间产品线信息以申请人提供的信息为准!例如:dev-svn01-v-o
    • 网卡配置规范
      • 物理机
        eth0为内网
        eth1,eth3绑定为bond0,为生产网
      • 虚拟机
        eth0为生产网

  • 备份规范

    • 日志类
      • 应用、访问日志等每天进行分割、压缩
      • 如果每天日志量较大,可进行多次分割,保证每个日志原文件控制在500M以内
      • 每天晚上定时将所有压缩日志进行回传公司专用备份服务器,备份

    • 数据库
      参照数据库备份规则
    • 中间件
      • 使用工具进行部署的,备份SVN,规则参照SVN备份方案
      • 手动部署的把中间件配置文件软链到

    • 程序
      • 所有程序文件都必须通过SVN进行更新。
      • 如果有未在SVN中的配置文件等放在指定目录中

    • SVN
      • 每天进行备份

    • 备份
      • 每台设备中需要备份的内容都软链到指定目录中
      • 除数据库外,直接进行本地备份,不需要在本地备份服务器中再备份

    • 备份目录
      • 数据库(权限进行严格控制)
      • SVN
      • 存储数据
      • 每台服务器日常数据,包括日志、程序配置文件

  • 权限管理
    • 禁止sudo权限

5. 产品上线发布流程
运维的核心目标是保证应用的可用性和稳定性,任何一次变更都可能引入问题,通过严格的线上发布流程和自动化的手段,可以提高发布效率的同时降低问题引入的可能性.
ops_delivery.png

5.1 开发测试环境
要求:
  • 代码独主
  • 数据库独立

规范:
  • 运维提供机器
  • 运维安装标准系统、中间件或进行首次部署
  • 后续自行管理

5.2 集成测试环境
要求:
  • 代码独主
  • 数据库独立

规范:
  • 运维人员按线上架构要求进行部署
  • 对应用进行自动化部署实现
  • 服务器权限由运维人员控制
  • 应用更由运维或测试通过发布系统进行操作

5.3 预发布环境
要求:
  • 代码独立
  • 生产数据库

规范:
  • 部署在与生产环境统一的物理地址与网络环境
  • 按生产环境要求进行部署
  • 应用所连接的数据库为正式环境数据库
  • 所以操作由运维人员进行

5.4 生产环境
要求:
  • 代码独主
  • 数据库独立

规范:
  • 智能经过授权的运维人员进行操作
  • 应用由应用运维进行
  • 数据库由DBA进行操作
  • 两权分离

注:
  • 为保证构建结果的统一性,集成测试环境、预发布环境、生产环境采用统一的构建结果,不重复构建,构建结果采用版本控制工具存储
  • 任何变更都需要经过每个环境,才能交付用户使用

6. 工具箱
6.1 核心工具
  • Puppet
    Puppet负责配置文件等的统一修改与发布
  • Zabbix
    Zabbix负责信息收集,通过服务器进行分析处理报警
  • ELK
    Logstash负责将服务器中各块散落的日志进行统一、实现的收集存储在ElasticSearch中,通过Kibana进行分析处理

6.2 运维工具箱
ops_toolchains.png

7. 故障预防与总结
  • 规范
    通过完善的规范制度,降低出错的可能性
  • 监控
    通过监控及时发现故障,定位故障,才能快速处理
  • 总结
    同样地错误不犯第二次,通过故障总结报告,可以深度分析故障,预防故障重演

故障和误差一样,是无法避免的,我们要做的就是降低其出现的概率和影响,应用系统的高可用架构对故障的容错是至关重要的

同学们,欢迎大家留言讨论,陆续还有更多的湿货+干货,大家回复越多,楼主更新越快

想了解更多运维和DevOps的资讯和实践,关注公众号

sdp_webchat.png


发表于 2015-7-14 19:50:50 | 显示全部楼层
收藏
使用道具 举报

回复

发表于 2015-7-15 18:34:46 | 显示全部楼层
排队收藏
使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们
联系我们
  • 电话:010-86393388
  • 邮件:udn@yonyou.com
  • 地址:北京市海淀区北清路68号
移动客户端下载
关注我们
  • 微信公众号:yonyouudn
  • 扫描右侧二维码关注我们
  • 专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041 京ICP备05007539号-11 京公网网备安1101080209224 Powered by Discuz!
快速回复 返回列表 返回顶部