运维工作的理解教程快讯

印迹4月前 113

运维

负责维护并确保整个服务的高可用性,同时不断优化系统架构提升部署效率,优化资源利用率提高整体的投资回报率。
运维工程师面对的最大挑战是大规模集群的管理问题,如何管理好几十万台服务器上的服务,同时保障服务的高可用性,是运维工程师面临的最大挑战。

操作技能:服务器,操作系统,数据库应用网络,服务器

看法和理解

运维不仅对工程师的专业素质提出了超高要求,对于心理素质等各方面的要求也是极为苛刻的。对于运维工程师而言,经验是极其重要的东西,一般岁数偏大的、有多年运维经验的老工程师的工资会比较高,所以在业内一直流行“越老越值钱”的这样一种说法。而对于职业新手来说,更多的则是进行不断地学习,来提升自己的经验,从而快速地找到问题的根源,用极高的效率去解决遇到的问题。

以下就是对运维的理解。

运维,通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。对于初创公司,运维部和系统部一般是合二为一的,相关工作由同一批人负责,界限可能不是很明显。大型公司对运维工作的要求更高,需要有更精细的分工,因此机房/网络/操作系统相关的底层工作分离出来由专人负责,成为系统管理部,而上层和应用产品相关的工作则由运维负责,成为运维部。

运行维护的工作并不只是像说说那么简单的。

运行维护首先需要有扎实的计算机相关知识,包括计算机系统架构,操作系统,网络技术等。通用应用方面需要了解操作系统、网络、安全,存储,CDN,DB等,知道其相关原理。并且对于计算机类工程师来说编程能力是很重要的,小到运维工具的开发,大到大型运维系统/平台的开发都需要有良好的编程能力。

运维工程师还要有一定的数据分析能力:能够整理、分析系统运行的各项数据,从中发现问题及找到解决方向。当然,要想进行运行维护,首先要对自己进行运维的东西有极其充分的了解,所以丰富的系统知识也是不可或缺的,包括系统工具、典型系统架构、常见的平台选型等;由于运维工程师的工作极其复杂并且设计范围较为广泛,所以综合利用工具和平台的能力也是要有的。

当然,工程师不仅要有专业知识基础,心理素质等各个方面的要求也是极为苛刻。比如说时间管理能力,特别是碎片化时间的处理能力;沉稳的心态,面对紧急情况时需要处变不惊;沟通能力、团队协作,运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是最高线上权限者,需要谨慎心细;主动性、执行力,能够主动学习国际国内的运维技术,并引入到工作中,提高运维的质量和效率等等。

从行业角度来看,随着中国互联网的高速发展、网站规模越来越来大、架构越来越复杂,对专职运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱。从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。互联网运维是一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给运维工程师提供了一个很好的个人能力与技术的发展空间。运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,优秀的运维工程师具备很好的各层面问题的解决能力及方案提供、全局思考的能力等。由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。当前国内外对运维人才的需求非常迫切,运维工程师的薪资也水涨船高,与研发、测试等技术部门持平,甚至超出。

职责

无论做什么运维,运维工程师最基本的职责都是负责服务的稳定性,确保服务可以7 * 24H不间断地为用户提供服务在此之上运维工程师的主要工作职责如下:

质量:保障并不断提升服务的可用性,确保用户数据安全,提升用户体验。

效率:用自动化的工具/平台提升软 在研发生命周期中的工程效率。

成本:通过技术手段优化服务架构,性能调优;通过资源优化组合降低成本,提升ROI。

从产品的生命周期来看:

1.产品发布前:负责参与并审核架构设计的合理性和可运维性,以确保在产品发布之后能高效稳定的运行

2.产品发布阶段:负责用自动化的技术或者平台确保产品可以高效的发布上线,之后可以快速稳定迭代。

3.产品运行维护阶段:负责保障产品7 * 24H稳定运行,在此期间对出现的各种问题可以快速定位并解决;在日常工作中不断优化系统架构和部署的合理性,以提升系统服务的稳定性。

工作内容

在软件产品的整个生命周期中运维职业:工程师都需要适时地参与并发挥不同的作用英文,因此运维工程师的工作内容和方向非常多:

事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损

问题发现:设计并开发高效的监控平台和告警平台,使用机器学习,大数据分析等方法对系统中的大量监控数据进行汇总分析,以期在系统出现异常的时候可以快速的发现问题和判断故障的影响。

问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。

问题跟踪:通过分析问题发生时系统的各种表现(日志,变更,监控)确定问题发生的根本原因,制定并开发预案工具。
变更管理:以可控的方式,尽可能高效的完成产品功能的迭代的变更工作

配置管理:通过配置管理平台(自研,开源)管理服务涉及到的多个模块,多个版本的关系以及配置的准确性。

发布管理:通过构建自动化的平台确保每一次版本变更可以安全可控地发布到生产环境。

容量管理:在服务运行维护阶段,为了确保服务架构部署的合理性同时掌握服务整体的冗余,需要不断评估系统的承载能力,并不断优化

容量评估:通过技术手段模拟实际的用户请求,测试整个系统所能承担的最大吞吐;通过建立容量评估模型分析压力测试过程中的数据以评估整个服务的容量。

容量优化:基于容量评估数据,判断系统的瓶颈并提供容量优化的解决方案比如通过调整系统参数,优化服务部署架构等方法来高效的提升系统容量。

架构优化:为了支持产品的不断迭代,需要不断的进行架构优化调整以确保整个产品能够在功能不断丰富和复杂的条件下,同时保持高可用性。

能力要求

基础技能:

精通壳/ Python的/ Perl的等1至2种编程语言

熟练掌握常用数据结构状语从句:算法,并能灵活运用

熟悉基础网络知识

深入理解的Linux操作系统

加分技能:

熟悉开源的监控平台工具,比如:Zabbix,Nagios的等

熟练掌握外壳脚本熟悉awk中,桑达基础等工具

熟悉分布式计算或者存储系统- ,比如Hadoop的/ HBASE /暴等

熟 学习机器原理能付诸实践者更佳

熟悉TCP / IP,HTTP等网络协议,精通插座编程网络

软素质要求

强烈的责任心与主动性,对所负责工作有所有者意识,并自我能驱动成长

能承担较大工作压力,有较强独立分析,问题解决能力的

工作中需要胆大心细,探索具备创新精神

职业发展

运维人员的要求特别严苛,因为运维人员针对不同的问题,需要不断的补充扩大自己的知识和研究范畴。

在初级阶段,优秀运维人员会体现出格外出众的主动性和责任心,面对陌生的业务会主动学习和拓展自己对业务对认识和相应的知识范畴,以能够足够的胜任业务的独立维护。

在逐步的发展阶段中,注重总结反省的工程师会逐渐成长为高阶运维人员,通常他们会有比较体系化的服务运维理解。也有一部分工程师由于出色的项目管理规划能力,逐渐成为项目经理。

再进一步的发展,高阶的运维人员对于产品的理解将非常的透彻,因而在这种情况下,高阶运维人员甚至可以成为产品的产品经理,产品研发的咨询顾问,在产品功能的设计与开发中起到至关重要的角色。

前景

运维所涉及的知识面,专业点非常广,对从业人员素质也要求非常高,运维工作在大型互联网公司也越来越重要。随着互联网的高速发展,网站规模越来越大,架构越来越复杂,对 站运维工程师的需求也会越来越急迫,特别是对有经验的运维人才需求量大,而且是越老越值钱

http://www.virplus.com/thread-1335.htm

转载请注明:4月前 于 Virplus.com 发表

推荐阅读
最新回复 (0)

    ( 登录 ) 后,可以发表评论!

    返回