如何有效进行IT运维管理
如何有效进行IT运维管理
导读:信息化程度的提高使得IT部门在企业中不可或缺,但因为运维管理跟不上,IT
人员成了企业中最忙碌的人,繁重的运维负担让他们疲于奔命,不堪重负。本文和大家分享一下自己在IT运维管理方面的思考和经验。
因为工作原因笔者经常和企业IT人员打交道,所见所闻中对他们的日常工作应该说非常了解。信息化程度的提高使得IT部门在企业中不可或缺,但因为运维管理跟不上,IT人员成了企业中最忙碌的人,繁重的运维负担让他们疲于奔命,不堪重负。本文和大家分享一下自己在IT运维管理方面的思考和经验,希望能够帮助到你。
1、一个真实的案例
作为某知名物流企业的CIO,刘总负责整个公司的IT服务管理工作。笔者经常看到他每天忙得刘总团团转,甚至连杯水都来不及喝,但还总是被种种问题困扰,节假日还得加班。就这样,老总经常会接到业务部门的投诉:我们的业务员明明将远程配送业务系统问题报障给了网络部。但他们就是推托说网络一切正常不是他们的问题,让我们找系统部。而系统又说是应用的问题,让我们找应用部,应用部说需要设备部先更换硬件才能升级应用程序。我们只好找到了设备部,设备部又说需要网络和系统的配合才能更换配件。就这样我们的问题转了半天没得到解决,耽误了送货时间,用户要求赔偿。2、IT运维管理势在必行
上面的案例应该说非常普遍,也非常值得我们思考。在业务应用日趋细分化、复杂化的今天。IT建设的迅猛发展,政府机关、企事业单位、学校等,几乎都全部依托于IT环境进行日常办公管理和业务管理。人员和业务流程对于网络及IT设备的依赖度也提高到不可或缺的地步。网络的运维与单位的持续发展紧密相关,稍有不慎就可能会令单位蒙受巨大的损失。因此,IT系统运行的稳定性和健壮性对单位来说,将显得特别重要。特别是对于一些大中型单位,IT设备和信息系统多而复杂,单靠人工管理它们的运行和维护情况己不可能。这样就需要一套切合实际的IT运维管理系统来辅助单位信息中心或信息服务部门进行自动化管理。
3、IT运维中的不良习惯
下面笔者结合自己的见闻和经历,就我们的IT人员在运维中的不良习惯进行一些有益的总结,以供大家杜绝。
(1).治标不治本。IT设施故障往往是突发的、随机的、不可预测、不可控制的。也很难自动提醒和警告。运维和管理人员成天处于高度紧张状况,节假日也提心吊胆。一旦发生故障,往往手忙脚乱来不及仔细多方面观察、分析原因,也无法很快准确定位。为了尽快恢复业务,只能采取重启、清除等不可回朔操作。这种治标不治本的维护措施,不能根本解决问题,类似现象仍然可能再发生。
(2).没有排错记录。我们的很多IT人员没有排错记录的习惯,这样当事后查找原因缺乏当时记录,就算找到点痕迹也缺乏进一步分析数据。因为故障不能再现,很难有准备地捕捉有效信息。而要在生产环境模拟故障业务几乎不允许。开发环境又很难模拟和再现。少量片面的系统日志很难看出问题症结,缺乏自动实时捕捉问题关键点并忠实记录工具。造成问题发生后无法回朔,问题解决无法找到头绪。
(3).缺乏统一的规范要求。出现同题时解决办法因人而异,缺乏方法和工具,无法制定统一的规范要求。在专家解决问题的经验缺乏记录、整理、积累和继承。从保障稳定看,必须高价保持足够专业运维人员。工作安排松了不利于人员发展和稳定,但安排太紧又无法保证及时响应和解决问题。
(4).应对危机太被动。对反映的问题和解决状况缺乏统一管理和跟踪,全靠个人素质和责任感。无法衡量、统计员工的业绩贡献,也无法发现哪些问题最影响系统稳定。造成问题的因素是在积累还是在减弱,更缺少预警提醒机制。只能被动无序地等问题发生甚至很严重了才意识到。
4、IT运维管理的内容
笔者理解,IT运维管理是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。如果进行细分的话,应该包括以下几个方面:
(1).设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理;
(2).应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理。如邮件系统、DNS、Web等的监控与管理;
(3).数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;
(4).业务管理:包含对企业自身核心业务系统运行情况的监控与管理和对于业务的管理;
(5).目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理:
(6).资源资产管理:管理企业中各IT系统的资源资产情况;
(7).信息安全管理:企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
(8).日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。
5、IT运维管理方案
在以上内容的基础上,笔者提供一套IT运维管理的解决方案,以供大家借鉴。
(1).建立IT运维管理服务平台
IT运维管理服务平台帮助IT部门内部各专业部门以单点联系窗口的形式对外服务,业务部门不必了解IT部门内部的运作流程。只需将故障报告给IT部门服务窗口的一线服务台人员即可。由一线支持人员对故障进行分类以电子工单方式派发到相关的专业部门或相关人员处进行及时处理和响应,并向用户及时进行反馈。用户对不同专业部分的咨询、问题和投诉都通过该窗口进行,以避免用户与各级支持人员直接联系带来的种种弊病。如出现不同问题找不同支持人员、找不到人、问题得不到及时反馈和解决等等现象。
(2).实现IT监控和统一展现
面向业务监控和统一展现能够评估各种IT基础设施和服务在设定的某个时段是否发挥其应有的功能,同时实现对网络、系统及应用服务等全方位监控的统一呈现。统一告警平台汇总、压缩和关联各种设备或服务的告警信息,实现统一监控和展现。这样,各专业部门可以协同作战发挥更大的作用。
(3).构建科学、规范的服务流程管理
根据企业的实际组织架构,把故障支持划分不同的类型和等级,形成梯队化的故障处理流程,避免出现资源浪费。并且在每个级别的故障事件处理中,通过自动跟踪机制实现故障的自动跳转和升级,从而确保不同紧急程度的故障得到及时的响应和处理,帮助企业建立起一套科学规范的1T服务管理流程。企业环境下首次或者突发出现的事件、告警或故障通过事件工单进行处理;而对于多次出现、深层次、临时恢复的告警事件,可通过问题管理进行解决,以便于协调优势资源攻关和彻底解决。通过层次化、标准化、科学化的管理,量化的评估每个技术人员的工作能力,减少了故障对业务的影响,避免出现责任不明晰,响应不及时的问题,提高客户和用资源的使用更加合理。
(4).实施严谨、高效的变更审批流程
为基础设施的变更提供快速的电子通道,减少变更过程中出现管理失控的风险和不必要的人为干扰,缩短审批时间,提高变更实施的效率。严谨的变更管理确保在变更实施过程中使用标准化的方法和流程,尽快和有效地实施变更,从而把由于变更所导致的事件对IT服务的影响减小到最低,同时改善了公司的日常运作。它包括一套完整的变更管理功能,包括变更的发起、审批、影响评估、派发实施等功能。以工单的形式在各部门和责任人之间流转。
(5).IT资产配置完善管理
为企业建立完善的配置基线,为企业建立一套详实的配置管理数据库,小到主机内存、设备端口,大到网络结构、部门或公司的建制,从有形的资产到无形的应用系统、人力资源等都能以电子方式准确记录并长期保存。同时,资产配置管理与服务的事件、问题和变更流程相关联。如变更流程审批完成之后增减的资产配置信息,将自动在资产配置管理数据库中实现同步更新。
对IT运维实施有效管理,不仅能够解放IT人员提高其工作效率,而且也是对企业业务部门的有力支持。最后,希望笔者的经验和案例对朋友们加强IT运维管理有所帮助。
扩展阅读:如何做好IT运维管理
近段时间,由于公司部门人员调整,压缩人力成本,IT部门首当其中,本来人手就紧张,现在还压缩人员编制,想来这运维的工作接下来怎么做?如何去做?如何做到运维工作高效快捷!!!
很多企业在招聘过程中,由于运维人员的要求相对高点,涉及的技术层面和理解范围也有点广,其次,很多企业都实施了很多IT系统,使到IT运行越来越复杂,也越来越难管理。人力成本普遍偏高,同时,IT运维成本过高的另一个原因是IT运维大部分都是被动式维护,不能自动化预警维护,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人,IT运维人员成本偏高。
这些账目使得一些企业老板不得不考虑对部门人员精简压缩,本来10个人做的时期就给7个人做了,5个人做的事情就给3个人做了,这样的做法是否能真正做到有效的维护和管理。
现在大多数IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致:①.IT运维人员终日忙碌,IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②IT运维本身质量很难提高;③再加上故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;④IT部门和业务部门对IT运维的服务满意度都不高。
运维人员每天扮演者“救火员”的身份,但同时也没有得到相关部门的肯定,每次月度考核,总是差,这个是为什么列?有朋友可能会说,设备的问题,咱们能有什么办法,机器宕机了,我们又不没有及时处理,是的,问题是及时处理了,但是时间过去了,现在是一个高效率的时代,你只要慢别人半拍,那么你就有可能失去这个市场,这个道理最近在看一个电视剧《大时代》体验到的,虽然带有夸张的色彩,但是个人觉的并不夸张,你的运维系统总是问题不断,影响到客户的体验和使用,一次两次别人可以理解你,经常这样你拥有的客户就会失去,因为每个行业的竞争都很激烈。
然后咱们在谈谈运维系统的主要管理内容:据我个人所知,运维层面管理主要包括:硬件层面:服务器、网络设备(路由器、交换机、防火墙)
软件层面:操作系统的实时运行状况监控、应用软件的实施和维护(ERP、CRM、OA)等数据应用类管理:数据库、中间件(ftp同步传输)、邮件系统、web网站、域控AD等存储/容灾管理:业务支撑系统数据备份、存储设备的管理和备份以及运行环境的性能监控虚拟化平台管理:hyper-v、esx等
信息安全:不仅仅是通信与运营层面的安全、病毒防护、入侵等
这些都是运维人员在被动的情况下实施操作的,在半自动化的运维层面下,很多始料未及的问题就容易暴露出来,然后赶紧将问题抹杀在摇篮中。这样高度集中的办事效率能事半功倍么,只会是差强人意。运维管理面临的这些问题,是否能有效的杜绝?
现在很多厂商提出了IT运维自动化,比如H3C的iMC2.0数据中心管理解决方案、卡西亚的IT系统管理平台等,这些IT运维自动化不但可以有效解决企业信息化快速发展所带来的困扰,减轻运维工作的负担,还能帮助企业IT基架运维实现最佳的管理状况,让运维人员随时掌握企业系统的运行情况,能对突发状况作出主动,快速的反应,能为企业设备及海量的数据提供最安全有力的保障。
IT运维自动化虽然方便了维护和管理,也是未来的一种发展趋势,但是安装部署和实施也是需要时间的,购买软件的成本价格也不菲,这个价格成本也是很多企业老板不敢轻易去尝试的,所以好多事情真的不能想当然,产品固然很好,但是不是所有人能用的起。当然,不管多么棒的自动化的管理和维护都离不开运维人员的干预,运维人员虽然在某些情况下减少了压力,但是维护的工作依然会是重点,IT运维是一份充满压力的工作。但是一旦意识到造成压力的某些因素,就可以解决大部分的压力,同时能够明白这份工作的确是值得的。有众多方法可以减少与同事的冲突、处理资源缺乏问题和常受干扰的环境、解决优先事项相互冲突的矛盾,以及积极接受这个现实:IT运维人员要对每一个失败负责。
友情提示:本文中关于《如何有效进行IT运维管理》给出的范例仅供您参考拓展思维使用,如何有效进行IT运维管理:该篇文章建议您自主创作。
来源:网络整理 免责声明:本文仅限学习分享,如产生版权问题,请联系我们及时删除。