运维必须 7*24 在线?还不能请假?周六日都要加班,尊嘟假嘟?


知乎上看到一个问题“我朋友是运维,他说运维一天24小时必须在线,不能请假,周六周日有时还加班。运维这么恐怖吗?” 以下为各位大牛的回答:

来自知乎的好友”Harry Zhu“的回答:

微软的解决方案:

1)在西八区(西雅图)部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;
2)在UTC时区(英国或者爱尔兰)部署一个团队,解决全世界各个项目在各个IDC的各种问题,下班点儿一到,人就都消失了;
3)在东八区(上海)部署一个团队,解决全世界各个项目在各个IDC的的各种问题,下班点儿一到,人就都消失了;

你们公司:

1)半夜三点经理K完歌给你发条消息,看看服务有没有问题;
2)你睡着了没回,又收到消息:工作态度不端正,要学会做事先做人;
3)你还没有看到,电话来了,要开除你;
4)你赶紧爬起来,检查了一下,没事呀?回复一切正常。经理睡着了……
所以,
微软的 7×24 ,是三个时区的三个团队的8+8+8,一个时区上八小时,下班了,另外一个时区接上八小时,又下班了,第三个时区又接上八小时了。
你的 7×24,是你的7,是你的24,
然后,你到网上发表高论:
做运维就是要7×24,一副前辈经验充足的模样!

链接:https://www.zhihu.com/question/327993027/answer/3034748995


来自知乎的好友”李明阳“的回答:

这话说一半啊。
运维是一个职业,是一个团队,而不是一个人。
7×24是运维这个职业的要求,小公司能有什么关键业务,用不上这个的。
大公司会有很大的运维团队,大家排班,所以单个人的工作量不会很大的。
我们公司的运维团队是全球的,大家只需要在自己的时区保证早八晚五即可。
唯一的缺点就是有串休,大约每个月会有两周的周末有一天上班,串休到下周的第一个工作日。
为了方便大家交接,运维系统都非常完善,基本上就在系统里操作就行了,都不用直接联系。
链接:https://www.zhihu.com/question/327993027/answer/3035561740

来自知乎的好友”浪里说“的回答:

你朋友应该说的是7*24 oncall,这个是有要求的。但是不能算恐怖。

为啥?

  1. 有主备 backup 运维,可以相互顶下

  2. 有值班制度,一个月有一个星期不用值班

  3. 服务 SLA 要求,业务容灾能力有保障(挂了几个节点都不算啥事)

  4. 团队文化,做更多“计划内的事”,不推荐一直做“救火英雄”

以我来说,下班后和周末还是有时间带娃。

需要上线的时间就两个场景:

业务提了紧急需求
业务出了灾难性告警

但按一个月来说,不会超过3小时。

链接:https://www.zhihu.com/question/327993027/answer/3046738654


来自知乎的好友”大海的欣“的回答:

运维确实是一个24小时都在线,确实需要随时处理线上故障的岗位。
对于公司处于初期,资源有限的情况下,对运维不够重视或者投入不足的时候,是会出现这种情况。
即使出现这种情况下,说明运维工作还有很大的提升的空间。改善这种情况主要从两方面入手。
首先是技术方面。运维工作有很多开源成熟的方法论,可以提升运维的工作效率。同时成熟的开源技术可以解决一般公司80%的技术层面问题。
比如说网站访问量过高的问题,可以用高可用技术解决。数据回源造成数据库比例高,通过提高hit解决。前后端分离解决动静分离。中台解决API治理。等等问题,从技术入手,通过社区调研,大部分问题可以得到缓解甚至解决。

然而面对管理时,可能就不那么简单了,虽然SLA中有关于人员方面的要求和配备。还是需要具体问题具体分析,不能搞一刀切。

比如值班问题,至少是standby状态,避免出现紧急情况没人响应。升级机制,避免问题被卡住,因为没有上升渠道,导致故障不能解决。备忘录机制的完善,避免出现问题无人问津的现象。
对于运维来说,无论是一个人,还是单独的小组或者部门,前期投入比较大,只要规则和模式跑通了,可以自行运转。慢慢的做好后期完善和梳理工作,应该不太需要太多的精力。

链接:https://www.zhihu.com/question/327993027/answer/3085899257


来自知乎好友”灰橙“的回答:

我就是运维,不需要。不过我小公司,就100多台阿里云服务器,现在云服务器都是高可用的,做好各种自动化脚本和监控,极少有事,周末也正常休息。
有什么突发事件有很多通知渠道,首先接入了短信通知,然后接入了钉钉报警,我没看到经理也会打电话通知我,如果是过了晚上12点处理事情,视情况第二天可以迟几个小时上班或者调休半天,不过一年也没几次,一般出情况都是一些项目组做市场推广没通知运维,导致负载超标,反映之后规范就行了。

链接:https://www.zhihu.com/question/327993027/answer/3036778395


来自知乎好友”普通人罢了“的回答:

一般没有那么恐怖:
上班:白天正常上班,部分公司每周有固定时间(常见于晚上,少数在晚上12点之后)做变更。
值班:一般每天都有值班人员,在非工作时间用于处理紧急事件!无论是值班还是非值班人员,都需要手机处于24小时开机状态!
说说我的情况吧:
  1. 周一到周五,朝九晚六正常上班,周末双休,偶尔加班。
  2. 所有升级部署都是白天,晚上不需要做变更。
  3. 每天都有值班人员,当出现严重告警时,监控中心会电话通知当天值班人员处理。当值班人员不方便,或者处理不了,会让其它同事协助处理下。夜里处理问题后,到达指定时间后,第二天可以休息半天或者一天。
  4. 要求每个人家里的电脑能上网,保证能处理紧急问题。要求手机24小时处于待机状态,能接到电话。

链接:https://www.zhihu.com/question/327993027/answer/709365768

相关内容转载自知乎网友评论,不代表本号观点。


多项首批评估结果揭晓!2023年12月15日,中国信通院 DevOps、AIOps 系列标准最新评估结果重磅发布!

本批次相关标准共完成11类评估、1类评审,共计24家企业45个项目/模块。其中,银河证券股份有限公司参评的“GLEBA 定价引擎项目”“ESB 接口管理平台项目”“数字化员工工作平台项目”顺利通过信通院《研发运营一体化( DevOps )能力成熟度模型》持续交付标准 3 级评估,代表银河证券的相关能力达到国内领先水平
相关评估详情如下3个项目同时过级!中国银河证券通过 DevOps 持续交付标准 3 级评估,相关能力达到国内领先水平
截至目前,共有 104 家各行业名企 336 个项目参与 DevOps 能力成熟度模型评估,包括六大国有银行、股份制银行、城商行、农商行、交易所、证券、基金、保险、信托、通信和互联网等行业的众多头部企业。

近期好文:

100 行 Shell 脚本实现一个 Docker?看完这篇“大作”,我大受震撼!

“高效运维”公众号诚邀广大技术人员投稿

投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。

点个“在看”,一年不宕机

标签

发表评论