production SAL

6751-6800 of 10000 results (82ms)

2022-09-01 §
14:00	<marostegui>	Failover m5 from db1107 to db1183 - T316744	[production]
13:57	<jmm@cumin2002>	START - Cookbook sre.hosts.reboot-single for host netboxdb1002.eqiad.wmnet	[production]
13:56	<jmm@cumin2002>	END (PASS) - Cookbook sre.hosts.reboot-single (exit_code=0) for host netboxdb2002.codfw.wmnet	[production]
13:53	<jmm@cumin2002>	START - Cookbook sre.hosts.reboot-single for host netboxdb2002.codfw.wmnet	[production]
13:52	<jmm@cumin2002>	END (FAIL) - Cookbook sre.hosts.reboot-single (exit_code=1) for host netbox1002.eqiad.wmnet	[production]
13:43	<moritzm>	rebooting netbox1002 (running netbox.wikimedia.org)	[production]
13:43	<jmm@cumin2002>	START - Cookbook sre.hosts.reboot-single for host netbox1002.eqiad.wmnet	[production]
13:41	<jmm@cumin2002>	END (PASS) - Cookbook sre.hosts.reboot-single (exit_code=0) for host netbox2002.codfw.wmnet	[production]
13:37	<jmm@cumin2002>	START - Cookbook sre.hosts.reboot-single for host netbox2002.codfw.wmnet	[production]
13:32	<marostegui@cumin1001>	END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 1:00:00 on db[2135,2160].codfw.wmnet,db[1107,1117,1183].eqiad.wmnet with reason: switchover m5 T316744	[production]
13:31	<marostegui@cumin1001>	START - Cookbook sre.hosts.downtime for 1:00:00 on db[2135,2160].codfw.wmnet,db[1107,1117,1183].eqiad.wmnet with reason: switchover m5 T316744	[production]
13:19	<jayme@deploy1002>	helmfile [eqiad] DONE helmfile.d/admin 'apply'.	[production]
13:19	<jayme@deploy1002>	helmfile [eqiad] START helmfile.d/admin 'apply'.	[production]
13:19	<jayme@deploy1002>	helmfile [codfw] DONE helmfile.d/admin 'apply'.	[production]
13:19	<jayme@deploy1002>	helmfile [codfw] START helmfile.d/admin 'apply'.	[production]
13:18	<jayme@deploy1002>	helmfile [staging-eqiad] DONE helmfile.d/admin 'apply'.	[production]
13:18	<jayme@deploy1002>	helmfile [staging-eqiad] START helmfile.d/admin 'apply'.	[production]
13:16	<mwdebug-deploy@deploy1002>	helmfile [codfw] DONE helmfile.d/services/mwdebug: apply	[production]
13:16	<mwdebug-deploy@deploy1002>	helmfile [codfw] START helmfile.d/services/mwdebug: apply	[production]
13:15	<mwdebug-deploy@deploy1002>	helmfile [eqiad] DONE helmfile.d/services/mwdebug: apply	[production]
13:15	<mwdebug-deploy@deploy1002>	helmfile [eqiad] START helmfile.d/services/mwdebug: apply	[production]
13:10	<mwdebug-deploy@deploy1002>	helmfile [codfw] DONE helmfile.d/services/mwdebug: apply	[production]
13:09	<oblivian@deploy1002>	Synchronized wmf-config/InitialiseSettings.php: Config: [[gerrit:823677\|Move 5% of traffic to php 7.4 (T271736)]] (duration: 03m 45s)	[production]
13:09	<mwdebug-deploy@deploy1002>	helmfile [codfw] START helmfile.d/services/mwdebug: apply	[production]
13:09	<mwdebug-deploy@deploy1002>	helmfile [eqiad] DONE helmfile.d/services/mwdebug: apply	[production]
13:08	<mwdebug-deploy@deploy1002>	helmfile [eqiad] START helmfile.d/services/mwdebug: apply	[production]
13:00	<jayme@deploy1002>	helmfile [staging-codfw] DONE helmfile.d/admin 'apply'.	[production]
13:00	<jayme@deploy1002>	helmfile [staging-codfw] START helmfile.d/admin 'apply'.	[production]
13:00	<jayme@deploy1002>	helmfile [staging-codfw] DONE helmfile.d/admin 'apply'.	[production]
12:59	<jayme@deploy1002>	helmfile [staging-codfw] START helmfile.d/admin 'apply'.	[production]
12:56	<jayme@deploy1002>	helmfile [staging-codfw] DONE helmfile.d/admin 'apply'.	[production]
12:56	<jayme@deploy1002>	helmfile [staging-codfw] START helmfile.d/admin 'apply'.	[production]
12:29	<herron>	restarted thanos-query on thanos-fe1001	[production]
12:20	<cdanis@cumin2002>	dbctl commit (dc=all): 'T316482 remove replicas from x2', diff saved to https://phabricator.wikimedia.org/P33736 and previous config saved to /var/cache/conftool/dbconfig/20220901-122026-cdanis.json	[production]
12:13	<klausman@cumin1001>	END (PASS) - Cookbook sre.hosts.remove-downtime (exit_code=0) for ml-serve-ctrl1001.eqiad.wmnet	[production]
12:13	<klausman@cumin1001>	START - Cookbook sre.hosts.remove-downtime for ml-serve-ctrl1001.eqiad.wmnet	[production]
12:13	<ladsgroup@cumin1001>	END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 1 day, 0:00:00 on db1150.eqiad.wmnet with reason: Maintenance	[production]
12:12	<ladsgroup@cumin1001>	START - Cookbook sre.hosts.downtime for 1 day, 0:00:00 on db1150.eqiad.wmnet with reason: Maintenance	[production]
12:12	<ladsgroup@cumin1001>	dbctl commit (dc=all): 'Repooling after maintenance db1146:3314 (T314041)', diff saved to https://phabricator.wikimedia.org/P33735 and previous config saved to /var/cache/conftool/dbconfig/20220901-121252-ladsgroup.json	[production]
12:05	<klausman@cumin1001>	END (PASS) - Cookbook sre.hosts.downtime (exit_code=0) for 1:00:00 on ml-serve-ctrl1001.eqiad.wmnet with reason: Reboot to pick up kernel 5.10.136 (T316185)	[production]
12:05	<klausman@cumin1001>	START - Cookbook sre.hosts.downtime for 1:00:00 on ml-serve-ctrl1001.eqiad.wmnet with reason: Reboot to pick up kernel 5.10.136 (T316185)	[production]
12:03	<klausman@cumin1001>	END (PASS) - Cookbook sre.k8s.reboot-nodes (exit_code=0) rolling reboot on A:ml-serve-worker-eqiad	[production]
11:59	<moritzm>	rebalance row B after completed Bullseye updates T311686	[production]
11:57	<ladsgroup@cumin1001>	dbctl commit (dc=all): 'Repooling after maintenance db1146:3314', diff saved to https://phabricator.wikimedia.org/P33734 and previous config saved to /var/cache/conftool/dbconfig/20220901-115746-ladsgroup.json	[production]
11:48	<cdanis>	root@apt1001:/home/cdanis/build-area# reprepro --ignore=wrongdistribution -C main include bullseye-wikimedia conftool_2.2.2-1_amd64.changes	[production]
11:42	<ladsgroup@cumin1001>	dbctl commit (dc=all): 'Repooling after maintenance db1146:3314', diff saved to https://phabricator.wikimedia.org/P33733 and previous config saved to /var/cache/conftool/dbconfig/20220901-114239-ladsgroup.json	[production]
11:27	<ladsgroup@cumin1001>	dbctl commit (dc=all): 'Repooling after maintenance db1146:3314 (T314041)', diff saved to https://phabricator.wikimedia.org/P33732 and previous config saved to /var/cache/conftool/dbconfig/20220901-112733-ladsgroup.json	[production]
11:04	<claime>	depooled wtp1035.eqiad.wmnet from parsoid cluster https://phabricator.wikimedia.org/T312638	[production]
11:01	<jmm@cumin2002>	END (PASS) - Cookbook sre.hosts.reboot-single (exit_code=0) for host pki2002.codfw.wmnet	[production]
10:58	<claime>	pooled parse1002.eqiad.wmnet (php 7.4 only) in parsoid cluster https://phabricator.wikimedia.org/T312638	[production]