運維的職責(zé)
運維部和系統(tǒng)部一般是合二為一的,相關(guān)工作由同一批人負(fù)責(zé),界限可能不是很明顯。大型公司對運維工作的要求更高,需要有更精細(xì)的分工,因此機(jī)房/網(wǎng)絡(luò)/操作系統(tǒng)相關(guān)的底層工作分離出來由專人負(fù)責(zé),成為系統(tǒng)管理部,而上層和應(yīng)用產(chǎn)品相關(guān)的工作則由運維負(fù)責(zé),成為運維部。以下從互聯(lián)網(wǎng)產(chǎn)品生命周期和運維涉及的技術(shù)分別來看分工較細(xì)的大型互聯(lián)網(wǎng)公司中運維工作的職責(zé)。
產(chǎn)品生命周期
熱網(wǎng)運維的職責(zé)覆蓋產(chǎn)品從設(shè)計到發(fā)布、運行維護(hù)、變更升級及至下線的生命周期,各個階段的職責(zé)包括:
產(chǎn)品發(fā)布前
這個階段運維工程師的職責(zé)是參與設(shè)計并把有關(guān)運維準(zhǔn)入,主要包括:
(1) 產(chǎn)品的業(yè)務(wù)熟悉;
(2) 產(chǎn)品架構(gòu)設(shè)計的合理性評估,包括是否存在單點,是否可容錯,是否有強(qiáng)耦合等,同時需要提供產(chǎn)品設(shè)計的合理性建議以使產(chǎn)品能夠滿足上線發(fā)布并穩(wěn)定運行的基本要求;
(3) 資源評估,包括所需的服務(wù)器資源、網(wǎng)絡(luò)資源以及資源的分布等,同時把相關(guān)產(chǎn)品對資源預(yù)算申請的合理性,控制服務(wù)成本;
(4) 資源就位,將申請的服務(wù)器及基礎(chǔ)環(huán)境/域名準(zhǔn)備就位。
產(chǎn)品發(fā)布
這個階段運維工程師負(fù)責(zé)發(fā)布的具體工作,將具體的軟件和系統(tǒng)/硬件資源整合形成產(chǎn)品并對外提供服務(wù)。對于已在線服務(wù)的更新也屬于發(fā)布范疇,這個時候的產(chǎn)品發(fā)布一般要保障在線發(fā)布,在不中斷對外服務(wù)的情況下完成產(chǎn)品的升級。對于大型復(fù)雜的變更也存在中止服務(wù)部署完成后再重新提供服務(wù)的情況,但這種情況需要運維工程師通過盡可能的技術(shù)手段來避免。
產(chǎn)品運行維護(hù)
這個階段的主要工作包括:
(1) 監(jiān)控:對服務(wù)運行的狀態(tài)進(jìn)行實時的監(jiān)控,隨時發(fā)現(xiàn)服務(wù)的運行異常和資源消耗情況;輸出重要的日常服務(wù)運行報表以評估服務(wù)/業(yè)務(wù)整體運行狀況,發(fā)現(xiàn)服務(wù)隱患;
(2) 故障處理:對服務(wù)出現(xiàn)的任何異常進(jìn)行及時處理,盡可能避免問題的擴(kuò)大化甚至中止服務(wù)。這之前運維工程師需要針對各類服務(wù)異常,如機(jī)房/網(wǎng)絡(luò)故障、程序bug等問題制定處理的預(yù)案,問題出現(xiàn)時可以自動或手動執(zhí)行預(yù)案達(dá)到止損的目的。除了日常小故障外,運維工程師還需要考慮產(chǎn)品不同程度受損情況下的災(zāi)難恢復(fù),包括諸如地震等不可抗力導(dǎo)致大規(guī)模機(jī)房故障、在線產(chǎn)品被刪除等對產(chǎn)品造成致命傷害的情況。
keyword:哈爾濱熱網(wǎng)運維