運維的職責
運維部和系統(tǒng)部一般是合二為一的,相關工作由同一批人負責,界限可能不是很明顯。大型公司對運維工作的要求更高,需要有更精細的分工,因此機房/網絡/操作系統(tǒng)相關的底層工作分離出來由專人負責,成為系統(tǒng)管理部,而上層和應用產品相關的工作則由運維負責,成為運維部。以下從互聯(lián)網產品生命周期和運維涉及的技術分別來看分工較細的大型互聯(lián)網公司中運維工作的職責。
產品生命周期
熱網運維的職責覆蓋產品從設計到發(fā)布、運行維護、變更升級及至下線的生命周期,各個階段的職責包括:
產品發(fā)布前
這個階段運維工程師的職責是參與設計并把有關運維準入,主要包括:
(1) 產品的業(yè)務熟悉;
(2) 產品架構設計的合理性評估,包括是否存在單點,是否可容錯,是否有強耦合等,同時需要提供產品設計的合理性建議以使產品能夠滿足上線發(fā)布并穩(wěn)定運行的基本要求;
(3) 資源評估,包括所需的服務器資源、網絡資源以及資源的分布等,同時把相關產品對資源預算申請的合理性,控制服務成本;
(4) 資源就位,將申請的服務器及基礎環(huán)境/域名準備就位。
產品發(fā)布
這個階段運維工程師負責發(fā)布的具體工作,將具體的軟件和系統(tǒng)/硬件資源整合形成產品并對外提供服務。對于已在線服務的更新也屬于發(fā)布范疇,這個時候的產品發(fā)布一般要保障在線發(fā)布,在不中斷對外服務的情況下完成產品的升級。對于大型復雜的變更也存在中止服務部署完成后再重新提供服務的情況,但這種情況需要運維工程師通過盡可能的技術手段來避免。
產品運行維護
這個階段的主要工作包括:
(1) 監(jiān)控:對服務運行的狀態(tài)進行實時的監(jiān)控,隨時發(fā)現(xiàn)服務的運行異常和資源消耗情況;輸出重要的日常服務運行報表以評估服務/業(yè)務整體運行狀況,發(fā)現(xiàn)服務隱患;
(2) 故障處理:對服務出現(xiàn)的任何異常進行及時處理,盡可能避免問題的擴大化甚至中止服務。這之前運維工程師需要針對各類服務異常,如機房/網絡故障、程序bug等問題制定處理的預案,問題出現(xiàn)時可以自動或手動執(zhí)行預案達到止損的目的。除了日常小故障外,運維工程師還需要考慮產品不同程度受損情況下的災難恢復,包括諸如地震等不可抗力導致大規(guī)模機房故障、在線產品被刪除等對產品造成致命傷害的情況。
keyword:哈爾濱熱網運維