林昊 a.k.a. bluedavy
阿里巴巴
資深技術專家
資深技術專家,目前就職於阿里巴巴集團—技術保障部。
2007年底加入淘寶,2008-2010年負責淘寶服務框架的設計與實現,此服務框架是淘寶3.0架構體系中的重要組件,在淘寶大範圍使用,2011年每天承載的服務請求量為300億+;
2009年與同事共同出版《OSGi 原理與最佳實踐》一書,2010年出版《分布式 Java 應用:基礎與實踐》一書;
2011年負責HBase在淘寶的落地,目前 HBase 在阿里的各家公司使用廣泛,為海量數據讀寫的業務提供了支持;
2011年下半年至今主導 T4 產品(基於 LXC),目標為大幅度的降低淘寶的運維成本;
2013年轉為運維,著力關注運維領域,主要涉及的為可維護性、穩定性、性能、成本、軟硬件結合,並根據發展需要推動系統結構演變。
每個軟件在運行時不可避免的會出現各種各樣的故障,嚴重的故障會使得用戶對網站的信任度下降,甚至產生嚴重的社會影響和經濟損失,故障的排查和解決過程就像是一場爭分奪秒的戰爭,排查的技巧和經驗在這個時候特別的重要。
淘寶網是上千個應用組成的網站,主要由 Java 編寫而成,出現過的故障種類非常的多,從而積累了不少排查問題的方法。
這次分享涵蓋以下常見的幾種 Java 問題的排查方法:
- 類加載問題
- 內存 OOM 問題
- CPU 消耗高問題
- Java Crash 問題
- 分布式調用超時問題