故障現象
故障處理過程
故障根因分析
此次故障初步分析根本原因為hbase集群在進行相關寫入測試時,有大量的預分區和數據寫入,沒有及時進行清理,時間久了導致hbase因負載過高而崩潰。
崩潰后測試人員嘗試進行恢復但是失敗,期間進行了zk實例的刪除,zk異常啟動時,寫入log失敗導致出現了大小為0的最新log文件,進一步導致最終zk無法正常啟動。
優化建議
1. 對hbase歷史的數據進行清理,釋放集群的regions數量,維持在較健康的水平(已完成);
2. 測試人員在后續測試后,及時進行hbase表及數據的清理,避免多人大量數據寫入導致hbase負載過高而崩潰,清理數據方法為truncate ‘tablename’(已通知測試人員);
3. 建議測試環境的重要權限進行人員管控,CM管理界面的admin密碼不要讓過多人員有權進行操作,避免再次出現誤刪除zookeeper實例或者其他實例的問題。
寫在文末
1. hbase集群的運行通常是一個zk+hdfs+hbase綜合的架構,處理hbase問題時,一定不要單只看hbase組件,綜合zookeeper和hdfs組件一起分析往往有奇效;
2. zookeeper組件在此綜合架構中屬于最底層,建議部署時只作為hdfs和hbase組件依賴使用,不要用于其他業務數據的存儲使用,避免zk的問題影響到整個hdfs和hbase集群;
3. 文中hbase regionserver建議承載reigons在1000以內是基于JVM設置32G的前提下的,如果環境JVM過小,承載regions的數量建議也對應減少,另regionserver的JVM不建議高于32G,避免GC的時機過久導致服務異常。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129575.html
摘要:它主要包括以下幾部分采用對文本進行文法分析,生成語法樹。對語法樹進一步進行分析,類似程序編譯器的語義分析,對語法合格的進一步進行檢查。優化器對語法樹應用各種規則,生成不同的執行計劃,形成一個搜索空間。 Trafodion簡介 Trafodion是一個構建在Hadoop/HBase基礎之上的關系型數據庫,它完全開源免費。Trafodion能夠完整地支持ANSI SQL,并且提供ACID事...
摘要:它主要包括以下幾部分采用對文本進行文法分析,生成語法樹。對語法樹進一步進行分析,類似程序編譯器的語義分析,對語法合格的進一步進行檢查。優化器對語法樹應用各種規則,生成不同的執行計劃,形成一個搜索空間。 Trafodion簡介 Trafodion是一個構建在Hadoop/HBase基礎之上的關系型數據庫,它完全開源免費。Trafodion能夠完整地支持ANSI SQL,并且提供ACID事...
摘要:而支持事務處理,尤其是分布式情況下的事務和數據一致性是很復雜的事情。 Trafodion是Apache基金會的一個開源項目,提供了一個成熟的企業級SQL-on-HBase解決方案。Trafodion的主要設計思想是處理operational類型的工作負載,或者是傳統的OLTP應用。此外,對于需要保證數據一致性、需要標準SQL開發接口,或者需要實時數據讀寫分析的應用,Trafodion也...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1858·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20