開源組件Hadoop之目錄滿導致的hdfs journalnode問題處理

IT那活兒發布于2023-01-11 13:20 / 2049人閱讀

收到開發側報障，反饋某測試平臺的某個節點服務無法連接。放下電話，立馬登錄環境檢查，平臺果真一片紅。

乍一看紅的不少挺嚇人，但仔細查看會發現，其實所有的報錯都指向同一處，node11節點。嘗試登錄無果，ping對應IP無反應。

這種情況下，基本斷定node11服務器異常宕掉了。本著老鳥的敏覺性，檢查hdfs可用性及數據塊，不過也不用過分擔心，畢竟咱是大數據平臺，掛一臺服務器不影響整體可用性。檢查確認所有hdfs數據塊顯示均為健康狀態，也意味著后臺數據并未受到任何影響，管理節點也已從node11節點成功漂移。

雖說只是測試環境，但畢竟是機器掛掉了，本著閉環服務思維，還是需要快速恢復的。說時遲，那時快，那時不如這時快，迅速掏出手機聯系主機側重啟服務器。服務器起來后迅速登錄，習慣性df一把，發現根目錄使用率100%。檢查使用詳情，發現某個測試應用程序跑飛了，又沒人看（測試環境都是這命啊），結果打了幾百G的日志。二話不說直接聯系應用側詢問是否可以直接清理，得到確認后，予以清理。

問題定位解決，雖然是大數據平臺，但是宕掉的機器服務還是需要恢復的，不然禁不起再垮一輪。恢復node11各個服務后，平臺恢復正常。但只是眨了一下眼，journalnode的綠色一閃而過，過后還是紅色依舊。

快速登錄服務器檢查journalnode日志，發現node11的journalnode服務有問題，一直在報錯檢測到valid length，進入journalnode的數據目錄，查看journalnode的edits時間，發現最新的并不是當前時間，與另外兩個journalnode時間不一致，且一直不刷新。

綜前分析，此前的根目錄滿導致node11節點最新的edits文件已經無法正常寫入，進而導致journalnode服務重啟，journalnode服務重啟后無法與另外的journalnode正常同步。

好在我們的journalnode有少數服從多數機制，停止有問題的node11節點的journalnode服務，直接mv掉node11節點的所有edits文件（注意只移走edits開頭文件，VERSION等其他信息需要保留，這可是身份信息，處理不當會導致同步edits失敗），然后再次啟動journalnode服務，發現node11已經可以與其他兩個節點正常同步了。

本次的故障解決完成，后續會繼續給大家帶來關于大數據平臺用到的相關組件的運維分享，敬請期待。

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/130223.html

大數據框架hadoop服務角色介紹

摘要：大數據框架服務角色介紹翻了一下最近一段時間寫的分享，發行版本下載安裝運行環境部署等相關內容幾乎都已經寫了一遍了。這些數據通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。大數據框架hadoop服務角色介紹翻了一下最近一段時間寫的分享，DKHadoop發行版本下載、安裝、運行環境部署等相關內容幾乎都已經寫了一遍了。雖然有的地方可能寫的不是很詳細，個人理解水平有限還請見諒吧！我記得在...

atinosun 2019-08-16 13:40 評論0 收藏0

發表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關注我要私信

TA的文章

消息中間件故障分析一例

閱讀 1346·2023-01-11 13:20
RAC雙節點crash回復一例

閱讀 1684·2023-01-11 13:20
ORA-600處理一例

閱讀 1132·2023-01-11 13:20
雙節點RAC實例2 HANG 故障分析一例

閱讀 1858·2023-01-11 13:20
RAC集群節點1重啟分析一例

閱讀 4100·2023-01-11 13:20
CRS啟動報錯CRS-1656處理分享

閱讀 2704·2023-01-11 13:20
oracle 12CR2打補丁報錯處理一例

閱讀 1385·2023-01-11 13:20
分布式緩存組件故障分析及監控優化

閱讀 3597·2023-01-11 13:20

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

開源組件Hadoop之目錄滿導致的hdfs journalnode問題處理

相關文章

**大數據框架hadoop服務角色介紹**

發表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節點crash回復一例

ORA-600處理一例

雙節點RAC實例2 HANG 故障分析一例

RAC集群節點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補丁報錯處理一例

分布式緩存組件故障分析及監控優化

最新活動