Ceph-OSD84 Service Down Hatası

Alper Bastaban
Turk Telekom Bulut Teknolojileri
2 min readJul 24, 2023

Merhabalar,

Bugünkü yazımda sizlere RedHat Ceph Storage üzerinde OSD84 Service down hatası alınması durumunda hata tespiti ve aksiyon planından bahsedeceğim.

Bilindiği üzere CEPH açık kaynaklı bir depolama çözümüdür. Ceph, yüksek performanslı,ölçeklenebilir ve dayanıklı bir depolama platformudur.

Ceph nesne depolama, dosya depolama, blok depolama gibi çeşitli depolama türklerini tek platformdan yönetmemize olanak sağlar. Veri merkezlerinde, özel bulut ortamlarında ve açık bulut ortamlarında yaygın olarak kullanılan Ceph, boyut olarak oldukça büyük verilerin depolanması ve yönetiminin gerçekleştirilmesine yarar.

Kısaca Ceph Storage çözümünden bahsettikten sonra Ceph-OSD84 hatasının çözümü ile ilgili adımlardan bahsedeceğim.

Ceph OSD 84 hatası ceph depolama kümesindeki bir nesnenin silinmesi ya da bozulması ile ilgili olarak meydana çıkan bir hatadır. Bu hatanın sebepleri birden çok olabilir. Örneğin, fiziksel disk arızası, düğümler arası bağlantı sorunları, veri bütünlüğünün ihlal edilmesi gibi sebepler olabilir.

Eğer fiziksel bir arıza sonucu müdahalede bulunmamız gerekiyor ise,

#ceph -s

komutu ile osdlerin durumları kontrol edilir. Eğer bir sorun olması durumunda fiziksel diski adresleyebilmek için,

1- #lsblk -s çıktısında hatalı olan diskin seri numarası bulunabilir.

2- #ceph osd tree komutu ile hatalı disk kontrol edilebilir.

3- Fiziksel cihaza bağlantı ile gerekli kontroller sağlanabilir.

Disk adreslemesi yapıldıktan sonra parça değişimi öncesi,

# ceph orch osd rm OSD_ID — replace komutu ile replace edilecek disk üzerinde destroyed flagi yapılır. Bu flag ile bir sonraki dağıtım öncesi disk işaretlemesi yapılır. Disk sökülüp yenisi takıldığında otomatik olarak eklenmesi sağlanır.

NOT: OSD’leri dağıtırken, — all-available-devices seçeneğini kullandıysanız, yeni sürücüleri almasını tamamen durdurmak için unmanaged: true olarak ayarlanması gerekmekte. Bu servisin true olarak olup olmadığını ise, ceph orch ls çıktısı ile kontrol edilebilir.

# ceph orch osd rm status komutu ile status kontrolü yapılır.

#ceph osd tree çıktısı ile flag kontrolü yapılır.

Eğer — all-available-devices kullanılmamış ise aşağıdaki komut ile manuel device eklenmesi yapılır.

# ceph orch daemon add osd <HOSTNAME>:<DISK NAME>

ÖRN: ceph orch daemon add osd host02:/dev/sdb

Bu işlemler sonucunda diskin kullanılabilir hale gelmesi 15–20 dk sürebilir. Sonrasında ise,

#ceph orch device ls

#ceph osd tree

komutları ile kontroller tamamlanarak disk kullanılabilir hale getirilmiş olur.

--

--