Když se rozbijí disky aneb jak nás pozlobil NAS

Před měsícem nás začal zlobit náš NAS. Museli jsme proto provést záchrannou akci.

V prvním VDEV v poolu našeho NAS odešel jeden disk. Když jsme místo něj chtěli nasadit náhradní disk, začal ve stejné skupině zlobit další disk – hlásil neopravitelné chyby při čtení. Museli jsme tedy celý NAS přepnout do read-only režimu a začít ho synchronizovat na Backuper – náš stroj pro zálohy.

Bohužel to trvalo velmi dlouho a muselo se to několikrát opakovat. ZFS má totiž tragicky nedomyšlený rekurzivní send-recieve proces. Když se přenos přeruší, není možné ho nijak navázat. Když přesouváte 22 TB dat a zastaví se to v půlce, máte problém. Existují nějaké experimentální patche, které to řeší, ale ty stejně nefungují na recursive, ale na jeden dataset.

Postupně se to ale podařilo, s přispěním ručních synchronizací. Nakonec byla téměř všechna data zachráněna, nebylo možné přečíst jen asi 72 souborů. Vzhledem k tomu, že všude NAS deklarujeme jako nezálohovaný diskový prostor, je to myslím dobrý výsledek. Celkově bylo v poli pět poškozených disků, které jsme do něj samozřejmě už nevraceli. Po výměně je z nich pět spare disků připravených pro případ dalšího výpadku.

NAS_box

Mezi tím byl NAS ještě doplněn o další disky, takže jeho použitelná kapacita se teď více než zdvojnásobila na 110 TB. Máme v plánu na něj přesunout zase data z Backuperu, který potřebuje také přestavět pole na bezpečnější konfiguraci. Protože ale nechceme přestat zálohovat, musíme dočasně využít rozšířený NAS k migraci záloh.

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *