Migrace naší infrastruktury na 20 gigabitů

Několik let jsme pracovali na tom, abychom zvýšili kapacitu linek mezi našimi servery. Proč to potřebujeme a jak jsme to dělali?

Naše servery byly historicky propojené dvěma gigabitovými linkami v bondingu. Postupně nás to začalo limitovat, ani ne tak při uživatelských přenosech dat, ale spíše při migraci virtuálů mezi jednotlivými nody. Jelikož dnes máme na serverech minimálně 256 GB RAM, trval přesun desítky minut, během kterých byl server nepoužitelný. V posledních měsících se pak k využití sítě velkou měrou přidal i NAS, který ve špičkách potřebuje už 3 Gbps.

Začali jsme proto uvažovat o výrazném zrychlení, které samozřejmě vyžaduje výměnu síťových karet a síťových přepínačů. Z různých důvodů jsme museli změnu několikrát odložit, podařilo se až letos na začátku roku. Bohužel jsme stále ještě poměrně malá organizace a občas nám trvá poměrně dlouho, než takhle náročný projekt realizujeme.

Volba padla na switche od výrobce Dell s modelovým označením S4048-ON pro svou podporu operačního systému ONIE. Chtěli jsme totiž využít právě ten a ubírat se tak, jako vždy, co nejvíc open-source cestou. Bohužel, jak se časem ukázalo, nic není bezchybného.

Z původních pěti kusů, které jsme objednávali pro Prahu (3×) a Brno (2×) se při konfiguraci a testování switchů dva z nich prapodivným způsobem rozbily. První při pokusu o aktualizaci systému, druhému se pak po delší odmlce a zapojení do sítě odporoučela do lovišť karta managementu. Po bližším prozkoumání jsme zjistili, že umřela část desky a oprava v takovém případě probíhá výměnou kusu za kus. Čili jsme zpět na ceně celého switche (ne-li vyšší) jako takového.

Problém je totiž v tom, že je třeba upgradovat z hodně staré verze firmware na novou postupně, po všech meziaktualizacích, které kdy mezi tím vyšly. Jakmile jednu přeskočíte, přestane switch fungovat. Nakonec nám s tím musel pomoct člověk, který dělá takové aktualizace denně.

Cesta byla trnitá, ale k migraci jsme nakonec přistoupili z neděle na pondělí 20. ledna. Začínali jsme o půlnoci, jako první přišel na řadu náš NASbox, který jsme museli přenastavit tak, aby sdílel ZFS datasety pomocí sharenfs.

Poté jsme se pustili do samotných nodů. Každý jsme museli vypnout, vyměnit síťové karty, při té příležitosti rovnou aktualizovat linuxové jádro a znovu nastartovat. Tohle probíhalo na dvě fáze. Minulý rok se montovaly do serveru síťové karty a každou chvíli se čekalo, ze migraci spustíme. Nakonec jsme kvůli firmwarovým problémům migraci samotnou odložili až na leden, přestože už bylo všechno připojené a připravené od podzimu.

Poučení pro příště: je lepší nechat ležet peníze na účtu a nakoupit vybavení na takovou změnu až spíš najednou, než postupně. Cena 10GE síťování během celého procesu dramaticky spadla. Dnes bychom mohli mít minimálně novější síťové karty. Poučení číslo dvě: o takových změnách nikdy neříkejte, že jsou snadné a skoro hned hotové.

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *