Dva mini počítače za 120 tisíc Kč nahradily cloudové AI. Denně zpracují miliony tokenů a ušetří tisíce měsíčně
Novinář přesunul svůj AI newsroom z cloudu na dvě malé krabičky s čipem AMD. Za dva měsíce na poplatcích za API ušetřil přes 35 tisíc korun.
Obsah článku
Chris Stokel-Walker, britský novinář píšící o technologiích, si v polovině března 2026 koupil první mini PC GMKtec EVO-X2 s procesorem AMD Ryzen AI Max+ 395. Stroj velikosti knihy postavil na stůl, nainstaloval LM Studio a začal přes něj pouštět open-weight jazykové modely řady Qwen. Během pár týdnů jeho lokální sestava zpracovávala 20 až 50 milionů tokenů denně, tedy desítky milionů slov ekvivalentu, a nahrazovala cloudové API, za které předtím platil stovky dolarů měsíčně. Na začátku června přidal druhý, silnější kus. Lokální objem vyskočil na 50 až 80 milionů tokenů denně. Účet za cloudové služby šel dolů.
Co přesně dvě malé krabičky dělají
Stokel-Walker neprovozuje běžný chat s AI. Vybudoval automatizovaný systém, který funguje jako redakce bez lidí, s ním samotným na konci řetězce. Pipeline vypadá takto: RSS feedy a články z oborů, které sleduje, proudí do systému, kde se porovnávají s „digitálním mozkem“ vytvořeným analýzou téměř dvou tisíc jeho starších textů za čtyři roky. AI reportéři (lokální modelové procesy) vyhodnocují souvislosti a píšou návrhy článků. AI editoři s nimi vedou dialog o rámování a úhlu pohledu. Hotový několikaodstavcový výstup pak přistane autorovi v Telegramu.
Celé to běží přes LM Studio, software s grafickým rozhraním, který umí lokální model vystavit jako API endpoint kompatibilní se schématem OpenAI i Anthropic. Prakticky to znamená, že vlastní nástroje a skripty, které dříve volaly cloudové API, stačilo přesměrovat na localhost. Žádné přepisování kódu od nuly.
Komponenty podražily
Autor sám uvádí, že první stroj pořídil za zhruba 2 000 dolarů, tedy asi 48 tisíc korun. Celá dvoustrojová sestava podle jeho slov vyšla na přibližně 3 000 dolarů. Jenže aktuální ceny v oficiálním EU shopu GMKtec jsou výrazně vyšší: 96GB varianta stojí 2 230 eur s DPH, 128GB varianta 3 030 eur s DPH, obojí s expedicí z německého skladu. Pro českého kupce, který by chtěl totéž dnes, vycházejí dva stroje reálně spíš na 90 až 120 tisíc korun podle konfigurace a kurzu.
Proč je ten čip vůbec zajímavý pro lokální AI? AMD Ryzen AI Max+ 395 nabízí až 128 GB sjednocené paměti, z níž lze velkou část dynamicky alokovat jako VRAM pro modely. Do malé krabičky se tak vejdou i modely s 27 nebo 36 miliardami parametrů, které by jinak vyžadovaly drahou dedikovanou grafiku.
Kolik se skutečně ušetří, a oproti čemu
Tohle je klíčový bod. Stokel-Walker neporovnává lokální provoz s předplatným ChatGPT Plus za 20 dolarů měsíčně. To by jeho objem stejně nepokrylo; Plus má limity a API se účtuje zvlášť. Porovnává lokál s provozem přes API na GPT-4.1 mini, který by při jeho denních desítkách milionů tokenů generoval účty v řádu stovek dolarů měsíčně.
Z jeho vlastních čísel vychází úspora asi 1 500 dolarů za dva měsíce, tedy zhruba 750 dolarů (přes 18 tisíc korun) měsíčně. Hrubá úspora, bez započtení elektřiny a času na údržbu. Při ceně prvního stroje kolem 2 000 dolarů to znamená návratnost za necelé tři měsíce. U celé sestavy za 3 000 dolarů kolem čtyř měsíců.
Ale pozor: tohle platí výhradně pro jeho vytížení. Kdo dnes platí jen dvacet dolarů za ChatGPT Plus, tomu by se hardware za 2 000 dolarů vrátil až za mnoho let, a to ještě bez započtení elektřiny. Práh, kde lokální provoz začíná dávat ekonomický smysl, leží u pravidelných účtů za API ve stovkách dolarů měsíčně.
Lokální modely vs. cloud: kde to stačí a kde ne
Stokel-Walker sám přiznává, že lokální 9B modely Qwen nejsou univerzální náhradou za všechno. Pro jeho úlohy (čtení, třídění, analyzování, přepisování zpráv) fungují stále dobře. Výslovně píše, že u těchto rutinních úloh nejsou frontier modely jako GPT-4o nebo Claude 3.5 Sonnet o tolik lepší. Rychlost generování na jeho sestavě dosahuje asi 5 až 10 tokenů za sekundu, což by v interaktivním chatu působilo pomalu. Jenže jeho pipeline běží na pozadí, nikdo u toho nesedí a nečeká.
U kódování je situace jiná. Tam si cloudová předplatná nechává. A už pokukuje po PC s GPU od Nvidie kvůli vyšší tokenové rychlosti a širšímu ekosystému CUDA.
Podstatné je, že Qwen3 oficiálně podporuje 119 jazyků včetně češtiny a doporučuje pro lokální nasazení právě LM Studio nebo Ollama. Lokální AI v češtině dnes není sci-fi; stačí 16 GB RAM a pár kliknutí v grafickém rozhraní. Jen je potřeba mít realistická očekávání: nejlepší výsledky stále vycházejí z anglických úloh.
Kdy to dává smysl a kdy ne
Stokel-Walkerův příběh není návod „zrušte cloud“. Je to případová studie člověka, jehož provoz AI připomíná spíše nepřetržitou výrobní linku než občasné dotazy do chatbota. Desítky milionů tokenů denně, automatizovaný pipeline reportérů a editorů, paralelní běh více modelů. V takovém režimu se hardware zaplatí velmi rychle.
Pro většinu lidí platí opak. Cloudové služby sice postupně přecházejí na přesnější účtování podle skutečné zátěže (GitHub Copilot už funguje na AI kreditech s logikou plateb za token nad limity, OpenAI odděluje levné předplatné od API), ale základní chatovací předplatná za pár stovek korun měsíčně stále běží běžně. Investice do vlastního hardwaru se vyplatí až ve chvíli, kdy AI přestane být nástroj a stane se infrastrukturou.
Dvě malé krabičky na stole britského novináře zpracovávají víc textu denně než průměrná redakce za měsíc. Není to budoucnost pro každého. Ale pro ty, kdo své účty za AI počítají v tisících korun měsíčně, je to budíček.