DeepSeek wstrzymuje prace nad R2 przez brak chipów Nvidia

5 godzin temu
Zdjęcie: DeepSeek, AI


Gdy chiński startup DeepSeek zaprezentował swój model językowy R1, wielu ekspertów przecierało oczy ze zdumienia. Model dorównywał najnowszym konstrukcjom OpenAI i Anthropic, a jego trening kosztował znacznie mniej. Sukces okazał się jednak trudny do powtórzenia — według ustaleń The Information, produkcja następcy, modelu R2, została wstrzymana z powodu niedoboru procesorów graficznych Nvidia.

DeepSeek zbudował swój sukces na ogromnej skali — model R1 został wytrenowany na 50 tys. GPU z rodziny Hopper, w tym na 10 tys. H100, 10 tys. H800 i 3 tys. chipów H20. Te ostatnie — specjalnie przygotowane do eksportu do Chin — są dziś szczególnie trudne do zdobycia. Od czasu nałożenia przez USA kolejnych ograniczeń eksportowych, chińskie firmy mają utrudniony dostęp choćby do okrojonych wersji GPU Nvidii. DeepSeek zużył już większość dostępnych zasobów, obsługując zapotrzebowanie lokalnych firm i agencji rządowych.

Sytuacja odbija się nie tylko na planach związanych z modelem R2, ale również na bieżącej wydajności R1. Użytkownicy zgłaszają spadki jakości działania modelu, co może świadczyć o przeciążeniu systemu. Firma znalazła się w pułapce: bez nowych GPU nie jest w stanie rozwijać modelu, a malejąca wydajność zniechęca potencjalnych klientów.

Chińscy producenci, tacy jak Huawei, oferują wprawdzie alternatywne akceleratory AI, ale ich wydajność wciąż odbiega od układów Nvidii. Co gorsza, nie są one zgodne z popularnym ekosystemem CUDA, co dodatkowo komplikuje migrację modeli i infrastruktury.

Dla DeepSeek to poważny problem. Firma miała szansę stać się lokalnym odpowiednikiem OpenAI, jednak bez stałego dostępu do zaawansowanego sprzętu może stracić tempo rozwoju. W praktyce potwierdza to szerszy problem chińskiego ekosystemu AI — ograniczenia w dostępie do technologii półprzewodnikowej przekładają się na trudności w skalowaniu modeli i usług.

W kontekście globalnego wyścigu zbrojeń w AI, opóźnienie modelu R2 pokazuje, jak istotne są łańcuchy dostaw i dominacja kilku dostawców sprzętu. choćby najlepiej zaprojektowany model nie ma szans bez odpowiedniego zaplecza obliczeniowego.

Idź do oryginalnego materiału