Moment DeepSeeka
Liang Wenfeng to szczupły 40-latek, który może wydawać się nieśmiały, a nawet nerwowy na spotkaniach z inwestorami i dziennikarzami. Pomimo tego jego umysł umie przetwarzać złożone detale techniczne z ogromną precyzją.
Gdy Liang analizuje najdrobniejsze punkty dyskusji, wystrzeliwuje precyzyjne, trudne do rozbrojenia pytania o architekturę modeli, koszty obliczeń i inne zawiłości systemów AI.
W firmie nazywają go „lǎo bǎn" (czyli “szef”) co jest powszechnym wyrazem szacunku w chińskim biznesie. Niezwykłe jest to, jak Wenfeng wzmacnia w swojej firmie pozycję młodych badaczy, nawet stażystów, przydzielając im duże projekty eksperymentalne i regularnie odwiedzając ich stanowiska.
Im bardziej techniczna rozmowa, tym lepiej – zwłaszcza gdy prowadzi do rzeczywistych usprawnień wydajności, którymi Wenfeng osobiście dzieli się na wewnętrznym kanale komunikacyjnym firmy.
– „To prawdziwy kujon" – mówi były pracownik DeepSeek. – „Czasami czułem, że rozumie badania lepiej niż jego badacze".
Jego startup znalazł się w centrum uwagi na początku tego roku wraz z wydaniem R1 – modelu AI, który wydawał się sejsmiczną zmianą w krajobrazie branży. Bo Liang Wenfeng zrobił prawdziwe “kuku” amerykańskiej branży technologicznej i wręcz upokorzył tamtejsze bigtechy tworząc technolologię, która kosztowała ułamek budżetów wydawanych przez OpenAI czy Anthropic na uczenie LLMów.
Kiedy w styczniu 2025 roku model R1 od DeepSeek pokazał się światu to okazało się, że nie tylko konkurował z uznanymi amerykańskimi modelami, ale przewyższał je w kilku standardowych testach, które branża wykorzystuje do pomiaru możliwości AI.
Całość była podlana jeszcze informacją, jakoby ich model był stworzony za około 5,6 miliona dolarów, czyli ułamek kosztów opracowania GPT-4 OpenAI, szacowanych na 100 milionów dolarów. Oczywiście to mocno naciągana teoria (o czym pisałem tutaj)
R1 spowodował ogromne zamieszanie na rynkach finansowych. 27 stycznia Nasdaq spadł o 3,4% przy otwarciu rynku, a akcje Nvidia straciły 17%, co przełożyło się na spadek jej kapitalizacji rynkowej o około 600 miliardów dolarów. Całkiem nieźle jak na małą firmę z Chin.
Łącznie z rynków zniknęło ponad bilion dolarów, gdy inwestorzy zastanawiali się, co ten przełom oznacza dla amerykańskiej dominacji.
Marc Andreessen nazwał to „momentem Sputnika" w kontekście AI, porównując premierę R1 do wystrzelenia satelity przez Związek Radziecki pod koniec lat 50., co zapoczątkowało wyścig kosmiczny (zakończony lądowanie Amerykanów na Księżycu w 1969 roku).
Tego samego dnia DeepSeek wyprzedził ChatGPT jako najczęściej pobieraną darmową aplikację w amerykańskim iOS App Store. Główni dostawcy usług w chmurze zareagowali natychmiast: Amazon i Microsoft szybko zaczęły integrować modele DeepSeek ze swoimi platformami.
Jak doszło do tego, że ameryńskie bigtechy zostały zaskoczone przez tak mikroskopijny podmiot? Przez długi czas amerykańskie firmy i decydenci utrzymywali uspokajającą narrację: Chiny wciąż pozostają daleko w tyle za innowacjami Doliny Krzemowej.
I nie mogli się bardziej mylić. Hangzhou, siedziba DeepSeek, to tylko jeden hub w sieci chińskich centrów technologii, które pielęgnują „małe smoki AI" czyli startupy po cichu budujące zaawansowane technologie, podczas gdy globalna uwaga skupiała się gdzie indziej.
Studiując na Uniwersytecie Zhejiang w połowie pierwszej dekady XXI wieku, Liang otrzymał tytuł licencjata z inżynierii elektronicznej w 2007 roku i magistra z inżynierii informatycznej i komunikacji w 2010 roku. Jego praca magisterska była poświęcona usprawnieniu systemów nadzoru AI.
Podczas studiów Liang i koledzy opracowywali programy do handlu akcjami podczas globalnego kryzysu finansowego 2008 roku – motywowani zarówno ciekawością intelektualną, jak i możliwościami finansowymi.
Po ukończeniu studiów kontynuował rozwijanie ilościowych systemów transakcyjnych, gromadząc znaczny majątek. W 2015 roku, wraz z dwoma kolegami z uniwersytetu, założył fundusz hedgingowy High-Flyer, który zamiast ludzkiej analizy wykorzystywał złożone algorytmy matematyczne. Firma szybko zyskała uznanie za innowacyjne wykorzystanie strategii inwestycyjnych opartych na AI.
High-Flyer ustanowił wzorce, które później stały się charakterystyczne dla DeepSeek: atmosferę tajemniczości połączoną z jasno komunikowaną wydajnością. W każdy piątek firma publikowała szczegółowe wykresy wyników swoich funduszy na WeChat.
Do końca 2021 roku portfel High-Flyer przekroczył 100 miliardów juanów (czyli około 14 miliardów dolarów) w zarządzanych aktywach.
Przed pandemią Liang zaczął budować zaawansowane klastry obliczeniowe. W maju 2023 roku w wywiadzie dla 36Kr stwierdził, że High-Flyer nabył 10 tys. procesorów Nvidia A100 jeszcze przed nałożeniem przez rząd USA ograniczeń na chipy dla Chin. To właśnie one miały się stać fundamentem hardware’owym dla DeepSeeka.
Były inżynier ujawnił, że Liang prawie w całości wykorzystywał klaster obliczeniowy – około 80% mocy przeznaczonej na rozwój modelu przypisano do jego osobistego konta. CEO obsesyjnie był zainteresowany deep learningiem. Gdy modele AI skoncentrowane na finansach nie przyniosły oczekiwanych rezultatów, zamiast się wycofać, High-Flyer radykalnie zwiększył zaangażowanie.
W kwietniu 2023 roku firma ogłosiła na swoim koncie WeChat, że rozszerzy swoją działalność poza branżę inwestycyjną i skoncentruje zasoby na „eksploracji istoty AGI". DeepSeek powstał miesiąc później. W czerwcu 2024 roku Liang udzielił wywiadu, w którym wyjaśnił swoją filozofię:
„Przez ostatnie 30 lat chińska branża technologiczna skupiała się tylko na zarobkach i ignorowała innowacje. A te nie są napędzane wyłącznie przez biznes, potrzebują także ciekawości i chęci tworzenia".
DeepSeek przyjął odmienne podejście od amerykańskich rywali, a Wenfeng celowo unikał budowania aplikacji. Zamiast tego skoncentrował się na stworzeniu modelu, który mógłby dorównać lub przewyższyć OpenAI.
– „Naszym celem nie są szybkie zyski, ale przesuwanie granicy technologicznej, aby napędzać wzrost ekosystemu" – twierdził.
DeepSeek-R1 został wytrenowany przy użyciu innowacyjnego podejścia: zespół zastosował uczenie wzmacniające bezpośrednio do modelu bazowego bez polegania na nadzorowanym dostrajaniu jako wstępnym kroku. To pozwoliło modelowi na eksplorację łańcucha myśli (CoT) w rozwiązywaniu złożonych problemów.
Firma wykorzystała Group Relative Policy Optimization (GRPO) czyli wariant uczenia wzmacniającego zorientowany na rozumowanie. Przeprowadzono również destylację wiedzy z DeepSeek-R1 do modeli open-source Qwen i Llama. To wszystko spowodowało, że po premierze Amerykanie byli w szoku tak jak i cały świat.
„Ich zaskoczenie wynika z faktu, że chińska firma dołączyła do ich gry jako innowator, a nie tylko naśladowca do czego przyzwyczaiło się większość chińskich firm" – skomentował Wenfeng amerykańską reakcję na DeepSeek V2.
Krytycy postawili chińczykom poważne zarzuty: działalność pod kontrolą komunistycznej partii, kradzież danych szkoleniowych od amerykańskich konkurentów i udział w szerszej kampanii mającej podważyć dominację Doliny Krzemowej w AI (tak jakby amerykańskie spółki nie korzystały z rządowej pomocy oraz nie kradły danych gdzie się da).
Rzecznik komisji Izby Reprezentantów prowadzącej dochodzenie w sprawie DeepSeek stwierdził: „DeepSeek jest bezpośrednim rurociągiem z amerykańskiego sektora technologicznego do państwa nadzoru komunistycznej partii Chin".
Australijskie agencje rządowe, indyjski rząd centralny, ministerstwo przemysłu Korei Południowej, tajwańskie agencje rządowe, rząd stanu Teksas, Kongres USA i Pentagon – wszyscy starali się zablokować dostęp do Deepseeka swoim obywatelom i użytkownikom.
Dane to jednak nie jedyna kontrowersja. Emocje wzbudziły też koszty szkolenia modeli. Amerykańska firma SemiAnalysis opublikowała raport szacujący, że High-Flyer i DeepSeek prawdopodobnie miały dostęp do około 50 tys. wysokiej klasy procesorów Nvidii z serii H o wartości 1,4 miliarda dolarów.
Firma twierdziła też, że DeepSeek posiadał 10 tys. najnowocześniejszych chipów H100, których sprzedaż do Chin została wyraźnie zakazana przez rząd USA.
Trzech byłych pracowników stanowczo zaprzeczyło zarzutom, twierdząc, że DeepSeek działał z mniej niż 20 tys. procesorów, składających się ze starszych chipów Nvidia i wariantów kontrolowanych przez eksport. Firma twierdzi, że wytrenowała swój model V3 za 6 milionów dolarów przy użyciu około jednej dziesiątej mocy obliczeniowej zużytej przez porównywalny model Meta – Llama 3.1.
20 stycznia 2025 roku Liang został zaproszony do sympozjum z ekspertami, przedsiębiorcami i przedstawicielami, prowadzonego przez premiera Li Qianga w Pekinie. Liang, będący jedną z dziewięciu osób poproszonych o przemówienie na tym zamkniętym sympozjum, został poproszony o przedstawienie opinii i sugestii dotyczących rocznego raportu rządowego z 2024 roku.
Fakt, że został zaproszony do podzielenia się opinią na temat chińskiej polityki rządowej, jasno pokazuje, że firma jest wpisana w plan podważenia globalnego porządku na korzyść Chin.
Już przed premierą R1 były znaki, że DeepSeek zyskał przychylność Pekinu. W styczniu media doniosły, że Liang uczestniczył w spotkaniu z chińskim premierem jako wyznaczony przedstawiciel sektora AI przed liderami lepiej znanych firm.
Co najmniej 13 chińskich rządów miejskich i 10 państwowych firm energetycznych twierdzi, że wdrożyło LLM-y do swoich systemów, podczas gdy giganci technologiczni (jak Lenovo, Baidu i Tencent) zintegrowali modele DeepSeek ze swoimi produktami.
Mimo sukcesu Liang odmawia wywiadów i rzadko pojawia się publicznie. Odrzucił m.in. udział w Paris AI Action Summit, wydarzenie, które przyciągnęło Sama Altmana z OpenAI, CEO Alphabet Sundara Pichai oraz wielu premierów i prezydentów.
W ślad za sukcesem DeepSeek, kolejne chińskie firmy już obniżyły ceny swoich modeli AI. Podobnie jak po wystrzeleniu Sputnika rozpoczął się wyścig kosmiczny, tak premiera R1 zapoczątkowała nową erę konkurencji w AI.
Teraz pytanie jest tylko jedno - kto wyląduje pierwszy na Księżycu?
Artur Kurasiński
Fajny tekst? Chcesz mnie wesprzeć w tworzeniu kolejnych?
KIEDY ROBOTY POZBAWIĄ NAS PRACY?
Czy Polska może stać się liderem w produkcji humanoidalnych robotów? O tym opowiadał mi Patryk Szymczak, który jest współzałożycielem SI Robotics, spółki rozwijającej tzw. physical AI...👇
W szczerej rozmowie Patryk opowiada o swojej drodze: od drukarek 3D dla wojska, przez radary antydronowe, aż po projektowanie robotów humanoidalnych zdolnych do pracy w logistyce i przemyśle.
W trakcie naszej rozmowy poruszamy takie tematy jak:
↳ jak generatywna AI zmienia robotykę,
↳ dlaczego dual-use wojskowe i cywilne zastosowania staje się standardem,
↳ czy Polska ma szansę zbudować własną „armię robotów”,
↳ logistyka jako kluczowe pole bitwy,
↳ wyzwania hardware vs. software w startupach.
ZOBACZ📺
POSŁUCHAJ🎙️
NEWSY WARTE TWOJEJ UWAGI
Przeszukałem internet w poszukiwaniu najciekawszych/najważniejszych historii dotyczących technologii.
NVIDIA INWESTUJE W ELEVENLABS
Nvidia nawiązuje strategiczne partnerstwo z polskim start-upem ElevenLabs, znanym z systemów głosowych opartych na sztucznej inteligencji firma została w ostatnim czasie wyceniona na 6,6 mld dolarów. Wśród planów jest dalszy rozwój technologii voice‑AI (text‑to‑speech, speech‑to‑text), klonowanie głosów, a także wzmacnianie emocjonalnej i empatycznej warstwy przekazu głosowego.
SZTUCZNA INTELIGENCJA PRZEWIDUJE PRZYSZŁE CHOROBY
Nowy model AI o nazwie Delphi-2M potrafi przewidzieć ryzyko ponad tysiąca chorób na 20 lat do przodu, analizując dane zdrowotne, demograficzne i styl życia. System osiąga trafność lepszą niż tradycyjne modele i może zrewolucjonizować wczesną diagnostykę.
AI KOMPLIKUJE RANDKOWANIE ONLINE
The Cut opisuje, jak sztuczna inteligencja zaczyna dominować w świecie randek internetowych począwszy od generowania profili i kreatywnych pierwszych wiadomości po „coachów” relacji, którzy mogą wyręczać ludzi w emocjonalnej pracy.
KORZYSTANIE Z CHATGPT NISZCZY MAŁŻEŃSTWO?
Artykuł opisuje przypadki, w których partnerzy zaczynają używać ChatGPT do analizowania relacji, generowania wiadomości i wspierania własnej wersji narracji konfliktów co w wielu małżeństwach doprowadza do erozji zaufania i ostatecznie rozwodu.
TYDZIEŃ Z ZABAWKĄ “ZASILANĄ” AI
Rodzina autorki testowała pluszową zabawkę AI o nazwie Grem, której rozmowy z dzieckiem są nagrywane, transkrybowane i analizowane przez zewnętrzne podmioty. Choć na początku córka była zachwycona, robiło się coraz bardziej niepokojąco bo zabawka non stop mówi “kocham cię”, obiecuje stałą obecność…
ZAMIESZANIE WOKÓŁ ROBOTAKSÓWEK MUSKA
Plany Tesli dotyczące uruchomienia robotaksówek w San Francisco wywołały konsternację wśród regulatorów, którzy nie otrzymali wymaganych wniosków ani jasnych informacji. Firma używa mylących komunikatów, sugerując pełną autonomię, mimo że pojazdy mają działać z kierowcą i w ograniczonym zakresie.
OPŁATA ZA WIZĘ H‑1B: KTO NA TYM STRACI?
Proponowana podwyżka opłaty za nową wizę H‑1B do 100K USD ma odstraszyć wiele firm technologicznych od zatrudniania wykwalifikowanych pracowników z zagranicy, zwłaszcza z Indii i Chin. Analitycy ostrzegają, że może to prowadzić do niedoboru talentów w USA, wzrostu kosztów pracy i przenoszenia części działalności do krajów o bardziej liberalnej polityce imigracyjnej.