DeepSeek: Revolucionar koji revolucionira krajolik umjetne inteligencije

AIPU WATON GRUPA

Uvod

Stalna tjeskoba među konkurentskim velikim modelima, pružateljima usluga u oblaku koji se natječu za tržišni udio i vrijednim proizvođačima čipova - DeepSeek efekt i dalje postoji.

Kako se Proljetni festival bliži kraju, uzbuđenje oko DeepSeeka ostaje snažno. Nedavni praznik istaknuo je značajan osjećaj konkurencije unutar tehnološke industrije, a mnogi raspravljaju i analiziraju ovog "soma". Silicijska dolina doživljava neviđeni osjećaj krize: zagovornici otvorenog koda ponovno iznose svoja mišljenja, pa čak i OpenAI preispituje je li njegova strategija zatvorenog koda bila najbolji izbor. Nova paradigma nižih računalnih troškova izazvala je lančanu reakciju među čipovskim divovima poput Nvidije, što je dovelo do rekordnih gubitaka tržišne vrijednosti u jednom danu u povijesti američke burze, dok vladine agencije istražuju usklađenost čipova koje koristi DeepSeek. Usred mješovitih recenzija DeepSeeka u inozemstvu, na domaćem tržištu doživljava izvanredan rast. Nakon lansiranja modela R1, povezana aplikacija zabilježila je porast prometa, što ukazuje na to da će rast u sektorima aplikacija potaknuti cjelokupni ekosustav umjetne inteligencije. Pozitivan aspekt je što će DeepSeek proširiti mogućnosti aplikacija, što sugerira da oslanjanje na ChatGPT neće biti toliko skupo u budućnosti. Ova promjena odrazila se u nedavnim aktivnostima OpenAI-a, uključujući pružanje modela zaključivanja pod nazivom o3-mini besplatnim korisnicima kao odgovor na DeepSeek R1, kao i naknadne nadogradnje koje su učinile misaoni lanac o3-mini javnim. Mnogi inozemni korisnici izrazili su zahvalnost DeepSeeku na ovim dostignućima, iako ovaj misaoni lanac služi kao sažetak.

Optimistično je da DeepSeek ujedinjuje domaće igrače. S fokusom na smanjenje troškova obuke, razni proizvođači čipova uzvodno, posrednički pružatelji usluga u oblaku i brojni startupi aktivno se pridružuju ekosustavu, povećavajući isplativost korištenja DeepSeek modela. Prema DeepSeekovim radovima, potpuna obuka V3 modela zahtijeva samo 2,788 milijuna sati H800 GPU-a, a proces obuke je vrlo stabilan. Arhitektura MoE (Mixture of Experts) ključna je za smanjenje troškova predobuke za faktor deset u usporedbi s Llama 3 s 405 milijardi parametara. Trenutno je V3 prvi javno priznati model koji pokazuje tako visoku rijetkost u MoE-u. Osim toga, MLA (Multi Layer Attention) djeluje sinergijski, posebno u aspektima zaključivanja. "Što je MoE rjeđi, veća je veličina serije potrebna tijekom zaključivanja kako bi se u potpunosti iskoristila računalna snaga, pri čemu je veličina KVCachea ključni ograničavajući faktor; MLA značajno smanjuje veličinu KVCachea", primijetio je istraživač iz Chuanjing Technology u analizi za AI Technology Review. Sveukupno, DeepSeekov uspjeh leži u kombinaciji različitih tehnologija, a ne samo jedne. Stručnjaci iz industrije hvale inženjerske sposobnosti DeepSeek tima, ističući njihovu izvrsnost u paralelnoj obuci i optimizaciji operatera, postižući revolucionarne rezultate usavršavanjem svakog detalja. DeepSeekov pristup otvorenog koda dodatno potiče cjelokupni razvoj velikih modela, a očekuje se da će, ako se slični modeli prošire na slike, videozapise i još mnogo toga, to značajno potaknuti potražnju u cijeloj industriji.

Mogućnosti za usluge zaključivanja trećih strana

Podaci pokazuju da je DeepSeek od svog izlaska prikupio 22,15 milijuna dnevno aktivnih korisnika (DAU) u samo 21 dan, dosegnuvši 41,6% korisničke baze ChatGPT-a i premašivši 16,95 milijuna dnevno aktivnih korisnika Doubaoa, čime je postao najbrže rastuća aplikacija u svijetu, predvodeći Apple App Store u 157 zemalja/regija. Međutim, dok su korisnici hrlili u masovnom broju, cyber hakeri neumoljivo napadaju aplikaciju DeepSeek, uzrokujući značajno opterećenje njezinih poslužitelja. Analitičari industrije vjeruju da je to djelomično zbog toga što DeepSeek koristi kartice za obuku, a nema dovoljno računalne snage za logičko zaključivanje. Izvor iz industrije rekao je za AI Technology Review: "Česti problemi s poslužiteljima mogu se lako riješiti naplatom naknada ili financiranjem za kupnju više strojeva; u konačnici, to ovisi o odlukama DeepSeeka." To predstavlja kompromis u fokusiranju na tehnologiju naspram produktizacije. DeepSeek se uvelike oslanjao na kvantnu kvantizaciju za samoodrživost, primivši malo vanjskog financiranja, što je rezultiralo relativno niskim pritiskom novčanog toka i čišćim tehnološkim okruženjem. Trenutno, s obzirom na spomenute probleme, neki korisnici na društvenim mrežama potiču DeepSeek da podigne pragove korištenja ili uvede plaćene značajke kako bi se poboljšala udobnost korisnika. Osim toga, programeri su počeli koristiti službeni API ili API-je trećih strana za optimizaciju. Međutim, DeepSeekova otvorena platforma nedavno je objavila: „Trenutni resursi poslužitelja su oskudni, a nadoplate API usluga su obustavljene.“

 

To nesumnjivo otvara više mogućnosti za treće strane u sektoru AI infrastrukture. Nedavno su brojni domaći i međunarodni divovi u oblaku pokrenuli DeepSeekove API-je za modele - inozemni divovi Microsoft i Amazon bili su među prvima koji su se pridružili krajem siječnja. Domaći lider, Huawei Cloud, napravio je prvi korak, objavivši usluge zaključivanja DeepSeek R1 i V3 u suradnji s tvrtkom Flow, sa sjedištem u Siliciju, 1. veljače. Izvješća AI Technology Reviewa pokazuju da su usluge Flowa, sa sjedištem u Siliciju, zabilježile priljev korisnika, što je učinkovito "srušilo" platformu. Tri velike tehnološke tvrtke - BAT (Baidu, Alibaba, Tencent) i ByteDance - također su izdale jeftine, vremenski ograničene ponude počevši od 3. veljače, podsjećajući na prošlogodišnje ratove cijena dobavljača u oblaku koje je pokrenulo lansiranje DeepSeekovog modela V2, gdje je DeepSeek počeo biti nazivan "mesarom cijena". Frenetične akcije dobavljača usluga u oblaku odražavaju ranije snažne veze između Microsoft Azurea i OpenAI-a, gdje je Microsoft 2019. godine uložio značajnu milijardu dolara u OpenAI i ostvario koristi nakon lansiranja ChatGPT-a 2023. godine. Međutim, ovaj bliski odnos počeo se narušavati nakon što je Meta dao otvoreni kod za Llamu, omogućujući drugim dobavljačima izvan ekosustava Microsoft Azurea da se natječu s njihovim velikim modelima. U ovom slučaju, DeepSeek je ne samo nadmašio ChatGPT u smislu popularnosti proizvoda, već je i predstavio modele otvorenog koda nakon izlaska o1, slično uzbuđenju oko Llaminog oživljavanja GPT-3.

 

U stvarnosti, pružatelji usluga u oblaku pozicioniraju se i kao prometni prolazi za AI aplikacije, što znači da produbljivanje veza s programerima dovodi do preventivnih prednosti. Izvješća pokazuju da je Baidu Smart Cloud imao preko 15 000 korisnika koji su koristili DeepSeek model putem Qianfan platforme na dan lansiranja modela. Osim toga, nekoliko manjih tvrtki nudi rješenja, uključujući Flow na bazi silikona, Luchen Technology, Chuanjing Technology i razne pružatelje AI infrastrukture koji su pokrenuli podršku za DeepSeek modele. AI Technology Review je saznao da trenutne mogućnosti optimizacije za lokalizirane implementacije DeepSeeka prvenstveno postoje u dva područja: jedno je optimizacija karakteristika rijetkosti MoE modela korištenjem pristupa mješovitog zaključivanja za lokalnu implementaciju MoE modela sa 671 milijardom parametara uz korištenje hibridne GPU/CPU inferencije. Osim toga, optimizacija MLA je ključna. Međutim, dva DeepSeek modela i dalje se suočavaju s nekim izazovima u optimizaciji implementacije. "Zbog veličine modela i brojnih parametara, optimizacija je doista složena, posebno za lokalne implementacije gdje će postizanje optimalne ravnoteže između performansi i troškova biti izazovno", izjavio je istraživač iz Chuanjing Technology. Najznačajnija prepreka leži u prevladavanju ograničenja kapaciteta memorije. „Usvajamo heterogeni pristup suradnje kako bismo u potpunosti iskoristili CPU-ove i druge računalne resurse, stavljajući samo nedijeljene dijelove rijetke MoE matrice na CPU/DRAM za obradu pomoću visokoučinkovitih CPU operatora, dok gusti dijelovi ostaju na GPU-u“, dalje je objasnio. Izvješća pokazuju da Chuanjingov open-source framework KTransformers prvenstveno ubrizgava različite strategije i operatore u originalnu implementaciju Transformera putem predloška, ​​značajno poboljšavajući brzinu zaključivanja korištenjem metoda poput CUDAGrapha. DeepSeek je stvorio prilike za ove startupove, jer prednosti rasta postaju očite; mnoge tvrtke izvijestile su o primjetnom rastu broja kupaca nakon pokretanja DeepSeek API-ja, primajući upite od prethodnih klijenata koji su tražili optimizacije. Stručnjaci iz industrije primijetili su: „U prošlosti su donekle etablirane skupine klijenata često bile vezane za standardizirane usluge većih tvrtki, čvrsto vezane svojim troškovnim prednostima zbog opsega. Međutim, nakon što smo dovršili implementaciju DeepSeek-R1/V3 prije Proljetnog festivala, iznenada smo primili zahtjeve za suradnju od nekoliko poznatih klijenata, pa čak su i prethodno neaktivni klijenti inicirali kontakt kako bi nam predstavili naše DeepSeek usluge.“ Trenutno se čini da DeepSeek sve više pridaje važnost performansama zaključivanja modela, a s većom primjenom velikih modela, to će i dalje značajno utjecati na razvoj industrije AI infrastrukture. Ako bi se model na razini DeepSeeka mogao lokalno primijeniti uz nisku cijenu, to bi uvelike pomoglo naporima vlade i poduzeća u digitalnoj transformaciji. Međutim, izazovi i dalje postoje, jer neki klijenti mogu imati visoka očekivanja u vezi s mogućnostima velikih modela, što čini očitijim da uravnoteženje performansi i troškova postaje ključno u praktičnoj implementaciji. 

Kako biste procijenili je li DeepSeek bolji od ChatGPT-a, bitno je razumjeti njihove ključne razlike, prednosti i slučajeve upotrebe. Evo sveobuhvatne usporedbe:

Značajka/Aspekt Duboko pretraživanje ChatGPT
Vlasništvo Razvijeno od strane kineske tvrtke Razvijeno od strane OpenAI-a
Izvorni model Otvorenog koda Vlasnički
Trošak Besplatno za korištenje; jeftinije opcije API pristupa Cijena pretplate ili plaćanja po korištenju
Prilagođavanje Visoko prilagodljiv, što korisnicima omogućuje podešavanje i nadogradnju Ograničena prilagodba dostupna
Učinkovitost u određenim zadacima Ističe se u određenim područjima poput analize podataka i pretraživanja informacija Svestran s jakim performansama u kreativnom pisanju i konverzacijskim zadacima
Jezična podrška Snažan fokus na kineski jezik i kulturu Široka jezična podrška, ali usmjerena na SAD
Trošak obuke Niži troškovi obuke, optimizirano za učinkovitost Veći troškovi obuke, koji zahtijevaju značajne računalne resurse
Varijacija odgovora Može ponuditi različite odgovore, moguće pod utjecajem geopolitičkog konteksta Dosljedni odgovori temeljeni na podacima o obuci
Ciljana publika Namijenjeno programerima i istraživačima koji žele fleksibilnost Namijenjeno općim korisnicima koji traže mogućnosti razgovora
Primjeri upotrebe Učinkovitije za generiranje koda i brze zadatke Idealno za generiranje teksta, odgovaranje na upite i vođenje dijaloga

Kritička perspektiva o "poremećaju Nvidije"

Trenutno, osim Huaweija, nekoliko domaćih proizvođača čipova poput Moore Threadsa, Muxija, Biran Technologyja i Tianxu Zhixina također se prilagođavaju dvama DeepSeek modelima. Proizvođač čipova rekao je za AI Technology Review: "DeepSeekova struktura pokazuje inovativnost, ali ostaje LLM. Naša prilagodba DeepSeeku prvenstveno je usmjerena na primjenu zaključivanja, što tehničku implementaciju čini prilično jednostavnom i brzom." Međutim, MoE pristup zahtijeva veće zahtjeve u pogledu pohrane i distribucije, uz osiguravanje kompatibilnosti prilikom implementacije s domaćim čipovima, što predstavlja brojne inženjerske izazove koji zahtijevaju rješavanje tijekom prilagodbe. "Trenutno, domaća računalna snaga ne odgovara Nvidiji u upotrebljivosti i stabilnosti, što zahtijeva izvorno sudjelovanje tvornice za postavljanje softverskog okruženja, rješavanje problema i optimizaciju temeljnih performansi", rekao je stručnjak iz industrije na temelju praktičnog iskustva. Istovremeno, "Zbog velike skale parametara DeepSeeka R1, domaća računalna snaga zahtijeva više čvorova za paralelizaciju. Osim toga, domaće hardverske specifikacije još uvijek donekle zaostaju; na primjer, Huawei 910B trenutno ne može podržati FP8 inferenciju koju je uveo DeepSeek." Jedan od vrhunaca DeepSeek V3 modela je uvođenje FP8 okvira za miješano precizno treniranje, koji je učinkovito validiran na izuzetno velikom modelu, što označava značajno postignuće. Prethodno su veliki igrači poput Microsofta i Nvidije predlagali srodni rad, ali u industriji i dalje postoje sumnje u vezi s izvedivošću. Razumije se da je, u usporedbi s INT8, glavna prednost FP8 ta što kvantizacija nakon treniranja može postići gotovo preciznost bez gubitaka, a istovremeno značajno poboljšati brzinu zaključivanja. U usporedbi s FP16, FP8 može ostvariti do dvostruko ubrzanje na Nvidijinom H20 i preko 1,5 puta ubrzanje na H100. Važno je napomenuti da, kako rasprave o trendu domaće računalne snage plus domaćih modela dobivaju na zamahu, nagađanja o tome može li se Nvidia poremetiti i može li se zaobići CUDA jarak postaju sveprisutnija. Jedna nepobitna činjenica je da je DeepSeek doista uzrokovao značajan pad tržišne vrijednosti Nvidije, ali ova promjena postavlja pitanja o integritetu Nvidijine vrhunske računalne snage. Prethodno prihvaćeni narativi o računalnoj akumulaciji potaknutoj kapitalom dovode se u pitanje, no Nvidiji je i dalje teško u potpunosti zamijeniti u scenarijima obuke. Analiza DeepSeekove duboke upotrebe CUDA-e pokazuje da fleksibilnost - poput korištenja SM-a za komunikaciju ili izravnog manipuliranja mrežnim karticama - nije izvediva za obične GPU-ove. Stajališta industrije naglašavaju da Nvidijin rov obuhvaća cijeli CUDA ekosustav, a ne samo sam CUDA, a PTX (Parallel Thread Execution) instrukcije koje DeepSeek koristi i dalje su dio CUDA ekosustava. "Kratkoročno gledano, Nvidijina računalna snaga ne može se zaobići - to je posebno jasno u obuci; međutim, implementacija domaćih kartica za zaključivanje bit će relativno lakša, pa će napredak vjerojatno biti brži. Prilagodba domaćih kartica prvenstveno se fokusira na zaključivanje; nitko još nije uspio obučiti model DeepSeekovih performansi na domaćim karticama u velikom obimu", primijetio je industrijski analitičar za AI Technology Review. Sveukupno, sa stajališta zaključivanja, okolnosti su ohrabrujuće za domaće čipove velikih modela. Prilike za domaće proizvođače čipova u području zaključivanja očitije su zbog pretjerano visokih zahtjeva za obuku, što ometa ulazak na tržište. Analitičari tvrde da je dovoljno jednostavno korištenje domaćih kartica za zaključivanje; ako je potrebno, nabava dodatnog stroja je izvediva, dok modeli obuke predstavljaju jedinstvene izazove - upravljanje povećanim brojem strojeva može postati opterećujuće, a veće stope pogrešaka mogu negativno utjecati na ishode obuke. Obuka također ima specifične zahtjeve za veličinu klastera, dok zahtjevi za klastere za zaključivanje nisu toliko strogi, što smanjuje zahtjeve za GPU. Trenutno, performanse Nvidijine jedne H20 kartice ne nadmašuju one Huaweija ili Cambria; njezina snaga leži u klasteriranju. Na temelju ukupnog utjecaja na tržište računalne snage, osnivač Luchen Technologyja, You Yang, primijetio je u intervjuu za AI Technology Review: "DeepSeek može privremeno potkopati uspostavu i najam ultra velikih računalnih klastera za obuku. Dugoročno gledano, značajnim smanjenjem troškova povezanih s obukom velikih modela, zaključivanjem i aplikacijama, potražnja na tržištu vjerojatno će porasti. Naknadne iteracije umjetne inteligencije temeljene na tome stoga će kontinuirano poticati održivu potražnju na tržištu računalne snage." Osim toga, „DeepSeekova povećana potražnja za uslugama zaključivanja i finog podešavanja kompatibilnija je s domaćim računalnim krajolikom, gdje su lokalni kapaciteti relativno slabi, što pomaže u smanjenju rasipanja zbog neaktivnih resursa nakon uspostave klastera; to stvara održive prilike za proizvođače na različitim razinama domaćeg računalnog ekosustava.“ Luchen Technology surađivao je s Huawei Cloudom kako bi pokrenuo DeepSeek R1 seriju API-ja za zaključivanje i usluge snimanja u oblaku temeljene na domaćoj računalnoj snazi. You Yang izrazio je optimizam u pogledu budućnosti: „DeepSeek ulijeva povjerenje u domaća rješenja, potičući veći entuzijazam i ulaganja u domaće računalne kapacitete u budućnosti.“

微信图片_20240614024031.jpg1

Zaključak

Je li DeepSeek "bolji" od ChatGPT-a ovisi o specifičnim potrebama i ciljevima korisnika. Za zadatke koji zahtijevaju fleksibilnost, nisku cijenu i prilagodbu, DeepSeek može biti superiorniji. Za kreativno pisanje, općenite upite i korisnički prilagođena sučelja za razgovor, ChatGPT može preuzeti vodstvo. Svaki alat služi različitim svrhama, tako da će izbor uvelike ovisiti o kontekstu u kojem se koriste.

Pronađite ELV kabelsko rješenje

Kontrolni kabeli

Za BMS, BUS, industrijski, instrumentalni kabel.

Strukturirani kabelski sustav

Mreža i podaci, optički kabel, patch kabel, moduli, prednja ploča

Pregled izložbi i događaja za 2024.

16.-18. travnja 2024. Bliskoistočna energija u Dubaiju

16.-18. travnja 2024. Securika u Moskvi

9. svibnja 2024. DOGAĐAJ POVODOM PREDSTAVLJANJA NOVIH PROIZVODA I TEHNOLOGIJA u Šangaju

22.-25. listopada 2024. SIGURNOST KINE u Pekingu

19.-20. studenog 2024. CONNECTED WORLD KSA


Vrijeme objave: 10. veljače 2025.