Cum să rulezi LLM-uri pe Windows cu LM Studio

LM Studio este o platformă inovatoare care facilitează accesul și utilizarea modelelor de limbaj de mare dimensiune (LLM). Într-o epocă în care tehnologia LLM devine din ce în ce mai accesibilă, LM Studio oferă o soluție simplă și eficientă pentru a integra aceste modele în proiectele tale. În acest articol, vom discuta despre ce este LM Studio, cum să-l instalezi și configuri pe Windows, și cum să folosești modelele LLM pentru a îmbunătăți activitățile tale de zi cu zi.

Ce este LM Studio?

LM Studio este o aplicație care permite utilizatorilor să acceseze și să utilizeze modelele de limbaj de mare dimensiune fără a fi nevoie să se ocupe de complexitatea tehnică a antrenării și a gestionării acestor modele. Platforma oferă o interfață simplă și intuitivă, permițând dezvoltatorilor să se concentreze pe crearea de aplicații și servicii în loc să se ocupe de infrastructura subiacentă.

LM Studio este compatibil cu:

  • Windows 10/11
  • macOS
  • Linux

Care sunt cerințele de sistem pentru LM Studio?

Pentru a rula LM Studio pe Windows, vei avea nevoie de următoarele:

  1. Procesor: Un procesor multi-core este recomandat (Intel, AMD, 4 core sunt suficienta daca nu rulati LLM-ul in modul CPU)
  2. Memorie RAM: Cel puțin 16 GB de RAM, deși 32 GB sau chiar mai mult este de preferat.
  3. Spațiu pe disc: Recomand utilizarea unui SSD cât mai rapid, de exemplu un NVMe, deoarece LLM-urile ocupă mult spațiu iar încărcarea lor între placa video și SSD trebuie să se facă rapid. Modelele mici au de regula cativa GB, intre 3 si 12 ~ 16 GB, in funcție de multi factori tehnici despre care n-are sens as vorbim acum. Poate pe viitor!
  4. GPU: NVIDIA cu suport CUDA de minim 4GB VRAM pentru LLM-uri mici, ideal 8GB sau chiar mai mult. Atenție, neapărat trebuie o placa video de la seria RTX 2xxx in sus.

nVidia RTX 4060 este ideală pentru AI

În opinia mea, pentru a rula LLM-uri acasă,  plăcile video din seriile NVIDIA RTX 3000 și 4000 sunt printre cele mai potrivite opțiuni. Ceea ce le face ideale este capacitatea generoasă de memorie VRAM, care variază între 12GB și 16GB sau chiar mai mult, esențială pentru încărcarea și procesarea eficientă a modelelor mari. Totuși, nu doar memoria contează – suportul pentru CUDA și Tensor Cores joacă un rol important în accelerarea sarcinilor de calcul complexe.

Din acest motiv, am identificat câteva modele recomandate, inclusiv RTX 4060, care mi se pare o alegere foarte bună pentru cei care caută un echilibru între performanță și costuri.

GPU Model VRAM TDP CUDA Cores AI Performance Index
NVIDIA RTX 3060 12GB GDDR6 170W 3,584 High
NVIDIA RTX 3060 Ti 8GB GDDR6 200W 4,864 High
NVIDIA RTX 3070 8GB GDDR6 220W 5,888 High
NVIDIA RTX 3070 Ti 8GB GDDR6X 290W 6,144 High
NVIDIA RTX 3080 10GB/12GB GDDR6X 320W 8,704 Very High
NVIDIA RTX 3080 Ti 12GB GDDR6X 350W 10,240 Very High
NVIDIA RTX 3090 24GB GDDR6X 350W 10,496 Very High
NVIDIA RTX 3090 Ti 24GB GDDR6X 450W 10,752 Very High
NVIDIA RTX 4060 8GB GDDR6 115W 3,072 Medium-High
NVIDIA RTX 4060 Ti 8GB/16GB GDDR6 160W 4,352 High
NVIDIA RTX 4070 12GB GDDR6X 200W 5,888 High
NVIDIA RTX 4070 Ti 12GB GDDR6X 285W 7,680 Very High
NVIDIA RTX 4080 16GB GDDR6X 320W 9,728 Very High
NVIDIA RTX 4090 24GB GDDR6X 450W 16,384 Extremely High

Modelele de RTX 4060 existente sunt excelente pentru utilizatorii care caută un echilibru între performanță și eficiență. Sunt ideale pentru rularea modelelor de limbaj de dimensiuni moderate, precum LLaMA 7B, GPT-J, Alpaca, Vicuna, Mistral 7B sau versiuni optimizate ale GPT-2 și GPT-Neo. Tehnicile de quantizare (4-bit sau 8-bit) permit rularea eficientă pe aceste modele.

Plus ca, arhitectura Ada Lovelace are un consum mai redus de energie, iar Tensor Cores de generație nouă accelerează operațiile de inferență și fine-tuning folosind sparsity.

Din păcate, nu am la dispoziție un RTX 4060 în acest moment, așa că mă bazez pe ceea ce am în desktop: un RTX 2070.

 

Descărcarea și Configurarea LM Studio pe Windows

Pentru a descărca și configura LM Studio pe Windows, urmează acești pași simpli:

Descărcarea Aplicației

  1. Vizitează site-ul oficial LM Studio și descarcă aplicația pentru Windows.
  2. După descărcare, rulează fișierul executabil pentru a instala aplicația.

Configurarea Aplicației

  1. La prima rulare, aplicația se va instala singură.
  2. Pentru configurare, mergi în bara de meniu din stânga și selectează iconița “My Models” pentru a seta folderul în care dorești să descarci modelele.
  3. După ce ai setat folderul, poți reveni în meniul principal de unde poți căuta și descărca modele.

Pentru acest articol, am ales să folosesc următoarele modele:

  • Qwen2.5-Coder-7B
  • Meta-Llama-3.1-0B
  • Llava-v1.5-7B

Aceste modele au fost alese deoarece placa video pe care o am are doar 8GB VRAM. Librăria de modele pusă la dispoziție este enorm de variata.

Capacitățile Modelelor

Qwen2.5-Coder-7B

Qwen2.5-Coder-7B este un model LLM specializat în generarea de cod. Este capabil să genereze cod în mai multe limbaje de programare, să completeze fragmente de cod și să ofere sugestii pentru depanarea codului.

I-am solicitat lui Qwen să-mi facă o simplă pagina web, utilizând Bootstrap, pentru servicii de “Custom pc building”. Promptul arată cam așa:

Puteti vedea că a utilizat o versiune foarte veche de Bootstrap 4.5.2, evident este vina mea deoarece n-am fost explicit in a il indruma ce versiune să utilizeze iar generată este foarte simple deoarece nu i-am oferit mai mult context. Dacă i-as fi explicat mai mult despre cum vreau să arate dar și ce informații doresc sa conțină, face treaba destul de bună.

De regulă, eu utilizez Qween sau ChatGPT pentru analiză de cod și bug hunting.

Meta-Llama-3.1-0B

Meta-Llama-3.1-0B este un model LLM generalist care poate fi utilizat pentru o varietate de sarcini, inclusiv generarea de text, răspunderea la întrebări și crearea de conținut. Este un model versatil care poate fi adaptat pentru diferite aplicații.

Llava-v1.5-7B

Llava-v1.5-7B este un model LLM care poate să facă analiza de imagini. Acest model este capabil să interpreteze și să genereze descrieri pentru imagini, ceea ce îl face util în aplicații de recunoaștere a imaginilor și analiză vizuală.

După cum puteți observa, Llava a analizat imaginea, dar nu a reușit să distingă cu acuratețe textul de pe tricoul lui Lucian. Totuși, imaginea era în rezoluție mică, ceea ce a afectat clar capacitățile modelului. În general, modelele cu abilități de viziune pot fi utilizate pentru clasificarea imaginilor, analiza acestora și chiar generarea de descrieri pentru anumite contexte.

Cum te poate ajuta un LLM

Un LLM poate fi un instrument extrem de util în activitățile de zi cu zi, în special în industriile care implică sarcini repetitive sau analiza de date mari. Iată câteva exemple:

  • Programare: Qwen2.5-Coder-7B este excelent pentru generarea de cod și analiză, ajutând programatorii să economisească timp prețios și să crească productivitatea.
  • Social Media: Modelele LLM pot fi utilizate pentru a genera conținut pentru platformele de social media, pentru a analiza sentimentele și pentru a crea postări atractive.
  • Analiza de Date: Modelele LLM pot fi utilizate pentru a analiza stive mari de date, pentru a extrage informații utile și pentru a genera rapoarte.

LM Studio oferă o soluție simplă și eficientă pentru a accesa și utiliza modelele de limbaj de mare dimensiune. Prin eliminarea complexității tehnice și oferind o interfață intuitivă, platforma permite dezvoltatorilor să se concentreze pe crearea de aplicații și servicii inovatoare. Dacă ești interesat să explorezi lumea modelelor LLM, LM Studio este un excelent punct de plecare.

Dacă doriți să public mai multe articole despre AI, LLM-uri sau chestii conexe pe zona asta, un comentariu in articolul ăsta, share pe unde vreți voi că să lucreze algoritmii de social media și nu uitați de serverul nostru de Discord și canalul de Youtube.

Ah si imaginea de mai jos este generata cu Mistral AI

Leave a Reply