Επικοινωνήστε μαζί μας

Εξέλιξη Κομματιού

Κυριαρχία στην Τεχνητή Νοημοσύνη και Τοπική Ανάπτυξη LLM

  • Κίνδυνοι των cloud LLMs: διατήρηση δεδομένων, εκπαίδευση βάσει των εισόδων, ξένη νομική δικαιοδοσία.
  • Αρχιτεκτονική Ollama: server μοντέλου, registry και συμβατό API με OpenAI.
  • Σύγκριση με vLLM, llama.cpp και Text Generation Inference.
  • Αδειοδότηση μοντέλων: όροι χρήσης για Llama, Mistral, Qwen και Gemma.

Εγκατάσταση και Ρύθμιση Υλικού

  • Εγκατάσταση Ollama σε Linux με υποστήριξη CUDA και ROCm.
  • Εναλλακτική λύση μόνο με CPU και βελτιστοποίηση AVX/AVX2.
  • Αναployment μέσω Docker και απεικόνιση μόνιμου όγκου (persistent volume mapping).
  • Ρύθμιση πολλαπλών GPU και στρατηγικές κατανομής VRAM.

Διαχείριση Μοντέλων

  • Ανακτώντας μοντέλα από το Ollama registry: ollama pull llama3.
  • Εισαγωγή μοντέλων GGUF από το HuggingFace και το TheBloke.
  • Επίπεδα κβάντωσης: τα πλεονεκτήματα και μειονεκτήματα των Q4_K_M, Q5_K_M, Q8_0.
  • Εναλλαγή μοντέλων και όρια ταυτόχρονης φόρτωσης μοντέλων.

Προσαρμοσμένα Modelfiles

  • Συntax Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ρύθμιση Temperature, top_p και repeat_penalty.
  • Μηχανική system prompt για συμπεριφορά ειδικού ρόλου.
  • Δημιουργία και δημοσίευση προσαρμοσμένων μοντέλων στο τοπικό registry.

Ενσωμάτωση API

  • Σημείο τερματισμού /v1/chat/completions συμβατό με OpenAI.
  • Streaming απαντήσεις και λειτουργία JSON.
  • Ενσωμάτωση με LangChain, LlamaIndex και προσαρμοσμένες εφαρμογές.
  • Ελέγχος ταυτότητας και περιορισμός ρυθμού με reverse proxy.

Βελτιστοποίηση Απόδοσης

  • Μεγέθυνση context window και διαχείριση KV cache.
  • Batch inference και διαχείριση παράλληλων αιτημάτων.
  • Κατανομή νημάτων CPU και ευαισθησία σε NUMA.
  • Παρακολούθηση χρήσης GPU και πίεσης μνήμης.

Ασφάλεια και Συμμόρφωση

  • Απομόνωση δικτύου για σημεία παροχής μοντέλων.
  • Ράφια εισόδου και γραμμές μετριασμού εξόδου.
  • Logging ελέγχου των prompts και των απαντήσεων.
  • Προέλευση μοντέλων και επαλήθευση hash.

Απαιτήσεις

  • Ενδιάμεση γνώση διαχείρισης Linux και container.
  • Κατανόηση της μηχανικής μάθησης και των μοντέλων transformer σε υψηλό επίπεδο.
  • Γνωριμία με REST APIs και JSON.

Κοινό-Στόχος

  • Μηχανικοί AI και προγραμματιστές που αντικαθιστούν cloud APIs των LLM.
  • Οργανισμοί με ευαισθησία στα δεδομένα που αποκλείει τη χρήση cloud μοντέλων.
  • Ομάδες κυβερνητικού και αμυντικού τομέα που απαιτούν air-gapped γλωσσικά μοντέλα.
 14 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Εφεξής Μαθήματα

Σχετικές Κατηγορίες