Επικοινωνήστε μαζί μας

Εξέλιξη Κομματιού

Κυριαρχία ΤΝ και Τοπική Ανάπτυξη LLM

  • Κίνδυνοι των LLM cloud: διατήρηση δεδομένων, εκπαίδευση σε εισόδους, ξένη δικαιοδοσία.
  • Αρχιτεκτονική Ollama: διακομιστής μοντέλων, μητρώο και συμβατό API με το OpenAI.
  • Σύγκριση με vLLM, llama.cpp και Text Generation Inference.
  • Άδειες χρήσης μοντέλων: όροι Llama, Mistral, Qwen και Gemma.

Εγκατάσταση και Ρύθμιση Υλικού

  • Εγκατάσταση του Ollama σε Linux με υποστήριξη CUDA και ROCm.
  • Υποχώρηση σε λειτουργία μόνο CPU και βελτιστοποίηση AVX/AVX2.
  • Ανάπτυξη Docker και αντιστοίχιση μόνιμων τόμων.
  • Ρύθμιση πολλαπλών GPU και στρατηγικές κατανομής VRAM.

Διαχείριση Μοντέλων

  • Ανάκτηση μοντέλων από το μητρώο Ollama: ollama pull llama3.
  • Εισαγωγή μοντέλων GGUF από HuggingFace και TheBloke.
  • Επίπεδα ποσοτικοποίησης: αντισταθμίσεις Q4_K_M, Q5_K_M, Q8_0.
  • Εναλλαγή μοντέλων και όρια ταυτόχρονης φόρτωσης μοντέλων.

Προσαρμοσμένα Modelfiles

  • Σύνταξη Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ρύθμιση θερμοκρασίας, top_p και repeat_penalty.
  • Μηχανική προτροπών συστήματος για συμπεριφορά ανά ρόλο.
  • Δημιουργία και δημοσίευση προσαρμοσμένων μοντέλων στο τοπικό μητρώο.

Ενσωμάτωση API

  • Συμβατό σημείο πρόσβασης /v1/chat/completions του OpenAI.
  • Αποκρίσεις ροής και λειτουργία JSON.
  • Ενσωμάτωση με LangChain, LlamaIndex και προσαρμοσμένες εφαρμογές.
  • Πιστοποίηση και περιορισμός ρυθμού με αντίστροφο διακομιστή μεσολάβησης.

Βελτιστοποίηση Απόδοσης

  • Διαστασιολόγηση παραθύρου περιβάλλοντος και διαχείριση κρυφής μνήμης KV.
  • Εξαγωγή συμπερασμάτων κατά παρτίδες και διαχείριση παράλληλων αιτημάτων.
  • Κατανομή νημάτων CPU και επίγνωση NUMA.
  • Παρακολούθηση χρήσης GPU και πίεσης μνήμης.

Ασφάλεια και Συμμόρφωση

  • Απομόνωση δικτύου για σημεία πρόσβασης εξυπηρέτησης μοντέλων.
  • Διοχετεύσεις φιλτραρίσματος εισόδου και μετριασμού εξόδου.
  • Καταγραφή ελέγχου προτροπών και συμπληρώσεων.
  • Προέλευση μοντέλου και επαλήθευση κατακερματισμού.

Απαιτήσεις

  • Μεσαίου επιπέδου διαχείριση Linux και containers.
  • Κατανόηση μηχανικής μάθησης και μοντέλων transformer σε υψηλό επίπεδο.
  • Εξοικείωση με REST API και JSON.

Κοινό

  • Μηχανικοί ΤΝ και προγραμματιστές που αντικαθιστούν τα API LLM του cloud.
  • Οργανισμοί με ευαισθησία δεδομένων που αποτρέπει τη χρήση μοντέλων cloud.
  • Κυβερνητικές και αμυντικές ομάδες που απαιτούν γλωσσικά μοντέλα απομονωμένα από δίκτυο.
 14 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Εφεξής Μαθήματα

Σχετικές Κατηγορίες