Ευχαριστούμε που στάλθηκε η αποσαφήνισή σας! Ένα μέλος της ομάδου μας θα επικοινωνήσει μαζί σας σύντομα.
Ευχαριστούμε για την εκδήλωση κράτησης! Ένας από τους συνεργάτες μας θα επικοινωνήσει μαζί σας σύντομα.
Εξέλιξη Κομματιού
Κυριαρχία στην Τεχνητή Νοημοσύνη και Τοπική Ανάπτυξη LLM
- Κίνδυνοι των cloud LLMs: διατήρηση δεδομένων, εκπαίδευση βάσει των εισόδων, ξένη νομική δικαιοδοσία.
- Αρχιτεκτονική Ollama: server μοντέλου, registry και συμβατό API με OpenAI.
- Σύγκριση με vLLM, llama.cpp και Text Generation Inference.
- Αδειοδότηση μοντέλων: όροι χρήσης για Llama, Mistral, Qwen και Gemma.
Εγκατάσταση και Ρύθμιση Υλικού
- Εγκατάσταση Ollama σε Linux με υποστήριξη CUDA και ROCm.
- Εναλλακτική λύση μόνο με CPU και βελτιστοποίηση AVX/AVX2.
- Αναployment μέσω Docker και απεικόνιση μόνιμου όγκου (persistent volume mapping).
- Ρύθμιση πολλαπλών GPU και στρατηγικές κατανομής VRAM.
Διαχείριση Μοντέλων
- Ανακτώντας μοντέλα από το Ollama registry: ollama pull llama3.
- Εισαγωγή μοντέλων GGUF από το HuggingFace και το TheBloke.
- Επίπεδα κβάντωσης: τα πλεονεκτήματα και μειονεκτήματα των Q4_K_M, Q5_K_M, Q8_0.
- Εναλλαγή μοντέλων και όρια ταυτόχρονης φόρτωσης μοντέλων.
Προσαρμοσμένα Modelfiles
- Συntax Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Ρύθμιση Temperature, top_p και repeat_penalty.
- Μηχανική system prompt για συμπεριφορά ειδικού ρόλου.
- Δημιουργία και δημοσίευση προσαρμοσμένων μοντέλων στο τοπικό registry.
Ενσωμάτωση API
- Σημείο τερματισμού /v1/chat/completions συμβατό με OpenAI.
- Streaming απαντήσεις και λειτουργία JSON.
- Ενσωμάτωση με LangChain, LlamaIndex και προσαρμοσμένες εφαρμογές.
- Ελέγχος ταυτότητας και περιορισμός ρυθμού με reverse proxy.
Βελτιστοποίηση Απόδοσης
- Μεγέθυνση context window και διαχείριση KV cache.
- Batch inference και διαχείριση παράλληλων αιτημάτων.
- Κατανομή νημάτων CPU και ευαισθησία σε NUMA.
- Παρακολούθηση χρήσης GPU και πίεσης μνήμης.
Ασφάλεια και Συμμόρφωση
- Απομόνωση δικτύου για σημεία παροχής μοντέλων.
- Ράφια εισόδου και γραμμές μετριασμού εξόδου.
- Logging ελέγχου των prompts και των απαντήσεων.
- Προέλευση μοντέλων και επαλήθευση hash.
Απαιτήσεις
- Ενδιάμεση γνώση διαχείρισης Linux και container.
- Κατανόηση της μηχανικής μάθησης και των μοντέλων transformer σε υψηλό επίπεδο.
- Γνωριμία με REST APIs και JSON.
Κοινό-Στόχος
- Μηχανικοί AI και προγραμματιστές που αντικαθιστούν cloud APIs των LLM.
- Οργανισμοί με ευαισθησία στα δεδομένα που αποκλείει τη χρήση cloud μοντέλων.
- Ομάδες κυβερνητικού και αμυντικού τομέα που απαιτούν air-gapped γλωσσικά μοντέλα.
14 Ώρες