Επικοινωνήστε μαζί μας

Εξέλιξη Κομματιού

Βασικές Αρχές Παραγωγής του Tencent Hunyuan

  • Σενάρια εξυπηρέτησης μοντέλων Tencent Hunyuan
  • Χαρακτηριστικά παραγωγής μεγάλων μοντέλων και μοντέλων MoE.
  • Κοινά σημεία στενότητας σε καθυστέρηση, απόδοση και κόστος.
  • Ορισμός αντικειμένων επιπέδου υπηρεσίας (SLOs) για φορτία εργασίας υπόδειξης.

Αρχιτεκτονική Ανάπτυξης και Ροή Εξυπηρέτησης

  • Βασικά συστατικά ενός στοίβας υπόδειξης παραγωγής.
  • Επιλογή μεταξύ μοντέλων ανάπτυξης με δοχεία, on-premise και cloud.
  • Βασικά της φόρτωσης μοντέλου, δρομολόγησης αιτημάτων και κατανομής GPU.
  • Σχεδίαση για αξιοπιστία και λειτουργική απλότητα.

Βελτιστοποίηση Καθυστέρησης στην Πράξη

  • Χρήση βελτιστοποιημένων μηχανών υπόδειξης, όπως το TensorRT, όπου είναι εφικτό.
  • Εννοιές του KV-cache και πρακτική προσαρμογή της μνήμης cache.
  • Μείωση των επιβαρύνσεων εκκίνησης, προθέρμανσης και απόκρισης.
  • Μέτρηση του χρόνου έως το πρώτο token και της ταχύτητας παραγωγής token.

Απόδοση, Ομαδοποίηση (Batching) και Αποτελεσματικότητα GPU

  • Στρατηγικές συνεχούς ομαδοποίησης και ομαδοποίησης αιτημάτων.
  • Διαχείριση ανταγωνισμού και συμπεριφοράς ουράς.
  • Βελτίωση της αξιοποίησης GPU χωρίς να θίγεται η εμπειρία του χρήστη.
  • Διαχείριση αιτημάτων με μεγάλο πλαίσιο αναφοράς και μικτό φορτίο εργασίας.

Κβαντοποίηση και Έλεγχος Κόστους

  • Γιατί η κβαντοποίηση έχει σημασία για την εξυπηρέτηση παραγωγής.
  • Πρακτικοί συμβιβασμοί των επιλογών ακρίβειας FP16, INT8 και άλλων κοινών επιλογών.
  • Ισορροπία μεταξύ ποιότητας μοντέλου, καθυστέρησης και κόστους υποδομής.
  • Δημιουργία ενός απλού καταλόγου ελέγχου για βελτιστοποίηση κόστους.

Λειτουργίες, Παρακολούθηση και Ανασκόπηση Ετοιμότητας

  • Εναυσματα αυτόματης κλιμάκωσης για υπηρεσίες υπόδειξης.
  • Παρακολούθηση καθυστέρησης, απόδοσης, χρήσης μνήμης cache και υγείας GPU.
  • Βασικά της καταγραφής (logging), ειδοποίησης (alerting) και αντίδρασης σε περιστατικά.
  • Ανασκόπηση μιας αναφοράς ανάπτυξης και δημιουργία σχεδίου βελτίωσης.

Απαιτήσεις

  • Βασική κατανόηση των ροών εργασίας αναβάθμισης και υπόδειξης μεγάλων γλωσσικών μοντέλων.
  • Εμπειρία με δοχεία (containers), υποδομές cloud ή on-premise και υπηρεσίες βάσει API.
  • Εργατική γνώση της Python ή εργασιών μηχανικής συστημάτων.

Κοινό

  • Μηχανικοί Μάθησης (ML) που αναπτύσσουν μεγάλα γλωσσικά μοντέλα σε περιβάλλον παραγωγής.
  • Μηχανικοί Πλατφόρμας υπεύθυνοι για υπηρεσίες υπόδειξης με βάση το GPU.
  • Αρχιτέκτονες Λύσεων που σχεδιάζουν ευέλικτες πλατφόρμες εξυπηρέτησης AI.
 14 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Εφεξής Μαθήματα

Σχετικές Κατηγορίες