Εξέλιξη Κομματιού

Εισαγωγή στα Πρότυπα Ορατού και Γλώσσας (VLMs)

  • Γενική περίγραφη των VLMs και του ρόλου τους στην πολυμεσική AI
  • Εκδηλώσεις αρχιτεκτονική: CLIP, Flamingo, BLIP κ.α.
  • Χρησιμοποιίες περιπτώσεις: αναζήτηση, περιγραφή εικόνων, αυτόνομα συστήματα, εξέταση περιεχομένου

Προετοιμασία του Περιβάλλοντος Προσαρμογής

  • Εγκατάσταση του OpenCLIP και άλλων βιβλιοθηκών VLMs
  • Δομές συνόλων δεδομένων για ζεύγη εικόνα-κείμενο
  • Προεπεξεργαστικά μεγαλύτερα πλήθη δεδομένων για ορατά και λεξικά είσοδα

Προσαρμογή του CLIP και άλλων Ομοίων Προτύπων

  • Αντιθέτη απώλεια (contrastive loss) και συνδυασμένος χώρος ενσωμάτωσης (joint embedding spaces)
  • Εφαρμογή: προσαρμογή του CLIP σε προσαρμοσμένα σύνολα δεδομένων
  • Χειρισμός ειδικών θεμάτων και πολυγλωσσικών δεδομένων

Προηγμένες Τεχνικές Προσαρμογής

  • Χρήση LoRA και μεθόδων βασισμένων σε προσαρμογές (adapters) για αποτελεσματικότητα
  • Τυποποίηση προσαρμογής και εισαγωγή ορατής τυποποίησης (visual prompt injection)
  • Εξετασμός με ανάθεση χωρίς προηγούμενη εκπαίδευση (zero-shot) vs. προσαρμογή και τα συσχέτισης

Αξιολόγηση και Μέτρηση

  • Μετρήτες για VLMs: ακρίβεια ανάκτησης, BLEU, CIDEr, παλινδρομικότητα (recall)
  • Διagnostica ταινίων ορατή-λογοπεριφέρεια
  • Χορηγητής χώρου ενσωμάτωσης και λαθών κατηγοριοποίησης (visualizing embedding spaces and misclassifications)

Εφαρμογή και Χρήση σε Πρακτικές Εφαρμογές

  • Εξαγωγή μοντέλων για εκτίμηση (TorchScript, ONNX)
  • Ενσωμάτωση VLMs σε καθοδηγούς ή APIs
  • Σκέψεις πόρων και μεταφορά μοντέλου (resource considerations and model scaling)

Αποστολές και Εφαρμογές

  • Ανάλυση περιεχομένου μέσων ενημέρωσης και διαχείριση περιεχομένου
  • Αναζήτηση και ανάκτηση σε ηλεκτρονικό εμπόριο και ψηφιακές βιβλιοθήκες
  • Πολυμεσική αλληλεπίδραση σε ρομποτική και αυτόνομα συστήματα

Επισύνοψη και Επόμενα Βήματα

Απαιτήσεις

  • Κατανόηση της βαθιάς μάθησης για ορατή αναγνώριση και Εξεργασία Φυσικού Κειμένου (NLP)
  • Εμπειρία με το PyTorch και πρότυπα βασισμένα σε transformers
  • Γνώση των αρχιτεκτονικών πολυμεσικών μοντέλων

Ακροατήριο

  • Μηχανικοί ορατής εξόρασης (Computer Vision Engineers)
  • Προγραμματιστές AI
 14 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Εφεξής Μαθήματα

Σχετικές Κατηγορίες