Course Outline

Εισαγωγή στην Multimodal AI και το Ollama

  • Περιγραφή γενικών αρχών του multimodal learning
  • Κύριες προκλήσεις στην ενότητα προσβάσεων και γλώσσας
  • Δυναμικές και αρχιτεκτονική του Ollama

Εγκατάσταση περιβάλλοντος Ollama

  • Εγκατάσταση και διαμόρφωση του Ollama
  • Εργασία με την εγκατάσταση τοπικών προτύπων
  • Συμβάθημα Ollama με Python και Jupyter

Εργασία με Multimodal Inputs

  • Ενσωμάτωση κειμένου και εικόνας
  • Ενσωμάτωση ήχου και κατορθωμένων δεδομένων
  • Σχεδίαση προεπεξεργασιακών πλατφόρμων

Εφαρμογές Document Understanding

  • Εξtraction κατορθωμένης πληροφορίας από PDFs και εικόνες
  • Συνδυασμός OCR με γλωσσικά μοντέλα
  • Κατασκευή νοηματικών διαδικασιών ανάλυσης έγγραφων

Visual Question Answering (VQA)

  • Εγκατάσταση VQA datasets και benchmarks
  • Διδασκαλία και εκτίμηση multimodal models
  • Κατασκευή δεξιοποιήσιμων VQA εφαρμογών

Σχεδιασμός Multimodal Agents

  • Αρχές σχεδιασμού agents με multimodal reasoning
  • Συνδυασμός αναγνώρισης, γλώσσας και ενέργειας
  • Εγκατάσταση agents για πραγματικούς χρήσους περιπτώσεων

Προβληματισμός και Συντάξη για το Ollama

  • Tuning multimodal models με Ollama
  • Optimizing περιπτώσεων inference performance
  • Σκέψεις scale και deployment

Επίλυση και Επόμενα βήματα

Requirements

  • Ευρεία κατανόηση των κονцепτών της μηχανικής μάθησης
  • Εμπειρία με πλατφόρμες βαθύς χάρτης όπως PyTorch ή TensorFlow
  • Συναίσθημα της επεξεργασίας φυσικής γλώσσας και της υπολογιστικής οπτικής

Πúblico

  • INGENIEROS DE APRENDIZAJE AUTOMÁTICO
  • INVESTIGADORES EN INTELIGENCIA ARTIFICIAL
  • Desarrolladores de productos que integran flujos de trabajo de visión y texto
 21 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories