Επικοινωνήστε μαζί μας

Εξέλιξη Κομματιού

Επισκόπηση των Τεχνολογιών Αναγνώρισης Ομιλίας

  • Ιστορία και εξέλιξη της αναγνώρισης ομιλίας
  • Ακουστικά μοντέλα, γλωσσικά μοντέλα και αποκωδικοποίηση
  • Σύγχρονες αρχιτεκτονικές: RNNs, transformers και Whisper

Προεπεξεργασία Ήχου και Βασικές Αρχές Μεταγραφής

  • Χειρισμός μορφών ήχου και ρυθμών δειγματοληψίας
  • Καθαρισμός, περικοπή και κατάτμηση ήχου
  • Δημιουργία κειμένου από ήχο: σε πραγματικό χρόνο έναντι μαζικής επεξεργασίας

Πρακτική Εξάσκηση με Whisper και Άλλα API

  • Εγκατάσταση και χρήση του OpenAI Whisper
  • Κλήση cloud API (Google, Azure) για μεταγραφή
  • Σύγκριση απόδοσης, καθυστέρησης και κόστους

Γλώσσα, Προφορές και Προσαρμογή σε Συγκεκριμένο Τομέα

  • Εργασία με πολλαπλές γλώσσες και προφορές
  • Προσαρμοσμένα λεξιλόγια και ανοχή στον θόρυβο
  • Χειρισμός νομικής, ιατρικής ή τεχνικής γλώσσας

Μορφοποίηση Εξόδου και Ενσωμάτωση

  • Προσθήκη χρονοσφραγίδων, στίξης και ετικετών ομιλητή
  • Εξαγωγή σε μορφές κειμένου, SRT ή JSON
  • Ενσωμάτωση μεταγραφών σε εφαρμογές ή βάσεις δεδομένων

Εργαστήρια Υλοποίησης Σεναρίων Χρήσης

  • Μεταγραφή συναντήσεων, συνεντεύξεων ή podcast
  • Συστήματα φωνητικών εντολών σε κείμενο
  • Υπότιτλοι σε πραγματικό χρόνο για ροές βίντεο/ήχου

Αξιολόγηση, Περιορισμοί και Δεοντολογία

  • Μετρικές ακρίβειας και συγκριτική αξιολόγηση μοντέλων
  • Προκατάληψη και δικαιοσύνη σε μοντέλα ομιλίας
  • Θέματα ιδιωτικότητας και συμμόρφωσης

Περίληψη και Επόμενα Βήματα

Απαιτήσεις

  • Κατανόηση των γενικών εννοιών της ΤΝ και της μηχανικής μάθησης
  • Εξοικείωση με μορφές αρχείων ήχου ή πολυμέσων και εργαλεία

Κοινό-στόχος

  • Επιστήμονες δεδομένων και μηχανικοί ΤΝ που εργάζονται με δεδομένα φωνής
  • Προγραμματιστές λογισμικού που αναπτύσσουν εφαρμογές βασισμένες στη μεταγραφή
  • Οργανισμοί που διερευνούν την αναγνώριση ομιλίας για αυτοματισμό
 14 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Εφεξής Μαθήματα

Σχετικές Κατηγορίες