Εξέλιξη Κομματιού

Γενική Περιγραφή των Τεχνολογιών Αναγνώρισης Ομιλίας

  • Ιστορία και εξέλιξη της αναγνώρισης ομιλίας.
  • Ακουστικά μοντέλα, γλωσσικά μοντέλα και διεργασία αποκωδικοποίησης.
  • Σύγχρονες αρχιτεκτονικές: RNNs, transformers και Whisper.

Προεπεξεργασία Ήχου και Βασικά της Υπογράμμισης

  • Διαχείριση μορφών ήχου και συχνοτήτων δειγματολήψιας.
  • Καθαρισμός, τρίμμα και τομέδευση ήχου.
  • Γενέση κειμένου από ήχο: πραγματικός χρόνος vs batch (σωρεία).

Εφαρμογή με Whisper και άλλες API

  • Εγκατάσταση και χρήση του OpenAI Whisper.
  • Κλήση cloud API (Google, Azure) για υπογράμμιση.
  • Σύγκριση απόδοσης, καθυστερήσεων και κόστους.

Γλώσσες, Ακέντες και Προσαρμογή σε Τομείς

  • Εργασία με πολυπλοκές γλώσσες και ακέντες.
  • Περιβόητα λεξιλόγια και ανοχή σε ρύπους.
  • Διαχείριση νομικών, ιατρικών ή τεχνικών γλωσσών.

Μορφοποίηση και Ενσωμάτωση Αποτελεσμάτων

  • Προσθήκη χρόνιμ, σημεία διακόπτης και ετικέτες ομιλητών.
  • Εξαγωγή σε μορφή κειμένου, SRT ή JSON.
  • Ενσωμάτωση υπογραμμίσεων σε εφαρμογές ή βάσεις δεδομένων.

Πρακτική Διδασκαλία για Εφαρμογές

  • Υπογράμμιση συνεδριών, εντεύξεων ή ποδοβάσκετ.
  • Συστήματα εντολών φωνή-γράφο.
  • Πραγματικός χρόνος περιπτυγμένων για την έκδοση βίντεο/ήχου.

Εκτίμηση, Περιορισμοί και Έθιμα

  • Μετρήματα ακρίβειας και βαθμολόγηση μοντέλων.
  • Προκατάληψη και δικαιοσύνη σε μοντέλα αναγνώρισης ομιλίας.
  • Συμμόρφωση με την ιδιωτικότητα και νομικές προδιαγραφές.

Περίληψη και Επόμενα Βήματα

Απαιτήσεις

  • Κατανόηση των βασικών εννοιών της Τεχνητής Νοημοσύνης και της μηχανικής μάθησης.
  • Γνώση των προσόντων ήχου ή αποκλειστικά υπαρξιών και των εργαλείων.

Στόχοι Αυτού του Μαθήματος

  • Επιστημονικοί Δεδομένων και μηχανικοί της ΤΕΝ που εργάζονται με δεδομένα φωνής.
  • Επισκευαστές λογισμικού που αναπτύσσουν εφαρμογές υπογράμμισης.
  • Οργανισμοί που εξερευνούν την αναγνώριση ομιλίας για την αυτομάτωση.
 14 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετέχοντα

Εφεξής Μαθήματα

Σχετικές Κατηγορίες