Εξέλιξη Κομματιού

Λεπτομερή πρόγραμμα εκπαίδευσης

  1. Εισαγωγή στην Επεξεργασία Φυσικής Γλώσσας (NLP)
    • Κατανόηση του NLP
    • NLP πλατφόρμες
    • Εμπορικές εφαρμογές του NLP
    • Ανάκτηση δεδομένων από το διαδίκτυο
    • Εργασία με διάφορες API για την ανάκτηση κειμενών
    • Εργασία και αποθήκευση κειμενικών συλλογών, αποθηκεύοντας περιεχόμενο και σχετικά μεταδεδομένα
    • Πλεονεκτία της χρήσης Python και NLTK crash course
  2. Πρακτική κατανόηση συλλογών (Corpus) και συνόλων δεδομένων
    • Γιατί χρειάζεται μια συλλογή;
    • Ανάλυση της συλλογής
    • Τύποι ατριβουτών δεδομένων
    • Διάφορα μορφολογικά τύποι αρχείων για συλλογές
    • Προετοιμασία ενός συνόλου δεδομένων για εφαρμογές NLP
  3. Κατανόηση της δομής μιας προτάσης
    • Συνιστώντες του NLP
    • Επεξεργασία φυσικής γλώσσας
    • Μορφολογική ανάλυση - ρίζα, λέξη, τοκέν, ονόματα κατηγοριών
    • Συντακτική ανάλυση
    • Ημιοτική ανάλυση
    • Χειρισμός αβεβαιότητας
  4. Προεπεξεργασία κειμενικών δεδομένων
    • Συλλογή - αρχικό κείμενο
      • Τοκενοποίηση προτάσεων
      • Ρίζα προστιθέμενου κειμένου
      • Λεμματικός τύπος αρχικού κειμένου
      • Αφαίρεση σταυρικών λέξεων
    • Συλλογή - προστιθέμενες προτάσεις
      • Τοκενοποίηση λέξεων
      • Λεμματικός τύπος λέξεων
    • Εργασία με πινάκες όρου-κειμένου/κείμενο-όρου
    • Τοκενοποίηση κειμένου σε n-grams και προτάσεις
    • Πρακτική και προσαρμοσμένη προεπεξεργασία
  5. Ανάλυση κειμενικών δεδομένων
    • Βασικές λειτουργίες του NLP
      • Παρσερ και παρσίνγκ
      • POS tagging και taggers
      • Ανάγνωριση ονομάτων εντελών
      • N-grams
      • Τσαντα με λέξεις (bag of words)
    • Στατιστικές λειτουργίες του NLP
      • Εννοιών της γραμμικής άλγεβρας για NLP
      • Πιθανοφάντιστη θεωρία για NLP
      • TF-IDF
      • Vectorization
      • Encoders και Decoders
      • Normalization
      • Πιθανοφάντιστες μοντέλα
    • Προηγμένη διαμόρφωση χαρακτηριστικών και NLP
      • Βασικά αυτοδίδακτου του word2vec
      • Συστατικά του μοντέλου word2vec
      • Λογική του μοντέλου word2vec
      • Επεκτασία της ιδέας του word2vec
      • Εφαρμογή του μοντέλου word2vec
    • Χρηματιστήριο: Εφαρμογή των τσαντών λέξεων (bag of words): αυτόματη περίληψη κειμένου χρησιμοποιώντας επεισήμανες και αληθινές αλγόριθμους Luhn
  6. Ομαδοποίηση, ταξινόμηση και μοντελοποίηση θεμάτων δοκυμέντων
    • Ομαδοποίηση δοκυμέντων και ανάλυση πρότυπων (ιεραρχική ομαδοποίηση, k-means, etc.)
    • Σύγκριση και ταξινόμηση δοκυμέντων χρησιμοποιώντας TFIDF, Jaccard και μετρήτες αποστάσεως cosine
    • Ταξινόμηση δοκυμένων χρησιμοποιώντας Naïve Bayes και Maximum Entropy
  7. Αναγνώριση σημαντικών στοιχείων κειμένου
    • Μείωση διάστασης: Ανάλυση Κύριων Συστατικών, Αξία Μονάδας Διάστασης (Singular Value Decomposition), παραγόντες μη αρνητικής μήπως
    • Μοντελοποίηση θεμάτων και ανάκτηση πληροφορίας χρησιμοποιώντας Latent Semantic Analysis
  8. Ανάγνωριση οντοτήτων, ανάλυση συναισθήματος και προηγμένη μοντελοποίηση θεμάτων
    • Θετικό vs. αρνητικό: βαθμός συναισθήματος
    • Θεωρία απάντησης προϊόντων (Item Response Theory)
    • Πράγμα εικόνος τυπών και η εφαρμογή του: βρίσκοντας ανθρώπους, τόπους και οργανισμούς που αναφέρονται σε κείμενα
    • Προηγμένη μοντελοποίηση θεμάτων: Latent Dirichlet Allocation
  9. Χρηματιστήρια
    • Εξόρυξη ανοργάνωτων κριτικών χρηστών
    • Ταξινόμηση και οπτικοποίηση των δεδομένων κριτικής προϊόντων
    • Εξόρυξη από τα καταγράφεις αναζήτησης για χρησιμοποιητικές σχεδίες
    • Ταξινόμηση κειμένου
    • Μοντελοποίηση θεμάτων

Απαιτήσεις

Γνώση και ευαισθησία για τους κανόνες Επεξεργασίας Φυσικής Γλώσσας (NLP) και υποστήριξη στην εφαρμογή του ΤΕΧ/Ρομποτικής σε επιχειρήσεις

 21 Ώρες

Αριθμός συμμετέχοντων


Τιμή ανά συμμετοχαστή

Σχόλια (1)

Εφεξής Μαθήματα

Σχετικές Κατηγορίες