Apache Spark MLlib Training Course

Course Code



35 hours (usually 5 days including breaks)


Knowledge of one of the following:

  • Java
  • Scala
  • Python
  • SparkR.


Το MLlib είναι η βιβλιοθήκη εκμάθησης μηχανών Spark (ML). Σκοπός του είναι να κάνει την πρακτική εκμάθηση μηχανών κλιμακωτή και εύκολη. Αποτελείται από κοινούς αλγόριθμους και βοηθητικά προγράμματα μάθησης, συμπεριλαμβανομένης της ταξινόμησης, της παλινδρόμησης, της ομαδοποίησης, του συνεργατικού φιλτραρίσματος, της μείωσης των διαστάσεων, καθώς και των πρωτόγονων βελτιστοποίησης χαμηλότερου επιπέδου και των API αγωγών υψηλότερου επιπέδου.

Διαχωρίζεται σε δύο πακέτα:

  • Το spark.mllib περιέχει το αρχικό API που είναι ενσωματωμένο στο RDD.

  • Το spark.ml παρέχει API υψηλότερου επιπέδου που είναι ενσωματωμένο στο DataFrames για την κατασκευή αγωγών ML.


Αυτό το μάθημα απευθύνεται σε μηχανικούς και προγραμματιστές που επιδιώκουν να χρησιμοποιήσουν μια ενσωματωμένη βιβλιοθήκη μηχανών για Apache Spark

Machine Translated

Course Outline

spark.mllib: data types, algorithms, and utilities

  • Data types
  • Basic statistics
    • summary statistics
    • correlations
    • stratified sampling
    • hypothesis testing
    • streaming significance testing
    • random data generation
  • Classification and regression
    • linear models (SVMs, logistic regression, linear regression)
    • naive Bayes
    • decision trees
    • ensembles of trees (Random Forests and Gradient-Boosted Trees)
    • isotonic regression
  • Collaborative filtering
    • alternating least squares (ALS)
  • Clustering
    • k-means
    • Gaussian mixture
    • power iteration clustering (PIC)
    • latent Dirichlet allocation (LDA)
    • bisecting k-means
    • streaming k-means
  • Dimensionality reduction
    • singular value decomposition (SVD)
    • principal component analysis (PCA)
  • Feature extraction and transformation
  • Frequent pattern mining
    • FP-growth
    • association rules
    • PrefixSpan
  • Evaluation metrics
  • PMML model export
  • Optimization (developer)
    • stochastic gradient descent
    • limited-memory BFGS (L-BFGS)

spark.ml: high-level APIs for ML pipelines

  • Overview: estimators, transformers and pipelines
  • Extracting, transforming and selecting features
  • Classification and regression
  • Clustering
  • Advanced topics



Related Categories

Related Courses

Course Discounts

Course Discounts Newsletter

We respect the privacy of your email address. We will not pass on or sell your address to others.
You can always change your preferences or unsubscribe completely.

Some of our clients

is growing fast!

We are looking for a good mixture of IT and soft skills in Greece!

As a NobleProg Trainer you will be responsible for:

  • delivering training and consultancy Worldwide
  • preparing training materials
  • creating new courses outlines
  • delivering consultancy
  • quality management

At the moment we are focusing on the following areas:

  • Statistic, Forecasting, Big Data Analysis, Data Mining, Evolution Alogrithm, Natural Language Processing, Machine Learning (recommender system, neural networks .etc...)
  • Hibernate/Spring, Scala, Spark, jBPM, Drools
  • R, Python
  • Mobile Development (iOS, Android)
  • LAMP, Drupal, Mediawiki, Symfony, MEAN, jQuery
  • You need to have patience and ability to explain to non-technical people

To apply, please create your trainer-profile by going to the link below:

Apply now!

This site in other countries/regions