Η ενισχυτική μάθηση βασίζεται στην αρχή της ανταμοιβής: το σύστημα δοκιμάζει διαφορετικές ενέργειες, μαθαίνει από τις ανταμοιβές ή τις “τιμωρίες” και τελικά βελτιώνει τη συμπεριφορά του. Χρησιμοποιείται σε ρομπότ, αυτόνομα οχήματα και παιχνίδια όπως το σκάκι ή το Go.