Επεξήγηση:
Το Reinforcement Learning (RL) είναι μια τεχνική μηχανικής μάθησης στην οποία ένας "πράκτορας" (agent) αλληλεπιδρά με ένα περιβάλλον και μαθαίνει μέσω επιβραβεύσεων (rewards) και τιμωριών (penalties). Στόχος είναι η μεγιστοποίηση της συνολικής ανταμοιβής σε βάθος χρόνου. Το RL έχει εφαρμογές σε ρομποτική, παιχνίδια (όπως το AlphaGo), logistics, και βελτιστοποίηση στρατηγικών. Η μάθηση πραγματοποιείται μέσω επαναληπτικών δοκιμών και προσαρμογής των ενεργειών.