Επεξήγηση:
Multimodal είναι τα AI μοντέλα που συνδυάζουν είσοδο ή έξοδο από περισσότερα του ενός “modalities” — όπως κείμενο, εικόνα, ήχο, βίντεο. Μοντέλα όπως το GPT-4o, το Gemini και το Claude μπορούν να απαντούν με βάση εικόνες και να δημιουργούν κείμενο ή φωνή.