GPT-4o («o» für «omni») ermöglicht eine natürliche Mensch-Computer-Interaktion durch die Verarbeitung und Ausgabe von Text, Audio und Bildern. Es reagiert auf Audioeingaben in durchschnittlich 320 Millisekunden, vergleichbar mit menschlicher Reaktionszeit.