Das Realtime Transport Protocol (RTP) wurde von der Audio-Video Transport Group der Internet Engineering Task Force (IETF) entwickelt und ist Bestandteil von H.323. Es ist auf der Transportschicht angesiedelt und kann netzwerkbasierte Video- oder Audiokommunikation abwickeln. Zur Unterscheidung der Medien unterscheidet das RTP-Protokoll zwischen verschiedenen Codierungsformaten, sodass die übertragenen Daten anwendungsunabhängig verwendet werden können. Für diesen Zweck wurden verschiedene RTP-Profile für Audio und Video definiert.
Das RTP-Protokoll ist unabhängig von den darunter liegenden Protokollen, es wird in der Regel mit dem verbindungslosen User Datagram Protocol (UDP) betrieben, wobei die RTP-Datenpakete in die UDP-Datenpakete eingebaut werden.
Das RTP-Protokoll stellt eine Ende-zu-Ende-Verbindung mit Echtzeitübertragung her und unterstützt Unicast-Verbindungen aber auch IP-Multicast. Es erkennt und korrigiert fehlende, doppelte oder in falscher Reihenfolge empfangene Datenpakete. Im RTP-Header sind neben diversen Datenfeldern für die Version und das Padding zwei Datenfelder für die eindeutige Identifizierung der Datenquellen und der Quelladressen. Die Statusinformationen der Quellen werden durch das RTCP-Protokoll, das Bestandteil des RTP-Protokolls ist, durch periodisches Senden rückgemeldet.Die RTP-Architektur kennt zwei Komponenten: den Mixer und den Translator. Der Mixer unterstützt Multicast-Anwendungen und mischt gleichartige Datenströme aus mehreren Datenquellen. Der Translator übersetzt Daten von einem Format in ein anderes.
Das RFC-Dokument RFC 1890 aus dem Jahr 1996 definiert die Syntax und die grundlegende Semantik des RTP-Protokolls, das es auch in einer Secure-Version als Secure Realtime Transport Protocol (SRTP) gibt.