Projekt 1
	Projekt 2
	Projekt 3
	Projekt 4
	Projekt 5
	Projekt 6
	Projekt 7
	Projekt 8
	Projekt 9

HR-Video für Großdisplays

Projektpartner: CG-TÜ, ZKM, MPI

Konventionelle Videokameras haben eine für Großdisplays viel zu kleine Auflösung. Dies gilt selbst für die extrem teuren HDTV-Kameras. Werden niedrig aufgelöste Videos auf hochauflösenden Displays vergrößert dargestellt, wirkt die schlechte Auflösung durch die hohe Darstellungsqualität umso störender. Eine Alternative wäre die Zusammensetzung eines hochaufgelösten Videostroms aus den Einzelströmen mehrerer konventioneller Kameras. Dieses Zusammensetzen kann nachträglich aus gespeicherten Video-Sequenzen erfolgen, für interaktive Anwendungen (Video-Conferencing, Kollaboration mit Großdisplays) ist zusätzlich eine Echtzeit-Lösung erforderlich. Die Verfahren könnten dazu beitragen, herauszufinden, in wie weit hochaufgelöste Videodaten es ermöglichen, dass der Betrachter sich in eine Projektion hineinversetzt fühlt.

Automatisches Zusammenfügen beliebig skalierter statischer Einzelaufnahmen mit dem Stiching-Verfahren

Durch die sehr späte Besetzung musste der erste Arbeitsabschnitt des Projektes nach hinten verlagert werden, dies ist aber ohne Beeinträchtigung des Gesamt-Ablaufplanes möglich. Es wurde zur HR-Videodatengenerierung eine Softwaresimulation erstellt, die künstliche Videodaten mit höchster Auflösung und auch hohem Dynamikumfang erzeugt. Diese Daten ermöglichen die Entwicklung von Videobearbeitung und auch Abspielung ohne vorher eine entsprechende Hardware gebaut haben zu müssen. Teile der nötigen Software sind fertiggestellt, so etwa die Abspielsoftware.

Langfristige Zielsetzung

Im Rahmen des Teilprojektes Gigapixel Video sollen Techniken zur Erzeugung, Verarbeitung und Wiedergabe hochauflösender HDR (=High Dynamic Range) Videodaten auf Großdisplays entwickelt werden. Entsprechend den, im Projektplan definierten Arbeitspaketen (AP), lässt sich die langfristige Zielsetzung des Teilprojekts in folgende Aufgabenbereiche gliedern:

I. Datenerzeugung: Das AP 1. sieht den Aufbau eines mobilen Multikamerasystems (Camera-Array) für hochauflösendes HDR-Video vor. Dabei soll eine bereits vorhandene mobile Plattform um ein Array aus bis zu 16 Videokameras aus dem Consumer-Bereich erweitert werden. Eine flexible geo-metrische Anordnung der Kameras soll ein breites Anwendungsfeld bieten, insbesondere sollen Panorama-aufnahmen möglich sein. In Kombination mit einem Laser-Scanner soll z.B. das geplante Tübingen City-Scanning verwirklicht werden.

II. Datenverarbeitung: Das Hauptziel des AP 2. ist das sog. Offline-Video-Stitching. Die Aufgabe ist es Videoströme der einzelnen Kameras zu einem konsistenten Video, bezüglich der räumlichen und photometrischen Ausrichtung, zusammen zu setzten. Dabei sollen anhand der Überlappungsbereiche Parallaxenfehler, Abbildungsfehler, Belichtungsunterschiede und der Weißabgleich automatisch korrigiert werden. Zusätzlich ist es vorgesehen, durch einen Kompromiss in der räumlichen bzw. zeitlichen Auflösung des Videos, den Dynamikumfang (HDR) der Aufnahmen zu erhöhen. Für den praktischen Einsatz müssen zusätzlich effiziente Kompressionsalgorithmen entwickelt werden. Innerhalb des AP 3. soll untersucht werden, in wie weit es möglich ist, die Algorithmen aus AP 2., in Echtzeit auf einen Videostrom anzuwenden.

III. Wiedergabe: Die Entwicklung eines Softwaresystems zur flexiblen Darstellung hochauflösender Videoinhalte auf Großdisplays ist das Ziel des AP 4. Unter Großdisplays werden in diesem Zusam-menhang aus mehreren Einheiten zusammengesetzte Displays verstanden, die mit einem Rechnercluster angesteuert werden. Die Aufgabe der Playersoftware besteht nicht nur darin, Teilströme synchron abzuspielen. Vielmehr müssen diese Ströme aus dem Gesamtvideostrom erzeugt werden. Besonders interessant ist die Kombination von HDR-Video mit Großdisplays, die so groß sind, dass sie von der Betrachterposition nicht mehr vollständig überblickt werden können. Hier sollen neben Standardverfahren zum Tone-Mapping auch aufmerksamkeitsgesteuerte HDR-Darstellungsverfahren entwickelt werden.

Stand der Forschung

Kombination von Kamerabildern: Seit digitale Kameras erhältlich sind, wurden verschiedene Versuche unternommen, durch Kombination mehrerer Bilder die Qualität der Aufnahmen zu erhöhen. Beispiele sind die Berechnung von Bildern mit erhöhter Auflösung oder Dynamikbereich [DM97]. Weitere Anwendung ist die sog. View-Interpolation. Bei einigen dieser Systeme wird eine einzelne bewegte Kamera eingesetzt um statische Szenen zu erfassen (Video-Mosaicking). Kang beschreibt ein interessantes Verfahren, das aus Bildsequenzen mit schnell wechselnder Belichtungseinstellung HDR-Videos erzeugt [K03]

Kamera-Arrays: Systeme, die mehrere Kameras für virtuelle Kamerafahrten einsetzen reichen von einem linearen Array von Still-Kameras bis zu dem für Fernsehübertragungen eingesetzten System der Carnegie-Mellon University. Während für dieses Projekt relativ hochwertige Kameras eingesetzt wurden, entstand am MIT ein Array aus 64 normalen Webcams [YE+02]. Allerdings war dieses System speziell auf Image-Based Rendering ausgerichtet. Ein Prototyp eines allgemein einsetzbaren Arrays mit 100 Kameras wurde an der Stanford University gebaut [WJ+05]. Im kommerziellen Bereich sind vor allem die Produkte von Point Grey Research Inc. zu nennen. Das „Ladybug“-System z. B., das aus 6 fest montierten Einzelkameras besteht, die 75% des gesamten Raumwinkels abdecken kann.

Software: Zur Berechnung von Homographien zur Rekonstruktion von Panoramabildern existieren verschiedene Verfahren (Stitching Algorithmen) [MP94a]. In [SS97] wird ein Verfahren vorgestellt, das durch Verwendung der gesamten überlappenden Pixelregion eine besonders hohe Präzision erreicht. Inzwischen sind sowohl kommerzielle Programme als auch Open Source Software verfügbar, die solche Stitching Algorithmen für statische Bilder realisieren. Eine dynamische Farb- und Belichtungsanpassung ist allerdings nicht möglich; die unterstützten Formate sehen keine Berechnung oder Verarbeitung von HDR-Material vor.

HDR-Berechnung: Zur Berechnung von HDR-Bildern aus mehreren unterschiedlich belichteten Ein-zelbildern muss zunächst die Kameraantwort in Abhängigkeit von der einfallenden Leuchtdichte mal Zeit bestimmt werden. Zur Bestimmung dieser Kameraantwort wurden verschiedene Verfahren entwickelt [DM97, GN03]. Mit aktuellen Verfahren [KP04] ist es sogar möglich, aus Videosequenzen, die mit einer automatischen Belichtungseinstellung aufgenommen wurden, diese Zuordnung zu berechnen. Für die Kompression von HDR Videomaterial wurden von Mantiuk et al. [MK+04] MPEG-4 Erweiterungen vorgeschlagen.

Stand der eigenen Arbeiten

Die Arbeit an diesem Teilprojekt begann im Februar 2007. Aufgrund der verspäteten Besetzung der Projektstelle wurde der zeitliche Projektplan angepasst (siehe Begründungen in den jeweiligen Abschnitten).

I. Datenerzeugung: Der Schwerpunkt lag zunächst auf der Entwicklung einer Softwarelösung zur Generierung hochaufgelöster HDR-Videodaten aus synthetischen 3D-Szenen mit Hilfe einer photorealistischen Rendering-Pipeline. Begründet wird diese Entscheidung durch den Mangel freiverfügbarer HDR-Daten, der Flexibilität und Einfachheit der Datenerzeugung und der Möglichkeit die Hardwarelösung (AP 1.) auf einen späteren Termin zu Gunsten des Preis/Leistungs-Verhältnisses bei der Aufnahme- und Übertragungstechnik zu verschieben. Zusätzlich findet die Rendering-Pipeline Anwendung in unserem Videoplayer (AP 4.). Das Ergebnis dieser Entwicklung war der sog. „Camera Array Simulator“, der eine flexible und reali-tätsnahe Simulation der Ausgabe von Multikamera-Systemen ermöglicht. Dabei kann die Anzahl und Geometrie der Kameras variabel eingestellt werden. Um die Plausibilität der generierten Videomosaiken zu erhöhen wurden die wichtigsten optischen Defekte realer Kamera- und Linsen-Systeme implementiert. So können Schwankungen in der Kamera-Geometrie, automatischer Belichtungs-ausgleich, Weißabgleich, Tiefenunschärfe, Sensorrauschen sowie radiale Verzerrung und Abschattung simuliert werden. Abbildung 4.1 zeigt synthetisch generierte Bilder mit einer Gesamtauflösung von über 600 Megapixel, die beispielhaft zwei der genannten Effekte simulieren. Durch die konsequente Anwendung von GPGPU-Techniken wird realitätsnahe Darstellungsqualität in Echtzeit erreicht. Ein weiterer Vorteil des Simulators ist die einfache Möglichkeit native HDR-Daten (16-Bit pro Farbkanal) zu erzeugen. Dies ermöglichte eine frühe Evaluierung von Tone-Mapping Verfahren, die für die Wiedergabesoftware (siehe AP 4.) benötigt werden. Die hohe Qualität der erreichten Ergebnisse wird in [KS07][KSS07] demonstriert.

II. Datenverarbeitung: Mit der Verfügbarkeit einer geeigneten Datenbasis, die durch hochaufgelöste Video-Panorama-Daten des Kooperationspartners ZKM Karlsruhe ergänzt wurde, konnte mit der Entwicklung der Softwareumgebung zum offline Panorama-Video-Stitching (siehe AP 2.) begonnen werden.



Camera Array Simulator. Links: automatische Belichtungskorrektur. Rechts: radiale Abschattung

Zunächst wurden Algorithmen zur Korrektur der Objektiv-Verzeichnung und Optimierung der räumlichen Intra-Frame Ausrichtung untersucht. Dies resultierte in der Implementierung zweier unterschiedlicher Ansätze - dem Feature-basierten und dem direkten Bildbasierten Ansatz, wobei die Wahl auf den letzteren fiel, da keine starken Divergenzen in der Kamerageometrie zu erwarten sind. Die Erzeugung von signifikanten Features hat sich als zu rechenaufwendig herausgestellt.

Automatisch ausgerichtetes Videopanorama

Anschließend wurden Techniken zur photometrischen Intra-Frame Ausrichtung der Videoströme bearbeitet. Diese umfasst die Kompensierung der automatischen Belichtung und des Weissabgleichs. Dazu wird, nach einem Vignetting-Korrekturschritt, aus den relativen Belichtungsverhältnissen der Überlappungsbereiche die Kameraantwort berechnet. Diese erlaubt nachfolgend die Berechnung des belichtungskompensierten Gesamtpanoramas. Abbildung 4.2 zeigt das Ergebnis eines automatisch ausgerichteten Videopanoramas. Eine Herausforderung stellt das Kompressionsverfahren für HDR-Videodaten dar. Eine erste Lösung basiert auf dem S3TC DXT5 Schema. Das verlustbehaftete Verfahren liefert eine Datenreduktion von 6:1. Der eigentliche Vorteil liegt jedoch in der Verlagerung des Dekompressionsvorganges auf die Grafikhardware.

III. Wiedergabe: Abweichend vom Projektplan wurde bereits zu Anfang des Projektes mit der Ent-wicklung des Videoplayers für Großdisplays begonnen, um die Visualisierung der Ergebnisse aus AP 2. zu ermöglichen. Die erste Version des Players wurde auf dem institutseigenen Großdisplay, bestehend aus 16 Rechnern und 16 30 Zoll Displays getestet. Sie erlaubt die Echtzeitwiedergabe eines 36 Megapixel (im Vergleich HDTV entspricht ca. 2 Megapixel) Videos mit einem Dynamikumfang von 16 bit pro Kanal. Diese Leistung wird hauptsächlich durch verteilte Programmierung, GPU-basiertes Rendering und GPU-Dekompression erreicht. Ein wichtiger Bestandteil ist das adaptive Tone-Mapping, das komplett auf der Grafikhardware realisiert werden konnte. In folgender Abbildung ist ein Testlauf des Videoplayers zu sehen.

Vorläufige Version des Videoplayers für Großdisplays

Referenzen

[DM97] P.E. Debevec, and J. Malik: Recovering High Dynamic Range Radiance Maps from Photo-graphs, Proc. Siggraph, ACM Press, 1997, pp. 369-378.

[GN03] M. Grossberg and S. Nayar: ”What is the Space of Camera Response Functions?”, Proc. Computer Vision and Pattern Recognition (CVPR-03), 2003.

[K03] S.B. Kang, M. Uyttendaele, S. Winder, R. Szeliski: High Dynamic Range Video, ACM Trans. Graphics, Vol. 22, no. 3, 2003, pp. 319-325.

[KP04] S.J. Kim, M. Pollefeys: Radiometric Self-Alignment of Image Sequences, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition, 2004.

[KS07] Robert Kuchar, Timo Schairer: State-of-the-art Rendering Techniques In Real-time Architec-tural Visualization. In SIGGRAPH ´07: ACM SIGGRAPH 2007 posters, 2007, pp. 123.

[KSS07] Robert Kuchar, Timo Schairer and Wolfgang Straßer: Photorealistic Real-time Visualization of Cultural Heritage: A Case Study of Friedrichsburg Castle in Germany. In EuroGraphics Cultural Heritage Papers, 2007, pp. 9-16.

[MK+04] Rafal Mantiuk, Grzegorz Krawczyk, Karol Myszkowski, Hans-Peter Seidel: Perception- motivated High Dynamic Range Video Encoding. Proc. of SIGGRAPH '04, 2004.

[MP94a] S. Mann and R. W. Picard: Virtual bellows: Constructing high-quality images from video. In First IEEE International Conference on Image Processing, vol. I, 1994, pp. 363-367.

[SS97] R. Szeliski, and H.-Y. Shum: Creating Full View Panoramic Image Mosaics and Texture-Mapped Models, Proc. Siggraph 97, ACM Press, 1997, pp. 251-258.

[WJ+05] B. Wilburn, N. Joshi, V. Vaish, E.-V. Talvala, E. Antunez, A. Barth, A. Adams, M. Horowitz, M. Levoy: High Performance Imaging Using Large Camera Arrays, In ACM Transactions on Graphics, Vol 24, No 3, 2005, pp. 765-776.

[YE+02] Yang, J., Everett, M., Buehler, C., McMillan, L.: A real-time distributed light field camera. In Eurographics Workshop on Rendering, 2002, pp1-10.

Sonstige Forschungsleistungen (Patente/Vorträge/Ausstellungen etc.)

8. 11. 2007 Vortrag auf der VMV im Rahmen des BW-FIT Kolloquiums

Sonstige Aktivitäten im Projektverbund

Die Kooperation mit dem Projektpartner ZKM Karlsruhe bezüglich des Video-Panorama-Stitching wird weiter geführt. Im Bereich der Aufmerksamkeitssteuerung, insbesondere des blickpunktabhängigen adaptiven Tone-Mapping, wird eine Kooperation mit dem Projektpartner MPI-Tübingen angestrebt.

Koordination:

Prof. Dr. Andreas Schilling (CG-TÜ)
Arbeitsbereich Graphisch-Interaktive Systeme
Universität Tübingen
Sand 14, 72076 Tübingen
Tel: 07071/29-75462
Fax: 07071/29-5466
schilling@gris.uni-tuebingen.de
http://gris.uni-tuebingen.de