Matches in SemOpenAlex for { <https://semopenalex.org/work/W2623647524> ?p ?o ?g. }
Showing items 1 to 40 of
40
with 100 items per page.
- W2623647524 abstract "Generating natural language descriptions for visual data links computer vision and computational linguistics. Being able to generate a concise and human-readable description of a video is a step towards visual understanding. At the same time, grounding natural language in visual data provides disambiguation for the linguistic concepts, necessary for many applications. This thesis focuses on both directions and tackles three specific problems. First, we develop recognition approaches to understand video of complex cooking activities. We propose an approach to generate coherent multi-sentence descriptions for our videos. Furthermore, we tackle the new task of describing videos at variable level of detail. Second, we present a large-scale dataset of movies and aligned professional descriptions. We propose an approach, which learns from videos and sentences to describe movie clips relying on robust recognition of visual semantic concepts. Third, we propose an approach to ground textual phrases in images with little or no localization supervision, which we further improve by introducing Multimodal Compact Bilinear Pooling for combining language and vision representations. Finally, we jointly address the task of describing videos and grounding the described people. To summarize, this thesis advances the state-of-the-art in automatic video description and visual grounding and also contributes large datasets for studying the intersection of computer vision and computational linguistics. Die Erstellung naturlicher Sprachbeschreibungen fur visuelle Daten verbindet Computer Vision und Computerlinguistik. Die Fahigkeit eine pragnante und menschlich lesbare Beschreibung eines Videos zu produzieren, ist ein Schritt zum visuellen Verstandnis. Gleichzeitig ermoglicht Lokalisierung der naturlichen Sprache in visuellen Daten die Disambiguierung der sprachlichen Konzepte. Diese Dissertation konzentriert sich auf beide Richtungen wie folgt. Zuerst entwickeln wir Methoden, um komplexe Kochaktivitaten in Videos zu verstehen und fur diese dann koharente Multi-Satz-Beschreibungen mit variabler Detaillierung zu generieren. Zweitens prasentieren wir einen umfangreichen parallelen Datensatz von Filmen mit professionellen Beschreibungen. Wir schlagen einen Ansatz vor, der aus Videos und Satzen lernt Videoclips zu beschreiben, und der sich auf einer robusten Erkennung visueller Konzepte stutzt. Drittens schlagen wir einen Ansatz vor, um sprachliche Konzepte in Bildern mit wenig oder keiner Uberwachung zu lokalisieren, den wir durch eine neue multimodale Kombination der Sprach- und Bild-Reprasentationen verbessern. Abschliesend beschreiben wir Videos wahrend wir gleichzeitig die beschriebenen Personen lokalisieren. Zusammenfassend stellt diese Dissertation neue Methoden in der automatischen Videobeschreibung und Lokalisierung naturlicher Sprache in visuellen Daten vor. Zur weiteren Forschung am Schnittpunkt von Computer Vision und Computerlinguistik tragt diese Dissertation grose Datensatze bei." @default.
- W2623647524 created "2017-06-15" @default.
- W2623647524 creator A5037747070 @default.
- W2623647524 date "2017-06-02" @default.
- W2623647524 modified "2023-09-27" @default.
- W2623647524 title "Generation and Grounding of Natural Language Descriptions for Visual Data" @default.
- W2623647524 doi "https://doi.org/10.22028/d291-26708" @default.
- W2623647524 hasPublicationYear "2017" @default.
- W2623647524 type Work @default.
- W2623647524 sameAs 2623647524 @default.
- W2623647524 citedByCount "0" @default.
- W2623647524 crossrefType "dissertation" @default.
- W2623647524 hasAuthorship W2623647524A5037747070 @default.
- W2623647524 hasConcept C115961682 @default.
- W2623647524 hasConcept C127413603 @default.
- W2623647524 hasConcept C154945302 @default.
- W2623647524 hasConcept C157657479 @default.
- W2623647524 hasConcept C195324797 @default.
- W2623647524 hasConcept C201995342 @default.
- W2623647524 hasConcept C204321447 @default.
- W2623647524 hasConcept C2777530160 @default.
- W2623647524 hasConcept C2780451532 @default.
- W2623647524 hasConcept C41008148 @default.
- W2623647524 hasConceptScore W2623647524C115961682 @default.
- W2623647524 hasConceptScore W2623647524C127413603 @default.
- W2623647524 hasConceptScore W2623647524C154945302 @default.
- W2623647524 hasConceptScore W2623647524C157657479 @default.
- W2623647524 hasConceptScore W2623647524C195324797 @default.
- W2623647524 hasConceptScore W2623647524C201995342 @default.
- W2623647524 hasConceptScore W2623647524C204321447 @default.
- W2623647524 hasConceptScore W2623647524C2777530160 @default.
- W2623647524 hasConceptScore W2623647524C2780451532 @default.
- W2623647524 hasConceptScore W2623647524C41008148 @default.
- W2623647524 hasLocation W26236475241 @default.
- W2623647524 hasOpenAccess W2623647524 @default.
- W2623647524 hasPrimaryLocation W26236475241 @default.
- W2623647524 isParatext "false" @default.
- W2623647524 isRetracted "false" @default.
- W2623647524 magId "2623647524" @default.
- W2623647524 workType "dissertation" @default.