- Format
- Bog, paperback
- Tysk
- 64 sider
Normalpris
Medlemspris
- Du sparer kr. 55,00
- Fri fragt
-
Leveringstid: 7-12 Hverdage (Sendes fra fjernlager) Forventet levering: 10-03-2026
- Kan pakkes ind og sendes som gave
Beskrivelse
Die Beschriftung von Bildern mit Audiodaten hat sich als anspruchsvolle, aber vielversprechende Aufgabe im Bereich des Deep Learning herausgestellt. Dieses Papier schl?gt einen neuartigen Ansatz zur Bew?ltigung dieser Aufgabe durch die Integration von Convolutional Neural Networks (CNNs) f?r Bild Feature-Extraktion und rekurrente neuronale Netze (RNNs) f?r sequentielle Audio-Analyse. Konkret nutzen wir vortrainierte CNNs wie VGG, um visuelle Merkmale aus Bildern zu extrahieren, und verwenden Spektrogrammdarstellungen in Verbindung mit RNNs wie LSTM oder GRU, um Audioeingaben zu verarbeiten. Das von uns vorgeschlagene Modell basiert nicht nur auf dem visuellen Inhalt, sondern auch auf den begleitenden Audiohinweisen. Wir evaluieren die Leistung unseres Modells anhand von Benchmark-Datens?tzen und demonstrieren seine Effektivit?t bei der Generierung koh?renter und kontextuell relevanter Bildunterschriften f?r Bilder mit entsprechenden Audioeingaben. Zus?tzlich f?hren wir Tabellierungsstudien durch, um den Beitrag jeder Modalit?t zur Gesamtleistung der Beschriftung zu analysieren. Unsere Ergebnisse zeigen, dass die Fusion von visuellen und auditiven Modalit?ten die Qualit?t der Beschriftung im Vergleich zur isolierten Verwendung einer der beiden Modalit?ten deutlich verbessert.
Detaljer
- SprogTysk
- Sidetal64
- Udgivelsesdato19-06-2024
- ISBN139786207660995
- Forlag Verlag Unser Wissen
- FormatPaperback
- Udgave0
Størrelse og vægt
10 cm
Anmeldelser
Vær den første!