ErweiternDruck
 

Seminar Machine Learning: Sprach- und Bildanalyse

Inhalt:

Machine Learning und künstliche Intelligenz sind aktuell besonders heisse Themen in den Computerwissenschaften. In vielen Disziplinen haben neuartige Machine Learning Methoden und Algorithmen den Stand der Technik (oftmals sogar weit) überholt. In diesem Seminar wollen wir diese Methoden näher kennen lernen insbesondere im Bereich der Sprach- und Bildanalyse, wie zum Beispiel Objekterkennung oder Segmentierung von Bildern, sowie Sprach-, Sprecher- oder Emotionserkennung auf Sprachsignalen.

 

Organisation:

Dieses Seminar wird zusammen mit zwei anderen Seminaren / Instituten organisiert welche ebenfalls im Kontext des Machine Learning stehen:

Durch diese Zusammenarbeit werden nicht nur Themen der Sprach- und Bildanalyse vermittelt sondern auch eine breite Palette an Anwendungsfeldern und Problemstellungen für Machine Learning Ansätze aufgezeigt.

 

 

Zeitplan:

DatumOrtSchritt
16.10.2018, 16.00Uhr SN22.2Kickoff meeting, Zuteilung der Themen
NovemberTreffen mit zugehörigen Betreuer vereinbaren
03 -> 10.12.2018Einreichen des Papers (Deadline)
19.12.2018Paper Gutachten für zwei Teilnehmer fällig
10.01.2018Finale Version des Papers fällig
24.-25.01.2019BRICS 107/108Präsentation (mit Pizza)

 

Anforderungen:

Das Seminar ist organisiert wie eine echte akademische Konferenz. Die Teilnehmer müssen als schriftliche Ausarbeitung ein geschriebenes Paper zu dem gewählten Thema vorbereiten (Englisch oder Deutsch, 8-10 Seiten im ACM Double Column Stil).

 

Nachdem das Paper beim Konferenzsystem eingereicht wurde, müssen die Teilnehmer kurze Gutachten zu zwei Papern von anderen Teilnehmer der anderen Institute anfertigen. So bekommt jeder Teilnehmer Rückmeldung wie ihre Paper verbessert werden können. Anschließend hat jeder Teilnehmer Zeit mit diesem Feedback das eigene, finale Paper zu überarbeiten.

 

Letztendlich werden wir eine kleine Konferenz mit allen Teilnehmern der 3 Seminare veranstalten. Jeder Teilnehmer wird in einer 20-25 minütigen Präsentation sein Paper vorstellen. Die beteiligten Institute stellen dabei Getränke und Pizza. 

 

Themen:

Teilnehmer haben die Wahl aus den folgenden Themen der Sprach- und Bildanalyse. Themenwünsche können am Kickoff Termin eingetragen werden. 

 

  • Error Criteria for Speech Enhancement With Deep Neural Networks

In speech enhancement we are interested in enhancing speech intelligibility and/or quality. Recent approaches based on deep learning often use the mean square error criterion. However, this might not be the optimal function w.r.t. intelligibility/quality which has been analyzed recently. Is it fine to use the mean square error or are there proper alternatives? 

  • Evaluation von Capsule Networks in der Bildverarbeitung

Bei Capsule Networks handelt es sich um eine aktuelle Weiterentwicklung von CNNs. Die Netzwerke bestehen aus sogenannten Kapseln, die jeweils Entitäten wie die Pose, Deformation, Textur, etc. besonders gut encodieren können. Mit multi-layer Capsule Networks lassen sich State of the Art Ergebnisse auf dem MNIST Datensatz erzielen. Im Rahmen der Bearbeitung dieses Themas sollen die Einsatzmöglichkeiten von Capsule Networks für andere Bereiche der Bildverarbeitung evaluiert werden.

 
  • Speech Enhancement mit Generative Adversarial Networks

Generative Adversarial Networks (GANs) waren in letzter Zeit eines der großen Themen im maschinellen Sehen und konnten beispielsweise erfolgreich zur Generation realistischer Bilder oder zur Erstellung von 3D-Modellen aus 2D-Bildern verwendet werden. Das Training von GANs beruht auf einem Nullsummenspiel, in dem ein generatives Modell Daten (z.B. Bilder) erzeugt, welche von einem zweiten Modell von den Daten der Zieldomäne (z.B. photorealistischen Bildern) unterschieden werden sollen. Das generative Modell wird dabei darauf trainiert, das Klassifikations-Modell zu täuschen. Auch im Gebiet des Speech Enhancements können GANs angewendet werden, um aus störungsbehafteten Sprachsignalen möglichst saubere Sprachsignale zu erzeugen. In diesem Vortrag soll das Trainingsframework für GANs mit besonderem Blick auf die Anwendung im Speech Enhancement vorgestellt und erläutert werden. .

 
  • Neural Networks for Adaptive Filtering

Acoustic echo and feedback cancellation are one example of algorithms that use adaptive filters. They estimate the room impulse response to compute an estimated echo (or feedback) signal that includes the echo path from loudspeaker to microphone. The approaches are necessarily real-time capable and the adaptive filter is updated every few milliseconds. This work shall give an overview of real-time capable adaptive filtering techniques using neural networks in the context of acoustic echo and feedback cancellation.

 
  • Deep Neural Networks Used for Single-Channel Speech Separation

Deep neural networks (DNNs) can be used to directly model the highly non-linear relationship between the amplitude spectrograms of a mixed signal containing a target speaker and other interfering speakers. Instead of directly estimate the amplitude spectrogram of the target speaker, the DNNs can also be used to estimate the ideal ratio mask (IRM) which can be used to filter out the amplitude spectrogram of the target speaker from the mixture.

 
  • Multi-Scale Architekturen in Convolutional Neural Networks

Die Aufgabe besteht in der Untersuchung von Methoden, bei denen Eingangsbilder in verschiedenen Skalierungen in Convolutional Neural Networks (CNNs) verarbeitet werden. Dabei können statische und dynamische Verfahren (z.B., während des Trainings wachsende Netzstrukturen) betrachtet werden. Das Ergebnis kann eine Sammlung von Architekturen in verschiedenen Anwendungsbereichen für CNNs sein.

 
  • Normalization techniques for neural networks

Die Batch-Normalisierung ist eine der gängigsten Normalisierungsmethoden innerhalb eines neuronalen Netzwerks. Motiviert vom Erfolg der Batch-Normalisierung wurde in den letzten Jahren an weiteren Normalisierungsmethoden geforscht. Diese sollen vorgestellt und miteinander verglichen werden (Prinzip, Vor- und Nachteile, Anwendungsgebiete, etc.).

 

  • Taskonomy: Disentangling Task Transfer Learning

Das sogenannte Transfer Learning ist eines der wichtigsten Konzepte des Maschinellen Lernens, bei dem ein für eine bestimmte Aufgabe trainiertes Netzwerk auf eine andere Problemstellung angewandt wird. Dabei ist bisher nicht wirklich klar, welche Aufgaben (z.B. Segmentierung oder Objektklassifikation) für diesen Transfer geeignet sind. Das Paper „Taskonomy: Disentangling Task Transfer Learning“ beschäftigt sich damit, eine Struktur zu erstellen, mit dessen Hilfe klar wird, welche unterschiedlichen visuellen Aufgaben miteinander verwandt sind. Dies ermöglicht sowohl eine Reduzierung von überdimensionierten Netzwerken, als auch eine Weiterverwendung von Netzwerken für andere/ähnliche Problemstellungen.

 

 
 

Letzte Änderung: Montag, 12. November 2018