ExpandPrint
 

Seminar Machine Learning: Speech and Image Analysis

Content:
Machine Learning and artificial intelligence is one hot topic these days. In several disciplines novel machine learning methods and algorithms improved the state of the art by far. In this seminar we focus on topics concerning the automatic analysis of image and speech data, for example image recognition/segmentation, computer vision, speech/speaker/emotion recognition, and many more.  

 

Organisation:

This seminar is organized together with two other seminars that also deal with machine learning:

 

By this collaboration, you will not only learn more about machine learning driven speech and image analysis, but you also get an impression of the wide range of machine learning applications, problems and techniques.

 

 

 

Schedule:

 

DateLocationStep
16.10.2018, 16.00hSN22.2Kickoff meeting, assignment of topics
NovemberArrange appointment with assistant
03 ->10.12.2018Submit final paper proposal
19.12.2018Submit review of two fellow students
10.01.2018Submit camera-ready version of you paper
17.-18.01.2019BRICS 107/108Presentation (with Pizza)

 

Requirements:

The seminar is organized like a real academic conference. You need to prepare a written paper (German or English) about the selected topic (8-10 pages in ACM Double Column Style).

 

After submitting your paper at our conference system, you will write two short reviews about two of the papers submitted by students from the other institutes. In this way, you can give them feedback about how to improve their paper. Then, you will have time to improve your own final paper with reviews from the others.

 

Last but not least, we will have a small conference with all participants from each of the three seminars. You will give a 20-25 minutes talk about your paper and we will provide drinks and pizza to enjoy the talks at our small conference.

Themen:

Teilnehmer haben die Wahl aus den folgenden Themen der Sprach- und Bildanalyse. Themenwünsche können am Kickoff Termin eingetragen werden. 

 

  • Error Criteria for Speech Enhancement With Deep Neural Networks

In speech enhancement we are interested in enhancing speech intelligibility and/or quality. Recent approaches based on deep learning often use the mean square error criterion. However, this might not be the optimal function w.r.t. intelligibility/quality which has been analyzed recently. Is it fine to use the mean square error or are there proper alternatives? 

  • Evaluation von Capsule Networks in der Bildverarbeitung

Bei Capsule Networks handelt es sich um eine aktuelle Weiterentwicklung von CNNs. Die Netzwerke bestehen aus sogenannten Kapseln, die jeweils Entitäten wie die Pose, Deformation, Textur, etc. besonders gut encodieren können. Mit multi-layer Capsule Networks lassen sich State of the Art Ergebnisse auf dem MNIST Datensatz erzielen. Im Rahmen der Bearbeitung dieses Themas sollen die Einsatzmöglichkeiten von Capsule Networks für andere Bereiche der Bildverarbeitung evaluiert werden.

 
  • Speech Enhancement mit Generative Adversarial Networks

Generative Adversarial Networks (GANs) waren in letzter Zeit eines der großen Themen im maschinellen Sehen und konnten beispielsweise erfolgreich zur Generation realistischer Bilder oder zur Erstellung von 3D-Modellen aus 2D-Bildern verwendet werden. Das Training von GANs beruht auf einem Nullsummenspiel, in dem ein generatives Modell Daten (z.B. Bilder) erzeugt, welche von einem zweiten Modell von den Daten der Zieldomäne (z.B. photorealistischen Bildern) unterschieden werden sollen. Das generative Modell wird dabei darauf trainiert, das Klassifikations-Modell zu täuschen. Auch im Gebiet des Speech Enhancements können GANs angewendet werden, um aus störungsbehafteten Sprachsignalen möglichst saubere Sprachsignale zu erzeugen. In diesem Vortrag soll das Trainingsframework für GANs mit besonderem Blick auf die Anwendung im Speech Enhancement vorgestellt und erläutert werden. .

 
  • Neural Networks for Adaptive Filtering

Acoustic echo and feedback cancellation are one example of algorithms that use adaptive filters. They estimate the room impulse response to compute an estimated echo (or feedback) signal that includes the echo path from loudspeaker to microphone. The approaches are necessarily real-time capable and the adaptive filter is updated every few milliseconds. This work shall give an overview of real-time capable adaptive filtering techniques using neural networks in the context of acoustic echo and feedback cancellation.

 
  • Deep Neural Networks Used for Single-Channel Speech Separation

Deep neural networks (DNNs) can be used to directly model the highly non-linear relationship between the amplitude spectrograms of a mixed signal containing a target speaker and other interfering speakers. Instead of directly estimate the amplitude spectrogram of the target speaker, the DNNs can also be used to estimate the ideal ratio mask (IRM) which can be used to filter out the amplitude spectrogram of the target speaker from the mixture.

 
  • Multi-Scale Architekturen in Convolutional Neural Networks

Acoustic echo and feedback cancellation are one example of algorithms that use adaptive filters. They estimate the room impulse response to compute an estimated echo (or feedback) signal that includes the echo path from loudspeaker to microphone. The approaches are necessarily real-time capable and the adaptive filter is updated every few milliseconds. This work shall give an overview of real-time capable adaptive filtering techniques using neural networks in the context of acoustic echo and feedback cancellation.

 
  • Normalization techniques for neural networks

Die Batch-Normalisierung ist eine der gängigsten Normalisierungsmethoden innerhalb eines neuronalen Netzwerks. Motiviert vom Erfolg der Batch-Normalisierung wurde in den letzten Jahren an weiteren Normalisierungsmethoden geforscht. Diese sollen vorgestellt und miteinander verglichen werden (Prinzip, Vor- und Nachteile, Anwendungsgebiete, etc.).

 

  • Taskonomy: Disentangling Task Transfer Learning

Das sogenannte Transfer Learning ist eines der wichtigsten Konzepte des Maschinellen Lernens, bei dem ein für eine bestimmte Aufgabe trainiertes Netzwerk auf eine andere Problemstellung angewandt wird. Dabei ist bisher nicht wirklich klar, welche Aufgaben (z.B. Segmentierung oder Objektklassifikation) für diesen Transfer geeignet sind. Das Paper „Taskonomy: Disentangling Task Transfer Learning“ beschäftigt sich damit, eine Struktur zu erstellen, mit dessen Hilfe klar wird, welche unterschiedlichen visuellen Aufgaben miteinander verwandt sind. Dies ermöglicht sowohl eine Reduzierung von überdimensionierten Netzwerken, als auch eine Weiterverwendung von Netzwerken für andere/ähnliche Problemstellungen.

 

 
 

Updated: Monday, 12 November 2018