Es sind ein Verfahren und ein System zum Detektieren anormaler Herztöne in einem Phonokardiogramm einer Person offenbart. Mindestens ein segmentierter Herzzyklus des Phonokardiogramms wird bei einem Prozessor empfangen. Der Prozessor zerlegt den segmentierten Herzzyklus in mehrere Frequenzteilbänder unter Verwendung eines ersten Faltungs-Neuronalnetzwerks, das insbesondere mehrere Zeit-Faltungsschichten (tConv) aufweist. Die Kernel-Gewichtungen jeder Zeit-Faltungsschicht werden in einem Trainingsprozess erlernt, sodass die Zeit-Faltungsschichten pathologisch wichtige Frequenzteilbänder identifizieren. Der Prozessor bestimmt eine Wahrscheinlichkeit, dass der segmentierte Herzzyklus einen anormalen Herzton enthält, basierend auf den mehreren Frequenzteilbandsegmenten unter Verwendung mindestens eines weiteren Neuronalnetzwerks. Bei manchen Ausführungsformen sind die Zeit-Faltungsschichten konfiguriert, eine lineare Phasenantwort (LP-tConv) oder eine Phasenantwort von null (ZP-tConv) aufzuweisen.Disclosed is a method and system for detecting abnormal heart sounds in a person's phonocardiogram. At least one segmented cardiac cycle of the phonocardiogram is received at a processor. The processor breaks the segmented cardiac cycle into multiple frequency subbands using a first convolutional neural network, which in particular has multiple time-convolution layers (tConv). The kernel weights of each time-convolution layer are learned in a training process so that the time-convolution layers identify pathologically important frequency subbands. The processor determines a probability that the segmented cardiac cycle contains an abnormal heart sound based on the plurality of frequency subband segments using at least one other neural network. In some embodiments, the time-convolution layers are configured to have a linear phase response (LP-tConv) or a zero phase response (ZP-tConv).