DE10244699A1 - Voice activity determining method for detecting phrases operates in a portion of an audio signal through phrase detection based on thresholds - Google Patents
Voice activity determining method for detecting phrases operates in a portion of an audio signal through phrase detection based on thresholds Download PDFInfo
- Publication number
- DE10244699A1 DE10244699A1 DE2002144699 DE10244699A DE10244699A1 DE 10244699 A1 DE10244699 A1 DE 10244699A1 DE 2002144699 DE2002144699 DE 2002144699 DE 10244699 A DE10244699 A DE 10244699A DE 10244699 A1 DE10244699 A1 DE 10244699A1
- Authority
- DE
- Germany
- Prior art keywords
- phrase
- threshold
- label
- pause
- thresholds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Abstract
Description
Die Erfindung betrifft ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals durch eine schwellenbasierende Phrasendetektion.The invention relates to a method to determine speech activity in a signal section of an audio signal by a threshold-based Phrase detection.
Die Entwicklung robuster Phrasengrenzendetektoren ist bedeutend für die automatische Erkennung von fließender Sprache. Derartige Detektoren werden beispielsweise bei der Signalverarbeitung im Mobilfunksektor eingesetzt, um eine Verbesserung der Erkennungsraten und eine Datenreduktion auf die relevanten Informationen zu erreichen. Weitere Einsatzgebiete liegen in den Bereichen der Kommandoworterkennung, der Echokompensation und der Störgeräuschunterdrückung.The development of robust phrase limit detectors is important for automatic recognition of fluent speech. Such detectors are used, for example, in signal processing in the mobile radio sector used to improve detection rates and data reduction to reach the relevant information. Other areas of application are in the areas of command word recognition, echo cancellation and noise reduction.
Dabei muss die Phrasendetektion für einen ökonomischen Einsatz bestimmte Voraussetzungen erfüllen. Dazu zählen neben der Robustheit der Detektion die schnelle Adaption an sich verändernde Umgebungsbedingungen und ein relativ geringer Ressourcenbedarf sowohl beim Datenspeicher als auch beim notwendigen Rechenaufwand.The phrase detection must be economical Use certain requirements. These include alongside the robustness of the detection the fast adaptation to changing Environmental conditions and a relatively low resource requirement both data storage as well as the necessary computing effort.
Sehr einfache und zeiteffizient arbeitende Phrasendetektionsalgorithmen sind bezüglich der Sicherheit der Detektion allgemein wenig leistungsfähig. Die Phrasengrenzen der zu detektierenden Phrasen werden häufig ungenau gefunden, so dass es zum einen zu Datenverlusten und zum anderen zu Fehldetektionen kommen kann. Unter Datenverlusten versteht man die fehlende Berücksichtigung von relevanten Informationen, beispielsweise von gesprochenen Lauten, die zur Äußerung gehören, die teilweise bedeutungsunterscheidend sind und durch den Phrasendetektor als nicht zur Äußerung gehörend markiert wurden. Fehldetektionen im anderen Fall sind als Phrasen markierte Signalabschnitte, die aber keine sprachliche Äußerung darstellen.Very simple and time efficient Phrase detection algorithms are related to the security of the detection generally not very efficient. The phrase boundaries of the phrases to be detected often become inaccurate found so that there is data loss on the one hand and on the other false detections can occur. One understands data loss the lack of consideration relevant information, such as spoken sounds, that belong to the utterance, that are partially meaningful and by the phrase detector marked as not belonging to the utterance were. False detections in the other case are marked as phrases Signal sections that do not represent a linguistic expression.
Für
die Phrasendetektion lassen sich beim derzeitigen Entwicklungsstand
drei Leistungsklassen von Phrasengrenzendetektoren identifizieren.
Die erste Klasse umfasst einfache, energieschwellenbasierte und
im Zeitbereich arbeitende Detektoren, wie in der
Die zweite Klasse umfasst leistungsfähigere, im Frequenzbereich arbeitende Detektoren wie sie in der ETSI EN 301 708 V7.1.1 (1999-12), vom Dezember 1999 beschrieben sind. Diese werten in den Frequenzbereich transformierte und in Frequenzkanäle unterteilte Signale aus, sind deshalb üblicherweise komplex und benötigen einen großen Rechenaufwand. Eine höhere Detektionssicherheit kann erreicht werden, da viele Parameter (Tonhöhe, Signal-Rausch-Abstand, Peak-to-Average-Ratio, usw.) zur Entscheidungsfindung herangezogen werden.The second class includes more powerful, detectors operating in the frequency domain as described in the ETSI EN 301 708 V7.1.1 (1999-12), from December 1999. This values transformed into the frequency range and divided into frequency channels Signals from are therefore common complex and need a big Computational effort. A higher one Detection reliability can be achieved as many parameters (pitch, signal-to-noise ratio, Peak-to-average ratio, etc.) used for decision making become.
Die dritte Klasse fasst die aufwändigen und umfangreichen statistischen Verfahren zusammen. Durch die Auswertung der Wahrscheinlichkeitsdichtefunktion (PDF) oder der Erstellung von Modellen, mit Hilfe eines HMM (Hidden Markov Model), können über rechenaufwändige Verfahren hohe Detektionssicherheiten erreicht werden. Eine nähere Beschreibung hierzu ist in Sohn, Jongseo: "A Statistical Model-Based Voice Activity Detection", IEEE Signal Processsing Letters, Vol. 6., No. 1, January 1999 zu finden.The third class summarizes the elaborate and extensive statistical procedures. Through the evaluation the probability density function (PDF) or the creation of models, with the help of an HMM (Hidden Markov Model), can be computationally expensive high detection reliability can be achieved. A more detailed description in Son, Jongseo: "A Statistical Model-Based Voice Activity Detection ", IEEE Signal Processing Letters, vol. 6., No. 1, January 1999.
Für die Realisierung von Phrasengrenzendetektoren in Systemen mit geringen Ressourcen kommen daher nur Detektoren der ersten Leistungsklasse in Frage. Bisher muss bei diesen einfach realisierten Detektoren aber mit einer zu geringen Detektionssicherheit und Anpassung an sich verändernde Umgebungsbedingungen gerechnet werden.For the implementation of phrase limit detectors in systems with low Resources therefore only come from detectors of the first performance class in question. So far, these simply implemented detectors but with insufficient detection reliability and adaptation to changing Environmental conditions.
Der Erfindung liegt somit die Aufgabe zugrunde, ein Verfahren zur Bestimmung der Sprachaktivität in einem Signalabschnitt eines Audio-Signals anzugeben, bei dem der Gegensatz zwischen sicherer Detektion und geringem Rechenaufwand gemindert wird und das eine robuste Abgrenzung der Sprache von zeitlich variierenden Hintergrundgeräuschen realisiert.The invention is therefore the object based on a method for determining language activity in a Specify signal section of an audio signal in which the opposite reduced between reliable detection and low computing effort and that a robust demarcation of the language from time-varying Background noise realized.
Gemäß der Erfindung wird die Aufgabe dadurch gelöst, dass in einem ersten Schritt Energiewerte eines Zeitabschnitts des Audio-Signals in einem Histogramm erfasst werden, dass in einem zweiten Schritt, anhand der ermittelten Verteilung der Energiewerte, eine Sprachschwelle und eine Pausenschwelle festgelegt wird und dass durch einen Vergleich der Schwellen mit dem aktuellen Energiewert eine Phrasengrenzentscheidung zwischen Sprache und Pause getroffen wird.According to the invention the object solved by that in a first step energy values of a period of time Audio signal recorded in a histogram that in a second step, based on the determined distribution of the energy values, a language threshold and a pause threshold are set and that by comparing the thresholds with the current energy value made a phrase boundary decision between language and pause becomes.
In zeitlicher Abfolge wird zu Beginn
ein Signalausschnitt (Zeitfenster) untersucht und dessen Energie bestimmt.
Dieser Kurzzeitenergiewert wird in ein Histogramm eingeordnet, das
die Langzeitverteilung der Signalenergie abschätzt. Für diese geschätzte Verteilung
werden die Parameter Mittelwert X und Varianz s ermittelt. Anhand
dieser beiden Parameter werden die Sprachschwelle ThrVoice und die
Pausenschwelle ThrPause in der Schwellenadaption ermittelt. Durch
Verwendung zweier Schwellen wird die Robustheit der Phrasengrenzentscheidung
gegenüber
kleineren Energieschwankungen erhöht, wie in
In einer Ausgestaltung der Erfindung ist vorgesehen, dass die Ermittlung der Sprachschwelle und der Pausenschwelle, schritthaltend mit dem Signalverlauf, vor oder nach einer Phasengrenzentscheidung erfolgt.In one embodiment of the invention it is envisaged that the determination of the language threshold and the pause threshold, keeping pace with the signal curve, before or after a phase limit decision he follows.
Durch eine, mit dem Signalverlauf schritthaltende, Ermittlung der Schwellen wird eine robuste und schnelle Adaption an sich verändernde Umgebungsbedingungen erreicht. Die Berechnung der Signalenergie erfolgt kurzzeitbasiert für die Länge eines Zeitfensters. Der Abstand zweier aufeinanderfolgender Zeitfenster (die Fortsetzrate) steuert die zeitliche Auflösung der Phrasengrenzentscheidung. Mit einer niedrigen Fortsetzrate wird eine gute Auflösung im Zeitbereich erreicht.Robust and fast adaptation to changing environmental conditions is achieved by determining the thresholds, which keeps pace with the signal curve. The calculation of the signal energy is short-term based for the length of a time window. The interval between two successive time windows (the continuation rate) controls the temporal resolution of the phrase limit decision. With a low continuation rate, good resolution in the time domain is achieved.
Die Realisierung einer Phasengrenzentscheidung vor der Aktualisierung der Schwellen, anhand der vorliegenden Schwellen eines vorherigen Ablaufs, ermöglicht die Einordnung der allein in den Pausen auftretenden Energiewerte. Da allein die Fensterfortsetzrate entscheidet, wie viel Zeit zwischen dem aktuell betrachteten Zeitraum und dem Zeitraum, in dem die Schwellen adaptiert wurden, vergangen ist und diese im Normalfall relativ klein ist, wird der Fehler bei der Entscheidungsfindung klein gehalten.Realizing a phase boundary decision before updating the thresholds, based on the existing thresholds of a previous process the classification of the energy values occurring only during the breaks. Since the window continuation rate alone decides how much time between the currently considered period and the period in which the thresholds have been adapted, has passed and this is usually relative is small, the decision-making error is kept small.
In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, dass infolge der Phasengrenzentscheidung ein Label „Start" für den Beginn einer Phrase und ein Label „Stop" für das Ende einer Phrase je Phrase ermittelt wird und dass die jeweiligen Label und die zugehörigen Zeitpunkte gespeichert werden.In a further embodiment of the Invention is provided that as a result of the phase boundary decision a label "Start" for the beginning a phrase and a label "stop" for the end a phrase per phrase is determined and that the respective label and the associated Times are saved.
Die Phrasengrenzenentscheidung vergleicht den aktuellen Energiewert mit den ermittelten Schwellen und bestimmt den Zustand des Signals. Zwei Zustände werden bei der Phrasengrenzendetektion unterschieden. Der erste Zustand charakterisiert die Pause bzw. das Hintergrundgeräusch und markiert den Beginn des Bereichs, der keine Phrase enthält, mit dem Label „Stop". Dieser Zustand wird nach dem erstmaligen Unterschreiten der Pausenschwelle durch die Signalenergie eingenommen und dauert an, bis er von einem zweiten Zustand abgelöst wird. Der zweite Zustand wird dann eingenommen, wenn eine Phrase vorliegt, dass heißt wenn die Signalenergie die Sprachschwelle erstmalig überschreitet. Der Beginn dieses Bereichs ist durch ein „Start" Label gekennzeichnet. Die Dauer dieses Bereiches wird erst bei einem erneuten Unterschreiten der Pausenschwelle, durch die Signalenergie beendet.The phrase limit decision compares the current energy value with the determined thresholds and determined the state of the signal. Two states are used in phrase limit detection distinguished. The first state characterizes the break or the background noise and marks the beginning of the area that does not contain a phrase with the label "Stop". This state is carried out after the break below the break threshold for the first time the signal energy is ingested and continues until it goes from a second state superseded becomes. The second state is assumed when a phrase is present, that is if the signal energy exceeds the speech threshold for the first time. The beginning of this Area is identified by a "start" label. The duration of this area is only when the level falls below again the break threshold, through which the signal energy ends.
In einer Ausgestaltungsform der Erfindung ist vorgesehen, dass eine minimale und eine maximale Phrasenlänge sowie eine minimale Pausenlänge festgelegt werden und eine Plausibilitätsprüfung derart erfolgt, dass Label deren zugehörige Zeitintervalle nicht den Phrasenlängen oder der Pausenlänge entsprechen, aus der Labelspur eliminiert werden.In one embodiment of the invention it is intended that a minimum and a maximum phrase length as well a minimal pause length be determined and a plausibility check is carried out in such a way that label their associated Time intervals do not correspond to the phrase lengths or the pause length the label track can be eliminated.
Eine robuste Phrasengrenzendetektion wird nicht allein durch die Adaption der Schwellen gewährleistet. Fehlentscheidungen bei der Phrasengrenzendetektion werden durch eine Korrektur der Entscheidung vermieden. Die Korrektur wird dann durchgeführt, wenn ein ganze Phrase vorliegt. Sie besteht aus einer Überprüfung der minimalen Pausenlänge, der minimal und der maximal zu erwartenden Phrasendauer. Die Korrektur der minimalen Pausenlänge bewirkt, dass detektierte Pausen innerhalb des Audiosignales, beispielsweise durch kürze Lücken innerhalb von Wörtern, nicht als Pausen markiert werden. Die Kontrolle der minimalen Phrasenlänge beseitigt kurze als Phrasen markierte Sektionen und die Prüfung der maximalen Phrasendauer beseitigt lange und nicht zu erwartende Segmente.Robust phrase limit detection is not only guaranteed by the adaptation of the thresholds. Wrong decisions in phrase limit detection are made by avoided correcting the decision. The correction will then be made carried out, when there is an entire phrase. It consists of a review of the minimum break length, the minimum and maximum expected phrase duration. Correcting the minimum break length causes pauses detected within the audio signal, for example by shorten gaps within of words are not marked as breaks. Control of minimum phrase length removed short sections marked as phrases and the check of the maximum phrase duration removed long and unexpected segments.
In einer Ausführung der Erfindung ist vorgesehen, dass die Energiewerte nach der Gleichung mit einemIn one embodiment of the invention it is provided that the energy values according to the equation with a
Effektivwert X eines Signalabschnitts der Breite N berechnet werden.RMS value X of a signal section the width N can be calculated.
Dieser Energiewert wird in das Histogramm bzw. in die darin enthaltene Verteilung derart eingeordnet, dass die Anzahl der im Histogramm befindenden Werte im eingeschwungenen Zustand konstant bleibt. Der eingeschwungene Zustand ist dann erreicht, wenn ausreichend Werte im Histogramm enthalten sind, denn erst nach einer gewissen Anzahl von Werten im Histogramm wird die tatsächliche Verteilung genügend genau durch das Histogramm geschätzt. Damit nicht alle Signalenergieschwankungen die Verteilung der Energie negativ beeinflussen, werden nur Energiewerte in das Histogramm aufgenommen, die nicht allzu weit vom Maximum der aktuellen Verteilung entfernt liegen. Diese Entscheidung kann aus der Verknüpfung von Verteilungsvarianz und Verteilungsmittelwert getroffen werden.This energy value is in the histogram or classified in the distribution contained therein such that the number of values in the histogram in the steady state State remains constant. The steady state is reached if there are sufficient values in the histogram, because only after a certain number of values in the histogram becomes the actual Distribution enough accurately estimated by the histogram. So that not all signal energy fluctuations affect the distribution of energy negatively affect only energy values in the histogram added that not too far from the maximum of the current distribution lie away. This decision can be made by linking Distribution variance and distribution mean are taken.
In einer besonderen Ausführungsform der Erfindung ist vorgesehen, dass nach dem ersten Schritt eine Glättung der im Histogramm erfassten Energiewerte gemäß der Formel erfolgt.In a special embodiment of the invention it is provided that after the first step the energy values recorded in the histogram are smoothed according to the formula he follows.
Dabei ergibt sich der geglättete Histogrammeintrag X'(N) des N-ten Histogramm-Intervalles aus der Summe der gewichteten zwei linken und der zwei rechten benachbarten Histogrammeinträge X(N – 2) , X(N – 1) , X(N + 1) und X(N + 2) sowie des gewichteten Eintrages X(N) selbst.This results in the smoothed histogram entry X '(N) of the Nth histogram interval from the sum of the weighted two left and the two right neighboring histogram entries X (N - 2) , X (N - 1) , X (N + 1) and X (N + 2) as well as the weighted entry X (N) itself.
In einer weiteren Ausführungsform
der Erfindung ist vorgesehen, dass die Pausenschwelle, mit einem Adaptionsfaktor α zur Steuerung
der Anpassungsgeschwindigkeit und einem Parameter β zur Festlegung
des Abstands der Pausenschwelle vom Mittelwert
Die Pausenschwelle ThrPause , die
bei der Phrasengrenzenentscheidung für die Detektion des Phrasenendes
bedeutend ist, bestimmt sich aus oben genannter Gleichung. Bei der
Schwellenadaption werden anhand der Verteilungsparameter Mittelwert
In einer besonderen Ausgestaltung der Erfindung ist vorgesehen, dass die Sprachschwelle, mit einem Adaptionsfaktor α zur Steuerung der Anpassungsgeschwindigkeit und einem Parameter γ zur Festlegung des Abstands der Sprachschwelle von der Pausenschwelle, gemäß der Gleichung ThrVoice' = (1 – α)ThrVoice + α(ThrPause + γs) ermittelt wird.In a special configuration the invention provides that the speech threshold, with an adaptation factor α for control the rate of adaptation and a parameter γ to determine the distance of the speech threshold from the pause threshold, according to the equation ThrVoice '= (1 - α) ThrVoice + α (ThrPause + γs) determined becomes.
Die Adaption der Sprachschwelle ThrVoice basiert auf der berechneten Pausenschwelle ThrPause. In obiger Gleichung ist α wiederum der Adaptionsfaktor, mit dem die Geschwindigkeit der Adaption gesteuert wird, und γ bestimmt, wie groß der Abstand der Sprachschwelle ThrVoice zur Pausenschwelle ThrPause ist. Die in der Gleichung dargestellte Verknüpfung der Sprach- und Pausenschwelle mit der Varianz s der Verteilung hat den Vorteil, dass der Abstand der beiden Schwellen von der Verteilung der Kurzzeitenergie abhängt. Diese stellt sich unterschiedlich für sich verändernde Hintergrundgeräusche dar.The adaptation of the ThrVoice language threshold is based on the calculated pause threshold ThrPause. In the above equation is α again the adaptation factor with which the speed of the adaptation is controlled, and γ determines how big the Distance of the ThrVoice language threshold to the ThrPause pause threshold is. The link between the speech and pause threshold shown in the equation with the variance s of the distribution has the advantage that the distance of the two thresholds depends on the distribution of short-term energy. This positions itself differently for changing Background noise represents.
In ruhigen Umgebungen (statischer Fall) ist die Verteilung der Kurzzeitenergie schmal, was durch eine kleine Varianz ausgedrückt wird. Das heißt, die Kurzzeitenergie schwankt relativ wenig um ihren Langzeitmittelwert. In lauten Umgebungen treten meist dynamische Veränderungen des Hintergrundgeräusches auf, die eine breite Verteilung der Kurzzeitenergie zur Folge haben. In diesem Fall ist die Varianz groß, da die Kurzzeitenergie stark um ihren Langzeitmittelwert schwankt. Durch einen kleinen Abstand der Schwellen im statischen Fall und durch einen großen Abstand der Schwellen im dynamischen Fall werden Fehldetektionen der Phrasengrenzen eingeschränkt.In quiet environments (static Case) the distribution of short-term energy is narrow, which is indicated by a small one Expressed variance becomes. This means, the short-term energy fluctuates relatively little around its long-term average. Dynamic changes in background noise usually occur in noisy environments, which result in a wide distribution of short-term energy. In this case, the variance is large because the short-term energy is strong fluctuates around their long-term mean. By a small distance the thresholds in the static case and by a large distance the thresholds in the dynamic case become incorrect detection of the phrase boundaries limited.
Die Erfindung soll nachfolgend anhand zweier Ausführungsbeispiele näher erläutert werden. In den zugehörigen Zeichnungen zeigtThe invention is based on the following two embodiments are explained in more detail. In the associated Shows drawings
Das erfindungsgemäße Verfahren kann in verschiedenen Bereichen zum Einsatz kommen. Bei der Sprachsignalverarbeitung kann eine Detektion von Nutzsignalen und eine verlässliche Anfangs- und Endpunktdetektion für einen Kommandoworterkenner realisiert werden. Das Verfahren ermöglicht die Realisierung einer Störgeräuschunterdrückung, bei der eine Pausendetektion für Adaptionsvorgänge notwendig ist, die Feststellung einer Sprecher-Aktivität für den Bereich der Echokompensation oder eine Bestimmung der Kanalauslastung im Bereich der Telefonie.The process according to the invention can be carried out in different ways Areas are used. In speech signal processing can detection of useful signals and reliable start and end point detection for one Command word recognizer can be realized. The procedure enables the Realization of noise suppression, at which is a break detection for adaptation processes it is necessary to determine a speaker activity for the area echo cancellation or a determination of the channel load in the Telephony area.
Eine erste Variante des Verfahrensablaufs
ist in der
Nach der Glättung der Verteilung wertet
das Verfahren das Histogramm
Dabei steuert der Adaptionsfaktor α die Anpassungsempfindlichkeit.
Ist α nahe
Null , wird die Adaption sehr langsam durchgeführt, ist α nahe Eins erfolgt die Adaption
sehr schnell. Der Parameter β beeinflusst
den Abstand der Pausenschwelle
Grundlage für die Ermittlung der Sprachschwelle
ThrVoice
Die Ermittlung erfolgt mit der Gleichung:
Dabei wird mit α wiederum die Geschwindigkeit der Adaption eingestellt. Der Abstand der Sprachschwelle von der Pausenschwelle wird durch γ beeinflusst.With α again the speed the adaptation set. The distance of the language threshold from the The pause threshold is influenced by γ.
Die in der Gleichung dargestellte
Verknüpfung
der Sprachschwelle ThrVoice
Durch einen nachfolgenden Vergleich
der ermittelten Schwellen
Robuste Phrasengrenzen werden nicht
allein durch die Adaption der Schwellen
Eine zweiten Variante des Verfahrensablaufs
ist in der
Nach der Energieermittlung über ein
betrachtetes Zeitfenster wird anhand der durch den vorherigen Ablauf
vorliegenden Schwellen
Der Vorteil der Phrasengrenzenentscheidung
vor der Histogrammadaption besteht darin, dass mit Hilfe dieser
Entscheidung eine Einordnung der allein in den Pausen aufgetretenen
Energiewerte
- 11
- Energiewerteenergy values
- 22
- Histogrammhistogram
- 33
- Verteilungsvarianz sdistribution variance s
- 44
-
Verteilungsmittelwert
X Distribution meanX - 55
- Pausenschwelle ThrPausepause threshold ThrPause
- 66
- Sprachschwelle ThrVoicespeech threshold ThrVoice
- 77
- Label „Stop""Stop" label
- 88th
- Label „Start"Start label
- 99
- Beispielphraseexample sentences
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002144699 DE10244699B4 (en) | 2002-09-24 | 2002-09-24 | Method for determining speech activity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002144699 DE10244699B4 (en) | 2002-09-24 | 2002-09-24 | Method for determining speech activity |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10244699A1 true DE10244699A1 (en) | 2004-04-01 |
DE10244699B4 DE10244699B4 (en) | 2006-06-01 |
Family
ID=31969583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2002144699 Expired - Lifetime DE10244699B4 (en) | 2002-09-24 | 2002-09-24 | Method for determining speech activity |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10244699B4 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005029287A1 (en) * | 2005-06-22 | 2006-12-28 | Nec Europe Ltd. | Unwanted telephone call switching preventing method for use in e.g. switching based telephone network, involves performing test for detection of telephone mannerism of calling telephone subscriber before switching of telephone call |
WO2012083555A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting voice activity in input audio signal |
CN113270118A (en) * | 2021-05-14 | 2021-08-17 | 杭州朗和科技有限公司 | Voice activity detection method and device, storage medium and electronic equipment |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE68903872T2 (en) * | 1988-05-04 | 1993-06-24 | Thomson Csf | METHOD AND ARRANGEMENT FOR DETERMINING THE PRESENCE OF VOICE SIGNALS. |
DE19600404C2 (en) * | 1995-01-31 | 1998-11-19 | Motorola Inc | Speech detector for detecting the presence of speech |
DE10026872A1 (en) * | 2000-04-28 | 2001-10-31 | Deutsche Telekom Ag | Procedure for calculating a voice activity decision (Voice Activity Detector) |
-
2002
- 2002-09-24 DE DE2002144699 patent/DE10244699B4/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE68903872T2 (en) * | 1988-05-04 | 1993-06-24 | Thomson Csf | METHOD AND ARRANGEMENT FOR DETERMINING THE PRESENCE OF VOICE SIGNALS. |
DE19600404C2 (en) * | 1995-01-31 | 1998-11-19 | Motorola Inc | Speech detector for detecting the presence of speech |
DE10026872A1 (en) * | 2000-04-28 | 2001-10-31 | Deutsche Telekom Ag | Procedure for calculating a voice activity decision (Voice Activity Detector) |
Non-Patent Citations (2)
Title |
---|
ETSI EN 301708 V7.1.1 (1999-12), Dezember 1999 * |
SOHN, JONGSEO: "A Statistical Model-Based Voice Activity Detection". In: IEEE Signal Processing Letters, Vol. 6, No. 1, January 1999 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005029287B4 (en) * | 2005-06-22 | 2014-05-08 | Nec Europe Ltd. | A method for preventing the switching of unwanted telephone calls |
DE102005029287A1 (en) * | 2005-06-22 | 2006-12-28 | Nec Europe Ltd. | Unwanted telephone call switching preventing method for use in e.g. switching based telephone network, involves performing test for detection of telephone mannerism of calling telephone subscriber before switching of telephone call |
CN102959625B9 (en) * | 2010-12-24 | 2017-04-19 | 华为技术有限公司 | Method and apparatus for adaptively detecting voice activity in input audio signal |
CN102959625A (en) * | 2010-12-24 | 2013-03-06 | 华为技术有限公司 | Method and apparatus for adaptively detecting voice activity in input audio signal |
CN102959625B (en) * | 2010-12-24 | 2014-12-17 | 华为技术有限公司 | Method and apparatus for adaptively detecting voice activity in input audio signal |
US9368112B2 (en) | 2010-12-24 | 2016-06-14 | Huawei Technologies Co., Ltd | Method and apparatus for detecting a voice activity in an input audio signal |
WO2012083555A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting voice activity in input audio signal |
US9761246B2 (en) | 2010-12-24 | 2017-09-12 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting a voice activity in an input audio signal |
US10134417B2 (en) | 2010-12-24 | 2018-11-20 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting a voice activity in an input audio signal |
US10796712B2 (en) | 2010-12-24 | 2020-10-06 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting a voice activity in an input audio signal |
US11430461B2 (en) | 2010-12-24 | 2022-08-30 | Huawei Technologies Co., Ltd. | Method and apparatus for detecting a voice activity in an input audio signal |
CN113270118A (en) * | 2021-05-14 | 2021-08-17 | 杭州朗和科技有限公司 | Voice activity detection method and device, storage medium and electronic equipment |
CN113270118B (en) * | 2021-05-14 | 2024-02-13 | 杭州网易智企科技有限公司 | Voice activity detection method and device, storage medium and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
DE10244699B4 (en) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69913262T2 (en) | DEVICE AND METHOD FOR ADJUSTING THE NOISE THRESHOLD FOR DETECTING VOICE ACTIVITY IN A NON-STATIONARY NOISE ENVIRONMENT | |
DE69926851T2 (en) | Method and apparatus for voice activity detection | |
DE112009000805B4 (en) | noise reduction | |
DE69915830T2 (en) | IMPROVED METHODS FOR RECOVERING LOST DATA FRAMES FOR AN LPC BASED, PARAMETRIC LANGUAGE CODING SYSTEM. | |
DE60125219T2 (en) | SPECIAL FEATURES REPLACEMENT OF FRAME ERRORS IN A LANGUAGE DECODER | |
EP0604476B1 (en) | Process for recognizing patterns in time-varying measurement signals | |
DE69720087T2 (en) | Method and device for suppressing background music or noise in the input signal of a speech recognizer | |
DE3236832A1 (en) | METHOD AND DEVICE FOR VOICE ANALYSIS | |
EP0076233B1 (en) | Method and apparatus for redundancy-reducing digital speech processing | |
DE69920047T2 (en) | DETECTION OF PURE LANGUAGE IN AN AUDIO SIGNAL, WITH THE HELP OF A DETECTION SIZE (VALLEY PERCENTAGE) | |
WO1996029695A1 (en) | Speech recognition process and device for languages containing composite words | |
EP0690436A2 (en) | Detection of the start/end of words for word recognition | |
DE69918635T2 (en) | Apparatus and method for speech processing | |
DE3739681A1 (en) | METHOD FOR DETERMINING START AND END POINT ISOLATED SPOKEN WORDS IN A VOICE SIGNAL AND ARRANGEMENT FOR IMPLEMENTING THE METHOD | |
EP0987683A2 (en) | Speech recognition method with confidence measure | |
EP0815553A2 (en) | Method of detecting a pause between two signal patterns on a time-variable measurement signal | |
DE602004008666T2 (en) | Tracking vocal tract resonances using a nonlinear predictor | |
DE69922769T2 (en) | Apparatus and method for speech processing | |
DE102014221528B4 (en) | Accurate forward SNR estimation based on MMSE speech presence probability | |
EP1187095A2 (en) | Grapheme-phoneme assignment | |
EP0874352A2 (en) | Voice activity detection | |
DE69906569T2 (en) | METHOD AND DEVICE FOR VOICE RECOGNITION OF AN ACOUSTIC SIGNAL WITH DISTURBANCES | |
DE10244699B4 (en) | Method for determining speech activity | |
EP2031581A1 (en) | Method for identifying an acoustic event in an audio signal | |
DE60025333T2 (en) | LANGUAGE DETECTION WITH STOCHASTIC CONFIDENTIAL ASSESSMENT OF THE FREQUENCY SPECTRUM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |