Matches in SemOpenAlex for { <https://semopenalex.org/work/W889408723> ?p ?o ?g. }
- W889408723 abstract "If speech is acquired by a close-talking microphone in a controlled and noise-free environment, current state-of-the-art recognition systems often show an acceptable error rate. The use of close-talking microphones, however, may be too restrictive in many applications. Alternatively, distant-talking microphones, often placed several meters far from the speaker, may be used. Such setup is less intrusive, since the speaker does not have to wear any microphone, but the Automatic Speech Recognition (ASR) performance is strongly affected by noise and reverberation. The thesis is focused on ASR applications in a room environment, where reverberation is the dominant source of distortion, and considers both single- and multi-microphone setups.
 If speech is recorded in parallel by several microphones arbitrarily located in the room, the degree of distortion may vary from one channel to another. The difference among the signal quality of each recording may be even more evident if those microphones have different characteristics: some are hanging on the walls, others standing on the table, or others build in the personal communication devices of the people present in the room. In a scenario like that, the ASR system may benefit strongly if the signal with the highest quality is used for recognition. To find such signal, what is commonly referred as Channel Selection (CS), several techniques have been proposed, which are discussed in detail in this thesis.
 In fact, CS aims to rank the signals according to their quality from the ASR perspective. To create such ranking, a measure that either estimates the intrinsic quality of a given signal, or how well it fits the acoustic models of the recognition system is needed. In this thesis we provide an overview of the CS measures presented in the literature so far, and compare them experimentally. Several new techniques are introduced, that surpass the former techniques in terms of recognition accuracy and/or computational efficiency. A combination of different CS measures is also proposed to further increase the recognition accuracy, or to reduce the computational load without any significant performance loss. Besides, we show that CS may be used together with other robust ASR techniques, and that the recognition improvements are cumulative up to some extent. An online real-time version of the channel selection method based on the variance of the speech sub-band envelopes, which was developed in this thesis, was designed and implemented in a smart room environment. When evaluated in experiments with real distant-talking microphone recordings and with moving speakers, a significant recognition performance improvement was observed.
 Another contribution of this thesis, that does not require multiple microphones, was developed in cooperation with the colleagues from the chair of Multimedia Communications and Signal Processing at the University of Erlangen-Nuremberg, Erlangen, Germany. It deals with the problem of feature extraction within REMOS (REverberation MOdeling for Speech recognition), which is a generic framework for robust distant-talking speech recognition. In this framework, the use of conventional methods to obtain decorrelated feature vector coefficients, like the discrete cosine transform, is constrained by the inner optimization problem of REMOS, which may become unsolvable in a reasonable time. A new feature extraction method based on frequency filtering was proposed to avoid this problem. Los actuales sistemas de reconocimiento del habla muestran a menudo una tasa de error aceptable si la voz es registrada por micr ofonos próximos a la boca del hablante, en un entorno controlado y libre de ruido. Sin embargo, el uso de estos micr ofonos puede ser demasiado restrictivo en muchas aplicaciones. Alternativamente, se pueden emplear micr ofonos distantes, los cuales a menudo se ubican a varios metros del hablante.
 Esta con guraci on es menos intrusiva ya que el hablante no tiene que llevar encima ning un micr ofono, pero el rendimiento del reconocimiento
 autom atico del habla (ASR, del ingl es Automatic Speech Recognition) en dicho caso se ve fuertemente afectado por el ruido y la reverberaci on.
 Esta tesis se enfoca a aplicaciones ASR en el entorno de una sala, donde la reverberaci on es la causa predominante de distorsi on y se considera tanto el caso de un solo micr ofono como el de m ultiples micr ofonos.
 Si el habla es grabada en paralelo por varios micr ofonos distribuidos arbitrariamente en la sala, el grado de distorsi on puede variar de un canal
 a otro. Las diferencias de calidad entre las señales grabadas pueden ser m as acentuadas si dichos micr ofonos muestran diferentes características y colocaciones: unos en las paredes, otros sobre la mesa, u otros integrados en los dispositivos de comunicaci on de las personas presentes en la sala. En dicho escenario el sistema ASR se puede bene ciar enormemente de la utilizaci on de la señal con mayor calidad para el reconocimiento. Para hallar dicha señal se han propuesto diversas t ecnicas, denominadas CS (del ingl es Channel Selection), las cuales se discuten detalladament en esta tesis.
 De hecho, la selecci on de canal busca ranquear las señales conforme a su calidad desde la perspectiva ASR. Para crear tal ranquin se necesita
 una medida que tanto estime la calidad intr nseca de una selal, como lo bien que esta se ajusta a los modelos ac usticos del sistema de reconocimiento.
 En esta tesis proporcionamos un resumen de las medidas CS hasta ahora presentadas en la literatura, compar andolas experimentalmente.
 Diversas nuevas t ecnicas son presentadas que superan las t ecnicas iniciales en cuanto a exactitud de reconocimiento y/o e ciencia computacional.
 Tambi en se propone una combinaci on de diferentes medidas CS para incrementar la exactitud de reconocimiento, o para reducir la carga
 computacional sin ninguna p erdida signi cativa de rendimiento. Adem as mostramos que la CS puede ser empleada junto con otras t ecnicas robustas de ASR, tales como matched condition training o la normalizaci on de la varianza y la media, y que las mejoras de reconocimiento de ambas aproximaciones son hasta cierto punto acumulativas. Una versi on online en tiempo real del m etodo de selecci on de canal basado en la varianza del speech sub-band envelopes, que fue desarrolladas en esta tesis, fue diseñada e implementada en una sala inteligente. Reportamos una mejora signi cativa en el rendimiento del reconocimiento al evaluar experimentalmente grabaciones reales de micr ofonos no pr oximos a la boca
 con hablantes en movimiento.
 La otra contribuci on de esta tesis, que no requiere m ultiples micr ofonos, fue desarrollada en colaboraci on con los colegas del departamento de Comunicaciones Multimedia y Procesamiento de Señales de la Universidad de Erlangen-Nuremberg, Erlangen, Alemania. Trata sobre el problema de extracci on de caracter sticas en REMOS (del ingl es REverberation MOdeling for Speech recognition). REMOS es un marco conceptual gen erico
 para el reconocimiento robusto del habla con micr ofonos lejanos. El uso de los m etodos convencionales para obtener los elementos decorrelados del vector de caracter sticas, como la transformada coseno discreta, est a limitado por el problema de optimizaci on inherente a REMOS, lo que har a
 que, utilizando las herramientas convencionales, se volviese un problema irresoluble en un tiempo razonable. Para resolver este problema hemos
 desarrollado un nuevo m etodo de extracci on de caracter sticas basado en fi ltrado frecuencial Els sistemes actuals de reconeixement de la parla mostren sovint una taxa d'error acceptable si la veu es registrada amb micr ofons pr oxims a la
 boca del parlant, en un entorn controlat i lliure de soroll. No obstant, l' us d'aquests micr ofons pot ser massa restrictiu en moltes aplicacions.
 Alternativament, es poden utilitzar micr ofons distants, els quals sovint s on ubicats a diversos metres del parlant. Aquesta con guraci o es menys
 intrusiva, ja que el parlant no ha de portar a sobre cap micr ofon, per o el rendiment del reconeixement autom atic de la parla (ASR, de l'angl es
 Automatic Speech Recognition) en aquest cas es veu fortament afectat pel soroll i la reverberaci o. Aquesta tesi s'enfoca a aplicacions ASR en un
 ambient de sala, on la reverberaci o es la causa predominant de distorsi o i es considera tant el cas d'un sol micr ofon com el de m ultiples micr ofons.
 Si la parla es gravada en paral lel per diversos micr ofons distribuï ts arbitràriament a la sala, el grau de distorsi o pot variar d'un canal a l'altre.
 Les difer encies en qualitat entre els senyals enregistrats poden ser m es accentuades si els micr ofons tenen diferents caracter stiques i col locacions: uns a les parets, altres sobre la taula, o b e altres integrats en els aparells de comunicaci o de les persones presents a la sala. En un escenari com aquest, el sistema ASR es pot bene ciar enormement de l'utilitzaci o del senyal de m es qualitat per al reconeixement. Per a trobar aquest senyal s'han proposat diverses t ecniques, anomenades CS (de l'angl es Channel Selection), les quals es discuteixen detalladament en aquesta tesi.
 De fet, la selecci o de canal busca ordenar els senyals conforme a la seva qualitat des de la perspectiva ASR. Per crear tal r anquing es necessita
 una mesura que estimi la qualitat intr nseca d'un senyal, o b e una que valori com de b e aquest s'ajusta als models ac ustics del sistema de reconeixement. 
 En aquesta tesi proporcionem un resum de les mesures CS ns ara presentades en la literatura, comparant-les experimentalment. A m es, es presenten diverses noves t ecniques que superen les anteriors en termes d'exactitud de reconeixement i / o e ci encia computacional.
 Tamb e es proposa una combinaci o de diferents mesures CS amb l'objectiu d'incrementar l'exactitud del reconeixement, o per reduir la c arrega computacional sense cap p erdua signi cativa de rendiment. A m es mostrem que la CS pot ser utilitzada juntament amb altres t ecniques robustes
 d'ASR, com ara matched condition training o la normalitzaci o de la varian ca i la mitjana, i que les millores de reconeixement de les dues aproximacions s on ns a cert punt acumulatives. Una versi o online en temps real del m etode de selecci o de canal basat en la varian ca de les envolvents sub-banda de la parla, desenvolupada en aquesta tesi, va ser dissenyada i implementada en una sala intel ligent. A l'hora d'avaluar experimentalment gravacions reals de micr ofons no pr oxims a la boca amb parlants en moviment, es va observar una millora signi cativa en el rendiment del reconeixement.
 L'altra contribuci o d'aquesta tesi, que no requereix m ultiples micr ofons, va ser desenvolupada en col laboraci o amb els col legues del departament
 de Comunicacions Multimedia i Processament de Senyals de la Universitat de Erlangen-Nuremberg, Erlangen, Alemanya. Tracta sobre el problema
 d'extracci o de caracter stiques a REMOS (de l'angl es REverberation MOdeling for Speech recognition). REMOS es un marc conceptual gen eric
 per al reconeixement robust de la parla amb micr ofons llunyans. L' us dels m etodes convencionals per obtenir els elements decorrelats del vector de
 caracter stiques, com ara la transformada cosinus discreta, est a limitat pel problema d'optimitzaci o inherent a REMOS. Aquest faria que, utilitzant
 les eines convencionals, es torn es un problema irresoluble en un temps raonable. Per resoldre aquest problema hem desenvolupat un nou m etode
 d'extracci o de caracter ístiques basat en fi ltrat frecuencial." @default.
- W889408723 created "2016-06-24" @default.
- W889408723 creator A5073005521 @default.
- W889408723 date "2023-10-11" @default.
- W889408723 modified "2023-10-16" @default.
- W889408723 title "Channel selection and reverberation-robust automatic speech recognition" @default.
- W889408723 cites W102482883 @default.
- W889408723 cites W118225896 @default.
- W889408723 cites W145321286 @default.
- W889408723 cites W14578209 @default.
- W889408723 cites W1509052650 @default.
- W889408723 cites W1510590348 @default.
- W889408723 cites W1514905536 @default.
- W889408723 cites W1528470941 @default.
- W889408723 cites W1552282138 @default.
- W889408723 cites W1558317537 @default.
- W889408723 cites W1558643924 @default.
- W889408723 cites W1560013842 @default.
- W889408723 cites W1573570773 @default.
- W889408723 cites W1578856370 @default.
- W889408723 cites W1592062602 @default.
- W889408723 cites W1600158029 @default.
- W889408723 cites W1603327663 @default.
- W889408723 cites W1969060806 @default.
- W889408723 cites W1973669708 @default.
- W889408723 cites W1973787919 @default.
- W889408723 cites W1982728343 @default.
- W889408723 cites W1991133427 @default.
- W889408723 cites W1992272902 @default.
- W889408723 cites W1998426212 @default.
- W889408723 cites W1999686891 @default.
- W889408723 cites W2001496355 @default.
- W889408723 cites W2001619934 @default.
- W889408723 cites W2006783645 @default.
- W889408723 cites W2009106392 @default.
- W889408723 cites W2034537249 @default.
- W889408723 cites W2036099872 @default.
- W889408723 cites W2044940274 @default.
- W889408723 cites W2045036776 @default.
- W889408723 cites W2045043668 @default.
- W889408723 cites W2050693797 @default.
- W889408723 cites W2054392851 @default.
- W889408723 cites W2061074721 @default.
- W889408723 cites W2067584370 @default.
- W889408723 cites W2069431997 @default.
- W889408723 cites W2071489795 @default.
- W889408723 cites W2077574412 @default.
- W889408723 cites W2080921589 @default.
- W889408723 cites W2083212479 @default.
- W889408723 cites W2086286498 @default.
- W889408723 cites W2086699924 @default.
- W889408723 cites W2090861223 @default.
- W889408723 cites W2097834170 @default.
- W889408723 cites W2098434929 @default.
- W889408723 cites W2100969003 @default.
- W889408723 cites W2102072896 @default.
- W889408723 cites W2103371184 @default.
- W889408723 cites W2106718021 @default.
- W889408723 cites W2107992675 @default.
- W889408723 cites W2108134265 @default.
- W889408723 cites W2109816922 @default.
- W889408723 cites W2113576004 @default.
- W889408723 cites W2117518720 @default.
- W889408723 cites W2125838338 @default.
- W889408723 cites W2126681966 @default.
- W889408723 cites W2128621997 @default.
- W889408723 cites W21300200 @default.
- W889408723 cites W2134659216 @default.
- W889408723 cites W2136821271 @default.
- W889408723 cites W2137075158 @default.
- W889408723 cites W2140866802 @default.
- W889408723 cites W2142416747 @default.
- W889408723 cites W2142981684 @default.
- W889408723 cites W2143343256 @default.
- W889408723 cites W214395912 @default.
- W889408723 cites W2145692202 @default.
- W889408723 cites W2146871184 @default.
- W889408723 cites W2148154194 @default.
- W889408723 cites W2148898720 @default.
- W889408723 cites W2152051032 @default.
- W889408723 cites W2152131029 @default.
- W889408723 cites W2157019774 @default.
- W889408723 cites W2157515590 @default.
- W889408723 cites W2157821739 @default.
- W889408723 cites W2161336374 @default.
- W889408723 cites W2164502538 @default.
- W889408723 cites W2165869870 @default.
- W889408723 cites W2168969372 @default.
- W889408723 cites W2170317095 @default.
- W889408723 cites W2402003764 @default.
- W889408723 cites W2405782201 @default.
- W889408723 cites W2914048585 @default.
- W889408723 cites W2985450779 @default.
- W889408723 cites W35130055 @default.
- W889408723 cites W38163879 @default.
- W889408723 cites W7560395 @default.
- W889408723 cites W766042757 @default.
- W889408723 cites W76980713 @default.
- W889408723 cites W822762561 @default.
- W889408723 cites W2736929232 @default.