2005, 14

А. Куремацу, М. Накано-Миятаке, Г. Перес-Меана, Э. Симанкас-Асеведо

Анализ характеристик систем распознавания речи на основе гауссовой модели со сложным ядром

язык: английский

получена 28.03.2005, опубликована 14.05.2005

Скачать статью (PDF, 310 кб, ZIP), используйте команду браузера "Сохранить объект как..."
Для чтения и распечатки статьи используйте «Adobe Acrobat© Reader» версии 4.0 или выше. Эта программа является бесплатной, ее можно получить на веб-сайте компании Adobe© (http://www.adobe.com/).

АННОТАЦИЯ

В статье представлен анализ влияния особенностей речи диктора на характеристики системы распознавания речи, основанной на гауссовой модели со сложным ядром. С этой целью система распознавания речи анализировалась с использованием особенностей речи полученных (а) из линейных кепстральных коэффициентов, выделенных из целого фрагмента речи, (б) из линейных кепстральных коэффициентов, полученных из голосовых частей фрагмента речи, (в) из линейных кепстральных коэффициентов, полученных из голосовых сегментов речи вместе с информацией о высоте звука, (г) из линейных кепстральных коэффициентов, полученных из голосовых сегментов, нормированных с использованием кепстральной нормализации среднего. Оценка результатов с использованием фраз фрагментов телефонного разговора на японском языке длиной 2,5–3 секунды показала, что хорошие характеристики системы распознавания речи, основанные на гауссовой модели, достигаются в большинстве случаев вне зависимости от особенностей голоса диктора как в случае системы, «обученной» конкретным фразам, так и «необученной». При этом вектор, характеризующий особенности речи и обеспечивающий лучшее распознавание, в значительной степени зависит от конкретного диктора.

16 страниц, 8 иллюстраций

Как сослаться на статью: А. Куремацу, М. Накано-Миятаке, Г. Перес-Меана, Э. Симанкас-Асеведо. Анализ характеристик систем распознавания речи на основе гауссовой модели со сложным ядром. Электронный журнал "Техническая акустика", http://ejta.org, 2005, 14.

ЛИТЕРАТУРА

[1] E. Simancas-Acevedo, A. Kurematsu, M. Nakano-Miyatake, H. Perez-Meana. Speaker Recognition Using Gaussian Mixtures Model. Lecture Notes in Computer Science, Bio-Inspired Applications of Connectionism, Springer Verlag, Berlin, 2001, 287–294.
[2] H. A. Murthy, F. Beaufays, L. P. Heck, M. Weintraub. Robust Text-Independent Speaker Identification over Telephone Channels. IEEE Transactions on Speech and Audio Processing, vol. 7, N°5, September 1999.
[3] D. A. Reynolds. Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models. IEEE Transactions on Speech and Audio Processing, vol. 3, N°1, 72–83, January 1995.
[4] S. Van Vuren. Comparison of Text-Independent Speaker Recognition Methods on Telephone Speech with Acoustic Mismatch. Oregon Graduate Institute of Science & Technology Center for Spoken Language Understanding, 20000 N.W. Walker Road, Beaverton, Oregon 97006 USA.
[5] J. P. Campbell. Speaker Recognition: A Tutorial. Proceedings of the IEEE, vol. 85, N°9, 1437–1462, Sept. 1997.
[6] H. K. Kim, H. S. Lee. Use of Spectral Autocorrelation in Spectral Envelope Linear Prediction for Speech Recognition. IEEE Transactions on Speech and Audio Processing, vol. 7, N°5, September 1999.
[7] T. Ganchev, A. Tsopanoglou, N. Fakotakis, G. Kokkinakis. Probabilistic Neural Networks Combined with GMMs For Speaker Recognition over Telephone Channels. 14-th International Conference On Digital Signal Processing (DSP 2002), 2002, July 1 3, Santorini, Greece, Volume II, 1081–1084.
[8] D. A. Reynolds. Experimental Evaluation of Features for Robust Speaker Identification. IEEE Transactions on Speech and Audio Processing, vol. 2, N°4, October 1994.
[9] K. P. Markov, S. Nakagawa. Integrating Pitch and LPC-Residual Information with LPC-Cepstral for Text-independent Speaker Recognition. J. Acoustic Society of Japan (E), 20, 4, 281–291, 1999.
[10] J. Pool, J. A. du Preez. HF Speaker Recognition. Thesis notes, Digital Signal Processing Group, Department of Electrical and Electronic Engineering, University of Stellenbosch, March 1999.
[11] M. D. Plumper, T. F. Quatieri, D. A. Reynolds. Modeling of the Glottal Flow Derivative Waveform with Application to Speaker Identification. IEEE Transactions on Speech and Audio Processing, vol. 7, N°5, September 1999.
[12] K. Markov, S. Nakagawa. Frame Level Likehood Normalization For Text-Independent Speaker Identification Using Gaussian Mixture Models. The Fourth International Conference on Spoken Language Processing, ICSLP96, vol. 3, October 3–6, Wyndham Franklin Plaza Hotel, Philadelphia, PA, USA.
[13] J. de Vetch, L. Boves. Comparison of Channel Normalization Techniques For Automatic Speech Recognition Over the Telephone. Department of Language and Speech, University of Nijmegen, P.O. Box 9103, 6500 HD Nijmen, The Netherlands.
[14] F. Liu, Richard M. Stern, Xuedong Huang, Alejandro Acero. Efficient Cepstral Normalization For Robust Speech recognition. Department of Electrical and Computer Engineering, School of Computer Science, Carnegie Mellon University. Pittsburgh, PA 15213.
[15] L. R. Rabiner, M. Cheng, A. Rosemberg, C. McGoegal. A Comparative Performance Study of Several Pitch Detection Algorithms. IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. ASSP-24, N°5, 399–418, October 1976.
[16] B. Rabiner, B. Gold. Digital Processing of Speech Signals. Prentice Hall, Englewood Cliffd, NJ, 1975.
[17] D. Hardt and K. Fellbaum. Spectral Subtraction and Rasta Filtering in Text Dependent HMM-based Speaker Verification. Proc. of ICASSP, vol. 2, 867-870, April 1997.
[18] E. Simancas, M. Nakano Miyatake, H. Perez-Meana. Speaker Verification Using Pitch and Melspec Information. Journal of Telecommunications and Radio Engineering, vol. 56, 46–57, Jan. 2000.
[19] F. Hou, B. Wong. Text Independent Speaker Recognition Using Probabilistic SVM with GMM Adjustment. Proc. of the International Conference of Speech, Acoustics and Signal Processing, 305–308, 2003.
[20] D. A. Reynolds. An Overview of Automatic Speaker Recognition Technology. Proc. of the International Conference of Speech, Acoustics and Signal Processing, vol. 4, 4072–4075, 2002.
[21] E. Simancas Acevedo, H. Perez-Meana, M. Nakano Miyatake, A. Kurematsu. Effect of Voiced Segments in Gaussian Mixture Model Text Independent Speaker Verification. Journal of Electromagnetics Waves and Electronic Systems, vol. 8, N°7, 34–42, August, 2003.
[22] R. Zheng, S. Zhang, B. S. Xu. Text Independent Speaker Identification Using GMM-UBM and Frame Level Likelihood Normalization. International Symposium on Chinese Spoken Language Processing, 289–292, Dec. 2004.
[23] M. Kepesi, J. Macku. Introducing the Single-Channel Speech Separation Problem. Department of Telecommunications, Brno University of Technology, Purkynova 118, 612 00 Brno.
[24] M. Plsek, M. Vondra. Pitch Detection in Noisy Speech Recordings. Brno University of Technology, Faculty of Electrical Engineering and Communications, Department of Telecommunications, Purkynova 118, 61200 Brno, Czech Republic.

		Акира Куремацу окончил университет в Токио (Япония) в 1961, диссертацию защитил в 1971. С 1993 профессор кафедры электроники университета. Автор многочисленных статей и пяти монографий. В 1997-1998 являлся председателем токийского отделения Института инженеров по электротехнике и электронике (IEEE), член многих общественных организаций в т.ч. Японского акустического общества. Основные научные интересы: обработка сигналов, распознавание речи.

		Марико Накано-Миятаке окончила университет электросвязи в Токио (Япония) в 1985, диссертацию защитила в Мексике в 1998. В настоящее время – профессор Национального политехнического института Мексики. Научные интересы: адаптирующиеся системы, нейронные сети, распознавание изображений.

		Гектор Перес-Меана окончил университет электросвязи в Токио (Япония), диссертацию защитил в Токийском технологическом институте в 1989. В настоящее время – профессор Национального политехнического института Мексики. Основные научные интересы: адаптивные фильтры обработка и распознавание изображений, распознавание речи. e-mail: hmpm(at)prodigy.net.mx

		Эрик Симанкас-Асеведо докторант Национального политехнического института Мексики. Научные интересы: распознавание изображений и речи, нейронные сети, обработка сигналов.

Электронный журнал «Техническая акустика» ISSN 1819-2408

Языки

Поиск