Автоматика, связь, информатика. 2025. № 11. С. 33–35
Automation, communications, informatics. 2025. № 11. Р. 33–35
ЦИФРОВЫЕ ТЕХНОЛОГИИ
Научная статья
УДК 004.032.26
DOI: 10.62994/AT.2025.11.11.008
Интеллектуальная система для транскрибации речи
Малинский Станислав Вальтерович1, Сафронов Александр Иванович2
1Российский университет транспорта РУТ (МИИТ), кафедра «Вычислительные системы, сети и информационная безопасность», доцент, канд. техн. наук, Москва, Россия, malinsky.sv@edu.rut-miit.ru
2Российский университет транспорта РУТ (МИИТ), студент магистратуры, Москва, Россия,
Аннотация. В статье представлен прототип интеллектуальной системы для транскрибации речевых команд диспетчеров и машинистов. Рассмотрены современные транскрибаторы, приведен их сравнительный анализ. На основе результатов экспериментов предложено применять библиотеку Vosk как наиболее надежную и адаптируемую модель для оффлайн применения. Изложен алгоритм работы интеллектуального транскрибатора, реализованный на языке Python с использованием библиотек для обработки звука vosk, wave, json и difflib. При этом результаты сохраняются в формате JSON, что обеспечивает удобство хранения и передачи данных, а также возможность последующего анализа ошибок.
Ключевые слова: интеллектуальная система, транскрибация, распознавание речи, железнодорожный транспорт, машинное обучение, нейронные сети
Для цитирования: Малинский С.В., Сафронов А.И. Интеллектуальная система для транскрибации речи // Автоматика, связь, информатика. 2025. № 11. С. 33–35. DOI: 10.62994/AT.2025.11.11.008
DIGITAL TECHNOLOGIES
Original article
Intelligent speech recognition system
Stanislav V. MALINSKY1, Alexander I. SAFRONOV2
1Russian University of Transport (RUT MIIT), Department of “Computing Systems, Networks and Information Security”, Associate Professor, Cand. Sci. (Eng.), Moscow, Russia, malinsky.sv@edu.rut-miit.ru
2Russian University of Transport (RUT MIIT), Department of “Computing Systems, Networks and Information Security”, Master’s Student, Moscow, Russia, aleksandr.safronov2003@gmail.com
Abstract. This article presents a prototype of an intelligent system for transcribing voice commands of railway dispatchers and train drivers. Modern speech transcription tools are reviewed, and a comparative analysis is provided. Based on the experimental results, the Vosk library is proposed as the most reliable and adaptable model for offline application. The algorithm of the intelligent transcriber, implemented in Python using the vosk, wave, json, and difflib libraries for audio processing, is described. The results are saved in JSON format, which ensures convenient data storage and transmission, as well as the possibility for subsequent error analysis.
Keywords: intelligent system, transcription, speech recognition, railway transport, machine learning, neural networks
For citation: Malinsky S.V., Safronov A.I. Intelligent speech recognition system // Automation, communications, Informatics. 2025. № 11. Р. 33–35. DOI: 10.62994/AT.2025.11.11.008
Список источников
1. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups / G. Hinton, L. Deng; D. Yu, G.E. Dahl, A. Mohamed, N. Jaitly // IEEE Signal Processing Magazine. 2012. Vol. 29, no. 6. P. 82-97. doi: 10.1109/MSP.2012.2205597. URL: https://ieeexplore.ieee.org/ document/6296526.
2. The Microsoft 2017 conversational speech recognition system / W. Xiong, L. Wu, F. Alleva, J. Droppo, X. Huang, A. Stolcke // IEEE ICASSP 2018. 2018. URL: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/12/ms16-conversational-speech-icassp-2017.pdf.
3. Kaldi : site / Povey D. URL: https://kaldi-asr.org/.
4. Turn speech into text using Google AI : site. URL: https://cloud.google.com/ speech-to-text.
5. VOSK offline speech recognition // Alpha Cephei: site. URL: https:// alphacephei.com/vosk/.
6. Dictation – frequently asked questions // dictation.io: site. 2025. URL: https://dictation.io/help.
7. Speech recognition in the browser using Web Speech API : blog. URL: https://www.assemblyai.com/blog/speech-recognition-javascript-web-speech-api.
© Москва «Автоматика, связь, информатика» 2025