Интеллектуальная система для транскрибации речи

Главная
/
Архив номеров
/
2025
/
№11, 2025
/
Intelligent speech recognition system

 

Автоматика, связь, информатика. 2025. № 11. С. 33–35

Automation, communications, informatics. 2025. № 11. Р. 33–35

 

ЦИФРОВЫЕ ТЕХНОЛОГИИ

Научная статья

УДК 004.032.26

DOI: 10.62994/AT.2025.11.11.008

Интеллектуальная система для транскрибации речи

Малинский Станислав Вальтерович1, Сафронов Александр Иванович2

1Российский университет транспорта РУТ (МИИТ), кафедра «Вычислительные системы, сети и информационная безопасность», доцент, канд. техн. наук, Москва, Россия, malinsky.sv@edu.rut-miit.ru

2Российский университет транспорта РУТ (МИИТ), студент магистратуры, Москва, Россия,

Аннотация. В статье представлен прототип интеллектуальной системы для транскрибации речевых команд диспетчеров и машинистов. Рассмотрены современные транскрибаторы, приведен их сравнительный анализ. На основе результатов экспериментов предложено применять библиотеку Vosk как наиболее надежную и адаптируемую модель для оффлайн применения. Изложен алгоритм работы интеллектуального транскрибатора, реализованный на языке Python с использованием библиотек для обработки звука vosk, wave, json и difflib. При этом результаты сохраняются в формате JSON, что обеспечивает удобство хранения и передачи данных, а также возможность последующего анализа ошибок.

Ключевые слова: интеллектуальная система, транскрибация, распознавание речи, железнодорожный транспорт, машинное обучение, нейронные сети

Для цитирования: Малинский С.В., Сафронов А.И. Интеллектуальная система для транскрибации речи // Автоматика, связь, информатика. 2025. № 11. С. 33–35. DOI: 10.62994/AT.2025.11.11.008

 

DIGITAL TECHNOLOGIES

Original article

Intelligent speech recognition system

Stanislav V. MALINSKY1, Alexander I. SAFRONOV2

1Russian University of Transport (RUT MIIT), Department of “Computing Systems, Networks and Information Security”, Associate Professor, Cand. Sci. (Eng.), Moscow, Russia, malinsky.sv@edu.rut-miit.ru

2Russian University of Transport (RUT MIIT), Department of “Computing Systems, Networks and Information Security”, Master’s Student, Moscow, Russia, aleksandr.safronov2003@gmail.com

Abstract. This article presents a prototype of an intelligent system for transcribing voice commands of railway dispatchers and train drivers. Modern speech transcription tools are reviewed, and a comparative analysis is provided. Based on the experimental results, the Vosk library is proposed as the most reliable and adaptable model for offline application. The algorithm of the intelligent transcriber, implemented in Python using the vosk, wave, json, and difflib libraries for audio processing, is described. The results are saved in JSON format, which ensures convenient data storage and transmission, as well as the possibility for subsequent error analysis.

Keywords: intelligent system, transcription, speech recognition, railway transport, machine learning, neural networks

For citation: Malinsky S.V., Safronov A.I. Intelligent speech recognition system // Automation, communications, Informatics. 2025. № 11. Р. 33–35. DOI: 10.62994/AT.2025.11.11.008

Список источников

1. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups / G. Hinton, L. Deng; D. Yu, G.E. Dahl, A. Mohamed, N. Jaitly // IEEE Signal Processing Magazine. 2012. Vol. 29, no. 6. P. 82-97. doi: 10.1109/MSP.2012.2205597. URL: https://ieeexplore.ieee.org/ document/6296526.

2. The Microsoft 2017 conversational speech recognition system / W. Xiong, L. Wu, F. Alleva, J. Droppo, X. Huang, A. Stolcke // IEEE ICASSP 2018. 2018. URL: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/12/ms16-conversational-speech-icassp-2017.pdf.

3. Kaldi : site / Povey D. URL: https://kaldi-asr.org/.

4. Turn speech into text using Google AI : site. URL: https://cloud.google.com/ speech-to-text.

5. VOSK offline speech recognition // Alpha Cephei: site. URL: https:// alphacephei.com/vosk/.

6. Dictation – frequently asked questions // dictation.io: site. 2025. URL: https://dictation.io/help.

7. Speech recognition in the browser using Web Speech API : blog. URL: https://www.assemblyai.com/blog/speech-recognition-javascript-web-speech-api.

© Москва «Автоматика, связь, информатика» 2025

RZD_ASI_logo_2025
издается с 1923 г.
Актуально.
Достоверно. Доступно.
Главное меню
Наши контакты
129272, Москва,
Рижская площадь, д.3
Свяжитесь с нами любым удобным способом
Звоните по номеру
Мы  находимся по адресу:
129272, Москва,
Рижская площадь, д.3
Электронная почта:
Скрытое поле:
Оставить заявку
это поле обязательно для заполнения
Ваше имя*
это поле обязательно для заполнения
Ваша почта*
это поле обязательно для заполнения
Ваш телефон:*
это поле обязательно для заполнения
Область ввода:*
это поле обязательно для заполнения
Политика*
Спасибо! Форма отправлена