Метод разработки моделей распознавания речи для использования в информационных системах энергетики

В.А. Нечаев; С.В. Косяков

Метод разработки моделей распознавания речи для использования в информационных системах энергетики

В.А. Нечаев, С.В. Косяков

Вестник ИГЭУ, 2023 г. выпуск 4, сс. 94—100

Скачать PDF

Аннотация на русском языке:

Состояние вопроса. В настоящее время при разработке моделей автоматического распознавания речи для специализированных предметных областей, в частности для объектов энергетики, используются архитектуры глубоких нейронных сетей, которые требуют большого объема обучающих данных. При этом модели часто оказываются слабо пригодными для эксплуатации в конкретных информационных системах из-за некачественного распознавания специализированной предметной лексики. Дополнительное обучение моделей в части улучшения их качества в конкретном контексте распознавания наталкивается на сложности получения достаточного объема данных и трудоемкость их разметки. В связи с этим актуальной задачей является создание методов, позволяющих снизить трудоемкость построения прикладных моделей распознавания речи и улучшить их качество при использовании в предметных областях, в частности в области энергетики.

Материалы и методы. Применены методы тематического моделирования текста на основе языковых моделей для адаптации открытых данных. В качестве предобученной модели распознавания речи использована глубокая нейронная сеть. Для обучения использованы наборы данных из открытых источников.

Результаты. Разработан метод создания моделей автоматического распознавания речи для специализированных предметных областей, который включает этап промежуточного обучения лексике предметной области на данных из открытых источников, отобранных с использованием тематического семплирования. На основе метода создана и исследована модель автоматического распознавания речи для объектов энергетики, которая показала более высокие результаты распознавания, чем модели, полученные традиционными способами.

Выводы. Апробация предложенного метода подтвердила его эффективность. Разработанная на основе метода прикладная нейросетевая модель продемонстрировала возможность работы в информационных системах объектов энергетики на русском и английском языках без дополнительного обучения на закрытых данных.

Список литературы на русском языке:

1. Attention is all you need / A. Vaswani, N. Shazeer, N. Parmar, et al. // Advances in neural information processing systems. – 2017. – Vol. 30.

2. Transformer transducer: A streamable speech recognition model with transformer encoders and RNN-T loss / Q. Zhang, H. Lu, H. Sak, et al. // ICASSP 2020–2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – IEEE, 2020. – P. 7829–7833.

3. Li J. Recent advances in end-to-end automatic speech recognition // APSIPA Transactions on Signal and Information Processing. – 2022. – Vol. 11. – No. 1.

4. Невлюдов И.Ш., Цымбал А.М., Милютина С.С. Использование искусственной нейронной сети в подсистеме ввода голосовой информации САПР ТП роботизированного производства // Радиоэлектроника и информатика. – 2007. – № 1. – С. 56–61.

5. Saon G., Chien J.T. Large-vocabulary continuous speech recognition systems: A look at some recent advances // IEEE signal processing magazine. – 2012. – Vol. 29, No. 6. – P. 18–33.

6. Deep contextualized acoustic representations for semi-supervised speech recognition / S. Ling, Y. Liu, J. Salazar, K. Kirchhoff // ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – IEEE, 2020. – P. 6429–6433.

7. Audiolm: a language modeling approach to audio generation / Z. Borsos, R. Marinier, D. Vincent, et al. // arXiv preprint arXiv:2209.03143. – 2022.

8. Russian open speech to text (stt/asr) dataset (2022) / A. Slizhikova, A. Veysov, D. Nurtdinova, et al. https://github.com/snakers4/open_stt/

9. Gigaspeech: An evolving, multi-domain asr corpus with 10,000 hours of transcribed audio / G. Chen, S. Chai, G. Wang, et al. // arXiv preprint arXiv:2106.06909. – 2021.

10. Librispeech: an asr corpus based on public domain audio books / V. Panayotov, G. Chen, D. Povey, S. Khudanpur // 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP). – IEEE, 2015. – С. 5206–5210.

11. Common voice: A massively-multilingual speech corpus / R. Ardila, M. Branson, K. Davis, et al. // arXiv preprint arXiv:1912.06670. – 2019.

12. Mls: A large-scale multilingual dataset for speech research / V. Pratap, Q. Xu, A. Sriram, et al. // arXiv preprint arXiv:2012.03411. – 2020.

13. Munich Artificial Intelligence Laboratories GmbH. The m-ailabs speech dataset. https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/, 2017.

14. The multilingual tedx corpus for speech recognition and translation / E. Salesky, M. Wiesner, J. Bremerman, et al. // arXiv preprint arXiv:2102.01757. – 2021.

15. Voxpopuli: A large-scale multilingual speech corpus for representation learning, semi-supervised learning and interpretation / C. Wang, M. Rivière, A. Lee, et al. // arXiv preprint arXiv:2101.00390. – 2021.

16. VoxForge, Free Speech Recognition. www.voxforge.org, 2022.

17. Mpnet: Masked and permuted pre-training for language understanding / K. Song, X. Tan, T. Qin, et al. // Advances in Neural Information Processing Systems. – 2020. – Т. 33. – С. 16857–16867.

18. McInnes L., Healy J., Melville J. Umap: Uniform manifold approximation and projection for dimension reduction // arXiv preprint arXiv:1802.03426. – 2018.

19. McInnes L., Healy J. Accelerated hierarchical density based clustering // 2017 IEEE International Conference on Data Mining Workshops (ICDMW). – IEEE, 2017. – С. 33–42.

20. Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure // arXiv preprint arXiv:2203.05794. – 2022.

21. Nemo: a toolkit for building ai applications using neural modules / O. Kuchaiev, J. Li, H. Nguyen, et al. // arXiv preprint arXiv:1909.09577. – 2019.

22. Citrinet: Closing the gap between non-autoregressive and autoregressive end-to-end models for automatic speech recognition / S. Majumdar, J. Balam, O. Hrinchuk, et al. // arXiv preprint arXiv:2104.01721. – 2021.

23. Conformer: Convolution-augmented transformer for speech recognition / A. Gulati, J. Qin, C. Chiu, et al. // arXiv preprint arXiv:2005.08100. – 2020.

24. Student's t-test. Dependent t-test for paired samples. URL: https://en.wikipedia.org/wiki/T-test#Dependent_t-test_for_paired_samples (дата обращения: 01.02.2023).

Ключевые слова на русском языке:

модели распознавания речи, машинное обучение, методы тематического моделирования текста, нейронная сеть, языковая модель

Ключевые слова на английском языке:

automatic speech recognition models, machine learning, thematic modelling methods, neural network, language model

Индекс DOI:

10.17588/2072-2672.2023.4.094-100

Количество скачиваний: