Также в Golos входит модель распознавания речи, которая демонстрирует точность, сравнимую с человеческой, сообщает пресс-служба банка.
Датасет можно скачать на сайте GitHub.
Данные Golos могут быть использованы для распознавания и синтеза речи. Сбер предоставит их по лицензии, допускающей использование в исследовательских и коммерческих целях.
Над датасетом работала команда SberDevices. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную.
Помимо данных, «Сбер» выкладывает обученную на них модель распознавания речи. Она проходила обучение с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos, заявили в банке.
Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в «Сбере» рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. <...> Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий.
Денис Филиппов, CTO SberDevicesРанее глава Сбербанка Герман Греф заявил, что экосистема банка будет открытой для доступа к ней других участников.
Подписывайтесь на наш TG-канал, чтобы быть в курсе всех новостей и событий!
Фото на обложке: bxTT /