Кибер-речь: в ДВФУ оцифровуют русский язык
В Школе цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ) создадут цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта.
Проект реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы «Искусственный интеллект и большие данные». Электронный сбор заявок на участие в первом этапе работы будет открыт в сентябре.
Одним из первых продуктов по итогам проведённой работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. На подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.
«Мы уже начали разработку синтетической личности в партнёрстве со «Сбербанком», что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией «Нейросети Ашманова». Она предоставит нам технологию цифровой разметки материала. Результаты нашей совместной работы мы поэтапно будем передавать для открытого использования всем заинтересованным сторонам». — Рассказал Илья Мирин, директор Школы цифровой экономики ДВФУ.
Эксперт объяснил, что фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути – собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.
Первичный этап накопления языкового материала планируется завершить через год, после чего начнется оцифровка.
На первом этапе к работе будут привлечены волонтёры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты, и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесённые фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесённых естественным образом. При этом предстоит решить целый комплекс сопутствующих задач.
Источник: it-world.ru
Читайте также:
ПодписатьсяНКЦКИ и Инфосекьюрити заключили соглашение о сотрудничестве
Инфосекьюрити (входит в ГК Softline) сообщает о подписании соглашения о сотрудничестве с Национальным координационным центром по компьютерным инцидентам (НКЦКИ), целью которого является организация взаимодействия в сфере обнаружения, предупреждения и ликвидации компьютерных атак в рамках ГосСОПКА.
Установлены сроки проведения эксперимента по прослеживаемости импортируемых в Россию товаров
Согласно постановлению от 25 июня 2019 года №807, принято решение о проведении с 1 июля по 31 декабря 2019 года эксперимента по прослеживаемости импортируемых товаров.