Барнаульская IT-компания научила искусственный интеллект определять личность человека по голосу

0 97
0
(0)

Барнаульская IT-компания научила искусственный интеллект определять личность человека по голосу

Барнаульская IT-компания научила искусственный интеллект определять личность человека по голосу

Барнаульская IT-компания научила искусственный интеллект определять личность человека по голосу

Барнаульская IT-компания научила искусственный интеллект определять личность человека по голосу

За три года IT-компания из Барнаула Estesis научила искусственный интеллект (ИИ) распознавать предметы и определять личность человека по голосу. Сегодня к разработчикам обращаются клиенты из Европы, Америки и Азии, а продукция компании отмечалась на краевом, федеральном и даже мировом уровне.

Содержание:

Неклассическое программирование

Компания Estesis создавалась еще в 2019 году. Первым делом для качественного машинного обучения предприятию потребовались большие вычислительные мощности. С этим помогла крупная технологическая фирма из США Nvidia. Почти сразу после открытия IT-предприятия разработчики из Барнаула попали в международную программу поддержки инновационных стартапов и получили порядка 25 тысяч долларов для аренды серверов, на которых начали развивать нейронные сети. Сегодня программы барнаульских разработчиков умеют не только следовать простым алгоритмам, но и видеть, слышать, а также обучаться, а средства на необходимые компьютерные мощности уже закладываются в стоимость проекта.

Генеральный директор компании Яков Филин признается, что пока личные разработки приносят не так много денег, потому что в прорывные инновации сначала нужно влить немало средств, только после этого они выстреливают. Но уже пройдена стадия, когда предприятие жило почти без прибыли и развивалось за свой счет.

– Мы работаем в области искусственного интеллекта. Это неклассический вид программирования. Благодаря нашей системе платформа может распознавать человека по голосу, способна перевести речь в текст или определить, что изображено на фотографии, – объясняет Филин. – Может показаться, что это что-то сложное, но для нас это простая математика и анализ данных.

Достаточно одного взгляда

Главная цель работы IT-фирмы – автоматизировать привычные процессы, тем самым упростить не только быт, но и работу. Например, один из недавних проектов был связан с автоматической генераций субтитров к песням. База аудиозаписей состояла из 2,5 миллионов треков и расшифровок к ним. Искусственный интеллект при помощи распознавания голоса сопоставлял данные и добавлял текст к композиции. Обрабатывать настолько огромный объем данных вручную слишком трудоемко, а правильно запрограммированный ИИ без труда справляется с такой задачей.

Одно из основных направлений разработок – компьютерное зрение. Созданный компанией терминал позволяет без участия кассира определять блюдо на подносе, рассчитать их стоимость и принять оплату за обед. Пока это пилотный проект, машина все еще обучается, но несколько таких аппаратов в прошлом году уже были установлены в столовых на барнаульских предприятиях.

– Наши бизнес-партнеры производят терминалы, а мы встраиваем туда софт. Представляем не просто сканер еды, а целое цифровое решение, – подчеркивает гендиректор компании. – Например, кассирам в некоторых супермаркетах наш «глаз» помогает: моментально распознает весовой продукт. Достаточно просто поднести товар к «считывателю» – и программа сразу поймет, что перед ней находятся именно яблоки и именно марки «Голден».

Филин добавил, что компьютерное зрение – перспективное направление работы и сканеры уже неплохо себя зарекомендовали. После тестирования инновационная разработка будет появляться и в других заведениях, а их производством будет заниматься отдельная бизнес-единица.

Тонкий слух

Программисты учат нейросеть не только видеть, но и слышать. Голосовые технологии уже давно используются в кол-центрах, при наборе текста и даже для разблокировки смартфона. Главное в этом направлении – безопасность, потому как сложнее всего определить, что в банк позвонил именно клиент, а не злоумышленник.

– Человек может находиться в разных акустических окружениях, например, ехать в машине, говорить с разной интонацией, на разных языках. Наша задача – нивелировать эту особенность и не дать нейросети запутаться, – объясняет предприниматель.

Для безопасности пользователей в каждой сфере порог вхождения настраивается индивидуально. В финансовых компаниях важнее всего не пустить в систему мошенника. В этом случае совпадение голоса должно быть максимальным. «Лучше немного «покошмарить» клиента, заставляя его по нескольку раз повторять определенную фразу, чем дать злоумышленнику доступ к его счету», – констатирует Филин.

Такая же программа используется при подсчете эфирного времени на телевидении, по голосу определяя, сколько времени в кадре провел тот или иной человек. Но для таких функций устанавливается больший порог принятий, потому что это не такая опасная сфера. И если нейросеть спутает чьи-то тембры, ничего страшного не произойдет.

– Мы представляли программу на международных конкурсах. По итогам вошли в десятку лучших мировых команд по точности распознавания. Вероятность ошибки составляет менее двух процентов, но эту погрешность можно устранить, правильно настроив порядок доступа. Технология уже внедрена в один из крупных российских банков, но, согласно договору, мы еще не можем называть его.

Фото автора

Источник: www.ap22.ru

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

Сожалеем, что вы поставили низкую оценку!

Позвольте нам стать лучше!

Расскажите, как нам стать лучше?

Оставьте ответ

Ваш электронный адрес не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.