oneFactor в 19 раз ускорил обучение алгоритмов на платформе SmartMachine для максимально быстрого запуска ML-сервисов

1F team
oneFactor (Russia)
Published in
3 min readJun 28, 2021

Компания oneFactor применила процессоры Intel® Xeon® Scalable третьего поколения для ускорения процесса машинного обучения в анклавах Intel® Software Guard Extensions (Intel® SGX) на собственной платформе SmartMachine для конфиденциального совместного машинного обучения на глобальном графе клиентских связей и быстрого создания максимально точных сервисов. В результате было достигнуто ускорение полного цикла обучения в 8–19 раз в зависимости от размера подаваемых на вход данных по сравнению с использованием процессоров Intel предыдущего поколения. Использование решений Intel на платформе SmartMachine позволяет повысить качество рекомендаций сервисов на 20–35%, существенно ускорить цикл создания новых моделей в SGX-анклавах всего до нескольких часов, а также упростить процедуру масштабирования платформы в пиковую нагрузку клиентов.

Тесты показали, что ключевые компоненты платформы oneFactor, обеспечивающие безопасное обучение алгоритмов машинного обучения, успешно работают на новых процессорах Intel Xeon Scalable третьего поколения с поддержкой SGX2 и позволяют ускорить обучение алгоритмов на платформе компании в 8–19 раз в зависимости от размера подаваемых на вход данных по сравнению с использованием процессоров Intel Xeon предыдущего поколения. Так, время, требуемое на одну итерацию обучения, включающую загрузку данных в анклав, их подготовку и преобразование, а также само обучение, при размере обучающей выборки 3,6 Гигабайт составило 787 секунд для SGX1 и 91 секунду для SGX2. При размере обучающей выборки равной 11 Гигабайт данное время составило уже 4320 секунд для SGX1 и 224 секунды для SGX2.

Полученные по результатам тестов показатели демонстрируют, что выигрыш по времени увеличивается при росте размеров обучающей выборки: при 3,6 Гб подаваемых на обучение выигрыш составил 8,6 раз; при 11 Гб подаваемых на обучение выигрыш составил уже 19 раз. Также следует учитывать, что для получения промышленной модели платформа SmartMachine производит в среднем 150 итераций и это даёт значительный выигрыш по времени обучения при использовании новых CPU ICX с поддержкой SGX2. Решения нового поколения от Intel существенно сокращают цикл создания новых моделей в SGX-анклавах на платформе компании всего до нескольких часов, а также упрощают процедуру масштабирования платформы в пиковую нагрузку клиентов.

oneFactor разработал платформу SmartMachine для объединения данных нескольких компаний и индустрий на основе multy-party computation (MPC — многосторонние конфиденциальные вычисления) технологии с использованием аппаратного решения Intel SGX в конце 2018 года. Платформа компании запущена в промышленную эксплуатацию в конце 2020 года. С марта 2021 года технология oneFactor позволяет не только исполнять алгоритмы машинного обучения в анклаве, но также их тренировки внутри анклава Intel SGX. Теперь исполняемый код — алгоритм машинного обучения, генерируется непосредственного в анклаве с помощью инновационных методов. Технология была запатентована компанией oneFactor на территории Российской Федерации в мае 2019 года. На данный момент к платформе уже подключен ряд крупнейших по объему розничного кредитования российских банков.

С помощью технологии Intel SGX решение oneFactor позволяет обрабатывать полностью зашифрованные данные в апаратно-защищенной среде. Технология предоставляет возможность конфиденциально объединять данные разных компаний и индустрий в едином вычислительном облаке, а затем использовать их в рекомендательных сервисах на базе искусственного интеллекта. Особенностью платформы SmartMachine является высокий уровень защиты исходных данных от компрометации на аппаратном уровне, поскольку их «видит» только алгоритм машинного обучения. К данным нет доступа даже у администраторов системы или поставщика облачных сервисов, что подтверждено независимым аудитом с участием компаний, подключивших свои данные к платформе. Изоляция данных в анклаве SGX обеспечивает дополнительную защиту от несанкционированного внешнего или внутреннего доступа. Это первое в России коммерческое применение технологии обеспечения конфиденциальности данных для тренировки алгоритмов машинного обучения в решении для финансового сектора.

Новое решение позволяет повысить качество рекомендаций с применением алгоритмов машинного обучения на 20–35% по сравнению с раздельной обработкой данных. Такой существенный прирост производительности обеспечивается за счет комбинации данных различных типов и обучения алгоритмов в зашифрованном виде. С помощью платформы банки могут дополнительно улучшить качество сервисов и обслуживания своих клиентов: от противодействия телефонному мошенничеству до полностью автоматической верификации кредитных заявок.

Технология не ограничивает количество или категории данных, которые могут быть подключены к платформе. Она позволяет за несколько дней запустить сервисы искусственного интеллекта как для владельцев данных, использующих платформу, так и для коммерческих заказчиков: банков, страховых компаний, ретейлеров, площадок электронной коммерции.

«Наше партнерство с Intel позволило не только разработать уникальную технологию обучения моделей внутри анклавов SGX, обеспечивающее дополнительную конфиденциальность клиентских данных, но и существенно сократить цикл создания новых моделей на платформе oneFactor всего до нескольких часов. Сокращение Time-to-Market позволяет компаниям, которые выпускают или внедряют новые решения, быть на шаг впереди рынка и получать дополнительную прибыль», — комментирует директор по продуктам и аналитике oneFactor Максим Воеводский. — Надеемся, что наша разработка промотивирует всех участников рынка к инвестициям в обеспечение защиты данных».

Подробнее читайте на Хабре

--

--