Искусственный и натуральный интеллект проекта Open Longevity
Так же, как я не хожу в ночной клуб без макияжа, негоже стартапить без базового: бигдата, искусственный интеллект, нейронные сети, блокчейн, дайте денег. Как на меня люди-то посмотрят? Стыдоба! Но также, как и макияж, кодовые заклинания фандрайзера должны быть органичными и уместными.
Уместен ли ИИ, что бы это ни значило, в проекте Open Longevity? Нахрена козе баян? Не для красивого ли он словца?
Интуитивно ответ на этот вопрос мне и самой был понятен. Очевидно, что проект, занимающийся сбором и анализом большого объёма данных, во всё вышеперечисленное упирается.
Но интуиции у меня не было и нет. По сему я встретилась с одним из советников проекта — Сергеем Марковым. Сергей — интеллектуальная мощь. Прочитайте на нашем сайте, поверьте на слово или вот:
К примеру, буквально на днях у Сергея совместно с компанией Gero вышла статья «Extracting biological age from biomedical data via deep learning: too much of a good thing?». По нашему — «Извлечение биологического возраста из биомедицинских данных путём глубокого обучения: не раскатали ли мы губу?»
Кстати, из фейсбука Сергея:
Основные проблемы, которые будут мешать проектам в области ИИ и машинного обучения в ближайшие годы:
— нехватка кадров;
— завышенные ожидания (заказчики будут хотеть, чтобы ваша система увеличила их доходы на 100%, 200%, 1000% и т.п., хотя реальные показатели это 1–5%);
— недооценка инфраструктурных составляющих проектов (сбор, очистка и разметка данных, необходимость контроля их качества, затраты на разработку и поддержку API, сопряжение моделей с существующими системами и т.п.);
— высокая инженерная сложность разработки и не всегда хорошая предсказуемость сроков разработки и потенциала моделей;
— отсутствие подходящих массивов для обучения supervised-моделей (не факт, что то, что лежит у вас в БД CRM, подойдёт в качестве обучающих массивов — могут быть проблемы с нерепрезентативностью данных, смещённостью выборок и т.п.);
— растущая сложность информационно-технологической инфраструктуры и сопряжённые с этим риски (сложная система проще ломается).
Итак, какие области применения машинного обучения просятся в OL в первую очередь? Вот, что мы с Сергеем придумали:
1. Распознавание символов
OCR (Optical Character Recognition)— распознавание символов с бланков результатов анализов (да, как FineReader).
2. Распознавание, разметка и систематизация изображений
ЭКГ, УЗИ, МРТ и прочие результаты функциональной диагностики.
Какие есть сложности по этим двум пунктам?
Наша цель — внедрить диагностику старения в клиническую практику и сделать максимально доступной. Не только потому, что это гуманно и правильно. Мы-то со всей душой, но просто чем больше данных, тем точнее предсказательная мощь. Мощь, которой мы все и будем пользоваться.
Так вот, даже самая крупная частная лабораторная сеть России Инвитро — это очень небольшая доля от всех лабораторных анализов.
Vademec.ru: “В госсекторе проводится 70% (в натуральном выражении) исследований, пусть и за меньшие деньги — 34,4 млрд рублей против 40,1 млрд в коммерции.”
Где сдают кровушку остальные граждане? В городской поликлинике по ОМС, в местной её лаборатории — вот где. Интернетов там нет, API этих ваших тоже.
Поэтому нам придется иметь дело с ручным вводом данных, а это, сами понимаете, к какому объёму ошибок ведёт. Либо, что видится более точным с точки зрения получения данных и более гуманным по отношению к пользователю — система “сфотографировал на телефон и загрузил”. Хорошо, что бланки более-менее единообразные, государственные, проще будет считывать…
Какие ещё сложности? Они известны. И они международного масштаба, эти сложности. И имя им — единицы измерения и однородность. Государственные, частные — кто в лес, кто по дрова. А уж когда выйдем на международный уровень!
Электронные медкарты — мечта миллионов. Это отдельный большой разговор. По-настоящему ценными такие карты станут, когда а) появятся б) сольются воедино. Очень надеемся, что решать проблему единообразия будут со всех сторон, на государственном уровне. Например, в 35 странах ОЭСР (Организации Экономического Сотрудничества и Развития) стараются. Жаль, Россию туда пока не пошла. Второй подход — криптоэкономика, блокчейн, решение силами зарождающихся внегосударственных структур.
Так что сбор данных — это какой-то, на первый взгляд, простой этап, но заморочи будет дай боже.
Едем дальше.
3. Диагностика
Здесь всё понятно. Вот набор данных, а вот нейронная сеть, которая с определенной точностью по данным предсказывает что-то о здоровье человека.
На вход такая модель может получать большие объёмы разнородных данных: результаты анализов — числа; данные различных исследований (ЭКГ, ЭЭГ, МРТ и др.) — изображения и комментарии к ним; данные с носимых гаджетов, тексты ваших постов в соцсетях. По сути дела речь идёт о наборе разреженных тензоров, развёрнутом во времени.
С такими задачами сегодня неплохо справляются рекуррентные нейронные сети с эмбеддингами. Нейронная сеть может обобщить все данные о пациенте из различных источников и при превышении опасных порогов вероятности для тех или иных состояний выдать рекомендации по обращению к врачам.
При этом для разметки обучающей выборки в качестве флага наличия опасного состояния можно использовать как выход тех или иных лабораторных показателей за границы известных референсных значений, так и данные специализированных моделей, например, известных сервисов по анализу кардиограмм, рентгеновских снимков и прочего: Zebra Medical Vision, SAS Cardiologs ECG Analysis Platform и другие.
Задачей модели будет выявление опасного состояния до его наступления.
Это первый этап внедрения элементов ИИ. Второй этап — свой алгоритм, но чужая дата для обучения (базы данных можно просить за так и покупать на стороне). Третий — всё своё, родное: и алгоритмы и информация пользователей.
4. Анализ научных публикаций
Я очень хочу, чтобы у Димы Веремеенко было время поспать. Поэтому его работу мне хочется облегчить, ускорить и автоматизировать.
Тут поможет ранжирование научных публикаций. А как только научимся ранжировать, то и генерация мета-анализов на подходе. Не придётся статью, километры текста, читать целиком — вот тебе коротенький дайджест, самая суть.
К примеру, есть Blinkist — живые люди читают книжки и создают чтиво (или аудио), усвояемое за 15 минут. Нам нужно так же, но с научными текстами и не человеческими усилиями.
С задачами анализа текстов, опять же, неплохо справляются рекуррентные нейронные сети с эмбеддингами. При этом могут использоваться тематические и семантически и темпорально обогащённые эмбеддинги, построенные на корпусах, собранных из научных публикаций, доступных в открытом доступе. Как говорится, word2vec и GloVe нам в помощь.
Самый интересный вопрос, как обычно, это вопрос целевой функции. Так-то уже есть импакт-фактор, цитируемость — это понятно. Но интересно было бы ранжировать и по другим заданным параметрам. Например: какова вероятность, что статья о доклинической стадии исследования (на зверушках) приводит к тому, что успешно пройдет испытание на людях?
Если мы сможем давать такую оценку, то сможем и дизайн исследований заранее оценивать. Описываешь дизайн, как если бы в статью писал, загрузил в алгоритм и вуаля! Хрустальный шар тебе: неа, помрут все в твоем эксперименте, не одобрит FDA. Предиктивная мощь сэкономит время, деньги и, что уж говорить, здоровье.
5. Постановка научных задач
Пункт следует из двух предыдущих. Хорошо прочесав весь массив знаний о биологии старения и возраст-зависимых заболеваниях, мы увидим белые пятна. Что из самого актуального недоизучено?
Плюс есть вероятность, что накопив массив данных о результатах собственной диагностики, мы увидим интересные расхождения с общемировой практикой — это было бы очень интересно! Вдруг дополнительные, не замеченные ранее факторы риска всплывут?
6. Электронная CRO
Что такое CRO (Contract Research Organisation)? Это такие прекрасные организации, которые делают всю пыльную и рутинную работу в клинических исследованиях. Готовят комплекты документов (протоколы, брошюры, бланки…), получают разрешения в надзорных органах, регистрируют всё в реестрах, договариваются с клиниками и пр.
Жизнь так устроена, что кем бы вы ни работали сегодня, завтра вас заменит алгоритм. Не минует сия чаша и CRO-компании.
Многое у них завязано на человеческом факторе, не все функции сразу получится передать машине. Но генерацию пакета документов хочется автоматизировать. Да, сначала будет немного коряво. Как Google-переводчик неидеально работает, надо за ним проверять. Но ведь раз в 10 ускоряет работу. Также я хочу и с документами поступать. Как-то система слепила, ты всё прочёл, подправил верстку, заменил «огурец» на «холодец» в 150 местах, но всё равно вышло быстрее. А быстрее значит дешевле.
Сложность здесь такая: нужно будет накормить алгоритм пачкой удачных документов, а они, насколько мне известно, всё-таки являются интеллектуальной собственностью фармкомпаний. На дороге не валяются, в открытом доступе не очень их много. С другой стороны, недавно же обязали публиковать не только удачные результаты клинических исследований, но и вообще все. Может, и документы заставят раскрыть.
Кто будет заниматься архитектурой системы?
Работа над собственными нейронными сетями до лета 2018 преждевременна. Очевидно, что и держать сейчас высокооплачиваемых специалистов, отвечающих за этот блок, смысла нет. Мы ведем переговоры с рядом компаний, имеющих свои разработки, но даже они нам понадобятся не сразу. С начала 2018 года мы можем спокойно приступить к набору специалистов — Сергей и другие компетентные в этой области советники проекта также подключится к рекрутингу. Всё под контролем.
Кстати, уже сейчас у нас есть рабочий алгоритм трактовки диагностической панели старения. Система не будет простаивать в ожидании ИИ. При этом алгоритм будет улучшаться, и сейчас это задача скорее для научного аналитика, нежели для разработчика. В этом плане мы тем более спокойны: аналитики у нас уже есть, и мы всегда находимся в поиске и привлечении новых специалистов.