Будущее, ИИ и Компьютерное Зрение, кейсы и результаты внедрения
Дмитрий Марков и Ярослав Филиппов
О чем подкаст
Дмитрий Марков:
– CEO VisionLabs;
– Исполнительный директор Центра ИИ МТС;
– Еx-CEO НИС ГЛОНАСС.
В подкасте обсудили:
– Будущее ИИ и компьютерного зрения;
– Востребованные кейсы;
– Внедрение ИИ, конкуренцию;
– Главную задачу CEO;
– Изменения в резюме и найме.
– CEO VisionLabs;
– Исполнительный директор Центра ИИ МТС;
– Еx-CEO НИС ГЛОНАСС.
В подкасте обсудили:
– Будущее ИИ и компьютерного зрения;
– Востребованные кейсы;
– Внедрение ИИ, конкуренцию;
– Главную задачу CEO;
– Изменения в резюме и найме.
40 ключевых мыслей
Мысли гостя (Дмитрий Марков, компания VisionLabs)
Искусственный интеллект применялся в поисковиках и других системах задолго до недавнего бума, просто генеративные модели (трансформеры) сделали его доступным для масс.
Российская математическая школа остается одной из сильнейших в мире, а отечественные продукты в сфере ИИ лидируют в международных рейтингах без каких-либо барьеров на экспорт.
Жесткая корпоративная субординация убивает креативность; лучшие IT-продукты рождаются в компаниях, которые работают по принципу комьюнити.
Если умных сотрудников приходится заставлять работать, значит, компания наняла неправильных людей; правильным людям нужно просто давать свободу.
В IT-сфере классические бизнес-стратегии в PowerPoint часто бесполезны, так как технологии радикально меняются в течение одного года.
Исторически компьютерное зрение требовало обучения отдельных нейросетей под каждую узкую задачу (например, поиск брака на конвейере) на огромных базах фотографий.
Будущее компьютерного зрения — за визуальными языковыми моделями (VLM), которые смогут без предварительного обучения описывать всё происходящее на видео (например, находить неубранные улицы по текстовому запросу).
VisionLabs не конкурирует с OpenAI: американская компания предоставляет облачные сервисы общего назначения, а VisionLabs ставит узкоспециализированные решения во внутренний контур (on-premise) заказчика.
Биометрия лица радикально меняет клиентский опыт в консервативных сферах: от снятия наличных в банкомате без карты до заселения в гостиницу без паспорта.
Системы «Цифровой гражданин» (Digital ID) экономят государствам колоссальные бюджеты — например, выявляя несуществующие («мертвые души») детские сады, получающие дотации.
Внедрение Face Pay в Московском метрополитене стало одним из самых сложных проектов в мире не только из-за трафика, но и из-за огромного количества IT-интеграций.
Этика ИИ требует, чтобы технологии были доступны абсолютно всем людям, поэтому системы распознавания лиц не могут намеренно завышать порог точности, отсекая определенные группы лиц.
Проблема ложного распознавания близнецов решается современными нейросетями: система находит похожих людей в базе и точечно повышает порог безопасности только для них.
Страх перед камерами как «цифровым концлагерем» нелогичен: люди добровольно отдают корпорациям гораздо больше приватной информации через смартфоны и социальные сети.
Видеоаналитика в городах снижает уровень уличной преступности примерно на 20% в год просто за счет того, что преступники в федеральном розыске сами мигрируют из умных городов.
ИИ нельзя использовать для предиктивного поиска преступников по чертам лица, так как это неминуемо приведет к дискриминации и алгоритмической предвзятости.
Идеальный (но пока не реализованный массово) кейс компьютерного зрения — автоматическая оценка ДТП по фотографии для моментального разъезда по европротоколу без участия ГАИ.
Компьютерное зрение уже доступно среднему бизнесу: система выявления брака за 20 млн рублей может окупиться на производстве менее чем за 9 месяцев.
Через 2-3 года около 70% «белых воротничков» будут обязаны использовать генеративный ИИ в своей ежедневной рутине просто для того, чтобы оставаться конкурентоспособными на рынке труда.
Внедрение ИИ во внутренние контуры корпораций (B2B) никогда не бывает коробочным решением — это всегда сложная кастомизация, которую лучше отдавать на откуп компаниям-интеграторам.
Главная задача генерального директора в высокотехнологичной компании — защищать талантливых разработчиков от бессмысленных бюрократических поручений сверху.
Высокие ключевые ставки банков (20%+) заставляют менеджеров искусственно завышать показатели эффективности ИИ-проектов на комитетах, чтобы получить бюджет на инновации.
Культура «права на ошибку» критически важна: без нее сотрудники будут избегать сложных R&D экспериментов из страха лишиться премии.
Главная цель первых экспериментов с ИИ на предприятиях — не мгновенный заработок, а формирование внутренней команды, которая научится работать с этими технологиями на годы вперед.
Создание отдельного централизованного «Департамента ИИ» в огромных холдингах — это утопия; ИИ должен децентрализованно внедряться владельцами продуктов внутри их собственных команд.
Глобальный и неизбежный вектор развития ИИ — полное исключение человеческого труда из рутинных производственных и бизнес-процессов для радикального снижения издержек (например, аренда роботов-строителей).
При найме сотрудников уровень их мотивации и горящие глаза гораздо важнее, чем идеальное знание хард-скиллов или умение писать промпты для нейросетей.
Постоянное общение с людьми разных возрастов, профессий и из разных стран — лучший способ избежать старения ума и сохранить свежий взгляд на бизнес.
Чтобы не выгорать, нужно искать работу, которая драйвит сама по себе, а если ее нет — смело менять сферу деятельности.
В бизнесе и разработке никогда нельзя предавать свои личные ценности и ценности своей команды в угоду сиюминутной корпоративной выгоде.
Мысли ведущего (Ярослав Филиппов)
Поскольку большую часть информации об окружающем мире люди получают с помощью зрения, компьютерное зрение является важнейшим и самым перспективным направлением искусственного интеллекта.
Если сотрудник приходит на работу с искренним желанием улучшать продукт, руководству не нужно тратить энергию на его мотивацию и микроменеджмент.
В массовом сознании искусственный интеллект ассоциируется исключительно с текстовыми чат-ботами, из-за чего многие не понимают масштабов и задач компьютерного зрения.
Оценивая ошибки ИИ (например, когда система путает близнецов), люди забывают, что в реальной жизни живые люди допускают точно такие же ошибки.
Дискуссии о тотальной слежке всегда упираются в поиск баланса: на одной чаше весов лежит абсолютная приватность, на другой — высокий уровень общественной безопасности.
Владельцы бизнеса часто живут в иллюзиях, ожидая, что каждый вложенный в ИИ рубль немедленно принесет десять, хотя статистика внедрений показывает совершенно иную картину.
Навык составления промпта для нейросети ничем не отличается от навыка постановки четкой задачи живому сотруднику в таск-трекере (с чем у многих руководителей до сих пор проблемы).
Интеллектуализация заставляет компании отказаться от самообмана: когда ИИ начинает оцифровывать процессы, руководство внезапно видит весь реальный хаос и лишние действия внутри отделов.
Иногда ИИ нужно внедрять даже без гарантии сиюминутного кратного роста метрик, а исключительно ради того, чтобы компания не отстала от технологического поезда.
В будущем главным достижением в резюме руководителя будет не количество людей в его подчинении, а умение добиваться колоссальных результатов крошечной командой за счет грамотного использования ИИ.
Искусственный интеллект применялся в поисковиках и других системах задолго до недавнего бума, просто генеративные модели (трансформеры) сделали его доступным для масс.
Российская математическая школа остается одной из сильнейших в мире, а отечественные продукты в сфере ИИ лидируют в международных рейтингах без каких-либо барьеров на экспорт.
Жесткая корпоративная субординация убивает креативность; лучшие IT-продукты рождаются в компаниях, которые работают по принципу комьюнити.
Если умных сотрудников приходится заставлять работать, значит, компания наняла неправильных людей; правильным людям нужно просто давать свободу.
В IT-сфере классические бизнес-стратегии в PowerPoint часто бесполезны, так как технологии радикально меняются в течение одного года.
Исторически компьютерное зрение требовало обучения отдельных нейросетей под каждую узкую задачу (например, поиск брака на конвейере) на огромных базах фотографий.
Будущее компьютерного зрения — за визуальными языковыми моделями (VLM), которые смогут без предварительного обучения описывать всё происходящее на видео (например, находить неубранные улицы по текстовому запросу).
VisionLabs не конкурирует с OpenAI: американская компания предоставляет облачные сервисы общего назначения, а VisionLabs ставит узкоспециализированные решения во внутренний контур (on-premise) заказчика.
Биометрия лица радикально меняет клиентский опыт в консервативных сферах: от снятия наличных в банкомате без карты до заселения в гостиницу без паспорта.
Системы «Цифровой гражданин» (Digital ID) экономят государствам колоссальные бюджеты — например, выявляя несуществующие («мертвые души») детские сады, получающие дотации.
Внедрение Face Pay в Московском метрополитене стало одним из самых сложных проектов в мире не только из-за трафика, но и из-за огромного количества IT-интеграций.
Этика ИИ требует, чтобы технологии были доступны абсолютно всем людям, поэтому системы распознавания лиц не могут намеренно завышать порог точности, отсекая определенные группы лиц.
Проблема ложного распознавания близнецов решается современными нейросетями: система находит похожих людей в базе и точечно повышает порог безопасности только для них.
Страх перед камерами как «цифровым концлагерем» нелогичен: люди добровольно отдают корпорациям гораздо больше приватной информации через смартфоны и социальные сети.
Видеоаналитика в городах снижает уровень уличной преступности примерно на 20% в год просто за счет того, что преступники в федеральном розыске сами мигрируют из умных городов.
ИИ нельзя использовать для предиктивного поиска преступников по чертам лица, так как это неминуемо приведет к дискриминации и алгоритмической предвзятости.
Идеальный (но пока не реализованный массово) кейс компьютерного зрения — автоматическая оценка ДТП по фотографии для моментального разъезда по европротоколу без участия ГАИ.
Компьютерное зрение уже доступно среднему бизнесу: система выявления брака за 20 млн рублей может окупиться на производстве менее чем за 9 месяцев.
Через 2-3 года около 70% «белых воротничков» будут обязаны использовать генеративный ИИ в своей ежедневной рутине просто для того, чтобы оставаться конкурентоспособными на рынке труда.
Внедрение ИИ во внутренние контуры корпораций (B2B) никогда не бывает коробочным решением — это всегда сложная кастомизация, которую лучше отдавать на откуп компаниям-интеграторам.
Главная задача генерального директора в высокотехнологичной компании — защищать талантливых разработчиков от бессмысленных бюрократических поручений сверху.
Высокие ключевые ставки банков (20%+) заставляют менеджеров искусственно завышать показатели эффективности ИИ-проектов на комитетах, чтобы получить бюджет на инновации.
Культура «права на ошибку» критически важна: без нее сотрудники будут избегать сложных R&D экспериментов из страха лишиться премии.
Главная цель первых экспериментов с ИИ на предприятиях — не мгновенный заработок, а формирование внутренней команды, которая научится работать с этими технологиями на годы вперед.
Создание отдельного централизованного «Департамента ИИ» в огромных холдингах — это утопия; ИИ должен децентрализованно внедряться владельцами продуктов внутри их собственных команд.
Глобальный и неизбежный вектор развития ИИ — полное исключение человеческого труда из рутинных производственных и бизнес-процессов для радикального снижения издержек (например, аренда роботов-строителей).
При найме сотрудников уровень их мотивации и горящие глаза гораздо важнее, чем идеальное знание хард-скиллов или умение писать промпты для нейросетей.
Постоянное общение с людьми разных возрастов, профессий и из разных стран — лучший способ избежать старения ума и сохранить свежий взгляд на бизнес.
Чтобы не выгорать, нужно искать работу, которая драйвит сама по себе, а если ее нет — смело менять сферу деятельности.
В бизнесе и разработке никогда нельзя предавать свои личные ценности и ценности своей команды в угоду сиюминутной корпоративной выгоде.
Мысли ведущего (Ярослав Филиппов)
Поскольку большую часть информации об окружающем мире люди получают с помощью зрения, компьютерное зрение является важнейшим и самым перспективным направлением искусственного интеллекта.
Если сотрудник приходит на работу с искренним желанием улучшать продукт, руководству не нужно тратить энергию на его мотивацию и микроменеджмент.
В массовом сознании искусственный интеллект ассоциируется исключительно с текстовыми чат-ботами, из-за чего многие не понимают масштабов и задач компьютерного зрения.
Оценивая ошибки ИИ (например, когда система путает близнецов), люди забывают, что в реальной жизни живые люди допускают точно такие же ошибки.
Дискуссии о тотальной слежке всегда упираются в поиск баланса: на одной чаше весов лежит абсолютная приватность, на другой — высокий уровень общественной безопасности.
Владельцы бизнеса часто живут в иллюзиях, ожидая, что каждый вложенный в ИИ рубль немедленно принесет десять, хотя статистика внедрений показывает совершенно иную картину.
Навык составления промпта для нейросети ничем не отличается от навыка постановки четкой задачи живому сотруднику в таск-трекере (с чем у многих руководителей до сих пор проблемы).
Интеллектуализация заставляет компании отказаться от самообмана: когда ИИ начинает оцифровывать процессы, руководство внезапно видит весь реальный хаос и лишние действия внутри отделов.
Иногда ИИ нужно внедрять даже без гарантии сиюминутного кратного роста метрик, а исключительно ради того, чтобы компания не отстала от технологического поезда.
В будущем главным достижением в резюме руководителя будет не количество людей в его подчинении, а умение добиваться колоссальных результатов крошечной командой за счет грамотного использования ИИ.
Тайм-коды
00:00:00 О чем подкаст
00:01:01 О VisionLabs
00:04:18 Опыт Дмитрия
00:05:32 Культура команды
00:09:21 ИИ глазами Дмитрия
00:18:36 Конкуренция
00:21:48 ТОП кейсы
00:27:50 Оплата лицом
00:29:31 Точность и безопасность
00:34:45 Цифровой ГУЛАГ и биометрия
00:42:05 Этика
00:46:07 ИИ в ДТП
00:50:32 Порог входа в ИИ
00:55:01 Партнерство в VisionLabs
00:59:34 Главная задача CEO
01:07:12 Результаты от ИИ
01:15:37 CAIO или с чего начать?
01:21:50 Рост метрик с ИИ
01:25:55 Резюме меняются
01:27:47 Команды меняются
01:30:55 Роботы и эффективность
01:32:27 Как нанимать сегодня
01:36:16 Заключительное слово
00:01:01 О VisionLabs
00:04:18 Опыт Дмитрия
00:05:32 Культура команды
00:09:21 ИИ глазами Дмитрия
00:18:36 Конкуренция
00:21:48 ТОП кейсы
00:27:50 Оплата лицом
00:29:31 Точность и безопасность
00:34:45 Цифровой ГУЛАГ и биометрия
00:42:05 Этика
00:46:07 ИИ в ДТП
00:50:32 Порог входа в ИИ
00:55:01 Партнерство в VisionLabs
00:59:34 Главная задача CEO
01:07:12 Результаты от ИИ
01:15:37 CAIO или с чего начать?
01:21:50 Рост метрик с ИИ
01:25:55 Резюме меняются
01:27:47 Команды меняются
01:30:55 Роботы и эффективность
01:32:27 Как нанимать сегодня
01:36:16 Заключительное слово
Транскрипция
Ярослав Филиппов: Добро пожаловать в Импакт Медиа, где мы говорим о бизнесе и технологиях. В гостях Дмитрий Марков, генеральный директор компании VisionLabs. Под его управлением компания VisionLabs находится на лидирующих позициях в международных бенчмарках по компьютерному зрению и стоит за крупнейшей в мире системой оплаты по лицу. Дмитрия я пригласил, потому что сегодня все говорят про искусственный интеллект, и тут важно понимать, что большую часть информации вообще мы получаем с помощью зрения. А слоган компании VisionLabs — "машины могут видеть". Поэтому сегодня будем говорить о компьютерном зрении, куда движутся технологии, когда мы откажемся от ключей, чтобы везде просто входить по лицу, и в общем, как мы будем жить в мире, где у каждого утюга есть свои глаза. Подписывайтесь, будет интересно. Меня зовут Ярослав Филиппов, я построил IT-компанию Импакт Групп по разработке и консалтингу, а также бизнес-клуб для технологических предпринимателей, инвесторов и C-level специалистов. Дмитрий, привет! Как дела?
Дмитрий Марков: Привет! Да, всё отлично в целом, несмотря на очень сильную жару в Москве.
Ярослав Филиппов: Да, сейчас аномально. Расскажи, пожалуйста, о себе, чтобы мы поняли твой карьерный путь, экспертизу, и представь компанию VisionLabs, чтобы мы понимали, что она делает и в чём она классная.
Дмитрий Марков: Ну, давайте начнём с компании. VisionLabs изначально занималась компьютерным зрением. У нас был фокус именно на то, что мы называем технологиями, связанными с человеком. Мы проводили много экспериментов в начале нашего пути, но широко известны стали именно благодаря технологии распознавания человека по лицу. Так получилось, что мы начали заниматься искусственным интеллектом, когда это слово ещё не было таким модным.
У меня есть такая небольшая шутка: в какой-то момент, примерно 3 года назад, мы совершенно не изменили свою деятельность. Мы работали так же, как и 5, и 6 лет назад. Но вдруг многие люди у нас в компании, в том числе и я, почувствовали себя, в кавычках, "рок-звёздами", потому что всё то, чем мы занимались, стало безумно популярным. Действительно, вы говорили про "глаза у утюга", а я скажу, что "из каждого утюга" начался маркетинговый сумасшедший полив про искусственный интеллект.
Мы были одними из первых, кто начал применять именно искусственный интеллект в компьютерном зрении. И мы действительно гордимся тем, что находимся в данный момент на первом месте рейтинга в мире. Многие говорят, что у нас в России технологии отсталые, не развиваются. Это полная неправда! В России достаточно много компаний, которые занимают лидирующие позиции в мире, и я говорю не только про искусственный интеллект. Если говорить про ИИ, я считаю, что российская математическая школа — одна из самых сильных в мире. Наши специалисты очень востребованы и умеют делать качественные продукты.
Квинтэссенцией всего этого стало то, что произошло с VisionLabs. Мы компания, которая сейчас достаточно много продукции продаёт на экспорт. Фокус у нас сейчас больше на зарубежные рынки, потому что в России мы уже сделали очень много проектов (примерно 200 проектов по компьютерному зрению в год). Несмотря на то, что у нас достаточно маленькая команда — около 250 человек, большинство из которых учёные и разработчики — мы действительно несём знамя российского продукта во весь остальной мир. Мы видим, что никаких непреодолимых барьеров нет. Да, часть рынков закрыта, но многие открыты, и никакого отторжения к тому, что мы российская компания, мы не видим.
Если говорить про меня, то путь у меня достаточно классический. Я пришёл в VisionLabs примерно 6 лет назад. Всю жизнь работал в основном в компаниях телекоммуникационного сектора. Начинал с самого обычного монтажника, который ставил розетки в домах. Шаг за шагом дорос до технического директора. Возглавлял департамент строительства у одного крупного оператора, занимался управлением инвестпрограммами. Шёл по технической линии, но потом нелёгкая завела меня в мощную государственную программу по созданию системы "ЭРА-ГЛОНАСС" (кнопка SOS в автомобиле). Я там проработал несколько этапов, стал генеральным директором. А после этого пришёл в VisionLabs.
Я люблю новые проекты. Очень часто участвую в проектах бесплатно, помогаю молодым российским командам, потому что у них есть потребность в советах, в коннектах с правильными людьми. Делаем это с большим удовольствием.
В целом, VisionLabs — это скорее комьюнити, чем компания с жёсткой субординацией. Конечно, мы смотрим на финансовые показатели, на затраты по R&D и коммерции. Но по культуре это именно комьюнити. Мне кажется, что именно в такой обстановке рождаются хорошие идеи и продукты. Есть и минусы: многие любят, когда всё чётко и жёстко, но мы более flexible (гибкие). Иногда меня называют "мастером хаоса" и спрашивают, как я всем этим управляю. Я отвечаю: если у нас работают умные люди, которые хотят что-то делать, ими не надо управлять. А если мы взяли неправильных людей, то мучить и заставлять их бесполезно, надо просто их поменять. У нас таких людей (желающих делать дело) — большинство.
Ярослав Филиппов: Супер. Да, если человек каждый день приходит на работу и ему хочется что-то улучшить в продукте, его не приходится заставлять.
Дмитрий Марков: Лучше не смотреть на вещи слишком радужно. Я не верю, что каждый человек каждый день приходит радостно улучшать продукт. Я говорю о том, что если человек сегодня не хочет идти на работу — ничего страшного в этом нет. В VisionLabs он не будет этим заниматься в этот день, если нет настроения. Важно то, что происходит в критические моменты! У нас никто не следит, кто во сколько пришёл или ушёл. Но до этого нужно дорасти, понять, что и ты бываешь в таких состояниях, чтобы разрешить это другим.
Это я называю общим словом "культура". У нас очень плохо приживаются вещи типа "жёстких стратегий", потому что рынок меняется стремительно, технологии за год изменяются до неузнаваемости. Писать стратегические вещи с серьёзным лицом (я называю это "PowerPoint бизнес") — хорошо, но важнее, есть ли команда, которая понимает сутевую часть: что это за продукт, куда он идёт и зачем. И ещё важная вещь: если ты делаешь продукт (а не просто копируешь), ты в целом даже не догадываешься о рынках, на которых он может использоваться! Мы это очень хорошо увидели на системе распознавания лиц: думали только про банковский кейс, а оказалось, что сценариев миллионы.
Ярослав Филиппов: Дмитрий, спасибо за такое представление. Хочется перейти к самой теме, чтобы зрители увидели мир компьютерного зрения вашими глазами. Приведу пример: сегодня из каждого утюга слышно про OpenAI, ChatGPT. Все понимают, куда они идут — к агентным системам. Но когда мы говорим про компьютерное зрение, люди, во-первых, не сразу понимают, что это тоже ИИ. Во-вторых, не понимают, куда это развивается. Можете провести ликбез: когда наступит мир, в котором мы везде ходим просто по лицу, а двери в квартиру открываются сами?
Дмитрий Марков: Абсолютное большинство людей думают, что ИИ пришёл в их жизнь только 3 года назад. Государства берут какую-то повестку и показывают, что идут вровень с мировым прогрессом (когда-то это был ГЛОНАСС, сейчас — ИИ). Но многие не подозревают, что даже когда они набирают запрос в браузере, там уже много лет работает искусственный интеллект!
Просто есть отдельный класс технологий, который стал популярен последние 3 года — нейронные сети класса "трансформер" и генеративный ИИ. Почему он пошёл в массы? Потому что рынок таких компаний (типа OpenAI) — вся планета Земля. Знания всей Земли объединили в одном месте, к которому вы обращаетесь как к энциклопедии. Технологически это просто предсказание следующего символа (токена).
Если говорить про компьютерное зрение, то до появления генеративного ИИ использовали традиционный подход. Например, задача — поиск бракованных деталей на конвейере. Вы собирали 10 000 фотографий брака, обучали на них нейросеть и ставили камеру на конвейер. Сеть находила брак. Так развивались технологии. Данных нужно было собрать очень много (для распознавания лиц — сотни миллионов фото!). И сеть была узкоспециализированной.
А сейчас появился новый подход. Оказалось, что когда языковые модели обучали на огромном количестве текстов, туда попали и картинки. И появились технологии класса VLM (Visual Language Models) — визуальные языковые модели. Идет основное развитие! Задача простая: пропустить картинку через нейросеть, чтобы она написала, что видит. И чем детальнее она это делает, тем больше сценариев можно реализовать (их бесконечное количество).
Представьте город с множеством камер. Раньше камеры нужны были для безопасности (запись архива, поиск преступников по лицу в реальном времени, поиск пропавших детей). Но, например, задача "контроль работы подрядчиков по уборке улиц" решалась специальными людьми. В Москве есть системы, которые это контролируют, но нейросеть обучалась именно на эту конкретную задачу.
А модели класса VLM в будущем позволят не проводить специального обучения! Вы просто напишете промпт: "Покажи мне неубранную улицу" — и она выдаст фотографию. Или "Посчитай количество скамеек в парке" — и она посчитает. Мощь этой модели будет совершенно другой. Вот над этим сейчас все работают.
Сейчас есть два ограничения: точность и огромные потребности в вычислительных ресурсах. Но эксперименты в некоторых столицах мира уже начались. Будущее компьютерного зрения — в этих технологиях.
Ярослав Филиппов: Вы компания, специализирующаяся на компьютерном зрении. А у OpenAI в большой языковой модели тоже есть распознавание картинок. Как вы конкурируете? У вас модель точнее?
Дмитрий Марков: Я еще по совместительству работаю исполнительным директором центра ИИ "МТС", так что про LLM тоже могу поговорить.
Мы не конкурируем с OpenAI в первую очередь потому, что OpenAI — это облачный сервис (система общего назначения). Мы же даем технологии, которые ставятся локально у заказчика (On-Premise). Мы решаем узкоспециализированные задачи в продуктовом плане.
Мы внимательно наблюдаем за развитием VLM, но приняли решение сами не инвестировать огромные деньги в разработку собственной базовой VLM, потому что, скорее всего, выйдет какая-то OpenSource модель, которая будет лучше (динамика развития сумасшедшая). Мы занимаем выжидательную позицию. Если приходит заказчик (например, один город попросил сервис поиска специализированных вещей на камерах — открытые/закрытые мусорные контейнеры), мы берем OpenSource модель, тестируем, показываем, как это работает на их данных, и внедряем.
Ярослав Филиппов: Хочется понять, каких сейчас кейсов больше? С какими запросами приходят клиенты в первую очередь?
Дмитрий Марков: У нас, на самом деле, мало проектов по "безопасным городам", хотя они нам нравятся из-за социального импульса. В основном мы работаем с финансовыми и государственными организациями — делаем технологии идентификации человека по лицу в разных каналах обслуживания.
Например:
Вы забыли карточку, подходите к банкомату, он идентифицирует вас по лицу, и вы снимаете деньги.
Вы входите в банк, и к вам уже обращаются по имени.
Заселение в гостиницу без паспорта (мы сделали такой проект в сети отелей Cosmos). Бронируете через Госуслуги, приезжаете, смотрите в камеру — и вам выдают ключ. Время обслуживания сокращается колоссально.
Подтверждение критических транзакций в банке с помощью лица как дополнительного фактора.
Технологии класса Face Pay (проход в метро без карточки).
Отдельный класс — системы цифрового гражданина (Digital ID) за рубежом. Вы не носите бумажный документ, сдали биометрию и получаете госуслуги. У меня есть прикольный пример из одной страны: государство дотирует детские сады за каждого ребенка каждый день. Решили внедрить идентификацию детей по лицу на входе, чтобы платить точно за присутствующих. Проект получил сумасшедшую окупаемость! Выяснилось, что двух детских садов вообще не существовало, а деньги кто-то получал. Биометрия позволяет государству четко контролировать, кому выдаются льготы и деньги.
Ярослав Филиппов: Если говорить про технологию оплаты лицом: проход в московский метрополитен — это самая большая ваша система Face Pay?
Дмитрий Марков: Не самая большая по количеству пользователей (например, в Сбере наши технологии использовались на базе порядка 40 млн лиц), но московский метрополитен — один из самых сложных проектов. Самые сложные проекты — это когда много интеграций с другими системами и постоянная борьба за качество. Мы обеспечиваем услугу на огромном количестве точек. Команда московских айтишников очень сильная, мы получили удовольствие от проекта. Сейчас мы сделали похожие системы в Алматы и доделываем в Ташкенте.
Ярослав Филиппов: Про точность. Недавно видел видео: три близнеца тестировали оплату улыбкой в Сбере. У одного подключена система, а двое других пытались оплатить с его счета — и терминал думал, что это он (правда, там еще пин-код надо вводить). Решатся ли когда-то такие проблемы, или у технологии есть предел?
Дмитрий Марков: Решатся. Но нужны детали. Основной принцип этики ИИ — технология должна быть доступна всем людям. Вы не можете запретить близнецам пользоваться системой.
Как это работает? ИИ определяет, насколько вы похожи на эталонное лицо в базе. Вы не можете поставить порог схожести 100%, иначе в темном переходе банкомат вас не узнает. Обычно ставят порог 95%. И тут чудес не бывает — близнецы похожи больше, чем на 95%. В реальной жизни близнецы тоже сдают экзамены друг за друга.
Но современные нейронки (то, что мы сделали в последнем релизе) работают умнее. Если в базе есть два похожих человека (близнеца), то именно к ним применяется повышенный порог (скор). Не ко всем остальным, а только к ним. Проблема уходит. А многие за рубежом делают проще: сверяются с реестром граждан, и если у вас есть близнец — вам просто отключают Face Recognition.
Ярослав Филиппов: Возвращаясь к детским садам и камерам. Камер всё больше (в Москве даже штрафы на самокат приходят). Люди боятся "цифрового ГУЛАГа". Где грань между "колпаком" и безопасностью?
Дмитрий Марков: Эта грань существует. Но вот несколько моментов.
Во-первых, люди боятся сдавать лицо, но при этом у них есть профили в соцсетях с фотографиями. Я говорю: "Ваши данные уже украли!". Для спецслужб наступило счастье: им не надо опрашивать бабушек у подъезда, в соцсетях люди сами пишут, где были, что ели и с кем общались.
Во-вторых, люди не хотят сдавать биометрию государству, но спокойно разблокируют телефон лицом (отдают данные корпорациям вроде Apple). Говорят, что данные хранятся только на процессоре. Но абсолютное большинство даже не знает, что такое процессор.
В-третьих, тем, кто против видеоаналитики в городах, я говорю: "Вы счастливый человек! У вас за последние годы не угоняли машину, вас не били на улице, не обижали родственников". Потому что любой потерпевший в полиции первым делом просит: "Пошли смотреть архив камер!". Времена Шерлока Холмса закончились. Видеоаналитика каждый год снижает уровень криминала на 20%. Преступники в федеральном розыске просто уезжают из городов, где есть камеры.
Цифровым концлагерем является не видеоаналитика, а мобильный телефон и соцсети, где хранятся все ваши активности. А видеоаналитика на улицах дает вам безопасность.
Ярослав Филиппов: К вопросу об этике. Это гонка вооружений. Если вы скажете "мы туда не пойдем из-за этики", конкуренты пойдут.
Дмитрий Марков: Для нас этика в другом. Мы не обучим нейронку, например, распознавать только людей с белым цветом кожи. Технологии должны работать без дискриминации, для всех людей на планете.
Еще пример: нам предлагают создать систему, которая предсказывает преступников по лицу в толпе. Я говорю: это смешно и предвзято. Если взять базу фото зеков из американских тюрем и обучить на них сеть, то она будет выдавать предвзятый результат по расовому признаку, потому что статистика тюрем специфична. Мы не будем заниматься такими задачами ни за какие деньги.
Ярослав Филиппов: Какие кейсы вы бы хотели реализовать в ближайшем будущем?
Дмитрий Марков: У меня есть любимый "незакрытый гештальт". Когда я работал в "ЭРА-ГЛОНАСС" (система экстренного реагирования при ДТП), мы заметили высокую смертность на дорогах. Но бывает и мелкое ДТП (европротокол), из-за которого образуется огромная пробка, потому что люди боятся "скрытых повреждений" и ждут ГАИ.
Моя мечта: случается мелкое ДТП, вы выходите, фотографируете повреждения машины и отправляете в страховую. ИИ сам делает калькуляцию ущерба, оценивает скрытые повреждения по историческим данным и моментально дает ответ: "Ущерб до 150 000 руб., всё покрывается, можете разъезжаться!". Тот, кто первым сделает такой продукт для страховых на весь мир, станет очень богатым человеком.
Ярослав Филиппов: Этот кейс требует больших бюджетов. А что может позволить себе средний бизнес?
Дмитрий Марков: Компьютерное зрение — это не так уж дорого. Кейс с детекцией брака на конвейере для небольшого завода (оборот миллиард рублей) может стоить около 20 млн рублей, и он окупается меньше чем за 9 месяцев. Если компания совсем маленькая, она попросит облачный сервис по подписке.
Если говорить про генеративный ИИ, то через пару лет цифровой ассистент будет у любого сотрудника. Около 70% "белых воротничков" будут использовать ИИ в ежедневной рутине, иначе они просто станут неконкурентоспособными. Рекомендую всем скачать последнюю модель и попросить ее написать стратегию или проанализировать документ — вы будете очень удивлены результатами.
Ярослав Филиппов: У вас на сайте есть раздел "Партнерство". Как можно с вами сотрудничать?
Дмитрий Марков: Мы всегда хотели заниматься только разработкой технологий и продуктов, а не внедрением (интеграцией, кастомизацией под клиента). Это требует фокуса и ресурсов. Наша мечта: мы делаем лучшую в мире технологию, а кто-то другой ее продает и внедряет! Поэтому первый тип наших партнеров — это системные интеграторы.
Второй тип — компании, которые встраивают наш движок (распознавание лиц, детектор оружия или драк) в свои решения по безопасности.
А вообще, у нас неформальный подход, и все наши партнеры (в разных странах) со временем становятся нашими друзьями, которые разделяют наши ценности.
Ярослав Филиппов: Хотелось бы раскрыть твои навыки генерального директора. Как ты выстраиваешь работу?
Дмитрий Марков: В VisionLabs особая культура. У меня нет секретарей. Любой сотрудник может зайти ко мне без стука, общения на "вы" и обсудить проблему. Я играющий тренер: сам веду сложные проекты.
Главная задача гендиректора в такой R&D компании — это охрана команды от всякой "хрени". От бессмысленных бюрократических поручений сверху. 31 декабря все забудут, сколько отчетов ты написал, посмотрят только "счет на табло" — какой продукт ты выпустил и чего добился.
Нужно держать фокус и отрезать лишнее. У нас огромный технический долг, куча идей, и нам просто некогда заниматься ерундой. Если вы набрали талантливых людей, оставьте их в покое, дайте направление, и они всё сделают. Если будете заставлять их жить по правилам жесткой корпорации — ничего не выйдет.
Ярослав Филиппов: Многие предприниматели ждут от внедрения ИИ мгновенного эффекта: вложил рубль — заработал десять. Что на самом деле происходит с внедрением ИИ?
Дмитрий Марков: Сейчас ИИ оброс маркетинговым хайпом. Кажется, что если не внедришь — умрешь. Но давайте посмотрим на объективную реальность: ставка ЦБ сейчас 20%+. Чтобы окупить заемные деньги на ИИ-проект, он должен приносить сумасшедшую доходность.
В компаниях вводят KPI по ИИ. Бедные айтишники защищают бюджеты на комитетах, надувают кейсы, обещают золотые горы. А по статистике 70% проектов не достигают заявленных результатов. Оборудование дорогое, нужны сильные команды, эксперименты часто заканчиваются неудачей. В итоге выигрывает тот, кто ничего не делает, чтобы его не уволили за провал.
Всё дело в культуре "права на ошибку". Если человек ошибся в эксперименте, нужно сказать: "Ничего страшного, пробуем дальше".
Но в защиту ИИ скажу: неважно, чем закончатся ваши первые эксперименты! Ваша главная задача — вырастить внутри предприятия команду, которая владеет этими технологиями. Это игра вдолгую. Через 4 года именно эта команда будет определять вашу конкурентоспособность на рынке.
Ярослав Филиппов: В отчете Amazon появилась должность Chief AI Officer. С чего начать внедрение ИИ в компании?
Дмитрий Марков: Главная ошибка — создавать отдельное централизованное ИИ-подразделение в большом диверсифицированном холдинге. Все побегут к ним с задачами, начнется хаос.
Здоровая история — когда ИИ-компетенции появляются внутри каждого конкретного продукта или процесса. Владелец продукта (если он конкурентоспособен) сам возьмет ИИ-инженеров и проверит гипотезы, потому что ему нужен результат. Если он не знает инструментов — проведите обучение. ИИ-специалисты должны быть внутри продуктовых команд, децентрализованно.
И не забывайте про метрики. Как в фильме "Человек, который изменил всё" (Moneyball): оцифруйте процесс и улучшайте метрики с помощью ИИ.
Ярослав Филиппов: В будущем в резюме будут писать не "сколько людей было в подчинении", а "каких метрик я добился с помощью технологий". Крутость будет в том, чтобы минимальным количеством людей делать большие дела.
Дмитрий Марков: Именно! Я не люблю, когда начальники хвастаются размером штата ("у меня 500 человек"). Люди в больших структурах начинают мешать друг другу, плести интриги. Маленькая команда (60-70 человек) гораздо эффективнее и сфокусированнее.
Задача искусственного интеллекта (как бы грубо это ни звучало) — избавиться от людей на примитивной рутинной работе. Сократить персонал, сделать процессы безлюдными. Робота на стройку можно продавать по подписке (SaaS), и он будет работать 24/7 без отпусков, обходясь дешевле человека.
Ярослав Филиппов: Как вы сейчас меняете подход к найму в связи с ИИ? Требуете ли знания ChatGPT?
Дмитрий Марков: Мы ничего не меняли. Меня мало интересует, как хорошо кандидат пишет промпты в DeepSeek. Я на собеседованиях спрашиваю: "Что тебе интересно?". Формула эффективности сотрудника: знания умноженные на мотивацию. Я выберу мотивированного человека, который хочет научиться, а не ленивого суперэксперта, которого надо заставлять работать. Если человеку интересно, он сам со всем справится.
Ярослав Филиппов: Дмитрий, спасибо за интервью. Пожелание зрителям напоследок?
Дмитрий Марков:
Пытайтесь всегда заниматься чем-то новым, сколько бы лет вам ни было. Общайтесь с молодыми людьми, они вас научат.
Общайтесь с разными людьми из разных стран, не обращая внимания на их статус. Это формирует другую картину мира.
Постоянно развивайтесь, но никогда не предавайте свои ценности и ценности своей команды, кто бы вам что ни обещал.
Молодым людям: изучайте ИИ. И постарайтесь найти работу, которая вам нравится, от которой есть драйв и где хорошая команда. Все от этого только выиграют.
Ярослав Филиппов: Спасибо большое! Дорогие друзья, пишите в комментариях, что вы думаете по ключевым мыслям Дмитрия. Всем пока!
Дмитрий Марков: Большое всем спасибо! Пока-пока!
Дмитрий Марков: Привет! Да, всё отлично в целом, несмотря на очень сильную жару в Москве.
Ярослав Филиппов: Да, сейчас аномально. Расскажи, пожалуйста, о себе, чтобы мы поняли твой карьерный путь, экспертизу, и представь компанию VisionLabs, чтобы мы понимали, что она делает и в чём она классная.
Дмитрий Марков: Ну, давайте начнём с компании. VisionLabs изначально занималась компьютерным зрением. У нас был фокус именно на то, что мы называем технологиями, связанными с человеком. Мы проводили много экспериментов в начале нашего пути, но широко известны стали именно благодаря технологии распознавания человека по лицу. Так получилось, что мы начали заниматься искусственным интеллектом, когда это слово ещё не было таким модным.
У меня есть такая небольшая шутка: в какой-то момент, примерно 3 года назад, мы совершенно не изменили свою деятельность. Мы работали так же, как и 5, и 6 лет назад. Но вдруг многие люди у нас в компании, в том числе и я, почувствовали себя, в кавычках, "рок-звёздами", потому что всё то, чем мы занимались, стало безумно популярным. Действительно, вы говорили про "глаза у утюга", а я скажу, что "из каждого утюга" начался маркетинговый сумасшедший полив про искусственный интеллект.
Мы были одними из первых, кто начал применять именно искусственный интеллект в компьютерном зрении. И мы действительно гордимся тем, что находимся в данный момент на первом месте рейтинга в мире. Многие говорят, что у нас в России технологии отсталые, не развиваются. Это полная неправда! В России достаточно много компаний, которые занимают лидирующие позиции в мире, и я говорю не только про искусственный интеллект. Если говорить про ИИ, я считаю, что российская математическая школа — одна из самых сильных в мире. Наши специалисты очень востребованы и умеют делать качественные продукты.
Квинтэссенцией всего этого стало то, что произошло с VisionLabs. Мы компания, которая сейчас достаточно много продукции продаёт на экспорт. Фокус у нас сейчас больше на зарубежные рынки, потому что в России мы уже сделали очень много проектов (примерно 200 проектов по компьютерному зрению в год). Несмотря на то, что у нас достаточно маленькая команда — около 250 человек, большинство из которых учёные и разработчики — мы действительно несём знамя российского продукта во весь остальной мир. Мы видим, что никаких непреодолимых барьеров нет. Да, часть рынков закрыта, но многие открыты, и никакого отторжения к тому, что мы российская компания, мы не видим.
Если говорить про меня, то путь у меня достаточно классический. Я пришёл в VisionLabs примерно 6 лет назад. Всю жизнь работал в основном в компаниях телекоммуникационного сектора. Начинал с самого обычного монтажника, который ставил розетки в домах. Шаг за шагом дорос до технического директора. Возглавлял департамент строительства у одного крупного оператора, занимался управлением инвестпрограммами. Шёл по технической линии, но потом нелёгкая завела меня в мощную государственную программу по созданию системы "ЭРА-ГЛОНАСС" (кнопка SOS в автомобиле). Я там проработал несколько этапов, стал генеральным директором. А после этого пришёл в VisionLabs.
Я люблю новые проекты. Очень часто участвую в проектах бесплатно, помогаю молодым российским командам, потому что у них есть потребность в советах, в коннектах с правильными людьми. Делаем это с большим удовольствием.
В целом, VisionLabs — это скорее комьюнити, чем компания с жёсткой субординацией. Конечно, мы смотрим на финансовые показатели, на затраты по R&D и коммерции. Но по культуре это именно комьюнити. Мне кажется, что именно в такой обстановке рождаются хорошие идеи и продукты. Есть и минусы: многие любят, когда всё чётко и жёстко, но мы более flexible (гибкие). Иногда меня называют "мастером хаоса" и спрашивают, как я всем этим управляю. Я отвечаю: если у нас работают умные люди, которые хотят что-то делать, ими не надо управлять. А если мы взяли неправильных людей, то мучить и заставлять их бесполезно, надо просто их поменять. У нас таких людей (желающих делать дело) — большинство.
Ярослав Филиппов: Супер. Да, если человек каждый день приходит на работу и ему хочется что-то улучшить в продукте, его не приходится заставлять.
Дмитрий Марков: Лучше не смотреть на вещи слишком радужно. Я не верю, что каждый человек каждый день приходит радостно улучшать продукт. Я говорю о том, что если человек сегодня не хочет идти на работу — ничего страшного в этом нет. В VisionLabs он не будет этим заниматься в этот день, если нет настроения. Важно то, что происходит в критические моменты! У нас никто не следит, кто во сколько пришёл или ушёл. Но до этого нужно дорасти, понять, что и ты бываешь в таких состояниях, чтобы разрешить это другим.
Это я называю общим словом "культура". У нас очень плохо приживаются вещи типа "жёстких стратегий", потому что рынок меняется стремительно, технологии за год изменяются до неузнаваемости. Писать стратегические вещи с серьёзным лицом (я называю это "PowerPoint бизнес") — хорошо, но важнее, есть ли команда, которая понимает сутевую часть: что это за продукт, куда он идёт и зачем. И ещё важная вещь: если ты делаешь продукт (а не просто копируешь), ты в целом даже не догадываешься о рынках, на которых он может использоваться! Мы это очень хорошо увидели на системе распознавания лиц: думали только про банковский кейс, а оказалось, что сценариев миллионы.
Ярослав Филиппов: Дмитрий, спасибо за такое представление. Хочется перейти к самой теме, чтобы зрители увидели мир компьютерного зрения вашими глазами. Приведу пример: сегодня из каждого утюга слышно про OpenAI, ChatGPT. Все понимают, куда они идут — к агентным системам. Но когда мы говорим про компьютерное зрение, люди, во-первых, не сразу понимают, что это тоже ИИ. Во-вторых, не понимают, куда это развивается. Можете провести ликбез: когда наступит мир, в котором мы везде ходим просто по лицу, а двери в квартиру открываются сами?
Дмитрий Марков: Абсолютное большинство людей думают, что ИИ пришёл в их жизнь только 3 года назад. Государства берут какую-то повестку и показывают, что идут вровень с мировым прогрессом (когда-то это был ГЛОНАСС, сейчас — ИИ). Но многие не подозревают, что даже когда они набирают запрос в браузере, там уже много лет работает искусственный интеллект!
Просто есть отдельный класс технологий, который стал популярен последние 3 года — нейронные сети класса "трансформер" и генеративный ИИ. Почему он пошёл в массы? Потому что рынок таких компаний (типа OpenAI) — вся планета Земля. Знания всей Земли объединили в одном месте, к которому вы обращаетесь как к энциклопедии. Технологически это просто предсказание следующего символа (токена).
Если говорить про компьютерное зрение, то до появления генеративного ИИ использовали традиционный подход. Например, задача — поиск бракованных деталей на конвейере. Вы собирали 10 000 фотографий брака, обучали на них нейросеть и ставили камеру на конвейер. Сеть находила брак. Так развивались технологии. Данных нужно было собрать очень много (для распознавания лиц — сотни миллионов фото!). И сеть была узкоспециализированной.
А сейчас появился новый подход. Оказалось, что когда языковые модели обучали на огромном количестве текстов, туда попали и картинки. И появились технологии класса VLM (Visual Language Models) — визуальные языковые модели. Идет основное развитие! Задача простая: пропустить картинку через нейросеть, чтобы она написала, что видит. И чем детальнее она это делает, тем больше сценариев можно реализовать (их бесконечное количество).
Представьте город с множеством камер. Раньше камеры нужны были для безопасности (запись архива, поиск преступников по лицу в реальном времени, поиск пропавших детей). Но, например, задача "контроль работы подрядчиков по уборке улиц" решалась специальными людьми. В Москве есть системы, которые это контролируют, но нейросеть обучалась именно на эту конкретную задачу.
А модели класса VLM в будущем позволят не проводить специального обучения! Вы просто напишете промпт: "Покажи мне неубранную улицу" — и она выдаст фотографию. Или "Посчитай количество скамеек в парке" — и она посчитает. Мощь этой модели будет совершенно другой. Вот над этим сейчас все работают.
Сейчас есть два ограничения: точность и огромные потребности в вычислительных ресурсах. Но эксперименты в некоторых столицах мира уже начались. Будущее компьютерного зрения — в этих технологиях.
Ярослав Филиппов: Вы компания, специализирующаяся на компьютерном зрении. А у OpenAI в большой языковой модели тоже есть распознавание картинок. Как вы конкурируете? У вас модель точнее?
Дмитрий Марков: Я еще по совместительству работаю исполнительным директором центра ИИ "МТС", так что про LLM тоже могу поговорить.
Мы не конкурируем с OpenAI в первую очередь потому, что OpenAI — это облачный сервис (система общего назначения). Мы же даем технологии, которые ставятся локально у заказчика (On-Premise). Мы решаем узкоспециализированные задачи в продуктовом плане.
Мы внимательно наблюдаем за развитием VLM, но приняли решение сами не инвестировать огромные деньги в разработку собственной базовой VLM, потому что, скорее всего, выйдет какая-то OpenSource модель, которая будет лучше (динамика развития сумасшедшая). Мы занимаем выжидательную позицию. Если приходит заказчик (например, один город попросил сервис поиска специализированных вещей на камерах — открытые/закрытые мусорные контейнеры), мы берем OpenSource модель, тестируем, показываем, как это работает на их данных, и внедряем.
Ярослав Филиппов: Хочется понять, каких сейчас кейсов больше? С какими запросами приходят клиенты в первую очередь?
Дмитрий Марков: У нас, на самом деле, мало проектов по "безопасным городам", хотя они нам нравятся из-за социального импульса. В основном мы работаем с финансовыми и государственными организациями — делаем технологии идентификации человека по лицу в разных каналах обслуживания.
Например:
Вы забыли карточку, подходите к банкомату, он идентифицирует вас по лицу, и вы снимаете деньги.
Вы входите в банк, и к вам уже обращаются по имени.
Заселение в гостиницу без паспорта (мы сделали такой проект в сети отелей Cosmos). Бронируете через Госуслуги, приезжаете, смотрите в камеру — и вам выдают ключ. Время обслуживания сокращается колоссально.
Подтверждение критических транзакций в банке с помощью лица как дополнительного фактора.
Технологии класса Face Pay (проход в метро без карточки).
Отдельный класс — системы цифрового гражданина (Digital ID) за рубежом. Вы не носите бумажный документ, сдали биометрию и получаете госуслуги. У меня есть прикольный пример из одной страны: государство дотирует детские сады за каждого ребенка каждый день. Решили внедрить идентификацию детей по лицу на входе, чтобы платить точно за присутствующих. Проект получил сумасшедшую окупаемость! Выяснилось, что двух детских садов вообще не существовало, а деньги кто-то получал. Биометрия позволяет государству четко контролировать, кому выдаются льготы и деньги.
Ярослав Филиппов: Если говорить про технологию оплаты лицом: проход в московский метрополитен — это самая большая ваша система Face Pay?
Дмитрий Марков: Не самая большая по количеству пользователей (например, в Сбере наши технологии использовались на базе порядка 40 млн лиц), но московский метрополитен — один из самых сложных проектов. Самые сложные проекты — это когда много интеграций с другими системами и постоянная борьба за качество. Мы обеспечиваем услугу на огромном количестве точек. Команда московских айтишников очень сильная, мы получили удовольствие от проекта. Сейчас мы сделали похожие системы в Алматы и доделываем в Ташкенте.
Ярослав Филиппов: Про точность. Недавно видел видео: три близнеца тестировали оплату улыбкой в Сбере. У одного подключена система, а двое других пытались оплатить с его счета — и терминал думал, что это он (правда, там еще пин-код надо вводить). Решатся ли когда-то такие проблемы, или у технологии есть предел?
Дмитрий Марков: Решатся. Но нужны детали. Основной принцип этики ИИ — технология должна быть доступна всем людям. Вы не можете запретить близнецам пользоваться системой.
Как это работает? ИИ определяет, насколько вы похожи на эталонное лицо в базе. Вы не можете поставить порог схожести 100%, иначе в темном переходе банкомат вас не узнает. Обычно ставят порог 95%. И тут чудес не бывает — близнецы похожи больше, чем на 95%. В реальной жизни близнецы тоже сдают экзамены друг за друга.
Но современные нейронки (то, что мы сделали в последнем релизе) работают умнее. Если в базе есть два похожих человека (близнеца), то именно к ним применяется повышенный порог (скор). Не ко всем остальным, а только к ним. Проблема уходит. А многие за рубежом делают проще: сверяются с реестром граждан, и если у вас есть близнец — вам просто отключают Face Recognition.
Ярослав Филиппов: Возвращаясь к детским садам и камерам. Камер всё больше (в Москве даже штрафы на самокат приходят). Люди боятся "цифрового ГУЛАГа". Где грань между "колпаком" и безопасностью?
Дмитрий Марков: Эта грань существует. Но вот несколько моментов.
Во-первых, люди боятся сдавать лицо, но при этом у них есть профили в соцсетях с фотографиями. Я говорю: "Ваши данные уже украли!". Для спецслужб наступило счастье: им не надо опрашивать бабушек у подъезда, в соцсетях люди сами пишут, где были, что ели и с кем общались.
Во-вторых, люди не хотят сдавать биометрию государству, но спокойно разблокируют телефон лицом (отдают данные корпорациям вроде Apple). Говорят, что данные хранятся только на процессоре. Но абсолютное большинство даже не знает, что такое процессор.
В-третьих, тем, кто против видеоаналитики в городах, я говорю: "Вы счастливый человек! У вас за последние годы не угоняли машину, вас не били на улице, не обижали родственников". Потому что любой потерпевший в полиции первым делом просит: "Пошли смотреть архив камер!". Времена Шерлока Холмса закончились. Видеоаналитика каждый год снижает уровень криминала на 20%. Преступники в федеральном розыске просто уезжают из городов, где есть камеры.
Цифровым концлагерем является не видеоаналитика, а мобильный телефон и соцсети, где хранятся все ваши активности. А видеоаналитика на улицах дает вам безопасность.
Ярослав Филиппов: К вопросу об этике. Это гонка вооружений. Если вы скажете "мы туда не пойдем из-за этики", конкуренты пойдут.
Дмитрий Марков: Для нас этика в другом. Мы не обучим нейронку, например, распознавать только людей с белым цветом кожи. Технологии должны работать без дискриминации, для всех людей на планете.
Еще пример: нам предлагают создать систему, которая предсказывает преступников по лицу в толпе. Я говорю: это смешно и предвзято. Если взять базу фото зеков из американских тюрем и обучить на них сеть, то она будет выдавать предвзятый результат по расовому признаку, потому что статистика тюрем специфична. Мы не будем заниматься такими задачами ни за какие деньги.
Ярослав Филиппов: Какие кейсы вы бы хотели реализовать в ближайшем будущем?
Дмитрий Марков: У меня есть любимый "незакрытый гештальт". Когда я работал в "ЭРА-ГЛОНАСС" (система экстренного реагирования при ДТП), мы заметили высокую смертность на дорогах. Но бывает и мелкое ДТП (европротокол), из-за которого образуется огромная пробка, потому что люди боятся "скрытых повреждений" и ждут ГАИ.
Моя мечта: случается мелкое ДТП, вы выходите, фотографируете повреждения машины и отправляете в страховую. ИИ сам делает калькуляцию ущерба, оценивает скрытые повреждения по историческим данным и моментально дает ответ: "Ущерб до 150 000 руб., всё покрывается, можете разъезжаться!". Тот, кто первым сделает такой продукт для страховых на весь мир, станет очень богатым человеком.
Ярослав Филиппов: Этот кейс требует больших бюджетов. А что может позволить себе средний бизнес?
Дмитрий Марков: Компьютерное зрение — это не так уж дорого. Кейс с детекцией брака на конвейере для небольшого завода (оборот миллиард рублей) может стоить около 20 млн рублей, и он окупается меньше чем за 9 месяцев. Если компания совсем маленькая, она попросит облачный сервис по подписке.
Если говорить про генеративный ИИ, то через пару лет цифровой ассистент будет у любого сотрудника. Около 70% "белых воротничков" будут использовать ИИ в ежедневной рутине, иначе они просто станут неконкурентоспособными. Рекомендую всем скачать последнюю модель и попросить ее написать стратегию или проанализировать документ — вы будете очень удивлены результатами.
Ярослав Филиппов: У вас на сайте есть раздел "Партнерство". Как можно с вами сотрудничать?
Дмитрий Марков: Мы всегда хотели заниматься только разработкой технологий и продуктов, а не внедрением (интеграцией, кастомизацией под клиента). Это требует фокуса и ресурсов. Наша мечта: мы делаем лучшую в мире технологию, а кто-то другой ее продает и внедряет! Поэтому первый тип наших партнеров — это системные интеграторы.
Второй тип — компании, которые встраивают наш движок (распознавание лиц, детектор оружия или драк) в свои решения по безопасности.
А вообще, у нас неформальный подход, и все наши партнеры (в разных странах) со временем становятся нашими друзьями, которые разделяют наши ценности.
Ярослав Филиппов: Хотелось бы раскрыть твои навыки генерального директора. Как ты выстраиваешь работу?
Дмитрий Марков: В VisionLabs особая культура. У меня нет секретарей. Любой сотрудник может зайти ко мне без стука, общения на "вы" и обсудить проблему. Я играющий тренер: сам веду сложные проекты.
Главная задача гендиректора в такой R&D компании — это охрана команды от всякой "хрени". От бессмысленных бюрократических поручений сверху. 31 декабря все забудут, сколько отчетов ты написал, посмотрят только "счет на табло" — какой продукт ты выпустил и чего добился.
Нужно держать фокус и отрезать лишнее. У нас огромный технический долг, куча идей, и нам просто некогда заниматься ерундой. Если вы набрали талантливых людей, оставьте их в покое, дайте направление, и они всё сделают. Если будете заставлять их жить по правилам жесткой корпорации — ничего не выйдет.
Ярослав Филиппов: Многие предприниматели ждут от внедрения ИИ мгновенного эффекта: вложил рубль — заработал десять. Что на самом деле происходит с внедрением ИИ?
Дмитрий Марков: Сейчас ИИ оброс маркетинговым хайпом. Кажется, что если не внедришь — умрешь. Но давайте посмотрим на объективную реальность: ставка ЦБ сейчас 20%+. Чтобы окупить заемные деньги на ИИ-проект, он должен приносить сумасшедшую доходность.
В компаниях вводят KPI по ИИ. Бедные айтишники защищают бюджеты на комитетах, надувают кейсы, обещают золотые горы. А по статистике 70% проектов не достигают заявленных результатов. Оборудование дорогое, нужны сильные команды, эксперименты часто заканчиваются неудачей. В итоге выигрывает тот, кто ничего не делает, чтобы его не уволили за провал.
Всё дело в культуре "права на ошибку". Если человек ошибся в эксперименте, нужно сказать: "Ничего страшного, пробуем дальше".
Но в защиту ИИ скажу: неважно, чем закончатся ваши первые эксперименты! Ваша главная задача — вырастить внутри предприятия команду, которая владеет этими технологиями. Это игра вдолгую. Через 4 года именно эта команда будет определять вашу конкурентоспособность на рынке.
Ярослав Филиппов: В отчете Amazon появилась должность Chief AI Officer. С чего начать внедрение ИИ в компании?
Дмитрий Марков: Главная ошибка — создавать отдельное централизованное ИИ-подразделение в большом диверсифицированном холдинге. Все побегут к ним с задачами, начнется хаос.
Здоровая история — когда ИИ-компетенции появляются внутри каждого конкретного продукта или процесса. Владелец продукта (если он конкурентоспособен) сам возьмет ИИ-инженеров и проверит гипотезы, потому что ему нужен результат. Если он не знает инструментов — проведите обучение. ИИ-специалисты должны быть внутри продуктовых команд, децентрализованно.
И не забывайте про метрики. Как в фильме "Человек, который изменил всё" (Moneyball): оцифруйте процесс и улучшайте метрики с помощью ИИ.
Ярослав Филиппов: В будущем в резюме будут писать не "сколько людей было в подчинении", а "каких метрик я добился с помощью технологий". Крутость будет в том, чтобы минимальным количеством людей делать большие дела.
Дмитрий Марков: Именно! Я не люблю, когда начальники хвастаются размером штата ("у меня 500 человек"). Люди в больших структурах начинают мешать друг другу, плести интриги. Маленькая команда (60-70 человек) гораздо эффективнее и сфокусированнее.
Задача искусственного интеллекта (как бы грубо это ни звучало) — избавиться от людей на примитивной рутинной работе. Сократить персонал, сделать процессы безлюдными. Робота на стройку можно продавать по подписке (SaaS), и он будет работать 24/7 без отпусков, обходясь дешевле человека.
Ярослав Филиппов: Как вы сейчас меняете подход к найму в связи с ИИ? Требуете ли знания ChatGPT?
Дмитрий Марков: Мы ничего не меняли. Меня мало интересует, как хорошо кандидат пишет промпты в DeepSeek. Я на собеседованиях спрашиваю: "Что тебе интересно?". Формула эффективности сотрудника: знания умноженные на мотивацию. Я выберу мотивированного человека, который хочет научиться, а не ленивого суперэксперта, которого надо заставлять работать. Если человеку интересно, он сам со всем справится.
Ярослав Филиппов: Дмитрий, спасибо за интервью. Пожелание зрителям напоследок?
Дмитрий Марков:
Пытайтесь всегда заниматься чем-то новым, сколько бы лет вам ни было. Общайтесь с молодыми людьми, они вас научат.
Общайтесь с разными людьми из разных стран, не обращая внимания на их статус. Это формирует другую картину мира.
Постоянно развивайтесь, но никогда не предавайте свои ценности и ценности своей команды, кто бы вам что ни обещал.
Молодым людям: изучайте ИИ. И постарайтесь найти работу, которая вам нравится, от которой есть драйв и где хорошая команда. Все от этого только выиграют.
Ярослав Филиппов: Спасибо большое! Дорогие друзья, пишите в комментариях, что вы думаете по ключевым мыслям Дмитрия. Всем пока!
Дмитрий Марков: Большое всем спасибо! Пока-пока!


