Правда и ложь систем распознавания лиц. Анализ существующих подходов к распознаванию лиц

Технологии распознавания лиц применяются в самых разнообразных сферах :

обеспечение безопасности в местах большого скопления людей;
системы охраны, избежание незаконного проникновения на территорию объекта, поиск злоумышленников;
фейс-контроль в сегменте общепита и развлечений, поиск подозрительных и потенциально опасных посетителей;
верификация банковских карт;
онлайн-платежи;
контекстная реклама, цифровой маркетинг , Intelligent Signage и Digital Signage ;
фототехника;
криминалистика;
телеконференции;
мобильные приложения;
поиск фото в больших базах фотоснимков;
отметка людей на фото в социальных сетях и многие другие.

IBM выпустила базу из 1 млн фотографий лиц для обучения биометрических систем

2018

Распознавание лиц не работает в каждом втором смартфоне

В начале января 2019 года некоммерческая организация из Голландии провела тестирование 110 моделей смартфонов и обнаружила, что функция распознавания лиц, используемая для блокировки устройств, не работает должным образом более чем на каждом втором аппарате.

Исследование, проведенное Consumentenbond и его международными партнерами, показало, что для разблокировки 42 из протестированных смартфонов достаточно иметь фотографию владельца телефона. Подойдет любая фотография, например, полученная из социальных сетей, с камер видеонаблюдения или любым другим способом.

Программная технология распознавания лиц, доступная владельцам многих смартфонов под управлением Android, достигла такого уровня развития, что уже не позволяет обмануть себя фотографией владельца

Результаты этого исследования вызывают беспокойство у пользователей и служб безопасности. Использование напечатанной фотографии лица владельца - это первая проверка функции распознавания лиц, которую используют обычные пользователи и тестеры. Но главное, это первая уловка, которой попробуют воспользоваться злоумышленники для взлома смартфона , защищенного идентификацией лица, прежде чем перейти к более сложным атакам, которые включают создание масок или 3D-печатных голов владельца телефона.

Любая система распознавания лиц, которая не проходит «фототест», обычно считается бесполезной. Согласно Consumentenbond, модели Asus , BlackBerry , Huawei , Lenovo , , Nokia , Samsung , Sony и Xiaomi не прошли подобные тесты. В случае с Sony провалили тест абсолютно все модели. Еще шесть моделей - Honor и шесть моделей LG - прошли тестирование только в «строгом» режиме. Хотя по результатам этого теста пользователи могут заключить, что включать распознавание лиц не стоит, 68 устройств, включая флагманские модели Apple iPhone XR и , выдержали эту простую атаку, как и многие другие высокопроизводительные модели на Android от Samsung, Huawei, OnePlus и Honor.

Полный список моделей, которые прошли фототест, можно найти на сайте Consumentenbond.

Самые популярные системы распознавания лиц в Китае

Одной из наиболее распространенных программ для распознавания лиц является Face++ , которая используется для управления доступом повсюду – от железнодорожных вокзалов Пекина до офисного здания Alibaba .

Сама Alibaba разработала собственные системы, которые будут применяться в шанхайском метро для идентификации пассажиров с помощью их лица и голоса.

Полицейские, следящие за безопасностью на одном из китайских железнодорожных вокзалов, носят специальные солнечные очки с функцией распознавания лиц. Устройство способно идентифицировать человека за 100 миллисекунд и уже не раз помогало правоохранительным органам в поимке преступников.

В китайском Шеньчжене впервые в мире заработала камера фиксации нарушений пешеходами. Она установлена на одном из напряженных переходов города и следит за людьми, перебегающими дорогу на запрещающий сигнал светофора. Для определения личности нарушителя камера использует технологию распознавания лиц.

На вступительных экзаменах в колледжи по всей стране используется распознавание лиц и отпечатков пальцев, чтобы гарантировать, что экзаменуемые являются настоящими студентами.

После ряда похищений детей некоторые детские сады открывают двери только тем людям, чьи лица зарегистрированы в системе. В одном из детских садов установили более 200 камер для обеспечения безопасности.

Даже в некоторых туалетах установили автоматы с распознаванием лиц. Аппарат выдает 60 см туалетной бумаги одному человеку не чаще чем раз в девять минут.

У Alibaba есть магазины с безналичной оплатой Hema, в которых пользователи сканируют лицо и вводят номер телефона для проведения платежей через систему Alipay .

Компания Alibaba совместно с производителем гостиничных информационных систем Shiji установила систему распознавания лиц для регистрации в 50 отелях. Китайские туристы, прибегающие к услугам онлайн-турагентства Fliggy (принадлежащего Alibaba), могут сначала забронировать в нем отель, а затем, используя «маску» своего лица быстро заселиться в отель и оформить депозит.

В Пекине решили бороться с незаконной арендой госжилья с помощью умных замков, распознающих хозяев по лицу

В конце декабря 2018 года стало известно, что в государственном жилье Пекина ускоренными темпами внедряются «умные» замки с технологией распознавания лиц. С их помощью местные власти усиливают меры против незаконной пересдачи в аренду государственного жилья, предоставляемого малообеспеченным семьям по льготным расценкам.

"Умный" замок с распознаванием лиц

Предполагается, что к концу июня 2019 года замки со встроенной системой сканирования лиц будут использоваться во всех программах предоставления льготного госжилья в Пекине с участием 120 тыс. квартиросъемщиков, сообщает The South China Morning Post со ссылкой на пекинское издание The Beijing News.

Сопоставляя информацию, полученную при сканировании лиц посетителей, с изображениями из сохраненной базы данных, система распознает хозяев и не открывает двери незнакомцам, рассказал в интервью Beijing News директор информцентра при Пекинском государственном жилищном центре Шан Чжэньюй (Shan Zhenyu).

Кроме того, система может использоваться для присмотра за одинокими пожилыми людьми. Если престарелый человек в течение определенного периода времени не выходит и не заходит в дом, управляющему по недвижимости будет отправлено уведомление о необходимости зайти с проверкой.

В таких крупных мегаполисах, как Пекин, аренда жилья очень дорогая. В среднем съемная квартира в столице Поднебесной обходится примерно в 5 тыс. юаней в месяц (около $730), тогда как арендная плата за госжилье может составлять менее 2 тыс. юаней в месяц ($290).

Власти Пекина надеются, что умные замки, узнающие хозяев по лицу, повысят безопасность, предотвратят незаконную передачу в субаренду и гарантируют, что льготой пользуются только действительно нуждающиеся люди.

По состоянию на конец 2018 года смарт-замки с распознаванием лиц задействованы в 47 программах предоставления льготного госжилья в Пекине. С их помощью получено порядка 100 тысяч скан-изображений лиц арендаторов и членов их семей.

Китайский Airbnb устанавливает в домах «умные» замки с распознаванием лиц

Провал в Лондоне. Система распознавания лиц в метро никого не узнает

В конце декабря 2018 года стало ясно, что развернутая в лондонском метро система распознавания лиц никого не узнает. Лондонских полицейских критикуют за использование немаркированных фургонов для проверки спорных и неточных технологий автоматического распознавания лиц у рождественских покупателей. Подробнее .

Туалеты с распознаванием лиц в Китае сокращают потребление туалетной бумаги

В конце 2018 года стало известно о растущем в Китае числе общественных туалетов с системой распознавания лиц, которая позволяет экономить туалетную бумагу.

В декабре такой туалет заработал в Baotu Spring Park в городе Цзинань (провинция Шаньдун), расположенный в 400 км к югу от Пекина. В этой уборной находится автомат, выдающий туалетную бумагу после сканирования лица. За один подход аппарат выдает примерно 70 см бумаги, а для получения дополнительной порции санитарно-гигиеническго изделия этому же человеку нужно подождать 9 минут и снова поднести голову к камере для идентификации.

Для разблокировки смартфона хакеры и полиция печатают голову владельца на 3D-принтере

В 14 американских аэропортах заработала система распознавания лиц

20 августа 2018 года в 14 американских аэропортах заработала система распознавания лиц. О ее эффективности рассказала Служба таможенного и пограничного контроля (U.S. Customs and Border Patrol, CBP).

Как сообщается на сайте ведомства, 22 августа 26-летний пассажир, прилетевший в Вашингтонский аэропорт имени Даллеса из Сан-Паулу (Бразилия), предъявил на пункте контроля паспорт гражданина Франции. Однако биометрическая система выявила, что лицо мужчины не совпадает с фотографией в документе.

В аэропорту Вашингтона система распознавания лиц поймала мужчину - он пытался въехать в США с чужим паспортом

Когда прибывшего в США отправили на дополнительный досмотр, он «явно нервничал» и, как выяснилось, не зря. В его туфле нашли удостоверение личности на имя гражданина республики Конго, которым на самом деле являлся задержанный. Теперь за попытку въехать в США под фальшивыми документами ему грозит тюремное заключение.

Системы распознавания лиц полиции Британии оказались бесполезными

В мае 2018 года стало известно о больших проблемах в системах распознавания лиц, которые используют британские полицейские. В результате может быть подано большое количество исков - этот вопрос стал «приоритетным» для Управления комиссара по информации (Information Commissioner"s Office), приводит BBC слова представителя регулятора Элизабет Денхем (Elizabeth Denham).

Британская правозащитная организация Big Brother Watch опубликовала результаты исследования, показавшие «ошеломляющее» количество невиновных людей, из которых технология распознавания лиц сделала потенциальных преступников.

Так, с мая 2017 года по март 2018-го система выдала для полиции Южного Уэльса 2685 совпадений людей с базой данных подозреваемых, однако 2451 из них оказались ложными.

Лондонские правоохранительные органы применяли технологию идентификации лиц на карнавале Ноттинг-Хилл в 2017 году. Показания системы оказались ошибочными в 98% случаев, когда срабатывал сигнал о том, что якобы замечен подозреваемый из полицейской базы данных. Решение устроено так, что при выявлении возможного нарушителя закона на пульт дежурного в ближайшее отделение полиции поступает сигнал.

Полиция начала винить выдающие некачественную картинку камеры и то, что систему использовали в первый раз, но и в последующих 15 мероприятиях (футбольные матчи, фестивали, парады), во время которых задействовали технологию, результат не улучшился. Только на трех система не ошиблась ни разу.

В полиции также рассказали, что за девять месяцев работы системы распознавания лиц она верно отметила более 2 тыс. человек, что привело к 450 арестам. При этом никто не попал в заключение ошибочно. Это объясняется тем, что помимо работы алгоритмов в работе задействованы люди, которые проверяют срабатывания и принимают окончательные решения.

Ученые изобрели новый способ обмана систем распознавания лиц

С каждым днем системы распознавания лиц становятся сложнее и все чаще используются в повсеместной жизни, к примеру, в минувшем году компания Apple выпустила смартфон iPhone X, оснащенный биометрической системой Face ID . Однако подобные системы можно обмануть, в частности, с помощью инфракрасных светодиодов. Инфракрасные лучи не видимы простому глазу, однако большинство камер могут улавливать инфракрасные сигналы .

Китайские исследователи создали бейсбольную кепку, оснащенную миниатюрными инфракрасными светодиодами, которые размещены таким образом, что инфракрасные лучи, падающие на лицо владельца головного убора, помогают не только скрыть его личность, но и «выдать себя за другого человека для прохождения основанной на распознавании лица аутентификации». Данная задача более сложная и требует использования глубокой нейронной сети для распознавания статичного изображения лица и правильного проецирования инфракрасных лучей на лицо самозванца.

Для проверки своей теории исследователи использовали фотографии четырех случайных людей, им удалось обмануть системы распознавания лиц в 70% случаев при условии наличия небольшого внешнего сходства между жертвой и самозванцем.

«На основании наших находок и атак, мы можем сделать вывод, что существующие на сегодняшний день технологии распознавания лиц сложно назвать безопасными и надежными в аспекте критических сценариев, таких как аутентификация и наблюдение», - заключили исследователи. Они также добавили, что инфракрасные светодиоды можно прятать не только в бейсбольных кепках, но также в зонтах, волосах или париках.

Российские близнецы требуют с Apple 20 млн за то, что iPhone X не видит между ними разницы

Братья-близнецы из Владимира - 26-летние Александр и Илья Тунчики - направили в российский офис компании Apple претензию в связи с тем, что система распознавания лиц Face ID на их смартфонах iPhone X одинаково идентифицирует обоих молодых людей, тем самым, по их мнению, нарушая защиту персональных данных .

Обиженные пользователи требуют от компании усовершенствовать технологию, а также компенсировать моральный ущерб в размере 20 млн руб., сообщил в январе 2018 год ТАСС представляющий интересы братьев юрист Роман Ардыкуца.

«Близнецы приобрели… iPhone X именно ради того, чтобы воспользоваться функцией разблокировки экрана при помощи лиц. К их разочарованию, каждый аппарат узнает обоих братьев, о чем они не были предупреждены при покупке, эта информация отсутствует в инструкции. Именно поэтому заявители просят компанию доработать технологию», - пояснил он.

2017

Распознавание лиц в ритейле

В ноябре 2017 года телеканал CNBC выпустил сюжет, рассказывающий о внедрении систем распознавания лиц в магазинах. Ритейлеры используют такие технологии для сбора данных о клиентах и подбора предложений на основе соответствующих данных.

В ритейле распознавание лиц применяется в основном для того, чтобы мотивировать покупателей. Например, если человека узнают на входе в магазин и видят его историю покупок, то сотрудники магазина лучше знают, что ему предложить. Так, если он покупал в магазине электроники телевизор, сотрудник его узнает, обратится по имени и предложит приобрести новый пульт.

По данным гонконгской ИТ-компании Jardine One Solution (JOS), многие розничные сети применяют возможности распознавания лиц для того, чтобы собирать данные о посетителях своих магазинов.

Сама JOS помогает розничным компаниям с распознаванием лиц клиентов с целью составления профиля покупателей и отслеживания их действий в торговой точке. Речь идет о таких данных, как количество посетителей, их возраст, пол, этническая принадлежность. Такие сведения помогают магазинам лучше знать о потоке клиентов и подбирать персонализированные предложения для них, отметил Лант.

К примеру, используя анализ данных, поступающих из систем распознавания лиц, можно подбирать музыку, играющую в торговом зале.

В JOS говорят, все полученные данные клиентов анонимны, однако вопрос конфиденциальности остается актуальным. Технологии не препятствуют внедрению таких систем, но есть опасения, связанные с личными данными и культурой, признает Марк Лант.

Он добавил, что ритейлеры тратят огромные средства на предотвращение утечек данных и защиту информации. Скандал, связанный с хищением данных миллионов клиентов Uber , показывает, что компании не могут чувствовать себя в безопасности, а пользователи должны проявлять осторожность, раскрывая персональную информацию, считает управляющий директор JOS.

Основатель и генеральный директор компании HeadCount (предлагает магазинам услуги по мониторингу и улучшению посещаемости) Марк Риски (Mark Ryski) говорит, что биометрические данные, в том числе те, которые генерируют системы распознавания лиц, относятся к категории деликатным и имеют большой потенциал - особенно в целях обеспечения безопасности и улучшения качества обслуживания клиентов.

Пример использования системы распознавания лиц в магазинах

По мнению старшего вице-президента по стратегии обслуживания клиентов компании InMoment Бреннана Уилки (Brennan Wilkie), у использования оборудования для распознавания лиц в торговых помещениях действительно есть большой потенциал. Например, такие устройства способны сопоставить выражение лица клиента в магазине с данными о нем, его лояльности бренду и других покупках. Для того, чтобы смягчить проблему конфиденциальности пользователей, магазинам нужно продемонстрировать клиентам, какие преимущества они получают, как это было в свое время с кассами самообслуживания или с банковскими картами с чипами, уверен он.

Согласно прогнозу аналитической компании MarketsandMarkets , объем мирового рынка систем распознавания лиц достигнет $6,8 млрд к 2021 году.

Авторизацию в iPhone X по лицу взломали маской за $150. Видео

Как обойти сканер лица на Samsung Galaxy Note 8

Веб-дизайнер Мэл Тахон опубликовал в своем твиттере видео о том, как легко обойти сканер лица на Galaxy Note 8. В своем эксперименте Тахон держит два Note 8 напротив друг друга, на одном из которых - его фото, а на другом - включенная система сканирования лица.

Обман биометрической защиты Samsung Galaxy S8

Исследователям удалось выдать белого мужчину за Миллу Йовович почти в 90 процентах случаев. Женщину азиатской внешности в специальных очках компьютер в стольких же процентах случаев принимал за мужчину с Ближнего Востока.

Кроме того, они попробовали свой метод на коммерческой программе Face++, которая используется в Alibaba для авторизации платежей. В этом случае они не сажали человека в очках перед камерой, а сначала делали его фотографию в очках и потом загружали ее в программу. В итоге им удалось выдать одного человека за другого в 100 процентах случаев.

Общественные организации США против распознавания лиц

Коалиция из 52 общественных и правозащитных организаций направила в Министерство юстиции письмо с просьбой расследовать чрезмерное использование технологий распознавания лиц в работе органов правопорядка. Также коалицию беспокоит неодинаковая точность машинного распознавания лиц разной расовой принадлежности, которая может стать основой для проявления расизма со стороны сотрудников органов .

Особенно этими технологиями злоупотребляет местная полиция, полиция штатов и ФБР , гласит письмо. Коалиция просит Министерство юстиции в первую очередь заняться проверкой тех полицейских департаментов, которые уже находятся под следствием в связи с предвзятым отношением к гражданам с небелым цветом кожи.

Основанием для просьбы послужили результаты исследования Центра приватности и технологий Школы права университета Джорджтауна. Исследование показало, что лица половины взрослого населения США при разных обстоятельствах были отсканированы правительственным идентификационным ПО.

Исследователи отмечают, что в США на сегодняшний день не существует серьезных правил, регулирующих использование этого ПО. По словам Альваро Бедойи (Alvaro Bedoya), директора Центра и соавтора исследования, сфотографировавшись на водительские права, человек уже попадает в базу лиц полиции или ФБР. Это особенно существенно с учетом того, что распознавание лиц бывает неточным, и в этом случае может наносить вред невинным гражданам.

Примеры проектов в HSBC, MasterCard и Facebook

Услуга будет доступна для корпоративных клиентов НSBC. Через банковское мобильное приложение они смогут открывать счета по одному щелчку селфи. Банк же подтверждает личность клиента с помощью программы распознавания лиц. Фотография сличается со снимками, ранее загруженными в систему, например, с паспорта или водительских прав. Предполагается, что новый сервис избавит от необходимости запоминать цифровые коды и сократит время идентификации.

Чтобы воспользоваться данной опцией, пользователям необходимо будет скачать специальное приложение на свой компьютер, планшет или смартфон. Затем посмотреть в камеру или использовать сканер устройства для распознавания отпечатков пальцев (если он имеется на устройстве). Однако (по крайней мере, на данный момент), пользователям все еще потребуется дополнительно предоставлять данные своей банковской карты. Лишь в том случае, если потребуется дополнительная идентификация, то пользователи смогут воспользоваться вышеописанной опцией.

Благодаря такому новому подходу, MasterCard собирается защитить пользователей от поддельных онлайн-транзакций, которые осуществляются с помощью краденых паролей пользователей, а также предоставить пользователям более удобную систему авторизации. Компания сообщила, что 92% людей, которые тестировали эту новую систему, предпочли ее традиционным паролям.

Некоторые эксперты сомневаются в защите информации от того, чтобы кибер-преступники не смогли легко получить отпечатки пальцев пользователя или фотографию его лица в том случае, если транзакция осуществляется при небезопасном использовании публичной сети Wi-Fi .

Эксперты по кибер-безопасности утверждают, что система должна включать несколько уровней безопасности для предотвращения потенциальной кражи фотографий лица пользователей. Ведь онлайн-платежи представляют собой привлекательную мишень для кибер-преступников.

В конце 2015 года группа экспертов из Технического Университета Берлина продемонстрировала возможность извлечения PIN -кода любого смартфона при использовании сэлфи пользователя. Для этого они считывали данный код, который отображался в глазах пользователя, когда он вводил его на своем телефоне OPPO N1. Хакеру достаточно просто перехватить контроль над фронтальной камерой смартфона для выполнения этой элементарной атаки. Смог бы кибер-преступник перехватить контроль за устройством пользователя, сделать его сэлфи и после этого выполнить онлайн-платежи с помощью набранного пароля, который хакер увидел в глазах своей жертвы?

MasterCard настаивает на том, что ее механизмы обеспечения безопасности будут в состоянии обнаруживать подобное поведение. Например, пользователям необходимо будет мигать для приложения, чтобы продемонстрировать «живой» образ человека, а не его фотографию или предварительно снятое видео. Система сопоставляет изображение лица пользователя, конвертируя его в код и передавая его по безопасному протоколу через Интернет в MasterCard. Компания обещает, что эта информация будет безопасно храниться на ее серверах, при этом сама компания не сможет реконструировать лицо пользователя.

Летом 2016 года стало известно, что исследователи обошли систему биометрической аутентификации, используя фото из Facebook . Атака стала возможной благодаря потенциальным уязвимостям, присущим социальным ресурсам .

Команда исследователей из Университета штата Северная Каролина продемонстрировали метод обхода систем безопасности, построенных на технологии распознавания лиц, при помощи доступных фотографий пользователей соцсетей. Как поясняется в докладе специалистов, атака стала возможной благодаря потенциальным уязвимостям, присущим социальным ресурсам.

«Не удивительно, что личные фото, размещенные в социальных сетях, могут представлять угрозу конфиденциальности. Большинство крупных соцсетей рекомендуют пользователям установить настройки конфиденциальности при публикации фото на сайте, однако многие из этих снимков часто доступны широкой публике или могут быть просмотрены только друзьями. Кроме того, пользователи не могут самостоятельно контролировать доступность своих фото, размещенных другими подписчиками», - отмечают ученые.

В рамках эксперимента исследователи отобрали фотографии 20 добровольцев (пользователей Facebook, Google+ , LinkedIn и других социальных ресурсов). Затем они использовали данные снимки для создания трехмерных моделей лиц, «оживили» их с помощью ряда анимационных эффектов, наложили на модель текстуру кожи и откорректировали взгляд (при необходимости). Получившиеся модели исследователи протестировали на пяти системах безопасности, четыре из них удалось обмануть в 55-85% случаев.

Согласно отчету компании Technavo (зима 216 года) одной из ключевых тенденций, оказывающих положительное влияние на рынок технологий биометрической идентификации по лицу (facial recognition ), является внедрение мультимодальных биометрических систем в таких секторах, как здравоохранение , банковский, финансовый сектор, сектор ценных бумаг и страхования, сектор перевозок, автомобильный транспорт, а также в госсекторе.

Основатель проекта Биньямин Леви (Benjamin Levy) рассказал, что благодаря высокому уровню защищенности IsItYou сможет распознать 99999 из 100 тысяч случаев обмана. Леви попытался убедить банки о необходимости внедрения его системы уже в следующем году. Она будет использоваться для проведения финансовых транзакций.

Google уже использует функцию распознавания лица в Android . Таким образом можно разблокировать устройство под управлением этой мобильной ОС . Тем не менее, разработчики неоднократно утверждали, что распознавание лица недостаточно защищено по сравнению с классическими способами. В связи с этим эксперты засомневались в утверждениях Биньямина Леви.

Мариос Саввидис (Marios Savvedes) из университета Карнеги-Меллон занимается исследованием функции распознавания лица. Он считает, что самостоятельно проведенное испытание на защищенность IsItYou не может быть надежным.

Такого же мнения придерживается мировой эксперт в области биометрии доктор Массимо Тистарелли (Massimo Tistarelli). Он сказал, что в Европе проводится полномасштабный научный проект Tabula Rasa, главная цель которого - разработка защиты от мошенничества для биометрических способов идентификации. По его словам, перед выходом на рынок следует провести ряд независимых исследований, подтверждающих эффективность продукта.

С завидной регулярностью на Хабре появляются статьи, рассказывающие о тех или иных методах распознавания лиц. Мы решили не просто поддержать эту замечательную тему, но выложить наш внутренний документ, который освещает пусть и не все, но многие подходы к распознаванию лиц, их сильные и слабые места. Он был составлен Андреем Гусаком, нашим инженером, для молодых сотрудников отдела машинного зрения, в образовательных, так сказать, целях. Сегодня предлагаем его все желающим. В конце статьи – впечатляющих размеров список литературы для самых любознательных.

Итак, начнем.
Несмотря на большое разнообразие представленных алгоритмов, можно выделить общую структуру процесса распознавания лиц:

Общий процесс обработки изображения лица при распознавании

На первом этапе производится детектирование и локализация лица на изображении. На этапе распознавания производится выравнивание изображения лица (геометрическое и яркостное), вычисление признаков и непосредственно распознавание – сравнение вычисленных признаков с заложенными в базу данных эталонами. Основным отличием всех представленных алгоритмов будет вычисление признаков и сравнение их совокупностей между собой.

1. Метод гибкого сравнения на графах (Elastic graph matching) .

Суть метода сводится к эластичному сопоставлению графов, описывающих изображения лиц. Лица представлены в виде графов со взвешенными вершинами и ребрами. На этапе распознавания один из графов – эталонный – остается неизменным, в то время как другой деформируется с целью наилучшей подгонки к первому. В подобных системах распознавания графы могут представлять собой как прямоугольную решетку, так и структуру, образованную характерными (антропометрическими) точками лица.

А)

Б)

Пример структуры графа для распознавания лиц: а) регулярная решетка б) граф на основе антропометрических точек лица.

В вершинах графа вычисляются значения признаков, чаще всего используют комплексные значения фильтров Габора или их упорядоченных наборов – Габоровских вейвлет (строи Габора), которые вычисляются в некоторой локальной области вершины графа локально путем свертки значений яркости пикселей с фильтрами Габора.

Набор (банк, jet) фильтров Габора

Пример свертки изображения лица с двумя фильтрами Габора

Ребра графа взвешиваются расстояниями между смежными вершинами. Различие (расстояние, дискриминационная характеристика) между двумя графами вычисляется при помощи некоторой ценовой функции деформации, учитывающей как различие между значениями признаков, вычисленными в вершинах, так и степень деформации ребер графа.
Деформация графа происходит путем смещения каждой из его вершин на некоторое расстояние в определённых направлениях относительно ее исходного местоположения и выбора такой ее позиции, при которой разница между значениями признаков (откликов фильтров Габора) в вершине деформируемого графа и соответствующей ей вершине эталонного графа будет минимальной. Данная операция выполняется поочередно для всех вершин графа до тех пор, пока не будет достигнуто наименьшее суммарное различие между признаками деформируемого и эталонного графов. Значение ценовой функции деформации при таком положении деформируемого графа и будет являться мерой различия между входным изображением лица и эталонным графом. Данная «релаксационная» процедура деформации должна выполняться для всех эталонных лиц, заложенных в базу данных системы. Результат распознавания системы – эталон с наилучшим значением ценовой функции деформации.

Пример деформации графа в виде регулярной решетки

В отдельных публикациях указывается 95-97%-ая эффективность распознавания даже при наличии различных эмоциональных выражениях и изменении ракурса лица до 15 градусов. Однако разработчики систем эластичного сравнения на графах ссылаются на высокую вычислительную стоимость данного подхода. Например, для сравнения входного изображения лица с 87 эталонными тратилось приблизительно 25 секунд при работе на параллельной ЭВМ с 23 транспьютерами (Примечание: публикация датирована 1993 годом). В других публикациях по данной тематике время либо не указывается, либо говорится, что оно велико.

Недостатки: высокая вычислительная сложность процедуры распознавания. Низкая технологичность при запоминании новых эталонов. Линейная зависимость времени работы от размера базы данных лиц.

2. Нейронные сети

В настоящее время существует около десятка разновидности нейронных сетей (НС). Одним из самых широко используемых вариантов являться сеть, построенная на многослойном перцептроне, которая позволяет классифицировать поданное на вход изображение/сигнал в соответствии с предварительной настройкой/обучением сети.
Обучаются нейронные сети на наборе обучающих примеров. Суть обучения сводится к настройке весов межнейронных связей в процессе решения оптимизационной задачи методом градиентного спуска. В процессе обучения НС происходит автоматическое извлечение ключевых признаков, определение их важности и построение взаимосвязей между ними. Предполагается, что обученная НС сможет применить опыт, полученный в процессе обучения, на неизвестные образы за счет обобщающих способностей.
Наилучшие результаты в области распознавания лиц (по результатам анализа публикаций) показала Convolutional Neural Network или сверточная нейронная сеть (далее – СНС) , которая является логическим развитием идей таких архитектур НС как когнитрона и неокогнитрона. Успех обусловлен возможностью учета двумерной топологии изображения, в отличие от многослойного перцептрона.
Отличительными особенностями СНС являются локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов), общие веса (обеспечивают детектирование некоторых черт в любом месте изображения) и иерархическая организация с пространственными сэмплингом (spatial subsampling). Благодаря этим нововведениям СНС обеспечивает частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям.

Схематичное изображение архитектуры сверточной нейронной сети

Тестирование СНС на базе данных ORL, содержащей изображения лиц с небольшими изменениями освещения, масштаба, пространственных поворотов, положения и различными эмоциями, показало 96% точность распознавания.
Свое развитие СНС получили в разработке DeepFace , которую приобрел
Facebook для распознавания лиц пользователей своей соцсети. Все особенности архитектуры носят закрытый характер.

Принцип работы DeepFace

Недостатки нейронных сетей: добавление нового эталонного лица в базу данных требует полного переобучения сети на всем имеющемся наборе (достаточно длительная процедура, в зависимости от размера выборки от 1 часа до нескольких дней). Проблемы математического характера, связанные с обучением: попадание в локальный оптимум, выбор оптимального шага оптимизации, переобучение и т. д. Трудно формализуемый этап выбора архитектуры сети (количество нейронов, слоев, характер связей). Обобщая все вышесказанное, можно заключить, что НС – «черный ящик» с трудно интерпретируемыми результатами работы.

3. Скрытые Марковские модели (СММ, HMM)

Одним из статистических методов распознавания лиц являются скрытые Марковские модели (СММ) с дискретным временем . СММ используют статистические свойства сигналов и учитывают непосредственно их пространственные характеристики. Элементами модели являются: множество скрытых состояний, множество наблюдаемых состояний, матрица переходных вероятностей, начальная вероятность состояний. Каждому соответствует своя Марковская модель. При распознавании объекта проверяются сгенерированные для заданной базы объектов Марковские модели и ищется максимальная из наблюдаемых вероятность того, что последовательность наблюдений для данного объекта сгенерирована соответствующей моделью.
На сегодняшний день не удалось найти примера коммерческого применения СММ для распознавания лиц.

Недостатки:
- необходимо подбирать параметры модели для каждой базы данных;
- СММ не обладает различающей способностью, то есть алгоритм обучения только максимизирует отклик каждого изображения на свою модель, но не минимизирует отклик на другие модели.

4. Метод главных компонент или principal component analysis (PCA)

Одним из наиболее известных и проработанных является метод главных компонент (principal component analysis, PCA), основанный на преобразовании Карунена-Лоева.
Первоначально метод главных компонент начал применяться в статистике для снижения пространства признаков без существенной потери информации. В задаче распознавания лиц его применяют главным образом для представления изображения лица вектором малой размерности (главных компонент), который сравнивается затем с эталонными векторами, заложенными в базу данных.
Главной целью метода главных компонент является значительное уменьшение размерности пространства признаков таким образом, чтобы оно как можно лучше описывало «типичные» образы, принадлежащие множеству лиц. Используя этот метод можно выявить различные изменчивости в обучающей выборке изображений лиц и описать эту изменчивость в базисе нескольких ортогональных векторов, которые называются собственными (eigenface).

Полученный один раз на обучающей выборке изображений лиц набор собственных векторов используется для кодирования всех остальных изображений лиц, которые представляются взвешенной комбинацией этих собственных векторов. Используя ограниченное количество собственных векторов можно получить сжатую аппроксимацию входному изображению лица, которую затем можно хранить в базе данных в виде вектора коэффициентов, служащего одновременно ключом поиска в базе данных лиц.

Суть метода главных компонент сводится к следующему. Вначале весь обучающий набор лиц преобразуется в одну общую матрицу данных, где каждая строка представляет собой один экземпляр изображения лица, разложенного в строку. Все лица обучающего набора должны быть приведены к одному размеру и с нормированными гистограммами.

Преобразования обучающего набора лиц в одну общую матрицу X

Затем производится нормировка данных и приведение строк к 0-му среднему и 1-й дисперсии, вычисляется матрица ковариации. Для полученной матрицы ковариации решается задача определения собственных значений и соответствующих им собственных векторов (собственные лица). Далее производится сортировка собственных векторов в порядке убывания собственных значений и оставляют только первые k векторов по правилу:

Алгоритм РСА

Пример первых десяти собственных векторов (собственных лиц), полученных на обучаемом наборе лиц

= 0.956*-1.842*+0.046 …

Пример построения (синтеза) человеческого лица с помощью комбинации собственных лиц и главных компонент

Принцип выбора базиса из первых лучших собственных векторов

Пример отображения лица в трехмерное метрическое пространство, полученном по трем собственным лицам и дальнейшее распознавание

Метод главных компонент хорошо зарекомендовал себя в практических приложениях. Однако, в тех случаях, когда на изображении лица присутствуют значительные изменения в освещенности или выражении лица, эффективность метода значительно падает. Все дело в том, что PCA выбирает подпространство с такой целью, чтобы максимально аппроксимировать входной набор данных, а не выполнить дискриминацию между классами лиц.

В было предложено решение этой проблемы с использование линейного дискриминанта Фишера (в литературе встречается название “Eigen-Fisher”, “Fisherface”, LDA). LDA выбирает линейное подпространство, которое максимизирует отношение:

Где

Матрица межклассового разброса, и

Матрица внутриклассового разброса; m – число классов в базе данных.

LDA ищет проекцию данных, при которой классы являются максимально линейно сепарабельны (см. рисунок ниже). Для сравнения PCA ищет такую проекцию данных, при которой будет максимизирован разброс по всей базе данных лиц (без учета классов). По результатам экспериментов в условиях сильного бакового и нижнего затенения изображений лиц Fisherface показал 95% эффективность по сравнению с 53% Eigenface.

Принципиальное отличие формирования проекций PCA и LDA

Отличие PCA от LDA

5. Active Appearance Models (AAM) и Active Shape Models (ASM) ()

Active Appearance Models (AAM)
Активные модели внешнего вида (Active Appearance Models, AAM) - это статистические модели изображений, которые путем разного рода деформаций могут быть подогнаны под реальное изображение. Данный тип моделей в двумерном варианте был предложен Тимом Кутсом и Крисом Тейлором в 1998 году . Первоначально активные модели внешнего вида применялись для оценки параметров изображений лиц.
Активная модель внешнего вида содержит два типа параметров: параметры, связанные с формой (параметры формы), и параметры, связанные со статистической моделью пикселей изображения или текстурой (параметры внешнего вида). Перед использованием модель должна быть обучена на множестве заранее размеченных изображений. Разметка изображений производится вручную. Каждая метка имеет свой номер и определяет характерную точку, которую должна будет находить модель во время адаптации к новому изображению.

Пример разметки изображения лица из 68 точек, образующих форму AAM.

Процедура обучения AAM начинается с нормализации форм на размеченных изображениях с целью компенсации различий в масштабе, наклоне и смещении. Для этого используется так называемый обобщенный Прокрустов анализ.

Координаты точек формы лица до и после нормализации

Из всего множества нормированных точек затем выделяются главные компоненты с использованием метода PCA.

Модель формы AAM состоит из триангуляционной решетки s0 и линейной комбинации смещений si относительно s0

Далее из пикселей внутри треугольников, образуемых точками формы, формируется матрица, такая что, каждый ее столбец содержит значения пикселей соответствующей текстуры. Стоит отметить, что используемые для обучения текстуры могут быть как одноканальными (градации серого), так и многоканальными (например, пространство цветов RGB или другое). В случае многоканальных текстур векторы пикселов формируются отдельно по каждому из каналов, а потом выполняется их конкатенация. После нахождения главных компонент матрицы текстур модель AAM считается обученной.

Модель внешнего вида AAM состоит из базового вида A0, определенного пикселями внутри базовой решетки s0 и линейной комбинации смещений Ai относительно A0

Пример конкретизации AAM. Вектор параметров формы
p=(p_1,p_2,〖…,p〗_m)^T=(-54,10,-9.1,…)^T используется для синтеза модели формы s, а вектор параметров λ=(λ_1,λ_2,〖…,λ〗_m)^T=(3559,351,-256,…)^Tдля синтеза внешнего вида модели. Итоговая модель лица 〖M(W(x;p))〗^ получается как комбинация двух моделей – формы и внешнего вида.

Подгонка модели под конкретное изображение лица выполняется в процессе решения оптимизационной задачи, суть которой сводится к минимизации функционала

Методом градиентного спуска. Найденные при этом параметры модели и будут отражать положение модели на конкретном изображении.

Пример подгонки модели на конкретное изображение за 20 итераций процедуры градиентного спуска.

С помощью AAM можно моделировать изображения объектов, подверженных как жесткой, так и нежесткой деформации. ААМ состоит из набора параметров, часть которых представляют форму лица, остальные задают его текстуру. Под деформации обычно понимают геометрическое преобразование в виде композиции переноса, поворота и масштабирования. При решении задачи локализации лица на изображении выполняется поиск параметров (расположение, форма, текстура) ААМ, которые представляют синтезируемое изображение, наиболее близкое к наблюдаемому. По степени близости AAM подгоняемому изображению принимается решение – есть лицо или нет.

Active Shape Models (ASM)

Суть метода ASM заключается в учете статистических связей между расположением антропометрических точек. На имеющейся выборке изображений лиц, снятых в анфас. На изображении эксперт размечает расположение антропометрических точек. На каждом изображении точки пронумерованы в одинаковом порядке.

Пример представления формы лица с использованием 68 точек

Для того чтобы привести координаты на всех изображениях к единой системе обычно выполняется т.н. обобщенный прокрустов анализ, в результате которого все точки приводятся к одному масштабу и центрируются. Далее для всего набора образов вычисляется средняя форма и матрица ковариации. На основе матрицы ковариации вычисляются собственные вектора, которые затем сортируются в порядке убывания соответствующих им собственных значений. Модель ASM определяется матрицей Φ и вектором средней формы s ̅.
Тогда любая форма может быть описана с помощью модели и параметров:

Локализации ASM модели на новом, не входящем в обучающую выборку изображении осуществляется в процессе решения оптимизационной задачи.

а) б) в) г)
Иллюстрация процесса локализации модели ASM на конкретном изображении: а) начальное положение б) после 5 итераций в) после 10 итераций г) модель сошлась

Однако все же главной целью AAM и ASM является не распознавание лиц, а точная локализация лица и антропометрических точек на изображении для дальнейшей обработки.

Практически во всех алгоритмах обязательным этапом, предваряющим классификацию, является выравнивание, под которым понимается выравнивание изображения лица во фронтальное положение относительно камеры или приведение совокупности лиц (например, в обучающей выборке для обучения классификатора) к единой системе координат. Для реализации этого этапа необходима локализация на изображении характерных для всех лиц антропометрических точек – чаще всего это центры зрачков или уголки глаз. Разные исследователи выделяют разные группы таких точек. В целях сокращения вычислительных затрат для систем реального времени разработчики выделяют не более 10 таких точек .

Модели AAM и ASM как раз и предназначены для того чтобы точно локализовать эти антропометрические точки на изображении лица.

6. Основные проблемы, связанные с разработкой систем распознавания лиц

Проблема освещенности

Проблема положения головы (лицо – это, все же, 3D объект).

С целью оценки эффективности предложенных алгоритмов распознавания лиц агентство DARPA и исследовательская лаборатория армии США разработали программу FERET (face recognition technology).

В масштабных тестах программы FERET принимали участие алгоритмы, основанные на гибком сравнении на графах и всевозможные модификации метода главных компонент (PCA). Эффективность всех алгоритмов была примерно одинаковой. В этой связи трудно или даже невозможно провести четкие различия между ними (особенно если согласовать даты тестирования). Для фронтальных изображений, сделанных в один и тот же день, приемлемая точность распознавания, как правило, составляет 95%. Для изображений, сделанных разными аппаратами и при разном освещении, точность, как правило, падает до 80%. Для изображений, сделанных с разницей в год, точность распознавания составило примерно 50%. При этом стоит заметить, что даже 50 процентов - это более чем приемлемая точность работы системы подобного рода.

Ежегодно FERET публикует отчет о сравнительном испытании современных систем распознавания лиц на базе лиц более одного миллиона. К большому сожалению в последних отчетах не раскрываются принципы построения систем распознавания, а публикуются только результаты работы коммерческих систем. На сегодняшний день лидирующей является система NeoFace разработанная компанией NEC.

Список литературы (гуглится по первой ссылке)

1. Image-based Face Recognition - Issues and Methods
2. Face Detection A Survey.pdf
3. Face Recognition A Literature Survey
4. A survey of face recognition techniques
5. A survey of face detection, extraction and recognition
6. Обзор методов идентификации людей на основе изображений лиц
7. Методы распознавания человека по изображению лица
8. Сравнительный анализ алгоритмов распознавания лиц
9. Face Recognition Techniques
10. Об одном подходе к локализации антропометрических точек.
11. Распознавание лиц на групповых фотографиях с использованием алгоритмов сегментации
12. Отчет о НИР 2-й этап по распознаванию лиц
13. Face Recognition by Elastic Bunch Graph Matching
14. Алгоритмы идентификации человека по фотопортрету на основе геометриче-ских преобразований. Диссертация.
15. Distortion Invariant Object Recognition in the Dynamic Link Architecture
16. Facial Recognition Using Active Shape Models, Local Patches and Support Vector Machines
17. Face Recognition Using Active Appearance Models
18. Active Appearance Models for Face Recognition
19. Face Alignment Using Active Shape Model And Support Vector Machine
20. Active Shape Models - Their Training and Application
21. Fisher Vector Faces in the Wild
22. Eigenfaces vs. Fisherfaces Recognition Using Class Specific Linear Projection
23. Eigenfaces and fisherfaces
24. Dimensionality Reduction
25. ICCV 2011 Tutorial on Parts Based Deformable Registration
26. Constrained Local Model for Face Alignment, a Tutorial
27. Who are you – Learning person specific classifiers from video
28. Распознавание человека по изображению лица нейросетевыми методами
29. Face Recognition A Convolutional Neural Network Approach
30. Face Recognition using Convolutional Neural Network and Simple Logistic Classifier
31. Face Image Analysis With Convolutional Neural Networks
32. Методы распознавания лиц на основе скрытых марковских процессов. Авторе-ферат
33. Применение скрытых марковских моделей для распознавания лиц
34. Face Detection and Recognition Using Hidden Markovs Models
35. Face Recognition with GNU Octave-MATLAB
36. Face Recognition with Python
37. Anthropometric 3D Face Recognition
38. 3D Face Recognition
39. Face Recognition Based on Fitting a 3D Morphable Model
40. Face Recognition
41. Robust Face Recognition via Sparse Representation
42. The FERET Evaluation Methodology For Face-Recognition Algorithms
43. Поиск лиц в электронных коллекциях исторических фотографий
44. Design, Implementation and Evaluation of Hardware Vision Systems dedicated to Real-Time Face Recognition
45. An Introduction to the Good, the Bad, & the Ugly Face Recognition Challenge Prob-lem
46. Исследование и разработка методов обнаружения человеческого лица на циф-ровых изображениях. Диплом
47. DeepFace Closing the Gap to Human-Level Performance in Face Verification
48. Taking the bite out of automated naming of characters in TV video
49. Towards a Practical Face Recognition System Robust Alignment and Illumination by Sparse Representation
50. Алгоритмы обнаружения лица человека для решения прикладных задач анализа и обработки изображений
51. Обнаружение и локализация лица на изображении
52. Модифицированный мотод Виолы-Джонса
53. Разработка и анализ алгоритмов детектирования и классификации объектов на основе методов машинного обучения
54. Overview of the Face Recognition Grand Challenge
55. Face Recognition Vendor Test (FRVT)
56. Об эффективности применения алгоритма SURF в задаче идентификации лиц

Пожалуй нет ни одной другой технологии сегодня, вокруг которой было бы столько мифов, лжи и некомпетентности. Врут журналисты, рассказывающие о технологии, врут политики которые говорят о успешном внедрении, врут большинство продавцов технологий. Каждый месяц я вижу последствия того как люди пробуют внедрить распознавание лиц в системы которые не смогут с ним работать.

Тема этой статьи давным-давно наболела, но было всё как-то лень её писать. Много текста, который я уже раз двадцать повторял разным людям. Но, прочитав очередную пачку треша всё же решил что пора. Буду давать ссылку на эту статью.

Итак. В статье я отвечу на несколько простых вопросов:

Как вы думаете, откуда создатели алгоритмов взяли эти базы?

Маленькая подсказка. Первый продукт NTech, который они сейчас - Find Face, поиск людей по вконтакту. Думаю пояснения не нужны. Конечно, вконтакт борется с ботами, которые выкачивают все открытые профили. Но, насколько я слышал, народ до сих пор качает. И одноклассников. И инстаграмм.

Вроде как с Facebook - там всё сложнее. Но почти уверен, что что-то тоже придумали.
Так что да, если ваш профиль открыт - то можете гордиться, он использовался для обучения алгоритмов;)

Про решения и про компании

Тут можно гордиться. Из 5 компаний-лидеров в мире сейчас два - Российские. Это N-Tech и VisionLabs. Пол года назад лидерами был NTech и Vocord, первые сильно лучше работали по повёрнутым лицам, вторые по фронтальным.

Сейчас остальные лидеры - 1-2 китайских компании и 1 американская, Vocord что-то сдал в рейтингах.

Еще российские в рейтинге itmo, 3divi, intellivision. Synesis - белорусская компания, хотя часть когда-то была в Москве, года 3 назад у них был блог на Хабре. Ещё про несколько решений знаю, что они принадлежат зарубежным компаниям, но офисы разработки тоже в России. Ещё есть несколько российских компаний которых нет в конкурсе, но у которых вроде неплохие решения. Например есть у ЦРТ. Очевидно, что у Одноклассников и Вконтакте тоже есть свои хорошие, но они для внутреннего пользования.

Короче да, на лицах сдвинуты в основном мы и китайцы.

NTech вообще первым в миру показал хорошие параметры нового уровня. Где-то в конце 2015 года . VisionLabs догнал NTech только только. В 2015 году они были лидерами рынка. Но их решение было прошлого поколения, а пробовать догнать NTech они стали лишь в конце 2016 года.

Если честно, то мне не нравятся обе этих компании. Очень агрессивный маркетинг. Я видел людей которым было впарено явно неподходящее решение, которое не решало их проблем.

С этой стороны Vocord мне нравился сильно больше. Консультировал как-то ребят кому Вокорд очень честно сказал «у вас проект не получится с такими камерами и точками установки». NTech и VisionLabs радостно попробовали продать. Но что-то Вокорд в последнее время пропал.

Выводы

В выводах хочется сказать следующее. Распознавание лиц это очень хороший и сильный инструмент. Он реально позволяет находить преступников сегодня. Но его внедрение требует очень точного анализа всех параметров. Есть где достаточно OpenSource решения. Есть применения (распознавание на стадионах в толпе), где надо ставить только VisionLabs|Ntech, а ещё держать команду обслуживания, анализа и принятия решения. И OpenSource вам тут не поможет.

На сегодняшний день нельзя верить всем сказкам о том, что можно ловить всех преступников, или наблюдать всех в городе. Но важно помнить, что такие вещи могут помогать ловить преступников. Например чтобы в метро останавливать не всех подряд, а только тех кого система считает похожими. Ставить камеры так, чтобы лица лучше распознавались и создавать под это соответствующую инфраструктуру. Хотя, например я - против такого. Ибо цена ошибки если вас распознает как кого-то другого может быть слишком велика.

Добавить метки

Видеть - значит понимать увиденное. Мы слепы, если в нашем мозгу не работают зрительные зоны неокортекса - своеобразного биокомпьютера, ответственного за распознавание образов. Сейчас подобные анализаторы, способные узнавать лица и понимать их выражение, появляются у искусственных систем.

Итак, вещи обретают зрение, а у зрения есть собственный разум. Сначала мне кажется, что он туповат: только что включенная система распознавания лиц LUNA не торопится войти в штатный режим и запомнить меня. Но вот наконец она рапортует, что запомнила, и просит ввести имя. Пол и возраст LUNA может определить сама. С полом легко: у меня борода, а вот возраст система завысила на пять лет - видимо, из-за той же бороды.

Теперь камера узнает меня, даже если я снимаю очки или поворачиваю голову. Приходится попробовать средство посерьезней - мы направляемся к шкафу с париками и накладными усами. Я выбираю густые кудри, скрывающие к тому же пол-лица, - LUNA все равно узнает меня.

Наигравшись с париками, мы открываем ICQ и начинаем развлекаться с масками для видеозвонков: на мое цифровое лицо в реальном времени накладываются маски - можно неузнанным общаться в видеочате.

Следующий номер нашей программы - Face.DJ. Это приложение строит 3D-модель лица по селфи, а потом "надевает" это лицо на виртуальную голову, чтобы вы могли примерять прически и аксессуары. Другое назначение приложения - анимировать пользователя, создать его мультяшную копию для игр и прочих онлайн-занятий.

Мы готовим такое же приложение для сервиса знакомств: люди при первом контакте часто не хотят раскрываться, - рассказывает Юля, пиарщик компании VisionLabs, разработавшей LUNA. - Некоторые надевают маски, чтобы добавить в романтическое общение элемент игры.

У кросс-платформенной системы LUNA тоже много масок. Есть приложение в мессенджере Telegram, которое распознает пол и возраст по лицу, есть LUNA в облаке и LUNA для браузера. Но главное - эту программу можно внедрять в самые разные технологические продукты, чтобы использовать для распознавания лиц.

Например, одному из наших клиентов нужно выбирать фотографии - так называемый bestshot из видеопотока. Так вот, наша программа справляется с этим сама. Другому клиенту нужно, чтобы система распознавала лицо не только при входе в интернет-банк, но и на протяжении всего сеанса, потому что вы можете отойти, а вашим доступом воспользуется злоумышленник. С этой задачей мы тоже справились.

Главные клиенты VisionLabs - банки. Например, в "Почта Банке" системой LUNA оборудованы 50 тысяч рабочих мест - это самое большое внедрение биометрии в мире. Важно распознавать и лица клиентов, чтобы сравнивать фотографии в паспортах с фото в базе данных. Ведь самое распространенное мошенничество в этой сфере - вклейка своего фото в чужой паспорт для получения кредита.

Как видят машины

К нам подходит Александр Ханин, директор VisionLabs.

Расскажите о компьютерном зрении?

Александр Ханин: Компьютерное зрение - это область прикладной математики, которая по сложности эквивалентна задаче создания искусственного интеллекта в целом. Визуальный канал основной для получения информации об окружающем мире. И доверяем мы увиденному своими глазами больше, чем другим источникам.

Наша задача - научить программу по фотографии или видео делать выводы и понимать картинку так же, как человек. Или даже лучше. Вот когда машина сравняется с человеком в этом умении, можно будет считать, что задача решена. Пока же она решена лишь для некоторых узких прикладных областей. Например, для распознавания дефектов оборудования или распознавания лиц.

Задача распознавания лиц решена?

Александр Ханин: Да, уже сейчас достоверно показано, что машина различает лица лучше нас. И точнее, и быстрее. Человек не очень хорошо определяет возраст, национальность. Тот, кто живет в Европе, хуже различает лица людей с азиатской внешностью, и наоборот. Еще мы забывчивы. В довершение всего машина делает это в десятки миллионов раз быстрее.

Зато человек анализирует не отдельные параметры, а лицо и даже ситуацию в целом. Мы понимаем контекст, в котором лицо собеседника принимает то или иное выражение. Как машина со всем этим справляется?

Александр Ханин: Сочетая лучшие методики компьютерного зрения и машинного обучения. Взять, например, метод глубокого обучения - его особенность в том, что человек не задает параметры лица для распознавания.

Нейросеть программирует сама себя?

Александр Ханин: Нейросети появились еще в 1970-х, а революция в этой области началась примерно в 2013-2014-м. Потому что только к этому времени удалось накопить достаточно большие объемы данных , чтобы учить нейросети, а вычислительные мощности стали относительно дешевыми. Продолжать разрабатывать детерминированные методы распознавания - указывать, какие части лица как сравнивать, - стало бессмысленно.

Прорыв произошел, когда отказались от заданных параметров, например от ключевых точек на лице. Вместо этого машине поставили задачу: "Смотри, вот десять тысяч пар фотографий, каждая пара - один человек. Проанализируй их, чтобы суметь определить на фото, которые ты пока не видишь, где один человек, а где разные". Машина сама находит параметры, которые важны для решения этой задачи.

Вы именно так обучали свою систему?

Александр Ханин: Ну да, это типичная задача идентификации - сравнить фотографию, сделанную сейчас, с фото в паспорте и подтвердить, что это один и тот же человек. Мы давали машине на вход большие данные - миллионы пар фотографий, а на выходе требовали правильного ответа для любых фотопортретов. И система училась - сама настраивала параметры так, чтобы минимизировать ошибки. То есть для глубокого обучения сначала надо найти обучающую выборку - много примеров правильных решений. Потом программа работает уже сама.

Где же вы взяли эти миллионы пар фотографий?

Александр Ханин: Есть доступные обучающие выборки для исследователей - сначала мы использовали их, а дальше уже работали с партнерами и клиентами, которые разрешили продолжить обучение на их данных.

Как преуспеть на рынке

Задача распознавания людей по лицу решена. А как обстоит дело с определением эмоций?

Александр Ханин: Как, например, в африканских странах люди миновали стадию телеграфа и сразу перешли на мобильную сеть, так и мы, не решая задачу распознавания эмоций, сразу перешли на более высокий уровень - к выводам о важных для наших клиентов характеристиках человека. Бизнес показывает: от того, что машина распознает, улыбается человек или нахмурен, пользы никакой. Нужны более серьезные умения.

Распознавать ложь, например?

Александр Ханин: Да. Или определять, соответствует кандидат вашим требованиям или нет. Удовлетворен клиент обслуживанием или нет - улыбка ведь может выражать не только радость, но и насмешку и скрытое недовольство. Поэтому само по себе распознавание эмоций - это подзадача. Мы изучаем лицо в динамике, последовательность реакций на вопросы, обслуживание, обстановку.

Есть ли в мире инновационные продукты, на которые вы ориентируетесь?

Александр Ханин: Мы сами на переднем фланге. Медицинский факт, что наш продукт - первая в мире комплексная система распознавания лиц для банков и ретейла, которая работает и в мобильном телефоне, и на сайте, и в отделениях, и в банкоматах, и в терминалах самообслуживания - везде. Мы не только первые, но пока, насколько я знаю, единственные.

В каких-то терминалах самообслуживания уже установлена система распознавания лиц?

Александр Ханин: Да, например, в банке "Открытие" - в терминалах электронной очереди. И это не пилотные проекты, а такие, которые работают и удовлетворяют заказчиков в реальных условиях.

Чувствуете, как конкуренты дышат в спину?

Александр Ханин: Пилотных проектов в близких к нам областях много. Компаний, которые занимаются распознаванием лиц, только в России десятки, в Китае - около сотни, в мире - больше тысячи. Поэтому я и говорю, что сама по себе задача распознавания лиц решена, - во всяком случае для большинства сегментов и практических задач.

Для успеха на рынке важны не технологии. Большинству клиентов плевать, какая у нас технология и как именно мы решаем задачу, допустим, по ускорению обслуживания в банке или магазине, - с помощью распознавания лиц, прогноза погоды или черной магии. Им важно, чтобы был результат.

Распознать всех!

Какие задачи еще не решены, но будут - в обозримой перспективе? Над чем работают специалисты?

Александр Ханин: Одна из важнейших нерешенных задач - распознавание лиц в полностью неконтролируемой обстановке, например в толпе. Многие говорят, что умеют это делать, но по факту ничего такого пока не внедрили. Видимо, напрасно говорят.

Разве узнавать случайных людей по лицам не запрещено законом? Это ведь использование персональных данных.

Александр Ханин: Бизнесу запрещено, конечно. Это нарушение прав человека и вмешательство в частную жизнь. Вообще, технологии сейчас позволяют сделать гораздо больше, чем разрешает законодательство. Но мы работаем только в белой зоне - в полном соответствии с законом. Для нас важно не нарушать права людей. Мы не имеем права использовать без согласия человека его данные из соцсетей и поэтому не станем делать, например, для магазина систему, которая ищет информацию о клиенте по его фотографии. Но мы можем разработать программу, которая будет приблизительно оценивать пол и возраст покупателей по фото.

Наша компания работает только с бизнесом, а вот у служб национальной безопасности есть системы, которые ищут людей по фотографии.

То есть ФСБ можно, а обычным людям нельзя?

Александр Ханин: Да. Если спецслужба хочет найти террориста в толпе, ей нужно сканировать и распознать всех. А если человек зашел в магазин и программа по фотографии нашла его аккаунт в соцсети, узнала телефон и начала рассылать спам, это очень серьезное нарушение. На Западе за это предусмотрена уголовная ответственность.

В аэропортах уже есть системы распознавания лиц?

Александр Ханин: Да, в основном на паспортном контроле - они проверяют, ваш ли это паспорт, не поддельный ли и не числитесь ли вы в списке заблокированных или в федеральном розыске. За рубежом степень автоматизации значительно выше. В аэропортах Сингапура, Лондона, Парижа паспортный контроль можно проходить автоматически, без участия сотрудников. Вы сканируете свой паспорт, вас фотографируют, происходит сверка - и все, можно идти дальше.

Угадай, что на картинке

Как будет развиваться компьютерное зрение?

Александр Ханин: Есть большая группа задач, именуемых visual question answering: вы показываете компьютеру картинку, и он должен понять, что там изображено. Это очень сложно: если просто учить распознавать объекты по отдельности, ничего не получится - надо понимать контекст и взаимосвязь объектов.

Другая похожая задача - распознавание действий человека, они ведь тоже определяются во многом по контексту. Например, если человек поднял руку, что это значит? Он указывает дорогу или собирается кого-то ударить? Вот сидим, думаем.

То есть вы хотите научить машины распознавать образы, смысл которых зависит от контекста?

Александр Ханин: Научить интерпретировать контекст и таким образом распознавать картинки, действия, сцены.

Когда роботы прозреют

Александр Ханин: Хотелось бы, чтоб разработку компьютерного зрения довели до конца. Тогда у роботов появятся настоящие глаза, а значит, возможность понимать происходящее и адекватно реагировать. Иначе они не станут частью общества, а так и будут игрушками с пультами управления.

Как системы, распознающие лица, изменят нашу жизнь в ближайшие годы?

Александр Ханин: Вы совершенно точно заметите работу таких систем при авторизации - например, когда будете разблокировать телефон. Многие уже привыкли к Touch ID, но скоро самым распространенным способом станет вхождение в систему по лицу. Приходя домой, вы не будете искать ключи, на работе вам не понадобится пропуск. Ускорится обслуживание и самообслуживание в банках, магазинах, во всей сфере услуг: расчеты будут происходить без карточек.

На улицах станет безопаснее, потому что появится видеонаблюдение с функциями отслеживания. Города и страны получат дополнительную защиту, а возмездие за преступление станет неизбежным. Система будет фиксировать все: кто и где это сделал, куда потом пошел. На смену понятию "безопасный город" придет "умный город": одна и та же инфраструктура будет обеспечивать безопасность и, например, управление потоками людей и машин, а также много чего другого.

Одна и та же система установленных повсюду камер и компьютерного зрения?

Александр Ханин: Да, алгоритму без разницы, кого распознавать: вип-клиента или воришку. Лица у всех устроены одинаково: глаза, рот и нос. Но дело не только в лицах. Эта же система может заняться, скажем, регулированием освещения. Если в помещении нет людей, зачем жечь электричество? Машина вызовет коммунальные службы, если зафиксирует неполадки, и так далее.

Жить в мире, где все на виду, страшновато. Технически все проще становится построить антиутопию, где за всеми ведется тотальная слежка…

Александр Ханин: Я думаю, в итоге мир станет лучше и намного безопаснее. Но обманывать будет труднее. Например, мы с партнерами недавно разработали продукт, который не только дает доступ в рабочее помещение, но и учитывает проведенное там время: пришли во столько-то, ушли во столько. Прогуляли, опоздали, не вернулись с обеда - все будет зафиксировано.

И никак нельзя будет от этого спрятаться? Наверняка появятся маски с чужим лицом.

Александр Ханин: Безусловно, есть масса способов обмануть систему, и в этой области "гонка вооружений" только начинается. Был такой видеоролик, где учили делать макияж, препятствующий распознаванию. Но то было года три назад - нынешние алгоритмы так просто не проведешь.

А если вместо лица показывать фотографию?

Александр Ханин: Чтобы вычислить мошенников, в системах распознавания лиц программируют специальный "детектор живости" (lifeness detector), который определяет, человек перед ним или фотография. Показателей живости несколько. Самый простой, который считается мировым стандартом, - это моргание. Еще система может попросить человека улыбнуться, повернуть голову, приблизиться к камере, чтобы убедиться, что он реальный. Но если камера оснащена сенсором глубины, это не требуется: машина сразу понимает, что в кадре объемный объект, а не фото.

Кто еще в лидерах

Распознавание лиц - это не только наука и технология, но и большой бизнес, который в развитых странах растет огромными темпами. Исследовательская компания Allied Market Research прогнозирует, что к 2022 году его оборот составит почти десять миллиардов долларов. Среди ведущих игроков есть и российские. Из десятков стартапов и исследовательских проектов мы выделили три самых успешных.

NTechLab. Выпускник МГУ Артем Кухаренко начинал с приложения, определявшего породу собак по фотографии. Но уже в 2015 году созданный им с партнерами по проекту NTechLab алгоритм FaceN одержал победу в двух из четырех номинаций главного мирового конкурса по распознаванию лиц MegaFace, обойдя команду Google. Однако настоящая слава пришла к компании после разработки популярнейшего приложения FindFace, предназначенного для поиска по фото людей в соцсети "ВКонтакте". Сегодня число заявок на интеграцию технологии FindFace приближается к тысяче.

Vocord. Компанию "Вокорд" можно смело считать чемпионом мира по распознаванию лиц: на сайте конкурса MegaFace она занимает первое место, лидируя с солидным отрывом. Команда "Вокорд" - ветераны на рынке систем компьютерного зрения: программу дистанционного биометрического распознавания лиц Vocord FaceControl они выпустили еще в 2008 году, сегодня их продуктами пользуются больше двух тысяч коммерческих и государственных организаций. Специализация компании - идентификация лиц, то есть поиск человека в толпе.

VisionLabs. Их продукты входят в тройку лучших мировых коммерческих систем распознавания лиц. Подробнее об этой компании читайте в основном тексте.

Основные виды биометрии

Международная классификация способов идентификации человека

Лицо. Программа по фото или видеоизображению лица анализирует размер и форму глаз, носа, скул, их взаиморасположение и на основе этих данных создает уникальную комбинацию, которую затем сравнивает с имеющимися на предмет совпадения.

Отпечатки пальцев. Дактилоскопический метод основан на неповторимости папиллярного рисунка кожи, широко применяется в криминалистике.

Речь. Способ распознавания, основанный на преобразовании звучащей речи в цифровую информацию.

Глаза. Распознавание происходит в результате сравнения цифрового изображения радужной оболочки глаза с имеющимися в базе.

Вены. Способ идентификации на основе венозного рисунка руки или пальцев.

Юбилейный iPhone X получил одну из самых неординарных фишек среди конкурентов. Флагман умеет распознавать лицо владельца, а вместо Touch ID и кнопки «Домой» инженеры интегрировали камеру TrueDepth и функцию Face ID.

Быстро, моментально и без необходимости вводить пароли. Так можно разблокировать iPhone X уже сегодня.

Apple известна тем, что всегда смотрит в технологическое будущее намного раньше, чем очередная функция становится стандартом. В случае с iPhone X и сканером лица компания уверена, что за распознаванием лиц будущее.

Разберемся, заблуждается ли Apple или наши лица – это верный пропуск в цифровое будущее.

😎 Рубрика «Технологии» выходит каждую неделю при поддержке re:Store .

Так как работает распознавание лиц?

Для работы технологии распознавания лиц нужно несколько составляющих. Во-первых, сам сервер, на котором будет храниться и база данных, и подготовленный алгоритм сравнения.

Во-вторых, продуманная и натренированная нейросеть, которой скормили миллионы снимков с пометками. Обучают такие сети просто. Загружают снимок и представляют его системе: «Это Виктор Иванов», затем следующий.

Нейронная сеть самостоятельно распределяет векторы признаков и находит геометрические закономерности лица таким образом, чтобы затем самостоятельно узнать Виктора из тысяч других фотографий.

В той же технологии FaceN, о которой мы поговорим ниже, используется около 80 различных числовых признаков-характеристик.

Почему про распознавание лиц внезапно заговорили?

В середине 2016 года интернет буквально взорвало приложение и одноименный . Используя нейронные сети, разработчики сумели воплотить в жизнь самую смелую мечту пользователей социальных сетей.

Увидев человека на улице, вы могли сфотографировать его на смартфон, отправить фото в FindFace, и через несколько секунд найти его страничку во «ВКонтакте». Алгоритм совершенствовался, допиливался и все лучше и лучше распознавал лица.

А начиналось все с распознавания пород собак по фотографии. Автор технологии распознавания FaceN и приложения Magic Dog, Артем Кухаренко. Парень быстро смекнул, что за этой технологией будущее и приступил к разработке.

После успеха приложения FindFace, основатель компании-разработчика N-Tech.Lab Кухаренко в очередной раз убедился в том, что распознавание лиц интересно практически в любой отрасли:

пограничные службы

казино

аэропорты

любые места скопления людей

маркеты

парки развлечений

спецслужбы

В мае 2016 года N-Tech.Lab приступило к тестированию сервиса совместно с правительством Москвы. По всей территории столицы разместили десятки тысяч камер, которые в режиме реального времени опознавали прохожих.

Трустори. Вы просто проходите по двору, в котором установлена подобная камера. К ней подключена база преступников и пропавших людей. В случае, если алгоритм определяет, что вы схожи с подозреваемым, сотрудник полиции тут же получает предупреждение.

Разумеется, человека тут же можно найти в социальной сети и пробить по любым базам. А теперь представьте, что такие камеры установлены по периметру всего города. Скрыться злоумышленнику не удастся. Камеры есть везде: во дворах, на подъездах, на трассах.

А как дела с распознаванием лиц в России

Вы удивитесь, но с середины 2016 года градоначальники Москвы активно внедряют систему распознавания лиц по всей территории города.

На сегодняшний день только на подъездах московских многоэтажек установлено более 100 тысяч камер , умеющих распознавать лица. Более 25 тысяч установлены во дворах. Разумеется, точные цифры засекречены, но можете сомневаться – активный контроль распространяется быстрее, чем вы можете себе представить.

В столице системы распознавания лиц устанавливаются повсеместно: от площадей и мест большого скопления людей, до общественного транспорта. Со дня установки систем удалось задержать более десяти преступников, но это только по официальным данным.

Все камеры постоянно обмениваются информацией с Единым вычислительным центром Департамента информационных технологий. Подозрительные оповещения тут же проверяются правоохранительными органами.

И это только начало. В конце прошлого года аналогичную систему контроля стали тестировать и на улицах Санкт-Петербурга. Удобство предложенной FindN технологии в том, что вовсе необязательно устанавливать какие-то специальные камеры.

Изображение со стандартных камер видеонаблюдения поступает на обработку «умному» алгоритму и настоящая магия происходит уже там. По актуальным данным точность распознавания FindFace сегодня варьируется в пределах 73% – 75%. Разработчики уверены, что смогут добиться результата в 100% уже в ближайшее время.

Как вообще появилось распознавание лиц?

Изначально любой тип биометрической идентификации использовался исключительно внутри правоохранительных органов и служб, где безопасность в приоритете. Буквально за несколько лет измерение анатомических и физиологических характеристик для идентификации личности стало стандартом практически во всех потребительских гаджетах.

Типов биометрической аутентификации масса:

по ДНК

по радужной оболочке глаза

по ладони

по голосу

по отпечатку пальца

по лицу

И именно последняя технология особенно интересна, поскольку имеет сразу несколько преимуществ перед другими.

Прообразом технологии распознавания лиц в XIX веке служили сперва «портреты по описанию», а позже – фотографии. Так полиция могла идентифицировать преступников. В 1965 году специально для правительства США была разработана полуавтоматическая система распознавания лиц. В 1971 к технологии вернутся, обозначив основные маркеры, необходимые для распознавания лиц, но ненадолго.

С тех пор в качестве главного биометрического идентификатора спецслужбы все же предподчитают проверенную технологию снятия отпечатков пальцев.

А все потому, что технологии не позволяли как-либо взаимодействовать с чертами лица человека. Ультраточных лазеров, инфракрасных датчиков и мощных процессоров, как и самих систем распознавания, на тот момент не было.

С появлением мощных компьютеров, практически все ведомства возвращаются к идентификации посредством сканирования лица. Бум на технологию в ведомствах и спецучреждениях приходится на середину 2000-х годов, а в прошлом году технология стала впервые использоваться и в потребительских устройствах.

Где сегодня используют технологию распознавания лиц

В смартфонах

Популяризация технологии распознавания лиц началась с флагмана Apple. iPhone X задал тренд на последующие годы и OEM-производители активно приступили к интеграции аналогов Face ID в свои устройства.

В банках

Биометрическое распознавание лиц уже не первый год используется в США. Теперь же технология добралась и до России. Только за 2017 год благодаря внедрению данной системы удалось предотвратить более 10 тысяч мошеннических сделок и сохранить сумму в размере 1,5 млрд рублей.

Распознавание лиц используется для идентификации клиента и принятия решения по возможности выдачи кредита.

В магазинах

Сегмент ритейла используют технологию по-своему. Так, если вы покупали какую-либо бытовую технику в магазине, а спустя какое-то время вернулись в него за очередными покупками, система распознавания лиц тут же идентифицирует вас еще на входе. Продавец тут же получит информацию из базы и узнает не только ваше имя, но и историю покупок. Дальнейшее поведение продавца предугадать несложно.

В жизни городов

Это именно то, ради чего разрабатывается и развивается технология. От стадионов до кинотеатров – везде, где огромное количество людей, идентификация особо важна. Сегодня технология распознавания лиц позволяет предотвратить массовые беспорядки и террористические акты.

Какие компании интересуются распознаванием лиц

Google, Facebook, Apple и прочие IT-гиганты сейчас занимаются активной скупкой проектов от разработчиков, занимающихся распознаванием лиц. Все они видят в технологии огромный потенциал.

Это лишь часть официально анонсированных сделок. На деле их намного больше. Помимо интеграции Face ID и аналогов технологии в смартфоны, у ведущих IT-компаний намного большие виды на использование распознавания лиц.

Как будет выглядеть будущее с распознаванием лиц

С тем, какие преимущества открывает технология сканирования лица в смартфонах и электронных устройствах, мы уже разобрались, то давайте заглянем в недалекое будущее и представим один день из жизни человека, который попал в город, где повсеместно установлены камера распознавания лиц.

Доброе утро! Улыбочку, на вас смотрит система «умный» дом. Мда, хозяин, выпито вчера было немало – по лицу вижу, с трудом опознала. Так, рядом супруга, в прихожей доедает вечерний корм Барсик. Посторонних нет. Замечательно.

Один взгляд на кофеварку на расстоянии «чуть ближе обычного» и ваш американо средней крепости со слегка теплым молоком готовится. Оп, кто-то у дверей! Ах, это же любимая теща. Проходите, для вас дверь открыта – ваше лицо не забудет ни одна система распознавания в мире.

Вы собрались и подходите к лифту. Нет-нет, это система распознавания уже в курсе, что вы предпочитаете садится в крайний лифт, поэтому он уже вызван.

Завидев вас издалека, 500-сильный электрокар автоматически подстроил вылет руля и подкорректировал положение кресла. Дверь открыта – присаживайтесь.

Пока производители систем автопилота безуспешно пытаются убедить законодательство в необходимости внедрения беспилотных автомобилей, старайтесь не нарушать ПДД. Камеры наблюдения повсюду, а оплата штрафа неизбежна. Ведь за рулем точно вы, и, как только вы вдавите педаль акселератора в пол, с вашей банковской карты спишется штраф за превышение скорости.

Наконец, мы у здания офиса той самой компании, которая занимается внедрением технологии распознавания лиц в инфраструктуру городов России. Да, это ваша работа. Контроль жесткий, но вам не стоит переживать – пока вы парковали машину, камеры уже узнали вас.

Работать стало сложнее: по всему периметру офиса камеры распознавания, которые «видят» кто и чем занимается, а заодно умеют читать эмоции. Короче, валять дурака на рабочем месте не выйдет.