Как работает технология распознавания лиц в смартфоне? Технология распознавания лиц придет в российские города.

Биометрическую систему распознавания лиц планируется включить в стандарт «смарт-сити» для российских городов, который начал разрабатывать Минстрой. Об этом рассказал «Известиям» замглавы ведомства Андрей Чибис. Он отметил, что такую технологию было бы удобно использовать в общественном транспорте: пассажир заходит в автобус, программа его узнает и списывает за проезд деньги с банковского счета. Министерство намерено ознакомиться с опытом китайских городов и распространить подобные технологии в России.

Министерство планирует привлечь китайские компании, в том числе Huawei, к внедрению совместно с «Ростелекомом» технологии биометрии и анализа событий в российских городах. Об этом сообщил «Известиям» заместитель министра строительства и ЖКХ Андрей Чибис. По его словам, в случае успеха эта система ляжет в основу стандарта «смарт-сити» - минимального набора решений для повышения комфортности городов. К разработке стандарта ведомство уже приступило.

Представители министерства планируют посетить Китай, чтобы оценить, как современные технологии, включая биометрию, работают там.

Насколько я знаю, сейчас идет дискуссия по поводу внедрения такой технологии в Москве. Очевидно, что из-за необходимости использовать карточки, время посадки пассажиров затягивается. А алгоритм распознавания лиц работает так: пассажир заходит в метро или автобус, программа его распознает и списывает за проезд деньги с банковского счета, - привел пример Андрей Чибис.

Во многих городах уже установлено значительное количество камер, то есть инфраструктура в целом создана, подчеркнул чиновник. Вопрос в нормативном регулировании и реализации пилотных проектов - в случае их успеха дальнейший процесс будет стремителен: «как в свое время быстро ушли от жетонов в метро, так можем уйти и от турникетов».

В пресс-службе «Ростелекома» отметили, что идентификация пассажиров в городском транспорте, в том числе для оплаты проезда, - это одна из самых очевидных возможностей использования системы.

В мире есть реальные примеры, и в России создание такого рода решений ожидается уже в скором времени, - подтвердили «Известиям» в компании.

Проект «Умный город», в рамках которого планируется развивать новую технологию, рассчитан на шесть лет. По словам Андрея Чибиса, никто не говорит, что в течение этого срока везде обязательно появится система распознавания лиц, но нужно двигаться в этом направлении. «Это же не только вопрос безопасности, но и комфорта. Мы изучим эту технологию и в ближайшее время определимся с возможностью внедрения - конечно, в первую очередь, с точки зрения ее стоимости», - указал он.

Генеральный директор компании VisionLabs, специализирующейся на компьютерном зрении, Александр Ханин отмечает, что процесс установки камер и серверов технически несложный, поэтому в ближайшем будущем подобные системы могут быть внедрены повсеместно. Их можно использовать в том числе для поиска пропавших, считает он. Стоимость подключения к каждой камере зависит от сценария использования и типа камеры: от 200 рублей до нескольких тысяч.

Заведующий кафедрой телекоммуникационных систем Московского института электронной техники Александр Бахтин отметил, что сети городов готовы к передаче таких данных. Однако на начальном этапе внедрения новых технологий всегда есть риск нарушения конфиденциальности. Существует достаточно много точек, в которых сведения могут быть перехвачены. Но после тестовых испытаний система выстраивается и эффективно работает.

Томограф в поликлинике генерирует гораздо больше информации, чем видеопоток из какого-нибудь автобуса. Вопрос в том, кто ее анализирует и в каких целях. Хотелось бы, чтобы законодательство защищало нас от тех сотрудников, которые используют персональные данные неправомочно, - сказал «Известиям» Александр Бахтин.

В «Ростелекоме» признают, что оборот таких данных - очень чувствительная тема, поэтому, как и в других странах, в России единая биометрическая система создается под контролем государства. На первом этапе в сотрудничестве с Центробанком она внедряется в интересах банковской сферы. Уже проводились эксперименты по распознаванию лиц для бесконтактного прохода в музеи, и в дальнейшем система будет развиваться, уверены в компании.

В сентябре 2017 года о внедрении системы видеонаблюдения с функцией распознавания лиц объявили власти Москвы. Сообщалось, что столичная сеть включает в себя 160 тыс. видеокамер и охватывает 95% подъездов жилых домов. Лица на записях сканируются, чтобы при необходимости можно было сравнить данные с информацией в различных базах - например, правоохранительных органов, когда речь идет о поиске правонарушителя, указано на портале мэра Москвы. Система способна установить личность человека на видео, его пол и возраст.

Госкорпорация «Ростех» применила технологию распознавания лиц во время ЧМ-2018. С ее помощью, например, удалось вычислить фаната, которому по решению суда запрещено посещать спортивные мероприятия. Алгоритм позволяет узнавать лица с точностью до 99%. В госкорпорации отмечали, что поиск конкретного человека среди миллиарда лиц занимает менее полусекунды.

Одним из залогов качества жизни в современном социуме является правильный подход к обеспечению личной безопасности и сохранности имущества. Требования предъявляемые к системам видео-регистрации постоянно возрастают. Хорошая система наблюдения в наши дни должна не только уметь записывать происходящее на съемные носители, но и распознавать, и идентифицировать людей в кадре.

Места применения

Функция «распознавание лиц» нашла свое применение во многих аспектах человеческой жизни. С помощью систем видеонаблюдения данного типа можно:

  • организовать проходную на предприятии или других закрытых от посторонних объектов. Видеонаблюдение можно связать с турникетами и организовать автоматический пункт пропуска по принципу «свои-чужие»;
  • организовать систему противодействия хищениям в торговых точках и других частных владениях. Любые магазины, особенно большие, сталкиваются с проблемой пристрастия некоторых посетителей к воровству. Зачастую одни и те же люди, склонны осуществлять кражи в одних и тех же торговых точках. Установив камеры с системой распознавания лиц, можно более тщательно приглядываться к действиям уже попавшегося на воровстве человека. Сканер сообщит на пульт охраны как только он зайдет в магазин;
  • организовать систему противодействия проникновению на территорию домовладений и другие закрытые объекты. Порой человеку сложно на мониторе отличить затаившегося злоумышленника от куста, или другого предмета, тем более если камеры установлены на слабоосвещенном участке местности. Но ведь то что недоступно человеку, вполне может сделать компьютерный модуль;
  • фейс-контроль в ночных клубах — 100% защита от непрошеных гостей.

Принцип работы

Система видеонаблюдения с функцией «распознавание лиц» работает по принципу сравнения полученного изображения с имеющимся в базе. Среднестатистический комплекс умеет идентифицировать человеческое лицо на расстоянии не превышающем десяти метров от камеры. При этом посетитель будет узнан даже с учетом наличия изменений физических параметров лица: смена прически, борода, наличие очков и т. д. Анализ основывается на сравнении биометрических параметров строения головы, индивидуальных для каждого человека. При этом сканирование происходит на ходу, посетителю достаточно повернуть лицо к сканеру во время движения. Система видеонаблюдения может быть связана с турникетами и другими устройствами авторизированного входа и работать автоматически. Неопознанные посетители не получат доступа на охраняемую территорию, а их фото будет сохранено в базе для обработки службой охраны.

Обычно такие системы устанавливаются в больших корпорациях, где от безопасности зависит будущий успех компании, например, компании по разработке новых типов вооружения или микросхем, биологическая лаборатория. Система автоматически распознает всех сотрудников и сравнивает с базой данных. В случае несоответствия или отсутствия человека в системе, она активизирует протоколы безопасности, в комнате охраны загорается тревожный сигнал и красная световая индикация. Место обнаружения нарушителя точно указывается на электронной карте объекта и охрана за считаные секунды находит нарушителя.

Методы работы

Камеры систем распознавания лиц работают в двух режимах двухмерном и трехмерном. В случае с 2D системами, распознавание происходит на основе плоского изображения. Двухмерные камеры весьма чувствительны к уровню освещенности помещения, от этого параметра в значимой мере зависит качество конечной картинки. При плохом свете изображение будет трудноразличимым. 3D камеры для индикации воссоздают трехмерный образ на основе полученного изображения. Плохая освещённость для них особой помехой не является, обычно это может лишь незначительно исказить текстуру лица.

Виды

В зависимости от целей и задач, поставленных перед системой видеонаблюдения с функцией распознавания лиц, они делятся на:

  • обнаружения (Камера от 1 Мп, фокусное расстояние от 1 мм). Действие этой охранной системы направлены на фиксирование проникновений на подконтрольные объекты. Сканер в состоянии отличить человека от кошки или белки, но не сможет идентифицировать его;
  • распознавания (Камера от 2 Мп, фокусное расстояние от 6 мм). В данном случае основной функцией сканера является распознавание лиц посетителей по принципу «свои-чужие». При просмотре видеоряда изображение будет достаточно смазанным, Вы узнаете на нем знакомые лица, но в случае если на объект проник вор, найти его по данным кадрам будет весьма затруднительно;
  • идентификации (Камера более 2 Мп, фокусное расстояние от 8 мм) Данные системы могут выполнять все функции предыдущих типов, при этом качества получаемого изображения будет вполне достаточно чтобы опознать злоумышленника. Такое фото вполне можно передать в судебные органы и органы правопорядка.

В скобках к описанию каждого типа систем видеонаблюдения мы обозначили минимальные требования к разрешению камеры и фокусному расстоянию объектива. При заказе оборудования необходимо учитывать, что этих характеристик достаточно при идеальных условиях для съемки. Естественно на практике такое встречается редко, поэтому выбирая сканеры лучше приобрести устройства с запасом, к примеру, для систем распознавания — разрешение в 2 Мп и фокусное расстояние в 8 мм, для систем индикации — разрешение в 5 МП и фокусное расстояние в 12 мм.

Естественно, конечный результат зависит не только от этих характеристик. Фокусное расстояние и разрешение весьма важны, но при монтаже камеры необходимо учесть освещенность, углы обзора и множество других параметров. Поэтому подбор и установку лучше доверить профессионалам.

С завидной регулярностью на Хабре появляются статьи, рассказывающие о тех или иных методах распознавания лиц. Мы решили не просто поддержать эту замечательную тему, но выложить наш внутренний документ, который освещает пусть и не все, но многие подходы к распознаванию лиц, их сильные и слабые места. Он был составлен Андреем Гусаком, нашим инженером, для молодых сотрудников отдела машинного зрения, в образовательных, так сказать, целях. Сегодня предлагаем его все желающим. В конце статьи – впечатляющих размеров список литературы для самых любознательных.

Итак, начнем.
Несмотря на большое разнообразие представленных алгоритмов, можно выделить общую структуру процесса распознавания лиц:

Общий процесс обработки изображения лица при распознавании

На первом этапе производится детектирование и локализация лица на изображении. На этапе распознавания производится выравнивание изображения лица (геометрическое и яркостное), вычисление признаков и непосредственно распознавание – сравнение вычисленных признаков с заложенными в базу данных эталонами. Основным отличием всех представленных алгоритмов будет вычисление признаков и сравнение их совокупностей между собой.

1. Метод гибкого сравнения на графах (Elastic graph matching) .

Суть метода сводится к эластичному сопоставлению графов, описывающих изображения лиц. Лица представлены в виде графов со взвешенными вершинами и ребрами. На этапе распознавания один из графов – эталонный – остается неизменным, в то время как другой деформируется с целью наилучшей подгонки к первому. В подобных системах распознавания графы могут представлять собой как прямоугольную решетку, так и структуру, образованную характерными (антропометрическими) точками лица.

А)

Б)

Пример структуры графа для распознавания лиц: а) регулярная решетка б) граф на основе антропометрических точек лица.

В вершинах графа вычисляются значения признаков, чаще всего используют комплексные значения фильтров Габора или их упорядоченных наборов – Габоровских вейвлет (строи Габора), которые вычисляются в некоторой локальной области вершины графа локально путем свертки значений яркости пикселей с фильтрами Габора.


Набор (банк, jet) фильтров Габора


Пример свертки изображения лица с двумя фильтрами Габора

Ребра графа взвешиваются расстояниями между смежными вершинами. Различие (расстояние, дискриминационная характеристика) между двумя графами вычисляется при помощи некоторой ценовой функции деформации, учитывающей как различие между значениями признаков, вычисленными в вершинах, так и степень деформации ребер графа.
Деформация графа происходит путем смещения каждой из его вершин на некоторое расстояние в определённых направлениях относительно ее исходного местоположения и выбора такой ее позиции, при которой разница между значениями признаков (откликов фильтров Габора) в вершине деформируемого графа и соответствующей ей вершине эталонного графа будет минимальной. Данная операция выполняется поочередно для всех вершин графа до тех пор, пока не будет достигнуто наименьшее суммарное различие между признаками деформируемого и эталонного графов. Значение ценовой функции деформации при таком положении деформируемого графа и будет являться мерой различия между входным изображением лица и эталонным графом. Данная «релаксационная» процедура деформации должна выполняться для всех эталонных лиц, заложенных в базу данных системы. Результат распознавания системы – эталон с наилучшим значением ценовой функции деформации.


Пример деформации графа в виде регулярной решетки

В отдельных публикациях указывается 95-97%-ая эффективность распознавания даже при наличии различных эмоциональных выражениях и изменении ракурса лица до 15 градусов. Однако разработчики систем эластичного сравнения на графах ссылаются на высокую вычислительную стоимость данного подхода. Например, для сравнения входного изображения лица с 87 эталонными тратилось приблизительно 25 секунд при работе на параллельной ЭВМ с 23 транспьютерами (Примечание: публикация датирована 1993 годом). В других публикациях по данной тематике время либо не указывается, либо говорится, что оно велико.

Недостатки: высокая вычислительная сложность процедуры распознавания. Низкая технологичность при запоминании новых эталонов. Линейная зависимость времени работы от размера базы данных лиц.

2. Нейронные сети

В настоящее время существует около десятка разновидности нейронных сетей (НС). Одним из самых широко используемых вариантов являться сеть, построенная на многослойном перцептроне, которая позволяет классифицировать поданное на вход изображение/сигнал в соответствии с предварительной настройкой/обучением сети.
Обучаются нейронные сети на наборе обучающих примеров. Суть обучения сводится к настройке весов межнейронных связей в процессе решения оптимизационной задачи методом градиентного спуска. В процессе обучения НС происходит автоматическое извлечение ключевых признаков, определение их важности и построение взаимосвязей между ними. Предполагается, что обученная НС сможет применить опыт, полученный в процессе обучения, на неизвестные образы за счет обобщающих способностей.
Наилучшие результаты в области распознавания лиц (по результатам анализа публикаций) показала Convolutional Neural Network или сверточная нейронная сеть (далее – СНС) , которая является логическим развитием идей таких архитектур НС как когнитрона и неокогнитрона. Успех обусловлен возможностью учета двумерной топологии изображения, в отличие от многослойного перцептрона.
Отличительными особенностями СНС являются локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов), общие веса (обеспечивают детектирование некоторых черт в любом месте изображения) и иерархическая организация с пространственными сэмплингом (spatial subsampling). Благодаря этим нововведениям СНС обеспечивает частичную устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям.


Схематичное изображение архитектуры сверточной нейронной сети

Тестирование СНС на базе данных ORL, содержащей изображения лиц с небольшими изменениями освещения, масштаба, пространственных поворотов, положения и различными эмоциями, показало 96% точность распознавания.
Свое развитие СНС получили в разработке DeepFace , которую приобрел
Facebook для распознавания лиц пользователей своей соцсети. Все особенности архитектуры носят закрытый характер.


Принцип работы DeepFace

Недостатки нейронных сетей: добавление нового эталонного лица в базу данных требует полного переобучения сети на всем имеющемся наборе (достаточно длительная процедура, в зависимости от размера выборки от 1 часа до нескольких дней). Проблемы математического характера, связанные с обучением: попадание в локальный оптимум, выбор оптимального шага оптимизации, переобучение и т. д. Трудно формализуемый этап выбора архитектуры сети (количество нейронов, слоев, характер связей). Обобщая все вышесказанное, можно заключить, что НС – «черный ящик» с трудно интерпретируемыми результатами работы.

3. Скрытые Марковские модели (СММ, HMM)

Одним из статистических методов распознавания лиц являются скрытые Марковские модели (СММ) с дискретным временем . СММ используют статистические свойства сигналов и учитывают непосредственно их пространственные характеристики. Элементами модели являются: множество скрытых состояний, множество наблюдаемых состояний, матрица переходных вероятностей, начальная вероятность состояний. Каждому соответствует своя Марковская модель. При распознавании объекта проверяются сгенерированные для заданной базы объектов Марковские модели и ищется максимальная из наблюдаемых вероятность того, что последовательность наблюдений для данного объекта сгенерирована соответствующей моделью.
На сегодняшний день не удалось найти примера коммерческого применения СММ для распознавания лиц.

Недостатки:
- необходимо подбирать параметры модели для каждой базы данных;
- СММ не обладает различающей способностью, то есть алгоритм обучения только максимизирует отклик каждого изображения на свою модель, но не минимизирует отклик на другие модели.

4. Метод главных компонент или principal component analysis (PCA)

Одним из наиболее известных и проработанных является метод главных компонент (principal component analysis, PCA), основанный на преобразовании Карунена-Лоева.
Первоначально метод главных компонент начал применяться в статистике для снижения пространства признаков без существенной потери информации. В задаче распознавания лиц его применяют главным образом для представления изображения лица вектором малой размерности (главных компонент), который сравнивается затем с эталонными векторами, заложенными в базу данных.
Главной целью метода главных компонент является значительное уменьшение размерности пространства признаков таким образом, чтобы оно как можно лучше описывало «типичные» образы, принадлежащие множеству лиц. Используя этот метод можно выявить различные изменчивости в обучающей выборке изображений лиц и описать эту изменчивость в базисе нескольких ортогональных векторов, которые называются собственными (eigenface).

Полученный один раз на обучающей выборке изображений лиц набор собственных векторов используется для кодирования всех остальных изображений лиц, которые представляются взвешенной комбинацией этих собственных векторов. Используя ограниченное количество собственных векторов можно получить сжатую аппроксимацию входному изображению лица, которую затем можно хранить в базе данных в виде вектора коэффициентов, служащего одновременно ключом поиска в базе данных лиц.

Суть метода главных компонент сводится к следующему. Вначале весь обучающий набор лиц преобразуется в одну общую матрицу данных, где каждая строка представляет собой один экземпляр изображения лица, разложенного в строку. Все лица обучающего набора должны быть приведены к одному размеру и с нормированными гистограммами.


Преобразования обучающего набора лиц в одну общую матрицу X

Затем производится нормировка данных и приведение строк к 0-му среднему и 1-й дисперсии, вычисляется матрица ковариации. Для полученной матрицы ковариации решается задача определения собственных значений и соответствующих им собственных векторов (собственные лица). Далее производится сортировка собственных векторов в порядке убывания собственных значений и оставляют только первые k векторов по правилу:




Алгоритм РСА


Пример первых десяти собственных векторов (собственных лиц), полученных на обучаемом наборе лиц

= 0.956*-1.842*+0.046

Пример построения (синтеза) человеческого лица с помощью комбинации собственных лиц и главных компонент


Принцип выбора базиса из первых лучших собственных векторов


Пример отображения лица в трехмерное метрическое пространство, полученном по трем собственным лицам и дальнейшее распознавание

Метод главных компонент хорошо зарекомендовал себя в практических приложениях. Однако, в тех случаях, когда на изображении лица присутствуют значительные изменения в освещенности или выражении лица, эффективность метода значительно падает. Все дело в том, что PCA выбирает подпространство с такой целью, чтобы максимально аппроксимировать входной набор данных, а не выполнить дискриминацию между классами лиц.

В было предложено решение этой проблемы с использование линейного дискриминанта Фишера (в литературе встречается название “Eigen-Fisher”, “Fisherface”, LDA). LDA выбирает линейное подпространство, которое максимизирует отношение:

Где

Матрица межклассового разброса, и

Матрица внутриклассового разброса; m – число классов в базе данных.

LDA ищет проекцию данных, при которой классы являются максимально линейно сепарабельны (см. рисунок ниже). Для сравнения PCA ищет такую проекцию данных, при которой будет максимизирован разброс по всей базе данных лиц (без учета классов). По результатам экспериментов в условиях сильного бакового и нижнего затенения изображений лиц Fisherface показал 95% эффективность по сравнению с 53% Eigenface.


Принципиальное отличие формирования проекций PCA и LDA

Отличие PCA от LDA

5. Active Appearance Models (AAM) и Active Shape Models (ASM) ()
Active Appearance Models (AAM)
Активные модели внешнего вида (Active Appearance Models, AAM) - это статистические модели изображений, которые путем разного рода деформаций могут быть подогнаны под реальное изображение. Данный тип моделей в двумерном варианте был предложен Тимом Кутсом и Крисом Тейлором в 1998 году . Первоначально активные модели внешнего вида применялись для оценки параметров изображений лиц.
Активная модель внешнего вида содержит два типа параметров: параметры, связанные с формой (параметры формы), и параметры, связанные со статистической моделью пикселей изображения или текстурой (параметры внешнего вида). Перед использованием модель должна быть обучена на множестве заранее размеченных изображений. Разметка изображений производится вручную. Каждая метка имеет свой номер и определяет характерную точку, которую должна будет находить модель во время адаптации к новому изображению.


Пример разметки изображения лица из 68 точек, образующих форму AAM.

Процедура обучения AAM начинается с нормализации форм на размеченных изображениях с целью компенсации различий в масштабе, наклоне и смещении. Для этого используется так называемый обобщенный Прокрустов анализ.


Координаты точек формы лица до и после нормализации

Из всего множества нормированных точек затем выделяются главные компоненты с использованием метода PCA.


Модель формы AAM состоит из триангуляционной решетки s0 и линейной комбинации смещений si относительно s0

Далее из пикселей внутри треугольников, образуемых точками формы, формируется матрица, такая что, каждый ее столбец содержит значения пикселей соответствующей текстуры. Стоит отметить, что используемые для обучения текстуры могут быть как одноканальными (градации серого), так и многоканальными (например, пространство цветов RGB или другое). В случае многоканальных текстур векторы пикселов формируются отдельно по каждому из каналов, а потом выполняется их конкатенация. После нахождения главных компонент матрицы текстур модель AAM считается обученной.

Модель внешнего вида AAM состоит из базового вида A0, определенного пикселями внутри базовой решетки s0 и линейной комбинации смещений Ai относительно A0

Пример конкретизации AAM. Вектор параметров формы
p=(p_1,p_2,〖…,p〗_m)^T=(-54,10,-9.1,…)^T используется для синтеза модели формы s, а вектор параметров λ=(λ_1,λ_2,〖…,λ〗_m)^T=(3559,351,-256,…)^Tдля синтеза внешнего вида модели. Итоговая модель лица 〖M(W(x;p))〗^ получается как комбинация двух моделей – формы и внешнего вида.

Подгонка модели под конкретное изображение лица выполняется в процессе решения оптимизационной задачи, суть которой сводится к минимизации функционала

Методом градиентного спуска. Найденные при этом параметры модели и будут отражать положение модели на конкретном изображении.




Пример подгонки модели на конкретное изображение за 20 итераций процедуры градиентного спуска.

С помощью AAM можно моделировать изображения объектов, подверженных как жесткой, так и нежесткой деформации. ААМ состоит из набора параметров, часть которых представляют форму лица, остальные задают его текстуру. Под деформации обычно понимают геометрическое преобразование в виде композиции переноса, поворота и масштабирования. При решении задачи локализации лица на изображении выполняется поиск параметров (расположение, форма, текстура) ААМ, которые представляют синтезируемое изображение, наиболее близкое к наблюдаемому. По степени близости AAM подгоняемому изображению принимается решение – есть лицо или нет.

Active Shape Models (ASM)

Суть метода ASM заключается в учете статистических связей между расположением антропометрических точек. На имеющейся выборке изображений лиц, снятых в анфас. На изображении эксперт размечает расположение антропометрических точек. На каждом изображении точки пронумерованы в одинаковом порядке.




Пример представления формы лица с использованием 68 точек

Для того чтобы привести координаты на всех изображениях к единой системе обычно выполняется т.н. обобщенный прокрустов анализ, в результате которого все точки приводятся к одному масштабу и центрируются. Далее для всего набора образов вычисляется средняя форма и матрица ковариации. На основе матрицы ковариации вычисляются собственные вектора, которые затем сортируются в порядке убывания соответствующих им собственных значений. Модель ASM определяется матрицей Φ и вектором средней формы s ̅.
Тогда любая форма может быть описана с помощью модели и параметров:

Локализации ASM модели на новом, не входящем в обучающую выборку изображении осуществляется в процессе решения оптимизационной задачи.


а) б) в) г)
Иллюстрация процесса локализации модели ASM на конкретном изображении: а) начальное положение б) после 5 итераций в) после 10 итераций г) модель сошлась

Однако все же главной целью AAM и ASM является не распознавание лиц, а точная локализация лица и антропометрических точек на изображении для дальнейшей обработки.

Практически во всех алгоритмах обязательным этапом, предваряющим классификацию, является выравнивание, под которым понимается выравнивание изображения лица во фронтальное положение относительно камеры или приведение совокупности лиц (например, в обучающей выборке для обучения классификатора) к единой системе координат. Для реализации этого этапа необходима локализация на изображении характерных для всех лиц антропометрических точек – чаще всего это центры зрачков или уголки глаз. Разные исследователи выделяют разные группы таких точек. В целях сокращения вычислительных затрат для систем реального времени разработчики выделяют не более 10 таких точек .

Модели AAM и ASM как раз и предназначены для того чтобы точно локализовать эти антропометрические точки на изображении лица.

6. Основные проблемы, связанные с разработкой систем распознавания лиц

Проблема освещенности

Проблема положения головы (лицо – это, все же, 3D объект).

С целью оценки эффективности предложенных алгоритмов распознавания лиц агентство DARPA и исследовательская лаборатория армии США разработали программу FERET (face recognition technology).

В масштабных тестах программы FERET принимали участие алгоритмы, основанные на гибком сравнении на графах и всевозможные модификации метода главных компонент (PCA). Эффективность всех алгоритмов была примерно одинаковой. В этой связи трудно или даже невозможно провести четкие различия между ними (особенно если согласовать даты тестирования). Для фронтальных изображений, сделанных в один и тот же день, приемлемая точность распознавания, как правило, составляет 95%. Для изображений, сделанных разными аппаратами и при разном освещении, точность, как правило, падает до 80%. Для изображений, сделанных с разницей в год, точность распознавания составило примерно 50%. При этом стоит заметить, что даже 50 процентов - это более чем приемлемая точность работы системы подобного рода.

Ежегодно FERET публикует отчет о сравнительном испытании современных систем распознавания лиц на базе лиц более одного миллиона. К большому сожалению в последних отчетах не раскрываются принципы построения систем распознавания, а публикуются только результаты работы коммерческих систем. На сегодняшний день лидирующей является система NeoFace разработанная компанией NEC.

Список литературы (гуглится по первой ссылке)
1. Image-based Face Recognition - Issues and Methods
2. Face Detection A Survey.pdf
3. Face Recognition A Literature Survey
4. A survey of face recognition techniques
5. A survey of face detection, extraction and recognition
6. Обзор методов идентификации людей на основе изображений лиц
7. Методы распознавания человека по изображению лица
8. Сравнительный анализ алгоритмов распознавания лиц
9. Face Recognition Techniques
10. Об одном подходе к локализации антропометрических точек.
11. Распознавание лиц на групповых фотографиях с использованием алгоритмов сегментации
12. Отчет о НИР 2-й этап по распознаванию лиц
13. Face Recognition by Elastic Bunch Graph Matching
14. Алгоритмы идентификации человека по фотопортрету на основе геометриче-ских преобразований. Диссертация.
15. Distortion Invariant Object Recognition in the Dynamic Link Architecture
16. Facial Recognition Using Active Shape Models, Local Patches and Support Vector Machines
17. Face Recognition Using Active Appearance Models
18. Active Appearance Models for Face Recognition
19. Face Alignment Using Active Shape Model And Support Vector Machine
20. Active Shape Models - Their Training and Application
21. Fisher Vector Faces in the Wild
22. Eigenfaces vs. Fisherfaces Recognition Using Class Specific Linear Projection
23. Eigenfaces and fisherfaces
24. Dimensionality Reduction
25. ICCV 2011 Tutorial on Parts Based Deformable Registration
26. Constrained Local Model for Face Alignment, a Tutorial
27. Who are you – Learning person specific classifiers from video
28. Распознавание человека по изображению лица нейросетевыми методами
29. Face Recognition A Convolutional Neural Network Approach
30. Face Recognition using Convolutional Neural Network and Simple Logistic Classifier
31. Face Image Analysis With Convolutional Neural Networks
32. Методы распознавания лиц на основе скрытых марковских процессов. Авторе-ферат
33. Применение скрытых марковских моделей для распознавания лиц
34. Face Detection and Recognition Using Hidden Markovs Models
35. Face Recognition with GNU Octave-MATLAB
36. Face Recognition with Python
37. Anthropometric 3D Face Recognition
38. 3D Face Recognition
39. Face Recognition Based on Fitting a 3D Morphable Model
40. Face Recognition
41. Robust Face Recognition via Sparse Representation
42. The FERET Evaluation Methodology For Face-Recognition Algorithms
43. Поиск лиц в электронных коллекциях исторических фотографий
44. Design, Implementation and Evaluation of Hardware Vision Systems dedicated to Real-Time Face Recognition
45. An Introduction to the Good, the Bad, & the Ugly Face Recognition Challenge Prob-lem
46. Исследование и разработка методов обнаружения человеческого лица на циф-ровых изображениях. Диплом
47. DeepFace Closing the Gap to Human-Level Performance in Face Verification
48. Taking the bite out of automated naming of characters in TV video
49. Towards a Practical Face Recognition System Robust Alignment and Illumination by Sparse Representation
50. Алгоритмы обнаружения лица человека для решения прикладных задач анализа и обработки изображений
51. Обнаружение и локализация лица на изображении
52. Модифицированный мотод Виолы-Джонса
53. Разработка и анализ алгоритмов детектирования и классификации объектов на основе методов машинного обучения
54. Overview of the Face Recognition Grand Challenge
55. Face Recognition Vendor Test (FRVT)
56. Об эффективности применения алгоритма SURF в задаче идентификации лиц

Колонка

Она ставит под угрозу безопасность и гражданские права человека, поэтому частичное её регулирование должно быть заменено полным запретом. Пока весь мир увлечён преимуществами технологии распознавания лиц, некоторые специалисты по безопасности считают, что она таит в себе большое зло для человечества. Преподаватель права и информатики Вудроу Хартцог и преподаватель философии Эван Селинджер изложили свою точку зрения на методы контроля технологии в статье на Medium.

Жители Трои были бы в восторге

Очень легко поддаться внешне заманчивому, но в действительности ошибочному мнению о том, каким будет будущее человечества в мире, раскрывшем весь скрытый потенциал технологии распознавания лиц. Люди смогут мгновенно получать информацию о незнакомцах, им больше не придётся запоминать массу паролей или бояться забыть кошелёк. Можно будет запросто находить события с определённым человеком в архивах фотографий и видео, оперативно разыскивать пропавших людей или преступников, сделать безопасными общественные места.

Казалось бы, технология несёт одни только плюсы, в мире воцарится абсолютная справедливость, реализуются самые невероятные идеи человечества. Но ни один из изобретённых человечеством механизмов наблюдения не несёт в себе такой опасности, как технология распознавания лиц.

Соблазняясь этим утопическим видением, люди будут впускать технологию распознавания лиц в своё жилище и открывать доступ к своим устройствам, позволяя ей занять центральное место во всё новых аспектах жизни. Это будет означать, что ловушка захлопнулась, а после придёт неприятное осознание того, что технология была своего рода троянским конём. Этот идеальный инструмент притеснения слишком хорош, чтобы им не воспользовались правительства для установления авторитарного контроля и всеобъемлющих режимов, которые уничтожат понятие личной жизни.

Этот троянский конь не должен проникнуть в город.

Текущие обсуждения

Американский союз защиты гражданских свобод совместно с 70 другими правозащитными организациями потребовал от Amazon прекратить предоставлять технологию распознавания лиц правительству, а также призвал Конгресс ввести мораторий на её использование правительством. К ним подключились и СМИ, выразили свою обеспокоенность. Например, редколлегия Washington Post считает , что Конгресс обязан немедленно вмешаться в ситуацию. У парламентариев тоже есть веский повод задуматься: некоторых из них программа по распознаванию лиц Amazon с преступниками.

Не остались в стороне и редакторы The Guardian. Президент Microsoft Брэд Смит обратился в своём блоге к правительству США с просьбой ввести регулирование технологии распознавания лиц:

«Единственный надёжный способ контролировать использование технологии правительством - это чтобы оно самостоятельно и с учётом возможных обстоятельств контролировало её использование. Мы считаем, что сегодня существует острая необходимость в правительственной инициативе по контролю за правомерным применением технологии распознавания лиц, основанной на решении двухпартийной комиссии экспертов»

Мнение лидеров компаний имеет немаловажное значение, как и законодательные акты, ограничивающие использование технологии. Но лишь частичной поддержки и тщательно прописанных инструкций никогда не будет достаточно. Законы могли бы принести большую пользу, но их, скорее всего, начнут вводить тогда, когда технология станет в разы дешевле и проще в использовании. Смит подчёркивает, что Microsoft призывала к созданию национального закона в этой области ещё в 2005 году. Прошло более десяти лет, но подобный закон Конгресс так и не принял.

Если технологию распознавания лиц продолжат разрабатывать и внедрять в жизни, возникнет гигантская инфраструктура, которая поглотит человечество. Как показывает история, широкое внимание к успехам, страх не обеспечить должного уровня безопасности и пьянящее чувство власти могут приводить к обману, сдвигу корпоративных ценностей и в конечном счёте систематическом злоупотреблению технологией.

Благополучие человечества в будущем возможно только в том случае, если технология распознавания лиц будет запрещена, прежде чем слишком прочно укрепится в жизни человека.

Почему нужен запрет

Необходимость полного запрета систем распознавания лиц - чрезвычайна. Но некоторые талантливые учёные, вроде Джудит Донат , считают эту позицию неверной. Они предлагают более нейтральную с технологической точки зрения тактику: запрет на конкретные действия, а также обозначение ценностей и прав, которые нужно защитить. Этот подход вполне разумен почти для всех цифровых технологий.

Но ни один из изобретённых человечеством механизмов наблюдения не несёт в себе такой опасности, как технология распознавания лиц. Это недостающий элемент уже опасной инфраструктуры наблюдения за людьми, разработанный потому, что эта инфраструктура нужна правительствам и частному бизнесу. И если технологии становятся опасными в такой степени, а соотношение пользы и вреда - настолько искажённым, пришло время задуматься о категорических запретах. На законодательном уровне уже запрещены некоторые виды опасных цифровых технологий, например шпионского ПО . Технология распознавания лиц несёт в себе гораздо большие риски, и её не мешало бы удостоить особого юридического внимания. Нужен конкретный запрет на основе надежной, целостной, основанной на ценностях и в значительной степени нейтральной с точки зрения технологий нормативной базы. Такая система поможет избежать нормативных ситуаций, когда законодатели пытаются догонять технические тенденции.

Наблюдение с использованием систем распознавания лиц по своей сути деспотично. Существование таких систем, которые сами часто скрыты от глаз человека, - нарушение гражданских свобод, потому что люди ведут себя иначе, если подозревают, что за ними наблюдают. Даже законы, которые гарантируют строгие защитные меры, не предотвратят гнетущее ощущение того, что будут ущемлены возможности самовыражения человека.

Вот примеры злоупотребления и разрушительных действий технологии распознавания лиц:

  • непропорциональное внимание к людям небелого цвета кожи , другим меньшинствам и незащищённым народам ;
  • замена презумпции невиновности на принцип «люди, чья вина пока что не доказана»;
  • распространение насилия и жестокости;
  • отрицание фундаментальных прав и возможностей, например защиты от произвольного отслеживания правительствами передвижения, привычек, отношений, интересов и мыслей человека;
  • беспрерывная «работа» закона - как постоянная мера пресечения;
  • уничтожение концепции хранения информации «practically obscure », когда данные находятся в открытом доступе, но хранятся в различных источниках и найти их чрезвычайно сложно;
  • распространение «капитализма надзора ».

Как отмечает исследователь технологии распознавания лиц Клэр Гарви, ошибки в ней могут иметь фатальные последствия:

«Что произойдёт, если подобная система даст сбой? В случае ошибки системы видеонаблюдения будут преследовать, допрашивать или могут даже арестовать и обвинить в преступлении невинного человека. Или портативные камеры с системой распознавания лиц у полицейских: если система укажет на человека, который якобы может представлять опасность для общества, полицейский должен будет мгновенно решить, применять ли ему оружие. В результате ложного оповещения могут пострадать невинные люди».

В числе прочих есть два доклада, которые подробно затрагивают многие из этих проблем: весьма ценная работа об использовании правоохранителями распознавания лиц, опубликованная старшим юристом Electronic Frontier Foundation Дженнифер Линч, а также исследование специалистов Center on Privacy & Technology университета Джорджтауна.

Несмотря на описанные в докладах проблемы, не все убеждены, что запрет действительно необходим. Ведь другие технологии представляют не меньшую угрозу: геолокационные данные, информация из профилей в соцсетях, результаты поисковых запросов и многие другие источники информации о пользователях можно использовать, чтобы составить их детальный портрет. Но распознавание лиц всё же несёт опасность иного характера и стоит особняком даже по сравнению с биометрическими данными: отпечатками пальцев, образцами ДНК или сканированием сетчатки глаза.

Системы, обрабатывающие изображения лиц, имеют пять отличительных особенностей, которые дают все основания для их запрета. Во-первых, лицо трудно скрыть или изменить. Лица нельзя зашифровать, как данные на цифровых носителях, в электронных или текстовых сообщениях. Их можно снимать с помощью удалённых камер, а стоимость самой технологии и хранения изображений в облаке постоянно снижается, что приводит к всё более широкому применению таких систем мониторинга.

Во-вторых, существуют базы данных имён и лиц, например для водительских удостоверений, или аккаунты в соцсетях, к которым можно очень легко получить доступ.

В-третьих, в отличие от типичных систем наблюдения, которые часто требуют дорогостоящее оборудование или новые источников данных, входные данные для распознавания лиц находятся повсюду и поступают непосредственно в момент съёмки камерами.

В-четвёртых, переломный момент. Любая база данных лиц для идентификации арестованных или попавших в поле зрения камер личностей с помощью нескольких строчек кода может «сравниваться» с любой другой базой в режиме реального времени, подключаясь к портативным камерам полицейских или системам видеонаблюдения. Губернатор штата Нью-Йорк Эндрю Куомо точно подметил причины распространения технологии распознавания лиц, утверждая, что простое сканирование номерных знаков автомобилей покажется мелочью по сравнению с возможностями применения камер со встроенной технологией: «Система считывает номерной знак, чтобы вычислить нарушителя, но штрафы - далеко не самая большая польза от этой аппаратуры. Мы переходим на технологию распознавания лиц, и теперь система сможет сканировать лицо водителя и проверять его по базам данных, что открывает абсолютно новые перспективы».

В-пятых, лицо, в отличие от отпечатков пальцев, походки или снимков сетчатки, - центральный элемент идентичности человека. Лицо - это посредник между виртуальной и реальной жизнью человека, связующее звено между действиями, которые человек выполняет анонимно, под своим или чужим именем. Может легко показаться, что обеспечивать конфиденциальность лиц, как любой другой частной информации, не нужно, потому что в жизни люди обычно не закрывают лица. За исключением стран, где женщины обязаны носить паранджу, люди со скрытым лицом вызывают подозрения.


Обеспечивать конфиденциальность лица человека действительно необходимо, потому что в прошлом люди вырабатывали институты и ценности, связанные с защитой частной информации в те периоды, когда опознать незнакомых людей в основном было достаточно сложно. По причине биологических особенностей память человека ограничена, и без технологической надстройки он может запомнить лишь небольшое количество лиц. А с учётом численности и распределения населения за свою жизнь человек встретит не так уж много новых людей. Эти ограничения создают своего рода «белые пятна», благодаря чему у людей были хорошие шансы затеряться в толпе.

Недавние решения Верховного суда США касательно четвёртой поправки (которая запрещает необоснованные обыски и задержания, а также требует выдачи ордеров на обыск судом при наличии достаточных оснований) свидетельствуют о том, что борьба за защиту конфиденциальности в общественных местах по-прежнему актуальна. Этим летом в одном из процессов суд решил, что геолокационные данные с мобильных телефонов подпадают под действие Конституции, а информация, которую человек желает сохранить в тайне, даже если она оказывается доступна публично, может охраняться Конституцией.

Почему технология распознавания лиц не поддаётся правовому регулированию

В связи с тем, что технология распознавания лиц представляет огромную угрозу, общество не может пустить её регулирование на самотёк. Потенциальная прибыльность подтолкнёт к появлению идей по реализации максимальных возможностей технологии, и отдельные компании будут продвигать свои интересы в этом направлении.

Общество также не может ждать подъёма популистов. Технологию распознавания лиц продолжат «продавать» как часть самых новых и продвинутых приложений и устройств. Apple уже называет Face ID лучшей функцией последнего iPhone. То же самое касается новостных репортажей с идеологической подоплёкой, в которых технологию распознавания лиц провозглашают решением всех проблем.

Наконец, обществу не следует излишне рассчитывать на традиционные методы регулирования. Особенности технологии распознавания лиц не позволяют удержать её в рамках мер, которые определяют законные и незаконные способы применения и пытаются уместить в ней потенциальную полезность для общества и устрашающий фактор для злоумышленников. Это - один их немногих примеров, когда необходимо ввести полный запрет.

На данный момент существует очень немного проектов по контролю технологии распознавания лиц и ещё меньше - по её ограничению. Есть достойные законы о биометрических данных в штатах Иллинойс и Техас, но они придерживаются общепринятой стратегии регулирования, согласно которой субъекты, собирающие и использующие эти данные, должны выполнять ряд базовых информационных практик и протоколов конфиденциальности. Сюда относятся требование получать информированное согласие на сбор биометрических данных, их обязательная защита и ограничение на срок хранения, запрет на их использование с целью получения прибыли, ограничение прав передачи третьим лицам и частные основания для подачи иска в случае нарушения этих норм.

Предлагаемые законы в области распознавания лиц похожи на них. Федеральная комиссия по торговле США рекомендует ввести такой же механизм в отношении технологии: предупреждать человека о её применении, давать ему выбор и честно ограничивать использование его данных. Доклад Electronic Frontier Foundation, в котором упор сделан на проведение этих законов в жизнь, содержит аналогичные, хотя и более глубокие предложения. Например, создать чёткие правила использования, распространения и обеспечения безопасности данных; ввести ограничения на сбор и хранение данных; запрет на включение нескольких видов биометрических данных в одну базу; обязательное уведомление, проведение проверок и независимого надзора. В своём проекте закона о распознавании лиц Center on Privacy & Technology университета Джорджтауна предлагает значительно ограничить доступ правительства к базам лиц, а также использование технологии распознавания лиц в реальном времени.


К сожалению, большинство действующих и предлагаемых требований носят процедурный характер. И в конечном счёте не остановят распространение самой технологии и развитие соответствующей инфраструктуры. Прежде всего нужно отметить ложность некоторых исходных допущений относительно согласия, уведомления и выбора, которые присутствуют в существующих законах. Информированное согласие как механизм регулирования наблюдения и обработки данных полностью бесполезно. Даже если бы людям всецело принадлежало право контролировать свои данные, они бы всё равно не смогли им воспользоваться в полной мере.

И всё же законодатели и сама отрасль пытаются сдвинуться с мёртвой точки. Но в этих нормах, как и в большинстве норм конфиденциальности цифровой эры, есть много пробелов. Одни законы касаются только сбора или хранения данных и не затрагивают то, как они используются. Другие применимы лишь к компаниям или правительству и настолько неоднозначны, что позволяют избежать последствий за различные противоправные действия. И чтобы прочувствовать преимущества технологии распознавания лиц, которую так расхваливают, потребуется больше камер, лучшая инфраструктура и необъятные базы данных.

Будущее технологии распознавания лиц

Технология распознавания лиц открывает безграничные возможности отслеживать информацию о личности и перемещениях человека. А также практически мгновенно сохранять, распространять и анализировать её. Развитие этой технологии в будущем может привести к тому, что конфиденциальность частной информации человека будет постоянно нарушаться. Благополучие человечества возможно лишь в том случае, если будет введён запрет на технологии распознавания лиц, прежде чем эти системы слишком прочно войдут в повседневную жизнь. Иначе людям будет знаком только мир, в котором при каждом появлении в общественном месте их будут автоматически идентифицировать, заносить информацию в профиль и, возможно, использовать её. В таком мире те, кто выступает против технологии распознавания лиц, будут дискредитированы, вынуждены замолчать или устранены.

Пожалуй нет ни одной другой технологии сегодня, вокруг которой было бы столько мифов, лжи и некомпетентности. Врут журналисты, рассказывающие о технологии, врут политики которые говорят о успешном внедрении, врут большинство продавцов технологий. Каждый месяц я вижу последствия того как люди пробуют внедрить распознавание лиц в системы которые не смогут с ним работать.

Тема этой статьи давным-давно наболела, но было всё как-то лень её писать. Много текста, который я уже раз двадцать повторял разным людям. Но, прочитав очередную пачку треша всё же решил что пора. Буду давать ссылку на эту статью.

Итак. В статье я отвечу на несколько простых вопросов:

Как вы думаете, откуда создатели алгоритмов взяли эти базы?

Маленькая подсказка. Первый продукт NTech, который они сейчас - Find Face, поиск людей по вконтакту. Думаю пояснения не нужны. Конечно, вконтакт борется с ботами, которые выкачивают все открытые профили. Но, насколько я слышал, народ до сих пор качает. И одноклассников. И инстаграмм.

Вроде как с Facebook - там всё сложнее. Но почти уверен, что что-то тоже придумали.
Так что да, если ваш профиль открыт - то можете гордиться, он использовался для обучения алгоритмов;)

Про решения и про компании

Тут можно гордиться. Из 5 компаний-лидеров в мире сейчас два - Российские. Это N-Tech и VisionLabs. Пол года назад лидерами был NTech и Vocord, первые сильно лучше работали по повёрнутым лицам, вторые по фронтальным.

Сейчас остальные лидеры - 1-2 китайских компании и 1 американская, Vocord что-то сдал в рейтингах.

Еще российские в рейтинге itmo, 3divi, intellivision. Synesis - белорусская компания, хотя часть когда-то была в Москве, года 3 назад у них был блог на Хабре. Ещё про несколько решений знаю, что они принадлежат зарубежным компаниям, но офисы разработки тоже в России. Ещё есть несколько российских компаний которых нет в конкурсе, но у которых вроде неплохие решения. Например есть у ЦРТ. Очевидно, что у Одноклассников и Вконтакте тоже есть свои хорошие, но они для внутреннего пользования.

Короче да, на лицах сдвинуты в основном мы и китайцы.

NTech вообще первым в миру показал хорошие параметры нового уровня. Где-то в конце 2015 года . VisionLabs догнал NTech только только. В 2015 году они были лидерами рынка. Но их решение было прошлого поколения, а пробовать догнать NTech они стали лишь в конце 2016 года.

Если честно, то мне не нравятся обе этих компании. Очень агрессивный маркетинг. Я видел людей которым было впарено явно неподходящее решение, которое не решало их проблем.

С этой стороны Vocord мне нравился сильно больше. Консультировал как-то ребят кому Вокорд очень честно сказал «у вас проект не получится с такими камерами и точками установки». NTech и VisionLabs радостно попробовали продать. Но что-то Вокорд в последнее время пропал.

Выводы

В выводах хочется сказать следующее. Распознавание лиц это очень хороший и сильный инструмент. Он реально позволяет находить преступников сегодня. Но его внедрение требует очень точного анализа всех параметров. Есть где достаточно OpenSource решения. Есть применения (распознавание на стадионах в толпе), где надо ставить только VisionLabs|Ntech, а ещё держать команду обслуживания, анализа и принятия решения. И OpenSource вам тут не поможет.

На сегодняшний день нельзя верить всем сказкам о том, что можно ловить всех преступников, или наблюдать всех в городе. Но важно помнить, что такие вещи могут помогать ловить преступников. Например чтобы в метро останавливать не всех подряд, а только тех кого система считает похожими. Ставить камеры так, чтобы лица лучше распознавались и создавать под это соответствующую инфраструктуру. Хотя, например я - против такого. Ибо цена ошибки если вас распознает как кого-то другого может быть слишком велика.

Добавить метки
Статьи по теме: