Зрительные контакты: как Computer vision меняет наш взгляд на мир
Сегодня мы живем в реальности, которую в 1955 году предсказывал профессор Массачусетского технологического института (MIT) Оливер Селфридж в статье «Глаза и уши компьютера». Более полувека назад ученый предположил, что машины будущего будут оснащены средствами распознавания звука и изображения.
Концентрация технологий
Системы и приложения Computer Vision позволяют извлекать информацию из массива изображений, который аккумулируют машины, — будь то фотографии, картинки, видео, штрихкоды, лица и даже эмоции – и классифицировать ее для выявления закономерностей, построения прогнозов и банального избавления человека от рутинных задач.
Технологии Computer Vision с каждым годом становятся более «зоркими». Еще пять-десять лет назад машины распознавали всего 65–70% объектов, которые попадали в их поле видимости. Сегодня компьютеры уже узнают до 98% объектов: они точно знают, что именно видят и могут решить, что с этим делать дальше, какую последовательность действий запустить. Данный показатель не приближен к абсолютному максимуму, к 100%, поскольку машинам не доступен контекст. В этом плане мозг человека гораздо более гибкий: люди всегда могут нестандартным поведением сбить машину с толку. Однако, в отличие от компьютеров, человек может сконцентрироваться одновременно только на 3–7 объектах и удерживать внимание на объекте не более 14 минут. Машинные системы фиксируют абсолютно все изображения, которые попадают в процессоры. Кроме того, они могут работать в диапазонах, невидимых для человеческого глаза.
Компьютерное зрение может автоматически определять и отмечать друзей на фотографиях в социальных сетях; узнает постоянного клиента в салоне красоты; следит за ассортиментом на полках в супермаркете; обнаруживает бракованные изделия — например, среди сотни гаек одну с с сорванной резьбой; контролирует строителей, которые забыли надеть каски; помогает обезвреживать минные поля и многое другое.
Интересные наблюдения
Сегодня повсеместное внедрение систем компьютерного зрения заставляет даже консервативные бизнесы пересмотреть взгляды на ведение дел. Согласно исследованию аналитического центра TAdviser, с 2019 по 2024 гг. объем рынка CV в России может вырасти в пять раз и достигнуть 38 млрд рублей.
В мире технологии компьютерного зрения активно применяются во многих цифровых отраслях: в системе «Умный город», в интеллектуальных транспортных системах, в электронной медицине, в аддитивном производстве, в высокотехнологичном сельском хозяйстве и пр. Диапазон областей и сценариев применения CV постоянно расширяется.
Уже сегодня в Дубае и Лас Вегасе используется глубокое обучение (deep learning) в системах видеонаблюдения: они сообщают городским службам, когда собирать мусор или где уличное освещение нуждается в починке. На интеллектуальных системах лежит ответственность за безопасность: при обнаружении любых отклонений от «визуальной нормы» (например, грабитель нацелил пистолет на кассира супермаркета) платформа обработки изображений выдает охранным подразделениям предупреждения.
Индустрия CV предлагает решения, которые могут сделать более простыми и общедоступными премиальные опции в автомобилестроении . В частности, максимально удешевить системы наблюдения за боковым трафиком, которые предупреждают водителя о транспорте в поперечном направлении и позволяют значительно снизить процент опасных ДТП на дорогах.
Технологии CV широко применяются в медицине, поскольку способны не только рассматривать рентгеновские снимки лучше самого дотошного хирурга, но и сравнивать их с сотней тысяч других изображений из медицинской базы данных. Это делает диагностику предельно точной, а последующее лечение — эффективным. Компания Microsoft разработала систему CV InnerEye: она отображает на мониторе врача возможные опухоли и другие аномальные образования по данным компьютерной томографии.
Компьютерное зрение также помогает достичь целей ООН по удвоению сельскохозяйственного производства для пропитания всех жителей планеты. На его основе созданы системы точного, или прецизионного земледелия, позволяющие повысить урожайность. С помощью беспилотников можно получить топографические карты местности и создавать на их основе 3D-модели участков земной поверхности. Кроме того, компьютеры помогают оценивать вес свиней по видеоизображениям и определять зрелость урожая. Оснащенный камерами квадрокоптер — разработка Университета штата Теннесси — дает изображения для автоматического мониторинга зрелости хлопка с точностью до 93%. Внушительный вклад в развитие сельского хозяйства внесла компания GEA Farm Technologies, которая представила CV-систему для эффективного доения коров роботами.
Машинное зрение способно помогать не только людям, но и самим машинам. Например, промышленные роботы-манипуляторы хорошо справляются с заданными программой задачами, но не в состоянии работать, когда объект манипуляции меняется в размерах, приобретает другую конфигурацию или лежит в неположенном месте. Благодаря новым технологиям роботы автоматически адаптируются к новым вводным, поэтому производственная цепочка не прерывается и роботизированный цех не надо каждый раз перепрограммировать.
Это бесчеловечно!
Маркетинговый бестселлер Amazon — книга «Swipe to unlock»— предрекает рынку сервисов заказа такси беспилотное будущее. В борьбе с постоянной текучкой кадров (в UBER ежегодно на 96% обновляется состав водителей) и невозможностью тщательно контролировать каждого водителя монополисты пассажирских перевозок пытаются разработать такси будущего на самоуправлении. Оснащенная системами компьютерного зрения, «умная» машина гарантирует пассажирам безопасную поездку — без ДТП, сомнительных маршрутов и уставших или пьяных водителей. Сервисам не надо будет платить комиссии таксистам, что значительно удешевляет стоимость поездки и позволяет устанавливать минимальные тарифы: а именно жесткое дисконтирование в попытке обогнать Lift заставляет Uber терять до миллиарда долларов в год. В 2015 году Uber привлек весь факультет робототехники Университета Карнеги-Меллон для разработки самоуправляемых автомобилей. Работа над проектом продолжается. Спустя три года Waymo анонсировал новый сервис автономного такси Waymo One в партнерстве с Google.
В гонке за беспилотный патент схватились также производители личных автомобилей: в 2016 году концерн General Motors приобрел стартап Cruise Automation, спустя год Ford инвестировал миллиард долларов в стартап Argo AI. Пока автопилотируемые автомобили не стали достаточно безопасными для пассажиров, их можно активно использовать для доставки товаров — на этом утверждении базируется стартап Nero, который успешно презентовал себя в Фениксе.
Глубокий взгляд
В сентябре в Высшей школе экономики стартовала первая онлайн магистерская программа «Master of Computer Vision» на платформе Coursera под руководством профессора Андрея Савченко. Программа разработана в нижегородском кампусе Вышки учеными факультета информатики, математики и компьютерных наук и лидерами индустрии компьютерного зрения: экспертами Huawei, Itseez3D, Intel, Harman, Xperience.ai. С тех пор как в начале нулевых компания Intel разработала в Нижнем Новгороде библиотеку OpenCV, город стал значимым мировым центром направления «Компьютерное зрение». Создатели библиотеки стали работать в ведущих IT-компаниях и привлекать выпускников нижегородского кампуса для работы в индустрии Computer Vision.
В рамках новой магистратуры Александр Рассадин, выпускник факультета информатики, математики и компьютерных наук, активный участник многих CV-проектов читает курс «Deep Learning for computer vision». Александр рассказал, как однажды написанный алгоритм для движения робота открыл для него профессию мечты и почему анализировать спортивные игры интереснее, чем прогнозировать цунами.
Когда вы заинтересовались компьютерным зрением?
Я увлекся этим направлением в 2014 году, когда только окончил бакалавриат в другом институте и поступил там же в магистратуру — по инерции, как говорится. В рамках научной деятельности я занимался математическими моделями: такими, как прогнозирование цунами. Параллельно работал программистом на полставки. Еще со школы я увлекался алгоритмами, но всегда хотел делать что-то осязаемое, что можно будет попробовать в реальной жизни, рассказать или показать кому угодно — даже человеку без профессиональных навыков. К сожалению, ни связанная с решением уравнений научная деятельность, ни работа с багфиксингом (процесс устранения неисправностей в ПО) не позволяли мне раскрыться.
Однажды в рамках курса по робототехнике я выбрал задачу написания алгоритма движения робота по указателям на поверхности. Я сразу почувствовал, что это мое. Я не имел на тот момент никакого опыта в компьютерном зрении — и вообще не очень представлял, что это такое. Тем не менее, успешно защитил проект: сегментировал стрелки на полу с помощью библиотеки OpenCV. Дальше я хотел заниматься только чем-то подобным.
Не прошло и трех месяцев, как мой проект на работе закрылся, но был объявлен набор в новый стартап по компьютерному зрению. До сих пор не могу поверить, что прошел отбор и попал туда. Уже через год мне доверили управление небольшой командой. Этого не случилось бы, займись я какой-то другой тематикой. Я отдавал себя полностью новой сфере, чего раньше просто не делал.
Способствовала ли учеба в Вышке вашему развитию в индустрии?
Как ни странно, именно увлечение CV подтолкнуло сменить университет на ВШЭ. Во время учебы в магистратуре в другом вузе я разочаровался в образовании и научной деятельности. Я не видел ни перспектив профессионального развития, ни возможности построить карьеру: одногруппники работали обычными программистами или на кафедре.
По мере взросления как специалиста по CV, эти мысли только укреплялись. В итоге, я принял радикальное решение — сменить магистратуру по ходу обучения. Это оказалось единственно верным решением. Основной корпус ВШЭ находился на соседней улице, я уже общался со студентами и преподавателями Вышки — поэтому в целом университет не был для меня чужим. Поступив, я понял, что выбранная программа максимально приближена к тому, что я искал, попадание иногда было стопроцентное. Например, на работе мы разрабатывали модели для распознавания лиц и одновременно изучали эту же тему на курсе.
С первых дней учебы я начал жадно заполнять пробелы в знаниях, коллеги были старше и заметно опытнее. Общение с ними крайне помогало расти в профессии. На тот период приходится закат «классического» компьютерного зрения — без нейронных сетей или с минимальным их количеством. Таким образом, я оказался ровно на границе эпох, и именно академической среде ВШЭ я обязан относительно мягкому переходу в новую эру. Без знаний и людей, которые меня окружали, перестроиться было бы гораздо сложнее. Приблизительно через год после поступления Андрей Савченко пригласил меня в научную группу, чтобы не просто применять нейросетевые методы, а заниматься их исследованием и развитием.
В каких именно проектах и разработках в области CV вы принимали участие?
Большую часть своей профессиональной деятельности я посвятил решениям в области видеонаблюдения: выделение объектов на кадре, их анализ — определение статических и динамических характеристик, видимых и невидимых атрибутов, анализ их действия, распознавание личности человека и домашних питомцев и т. п. Последний год мой профессиональный интерес сконцентрирован на области спортивной аналитики: анализ спортивных игр, подсчет игровых статистик, персональные тренеры и ассистенты. Часть карьеры я посвятил анализу трехмерного мира (анализ сцен и человека) и медицинских снимков.
Как российская индустрия компьютерного зрения выглядит на мировом рынке?
Массовый переход от классического CV к нейросетевому у нас в стране начался, как мне кажется, ближе к 2016 году. За год до этого звучали первые разговоры о нейросетях, пилотных проектах. Уже в 2017-ом произошел настоящий бум — проекты Prisma, MSQRD, FindFace и многие другие.
Сегодня наша страна, как мне кажется, не отстает от глобальных трендов. В немалой степени это заслуга Open Data Science community, которое делает гигантскую работу по привлечению людей в область, поддержке и развитию профессионалов. Я не люблю делать прогнозы, потому что трудно прогнозировать столь быстро развивающуюся область. Сейчас огромный акцент в исследованиях делается на честный, непредвзятый, интерпретируемый AI и в целом решения, направленные на социальные блага — хотя не могу сказать, что сейчас таких разработок большинство. Много делается для автоматизации производства, нельзя не отметить лавинообразный рост качества NLP-моделей и решений на их базе. С технической точки зрения методы из этих двух областей все больше стремятся к унификации. Количество проектов по анализу медицинских изображений растет в геометрической прогрессии и уже можно видеть реальные внедрения — это при том, что сертификация и клиническое применение таких разработок невероятно долгое и сложное дело.
В рамках программы вы будете читать курс Deep Learning for computer vision. Чем он может быть интересен студентам?
Курс посвящен основным техникам нейросетевого двумерного компьютерного зрения. Мы работаем с изображениями и видео, полученными с обычных монокулярных камер. Студенты учатся классифицировать изображения, детектировать и сегментировать объекты на них, следить за объектами, а также распознавать людей по лицу и телу. Данные разделы являются базовыми для большинства задач и в особенности для задач, связанных с видеонаблюдением. Мы изучим современное состояние области (некоторые рассматриваемые методы появились в 2020 году) и проследим их эволюцию. Познакомимся с основными наборами данных — ключевой компонент современного CV, методами оценки качества нейросетевых алгоритмов и доступными решениями. Весь материал подкреплен практическими примерами, а также индивидуальными и групповыми заданиями. Фактически, студент, успешно прошедший данный курс, сможет собрать свое первое решение в области видеонаблюдения.
Образное мышление: история развития компьютерного зрения
В 1960 году, через пять лет после выхода статьи Оливера Селфриджа, был построен аппарат для считывания зрительных образов Mark I Perceptron, но из-за скудного технического оснащения он не мог справиться с решением задач машинного зрения. В 1960-е начали появляться первые программы для обработки изображений: например, для удаления помех со спутниковых фотоснимков. В этот период компьютерное зрение мало обращалось к потребностям обывателей и было обращено в сторону космоса: машины обрабатывали массивы цифровой информации, полученные во время исследований Вселенной.
В 1970-е аспирант MIT Лоуренс Робертс первым предложил рабочую концепцию построения трехмерных образов объектов на основе анализа их двухмерных изображений. В этот период развиваются различные подходы к распознаванию объектов на изображении: по текстуре, структуре, признаку. В 1979 году профессор Гамбургского университета Ганс-Хельмут Нагель представил теорию анализа динамических сцен: теперь стало возможным распознавать движущиеся объекты в видеопотоке.
В 80-е годы американская компания Automatix стала пионером использования систем компьютерного зрения в бизнесе: она разработала несколько машин для паяния микросхем. Они были оснащены камерами, которые отправляли снимки процессору, а тот оценивал их и давал соответствующие указания производственным манипуляторам. В восьмидесятые и девяностые появились датчики двухмерных цифровых информационных полей, которые позволили получать для анализа устойчивые во времени изображения. На середину 90-х годов пришелся запуск первых коммерческих систем автоматической навигации автомобилей. В конце XX столетия на рынок вышли эффективные средства компьютерного анализа движений. В 2012 году в индустрии компьютерного зрения совершилась революция: на конкурсе распознавания изображений ImageNet были впервые применены глубокие сверточные нейронные сети. Алгоритмы CV значительно расширились. Стало возможным строить трехмерные модели объектов по набору их изображений разного ракурса, оформлять обычные фотографии в стилистике известных художественных произведений, находить объекты на изображениях — произошел бум тематических мобильных приложений.
Материал подготовила Екатерина Зиньковская, иллюстрации — Филипп Красовский, Дирекция по онлайн-обучению НИУ ВШЭ