Strelka Magazine - Ворожіння по фотографії: Машинне зір передбачає майбутнє городян

Як машини навчилися бачити і що це означає для урбаністики.

За кілька років технологія комп'ютерного, або машинного, зору стала не просто реальністю, але буденністю. Google знаходить схожі зображення, Facebook сам зазначає друзів на фотографіях, до яких, до речі, можна підмалювати посмішки, рум'янець або щенячі вуха. Фахівці з етики обговорюють кінець приватності: більше року тому з'явився додаток для пошуку людини в соцмережах по фотографії.

Як комп'ютер дивиться на світ? Що нового він може розповісти про наших містах? Strelka Magazine попросив випускницю «Стрілки», аналітика міських даних в компанії Habidatum Анну Львову розповісти, що таке комп'ютерний зір, як його можна застосовувати і що це означає для наших міст.

Матеріал публікується напередодні саміту « Машини можуть бачити », Який пройде 9 червня в партнерстві компанії VisionLabs і венчурного фонду Sistema_VC .

Машинне зір досягло небувалих успіхів: ще в середині 2000-х комп'ютер не відрізнив би кішку від собаки, а зараз може відрізнити кокер-спанієля від ірландського тер'єра менше ніж за секунду. Panasonic виробляє холодильник , Який розпізнає зіпсовані продукти, Volvo - автомобіль, який автоматично зменшить швидкість, побачивши на дорозі лося та оленя .

Об'єктив стрімко перетворюється в пошуковий рядок: по фотографії можна підібрати запчастини , рецепт для решти продуктів, кросівки, які підійдуть до сорочки, та й саму сорочку як у перехожого . Є і зовсім дивні випадки на кшталт цифрового хіроманта : Одна російська компанія використовує технології обробки і розпізнавання зображень для ворожіння по руці. Такі сервіси тепер прийнято називати Shazam для осіб , одягу , Відбитків пальців і для всього іншого. Замість музики вони бачать і розуміють зображення.

Замість музики вони бачать і розуміють зображення

Як комп'ютер дивиться на звичні речі

Комп'ютер з абсолютною точністю дізнається на фотографії ската, гриб або хом'яка. Намордник, ополоник і фара даються йому набагато складніше.

Previous Next

Як комп'ютер дивиться на звичні речі

Поява комп'ютерного зору справила величезний вплив на розвиток робототехніки, безпілотного транспорту, доповненої реальності, медичної діагностики і багатьох інших індустрій.

міський класифікатор

Поки що єдина містобудівна робота в Росії, де застосовувалося комп'ютерне зір, - це CityClass Романа Кучукова. І та продиктована швидше дослідним інтересом, ніж запитом ринку. Колись Роман займався концепцією розвитку Іркутська і робив карту функціонального зонування міста - це довга і механічна робота. Так і виникла ідея її автоматизувати: якщо людина, дивлячись на супутникову карту, здатний відрізнити промислову зону від житлової, а історичну забудову - від мікрорайону, то цього можна навчити і комп'ютер.

CityClass project Романа Кучукова. Аналіз забудови Москви, виконаний за допомогою сверточное нейронної мережі.

Аналіз забудови Москви, виконаний за допомогою сверточное нейронної мережі

Етапи роботи над CityClass project: спочатку експерт навчає комп'ютер, потім комп'ютер перевіряє свої знання, розпізнаючи типи забудови міст.

Previous Next

CityClass project Романа Кучукова. Аналіз забудови Москви, виконаний за допомогою сверточное нейронної мережі.

Роман Кучуків, випускник «Стрілки» , Архітектор, автор проекту CityClass: «Карта міста б'ється на осередки, кожна з яких може містити один з семи типів забудови: історична дореволюційна, сталінська, мікрорайону, сучасна і індивідуальна житлова забудови, промислова інфраструктура і зелені території. Далі я вручну розмітив частина осередків як експерт. На основі цього комп'ютер навчився розрізняти типи забудови самостійно. На другому етапі я прогнав весь набір карт через нейронну мережу і миттєво отримав класифікацію ».

За словами доцента Сколковского інституту науки і технологій Віктора Лемпіцкий, ці напрацювання можна легко адаптувати до нових містах і проблем: «Нейросеть, навчену на одному завданню, можна використовувати для порівняння зображень з іншого завдання. У найпопулярнішому наборі картинок ImageNet будівлі не особливо представлені. Однак нейросеть, натренований на ньому, може зрозуміти, які будинки схожі, а які ні. Крім того, нейросеть може бути легко донастроіть для подібної задачі. Наприклад, нейросеть, яка добре розпізнає будівлі Парижа, може швидко пристосуватися до будівель в Москві. Це пройде набагато швидше і потребують меншої кількості тренувальних прикладів, ніж аналіз з нуля ».

У своєму проекті Кучуків і зовсім навчив комп'ютер на одній вибірці і застосував її для аналізу п'яти міст: Москви, Нижнього Новгорода, Казані, Самари і Єкатеринбурга, тому що типи забудови практично скрізь однакові.

CityClass project. Південний захід Москви. Добре помітні Ленінський проспект, Воробйови гори і нове будівництво навколо МГУ.

Добре помітні Ленінський проспект, Воробйови гори і нове будівництво навколо МГУ

CityClass project. Казань

Казань

CityClass project. Самара

Previous Next

Якщо подивитися на результати по Москві, то можна легко розпізнати історичний центр по скупченню червоних осередків, ЗІЛ, Ленінський проспект, Воробйови гори і нове будівництво навколо МГУ.

Роман Кучуків: «Ми можемо комп'ютера дати ті специфічні знання, які люди освоюють багато-багато років, і доручити нейромережі робити ті речі, якими проектувальник займається 90% свого часу. Це дуже важливий наслідок машинного навчання, яке може повністю поміняти усталені підходи і практики ».

Що можна дізнатися про місто по його знімку?

OpenStreetMap, Google Earth і «Яндекс.Карти» стали новою нормою для професій, пов'язаних з містом і архітектурою. За допомогою картографічних сервісів можна оцінити щільність забудови, висотність будівель, стан фасадів, комерційне різноманітність і кількість вивісок. Онлайн-карти і супутникові знімки, використані в CityClass, - це ще й альтернатива офіційної документації. Часто вона або відсутня, або швидко застаріває. Ліс в документах може в реальності опинитися забудованим селищем, пам'ятник архітектури - невеликий руїною в полі, а поле - звалищем.

Коли в 2014 році «випадково» знесли прибутковий будинок Прошин на 1-й Тверській-Ямській, це виявилося завдяки тому, що перехожий зазирнув за будівельний паркан. Якби активістам було доступно постійне спостереження за об'єктом з повітря, то алгоритми комп'ютерного зору могли б сигналізувати про підозрілу активність і незаконного знесення можна було б уникнути.

Взагалі, щоб комп'ютер добре розумів зображення, потрібні, по-перше, алгоритми і обчислювальні потужності, по-друге, значна кількість зображень, щоб натренувати комп'ютер. І з першим, і з останнім зараз все дуже добре, тому для вивчення міста можна працювати з соціальними мережами, дронамі, камерами зовнішнього спостереження або орбітальними супутниками.

Супутники, які бачать все: бідність, продажу, нафта і вода

Індустрія супутникових спостережень переживає справжній бум: на орбіті землі знаходяться 1300 супутників, в тому числі приватних, які активно продають свої знімки. У подібні компанії вкладають інвестори з Кремнієвої долини, недавно Uber уклав партнерство з DigitalGlobe , Чиї зображення ми бачимо в Google: сервіс не хоче залежати від чужих карт і планує прокладати маршрути для водіїв прямо по знімках. Хороша новина в тому, що чим вище конкуренція, тим більш доступними стають супутникові знімки. Раніше купити їх могли тільки державні агентства або зовсім великі компанії. Зараз це може зробити невеликий молл, що стоїть посеред американської пустелі.

Ці компанії хочуть фіксувати кожен куточок Землі кожну годину. Причому вони самі ще не розібралися, що з цим можна буде зробити, але впевнені, що потенціал величезний. Ось лише кілька застосувань, які існують вже зараз.

Вчені зі Стенфорда натренували нейросеть передбачати рівень бідності в Африці, де і у влади немає грошей на те, щоб збирати інформацію про населенні. Спочатку вчені використовували денні знімки, щоб розпізнати поселення по дахах будинків і дорогах, а потім порівняли це з вечірніми знімками, щоб зрозуміти, в яких районах у людей немає грошей навіть на освітлення свого житла.

Спочатку вчені використовували денні знімки, щоб розпізнати поселення по дахах будинків і дорогах, а потім порівняли це з вечірніми знімками, щоб зрозуміти, в яких районах у людей немає грошей навіть на освітлення свого житла

Передбачення рівня бідності за супутниковими знімками Уганди в 2016 році проти офіційних даних за 2005 рік. / Джерело: blogs.nvidia.com

com

Завантаженість парковок перед моллами допомагає передбачити обсяги продажів в магазинах точніше аналітиків Bloomberg. / Джерело: orbitalinsight.com

Previous Next

Свій індекс бідності є і у приватній компанії Orbital Insight , Але ще цікавіше інші її рішення. Так, вона аналізує знімки парковок при моллах і таким чином пророкує обсяги продажів за кількістю припаркованих автомобілів і часу стоянки. Цю аналітику продають ритейлерам і поступово виходять на загальноамериканські огляди, причому останній прогноз виявився точнішим за Bloomberg . Ця ж компанія навчилася передбачати осередки незаконної вирубки лісів, вважає темпи урбанізації в бідних районах планети, кількість доступної питної води і світові запаси нафти по тіні на воді від танкерів, які перевозять паливо. нарешті, кейси , Які давно перестали бути унікальними, - визначати функціональне зонування , моніторити поява доріг і, отже, зростання міст.

З небес на землю

Супутники дивляться на планету зверху вниз, але є комп'ютерні очі - на рівні людських. Сервіс Google Street View дозволив багатьом з нас побувати в самих віддалених куточках планети, містах і навіть будівлях. Він ідеальний для розбору морфології вулиць: дизайн-код , Озеленення та ліхтарі, кількість зборів, якість дорожнього покриття. Наприклад, автори проекту What Makes Paris Look Like Paris? використовували зображення Street View, щоб зрозуміти, чим бульвари візуально відрізняються від вулиць, які архітектурні елементи зустрічаються тільки в Парижі, а які вплинули на дизайн інших міст.

Інший цікавий проект - краудсорсінговое дослідження Place Pulse , Зроблене в MIT. Вам показують два знімка Google Street View і запитують, яке місце виглядає безпечніше, гарніше, нудніше або багатшими. В підсумку дослідники дізналися , Чи відрізняється сприйняття вулиць і міст в різних країнах, і, що не менш важливо - отримали величезний обсяг розмічених даних, на яких можна натренувати комп'ютер і передбачати параметри інших міст.

В підсумку дослідники дізналися , Чи відрізняється сприйняття вулиць і міст в різних країнах, і, що не менш важливо - отримали величезний обсяг розмічених даних, на яких можна натренувати комп'ютер і передбачати параметри інших міст

Краудсорсінговий проект Place Pulse від MIT Media Lab не тільки оцінив сприйняття людьми навколишнього простору, а й зібрав величезну розмічену вибірку зображень.

Краудсорсінговий проект Place Pulse від MIT Media Lab не тільки оцінив сприйняття людьми навколишнього простору, а й зібрав величезну розмічену вибірку зображень

Previous Next

Третій важливий джерело інформації - соціальні мережі і краудсорсінг. З 2015 року люди роблять більше трильйона знімків щорічно. Частина з них потрапляє в соціальні мережі. Соцмережі давно застосовуються для міського аналізу, однак дослідники зазвичай користуються лише текстами і геолокації. При цьому немає нічого такого, що текст міг би сказати, а картинка немає: посмішки, емоції, пози, обличчя друзів і місце розташування в місті - все це можна побачити. Але навіть якщо не фокусуватися на людях, то фотографії можуть розповісти про стан будівель або забрудненні повітря . так роблять в Сінгапурі : Збирають знімки з Instagram і аналізують, наскільки туманним здається повітря.

Ізраїльський стартап BriefCam аналізує відео з камер для забезпечення безпеки. Об'єкти на відео можна шукати за часом, кольором або напрямку руху.

Об'єкти на відео можна шукати за часом, кольором або напрямку руху

Previous Next

Нарешті, найочевидніший і самий лякаючий багатьох джерело інформації - камери спостереження. Одна справа, коли вони моніторять швидкість руху на дорогах і розпізнають номери автомобілів, інше - коли камери дізнаються вас в обличчя і звіряють з базою. Очевидно, що це використовують міські служби безпеки: так, влади Уельсу під час фіналу Ліги чемпіонів сканували зображення всіх уболівальників і звіряли з базою злочинців. Але безпекою справа не обмежується. Особа стає новою кредиткою, пропуском на роботу і паспортом одночасно: з його допомогою можна розплатитися в громадському транспорті, потрапити в музей або гуртожиток .

Як влаштовано зір у комп'ютера

Уявіть собі інопланетянина, якого потрібно пояснити, як виглядає людина. Ви говорите, що у людини два очі. А якщо він стоїть до вас боком і видно тільки одне око, це все ще людина? Зір і розуміння побаченого - неймовірно складна здатність: ми вчимося їй з самого дитинства, нам очевидно, що об'єкти можуть постійно змінювати форму, положення і контекст, але не змінювати своєї сутності. Комп'ютерів не очевидно: у них не було подібного дитинства.

Проблему вдалося вирішити завдяки машинного навчання . Якщо звичайні програми - це, по суті, інструкції, які говорять комп'ютера: «Іди прямо до перехрестя, зупинись, знову йди», то машинне навчання передбачає, що комп'ютер навчається в процесі. У якийсь момент він побачить закономірності і сам зрозуміє, що на червоний сигнал світлофора потрібно зупинитися.

Найкраще розуміють зображення так звані свёрточние нейронні мережі. Вони складаються з нейронів, згрупованих по шарах. Картинка дробиться на багато маленьких шматочків і послідовно проходить через усі ці шари. Наприклад, якщо ми завантажимо фотографію людини, то один шар може відповідати за риси обличчя, інший - за частини тіла, третій - за одяг. А один нейрон буде реагувати на блиск тканини або складки. Втім, ідея навчання в тому, що людині не важливо знати, що саме відбувається в кожному шарі і тим більше нейроне. В кінці нейросеть приймає рішення, чи є на фото людина чи ні.

Віктор Лемпіцкий: «Суть глибинного навчання в тому, що" наглядач "в процесі навчання контролює тільки значення нейронів вихідного шару, а на значення нейронів, що містяться в десятках проміжних шарів, ніякої уваги не звертає. Тобто це саме такий наглядач з вищестоящої інспекції, якому важливі формальні показники на виході, а не сумлінну учитель, якому важливо розуміння предмета ».

Олімпійські ігри в цій області - конкурс ImageNet Large-Scale Visual Recognition Challenge. Він проводиться щорічно з 2010 року і складається з трьох частин. Перша - вказати, чи є на кожній з 150 тисяч фотографій один з 1000 типів об'єкта (наприклад, парасолька, доберман або лабіринт). Друга - знайти конкретний об'єкт на фото, третя - на відео.

Якщо переможець першого конкурсу помилявся в 28,2% випадків (проти людського показника в 5,1%), то в 2015 році машини змогли обійти людей і досягли рівня в 4,94%.

Віктор Лемпіцкий: «В результаті нейромережі істотно перевершують людини, тому що людині складно утримати в голові тисячі параметрів. Плюс комп'ютер робить це дуже швидко. Велика навчена нейромережа обробляє одне зображення кілька десятків мілісекунд на графічний прискорювач і приблизно в десять разів довше на звичайному процесорі ».

Ці нейромережі придумали ще 30 років тому: вже тоді вони могли розпізнати рукописні цифри, але з певних причин впали в немилість. Через 20 років забуття вони тріумфально повернулися і увійшли в моду як серед вчених, так і серед бізнесу, а їх творець Ян Лекун тепер працює в Facebook.

Яке майбутнє ви бачите?

Комп'ютер вже обійшов людини, але і він помиляється. Можна згадати, як сервіс Google Photo «Розпізнав» чорношкірих людей на фотографії як горил. Цей випадок обговорювалося в першу чергу з етичної сторони, але якщо на комп'ютерному зорі будуть засновані всі міські сервіси, то ціна помилки багаторазово зросте. Втім, основна претензія до комп'ютерного зору не в тому, що воно помиляється, а в тому, що може порушувати приватність і вторгатися в особисте життя. Можливість знайти кого завгодно де завгодно звучить страшно. Але важливо пам'ятати, що у технологій немає ніяких обмежень: ми самі вибираємо, для яких цілей їх використовувати. Можна шукати зниклого безвісти, а можна стежити, куди конкретна людина пішов після роботи. Так і мавпа, яка взяла палицю, могла добувати їй їжу, а могла бити родичів. Ні в тому, ні в іншому палиця не винна.

друга причина неолуддізма - страх втратіті роботу. Нещодавно Іспанський архітектор Давид Ромеро Створив кольорові Рендер для ніні зруйновану будівель Френка Ллойда Райта , Які зберегліся только на чорно-білих фотографіях. Комп'ютер здатний повернути колір зображення за секунди: тепер будь-хто може уявити, як виглядали Москва і Петербург до революції, Пенсільванський вокзал в Нью-Йорку до знесення, Дрезден і Роттердам до війни.

Рік тому з'явився сервіс Algorithmia, який перетворює чорно-білі картинки в кольорові. Кілька днів тому аналогічний сервіс, заснований на роботі нейромережі, запустила Студія Артемія Лебедєва.

Кілька днів тому аналогічний сервіс, заснований на роботі нейромережі, запустила Студія Артемія Лебедєва

Previous Next

Машини тепер не тільки обробляють існуючі зображення, а й створюють нові. Так, голландські дослідники навчили нейросеть перетворювати графічні портрети в фотореалістичні, а додаток Prisma перетворює звичайні фотографії у твори мистецтва.

Тепер уявіть сервіс, який малює будинок на основі декількох зображень, обраних користувачем. Звичайно, будівля - це не тільки картинка, але матеріали, планування і інженерні мережі. Але ж вважалося, що машині можна довірити розрахунки, а креатив залишити людині. Комп'ютерне зір змінює цей підхід. А чи буде місто, намальований на комп'ютері, краще тих, що проектують люди?

Можна сказати, що комп'ютерний зір принесе нам тотальний авторитаризм і технократію. А можна чекати демократії і самоорганізації, яких ніколи раніше не було. Уже зараз технології можуть дозволити відмовитися від репрезентативною демократії на користь прямої: навіщо вибирати представника муніципалітету і делегувати йому рішення, коли можна не ходити до виборчих дільниць, а натискати кнопку в додатку і вирішувати будь-яке питання?

Комп'ютерне зір дозволяє піти ще далі: а що якщо деякі рішення взагалі не потрібно приймати?

Для чого взагалі функціональне зонування: чому хтось наказує городянам, де жити, де працювати, а де торгувати? В результаті хтось виконує правила, а хтось їх порушує, тому що вони незручні.

Багато в чому міське управління намагається наздогнати існуючий порядок речей. На виправлення і адаптацію йде час, протягом якого реальність може знову змінитися - і треба знову розглядати супутникові знімки, щоб зрозуміти, що ця територія давно обжита без жодних на те дозволів.

Комп'ютерне зір здатне перетворити міське управління у міське спостереження: нам вирішувати, чи будемо ми його використовувати, щоб стежити або щоб споглядати, щоб наказувати городянам або адаптуватися під них.

Текст: Анна Львова

Як комп'ютер дивиться на світ?
Що нового він може розповісти про наших містах?
Що можна дізнатися про місто по його знімку?
А якщо він стоїть до вас боком і видно тільки одне око, це все ще людина?
Яке майбутнє ви бачите?
А чи буде місто, намальований на комп'ютері, краще тих, що проектують люди?
Комп'ютерне зір дозволяє піти ще далі: а що якщо деякі рішення взагалі не потрібно приймати?
Для чого взагалі функціональне зонування: чому хтось наказує городянам, де жити, де працювати, а де торгувати?

IRC-сервер - Irc.Online.com.ua

Strelka Magazine - Ворожіння по фотографії: Машинне зір передбачає майбутнє городян