Позднее Ctrl + ↑

Агентам справочника вход воспрещён

Анна из «народной карты» расписала в их блоге, откуда берутся заведения на картах яндекса. В компании ведут два набора данных: «справочник» и «народная карта». Копирование данных налажено пока только из карты, скоро будет и обратное. И этот поток автоматических правок будет куда сильнее: ведь доля пользовательских данных в наполнении справочника очень мала.

Здесь всплывают две темы: постепенное замещение картографов-любителей роботами на «народных картах» под безграничное терпение первых и приоритеты в картографировании заведений. Обе темы подчёркивают радикальное отличие и «народных карт», и просто карт Яндекса от OpenStreetMap во всех своих ипостасях.

Приоритеты

В заметке перечислены восемь источников данных о заведениях, которые склеиваются и доступны из поиска на карте: правки народных картографов, сообщения из разных видов обратной связи, информация от организаций и от оплачиваемых сборщиков данных. Сколько из них есть в OSM? Только два: правки осмеров и заметки на сайте. Хотя, честно говоря, заметками владельцы заведений не пользуются, потому что их почти невозможно найти.

Где всё остальное? Ладно, у нас нет службы поддержки и сотрудников, обзванивающих организации. Но многие компании специально платят, чтобы их филиалы наносили на карты — и мы осознанно сопротивляемся этим «импортам». Что хорошо для всех популярных карт, оказывается плохо для OpenStreetMap. Как же так?

Дело в целевой аудитории. Кто адресат нашей карты, для кого мы рисуем? На сайте и в вики про это ни слова. «OSM предоставляет данные тысячам сайтов» — ничего не значащее утверждение, этот блог тоже предоставляет. А если OSMF и администраторы сайта отказываются ограничить ЦА карты, за них это сделают сами картографы. Самым очевидным способом.

OpenStreetMap — это карта для картографов под открытой лицензией. Два тезиса, которые определяют все решения в проекте. Открытая лицензия регулирует отношения со внешним миром: запрет на нелегальные данные и обклацывание гугля, публикацию планеты под ODbL, экосистему открытого кода. А первый тезис, что целевая аудитория — это картографы, регулирует все вопросы внутри сообщества. Прежде всего, конечно, тегирование, требования к редакторам и выбор допустимых слоёв для импортирования.

Самое неочевидное, что следует из ориентированности на редакторов карты, — это ограничение на размер данных. Когда их становится слишком много (например, после массового импорта «зелёнки»), сообщество бунтует и заводит reverter. OSM состоит из одного слоя, который непросто разделить по типам объектов, поэтому один перегруженный слой затрудняет редактирование остальных. Нарисовали схему помещений — контур здания теперь не улучшить. Импортировали Corine — проще закрыть редактор, чем обозначить вырубку. Обозначили каждый лоток на рынке — никто не будет обновлять информацию, да и проходы трогать побоятся.

Поэтому участники неодобрительно смотрят на импорты заведений. С одной стороны, пользователям карты хорошо: можно найти в любимом Maps.Me или OsmAnd заправку по пути и кафе у гостиницы. С другой, мы рисуем OSM не для пользователей: сотни тысяч, если не миллионы, импортируемых точек нужно проверять, поддерживать, обновлять. Никто этим не будет заниматься, а потому они не должны быть частью карты. Карта — для того, что интересно рисовать и несложно поддерживать.

Роботы

Задачу поддержки заведений из сторонних источников решить несложно: периодически проверять и импортировать заново. От картографов ничего не понадобится, только верить и не мешать. Разумеется, правки импортированных данных сохранятся после обновления — или нет, смотря сколько времени прошло. В перспективе это можно распространить на «зелёнку» и адреса.

Получится, что за существенную часть данных OpenStreetMap — сотни миллионов объектов — будут отвечать роботы, пусть и курируемые людьми. Медленно процесс поддержки данных OSM будет мигрировать к модели википедии, когда в истории правок любой статьи минимум 10% правок идут от роботов, следящих за порядком. Потому что если можно импортировать, то почему нельзя автоматически amenity=sauna заменять на leisure=sauna? Логично же это поручить роботу и спать спокойно, зная, что база консистентна?

В народных картах Яндекса это само собой разумеется. Там автоматизировано всё: импортирование данных в новых странах, сдвиг объектов при обновлении снимков, обновление данных из справочника. Роботам помогают сотрудники на зарплате и участники «Толоки», которых всё больше. Когда нужна актуальная и полная карта, полагаться на добровольных картографов-любителей недостаточно — это очевидно примерно всем. Поэтому народная карта мигрирует влево по шкале свободы картографии, усиливая контроль над содержимым карты.

Активным участникам сообщества НЯК это, конечно, не нравится. Данные от людей на зарплате предсказуемо хуже работы любителей — по всем показателям, кроме тех, что входят в ТЗ. «Теперь я не слежу за порядком. Спасибо яндексу за это», — хлопают дверью модераторы. Да и под заметкой про интеграцию справочника немало недоумённых комментариев. Это всё люди, которые не успели перестроиться три года назад и не поняли, что «народная карта» больше не самостоятельная песочница, где можно в одиночку нарисовать и поддерживать город, а инструмент обратной связи к картам Яндекса. Народные картографы теперь не столько правят карту, сколько корректируют импортированное и нарисованное профессионалами.

Очевидно, что автоматические правки противоречат целям сообщества OpenStreetMap: иметь карту, которую весело редактировать. Картограф с опытом всегда найдёт, какую претензию предъявить оператору любого скрипта. Данные плохо привязаны. Теги неправильные, но замена неравнозначна. Формат телефонного номера не тот. Это дискриминация против малого бизнеса. Хорошо, но проверяй каждый объект вручную. Этим атрибутам не место в OSM. Посмотрите на TIGER, хотите повторения? Любой импорт или автоматическая правка должны пройти через болото уныния, и редкий энтузиаст доползёт до его середины.

Мы говорим «карту может поправить каждый», но мы же и говорим «карта для любителей, а не корпораций». Мы ратуем за карту без дискриминации, но в то же время рисуем таблички про вход воспрещён. Открытый проект, но пожалуйста, не надо. Решить это противоречие может сильная структура, наделённая правом окончательного голоса. Но в нынешней парадигме «Совет + рабочие группы» такая структура невозможна. Тут либо делать альтернативный проект, либо повторить то, что Стив Кост сделал четырнадцать лет назад: выкручиваться малыми силами, находя новые смыслы в существующих структурах. И не сказать, что это невозможно. Продолжение.

Есть свои плюсы

Очередной спор в talk@ начался девятого августа с новых адресных тегов, которые HOT добавил в одну танзанийскую деревню.

То есть, начался он раньше, лет пять назад, когда мы впервые услышали о стартапе what3words. Их идея была проста: продавать адреса жителям стран третьего мира, чьи правительства не могут позволить себе вести нормальный реестр недвижимости. Когда стартап, вопреки нашим ожиданиям, вырос и захватил Монголию, Google понял, что пора его сворачивать, и начал продвигать свою открытую альтернативу, плюс-коды (зацените домен). Важной частью продвижения было встроить коды в популярные приложения и сайты: Google Maps, OsmAnd, Maps.Me, osm.org. С последним возникла обычная заминка, описанная в негласном полиси нашего сайта («новая неосмерская функциональность — только через трупы старожилов»). Отсюда и немного истеричный импорт с картинки.

Плюс-коды неидеальны. Лучше всех их проблемы с технической точки зрения описал лауреат недавней премии OSM Кристоф Хорманн в заметке про колдунство. Но они способны избавить нас от ига w3w, что перекрывает недостатки. Неудивительно, что гуманитарные инициативы бросились продвигать эти коды в Африке. Но, как и всё остальное, что HOT делает с картами, эта работа дала спорные результаты. Плюс-коды — это лишь преобразованные координаты, поэтому какой смысл добавлять их в атрибуты точек?

И это, на самом деле, очень важный вопрос. Не разобравшись, Фредерик опубликовал очередной пассивно-агрессивный FAQ в духе «зуда картографа». Легко смеяться над технически неподкованными людьми, но сложно понять, что если хочется над кем-то посмеяться, то проблема не в других, а в тебе.

А причина проста: людям нужны адреса. Никто особо не понимает, что такое «адрес», что такое координаты, что такое реестр недвижимости. Но есть проблема, которая понятна интуитивно: как описать здание не в терминах «справа-слева». Люди чувствуют, что адрес и координаты — это разные вещи, поэтому плюс-коды у них не ассоциируются с широтой и долготой, из которых получаются. Отсюда и кажущиеся лишними атрибуты. Если картографы вносят плюс-коды в теги, это потому, что они начали относиться к ним как к адресам — признак очевидной победы.

Но если коды, как объясняют осмеры, всего лишь вид координат, то это слишком сложно. Давайте забудем про них и поищем нормальную систему адресации, со словами. С тремя словами, например.

Несложно догадаться, что где-то тут кроется главный недостаток плюс-кодов в сравнении с what3words. Как у большинства других проектов гугля, этот недостаток не в технологии (она великолепна). Он в людях. Люди любят видимость простоты и видимость структуры. Адрес с улицей и домом даёт то и другое: простое слово, порядковый номер. W3W даёт простоту: три слова для описания любой точки на планете — это гениально. Плюс-коды — ну эээ. Подите скажите таксисту, что вам к 4B3X+4J. Особенно если вы японец, а водителю девяносто лет.

Плюс-коды нужно исправлять. Делать их ближе к людям. Составить словарь из 400 слов на разных языках, например, для замены пар символов. Подумать о их структуризации, чтобы избежать кажущейся случайности адресов w3w. Поощрять гиперлокальность: использовать не только названия городов, но и названия районов, чтобы сократить плюс-код до 4 символов, два из которых заменить словом. Думать как люди, а не с позиции алгоритмов.

Или, как предлагает Кристоф в комментарии к своей заметке, вообще забыть про коды и предложить людям накраудсорсить свою, человеческую систему адресации, которую потом попробовать генерализовать для остальных поселений — возможно, с помощью OpenStreetMap. Раньше же люди не верили, что можно сделать карту всей планеты за ноль рублей — так может, и про дорогой реестр мы тоже заблуждаемся?

2018  

State of the Map 2018

В понедельник закончилась конференция SotM в Милане. Три дня докладов в три потока, четыреста человек среди итальянской архитектуры. Эта ежегодная конференция — как новый год и день независимости для каждого участника OpenStreetMap, главный праздник в году. Только здесь можно понять масштаб сообщества, поговорить со всеми, кого обычно видишь только как буквы в интернете, рассказать про свои проекты людям, которые по-настоящему их оценят.

На ютубе вживую транслировались доклады из двух основных залов (их сейчас нарезают), а в телеграме, как раньше с FOSS4G, мы делились впечатлениями и публиковали фоточки. Если пропустили, идите и читайте: там не так много, и вместе с тем, есть новости. Хорошие доклады — это не те, из которых узнаёшь про полезный софт, а которые приносят новые идеи. Хорошо, что телеграм позволяет их сразу записать. И хорошо, что теперь не нужно писать отчётные заметки в блоге: они уже готовы.

Как замечают в других блогах, на этой конференции нельзя было не выделить нескольких основных тем. И отсутствия других.

  • Векторные тайлы — наше будущее. Но нафиг такое будущее, если это векторные тайлы от Mapbox. Надеюсь, что мы изобретём что-нибудь повеселее. Например — внимание! — векторные осмотайлы! Ну и что, что мы их уже делали десять лет назад для Osmarender, ведь новое — хорошо переосмысленное старое. Почитайте телеграм, опять же.
  • Общественный транспорт снова пора переделывать. Из пяти моих выступлений на конференции три были про транспорт. Сейчас сообщество обсуждает пропозал, ранее известный как PTv3. Он позволит снова мапить автобусные остановки как highway=bus_stop.
  • Главные картографы и потребители — Apple, Facebook, Microsoft. Пока вы спали, «традиционные» осмерские компании типа Mapbox и Geofabrik отошли на второй план, а проектом начали заправлять корпорации. Они — лицо редакторов OpenStreetMap нынче. Хотели знаменитых компаний в пользователях? Ну вот, получите. Миллионы долларов, тысячи редакторов, нет повода не радоваться.
  • Внесение данных снова в фокусе. Мы, было, подумали, что данные OpenStreetMap уже достаточно хороши и можно переключиться на более важные задачи, типа адекватного QA. Но нет, теперь нам нужны те же щи, но погуще: машинное обучение (нейросеточки из каждого утюга), картографические роты, ковровые импорты, боты. Данные оказались достаточно хороши, чтобы привлечь внимание больших игроков — а те уже подтягивают данные до своего уровня. А хорошего QA ещё ждать и ждать, написать его могут три человека во всём мире, и они заняты.
  • Несмотря на отсутствие улучшений, тема гендерного равенства растёт: уже две дискуссионных сессии, одна из которых в главном зале, плюс много небольших докладов. Хочется ощущать, будто количество вот-вот перейдёт в качество, но пока что получается лишь больше количества.
  • Почти не было тем про мобильные приложения. Новости разработки Vespucci, OsmAnd — и всё. Куда всё делось, где бравые призывы mobile first? Непонятно.
  • И не было никаких революций. Никаких «через сто лет мы будем жить при API 0.7», ни обещаний потрясений. Стив Кост пришёл со своей проповедью об адресах, которую мы слышали шесть лет назад, да и всё. Мы ж теперь серьёзные и представительные. Сейчас только аккуратненько тайлы заменим на такие же.

Общую фоточку участников вы уже видели в WeeklyOSM. На ней несложно найти Вову, Виктора и Дмитро, чуть сложнее — меня в голубой рубашке, а Тимофея я так и не заметил. В блогах и дневничках понемногу появляются отзывы, как от компаний со сдержанным корпоративным восхищением собственными докладами, так и от участников, в частности, scholars, чью поездку оплатил OSMF и кого специально просят отозваться.

Мы небольшой русскоязычной компанией собрались во второй день конференции вечером, чтобы поговорить об услышанном и о будущем OpenStreetMap. Получился полуторачасовой подкаст, своеобразный отголосок «Радио OSM». Если у вас нет времени слушать, то ссылка ведёт не на файл mp3, а на транскрипт, текстовую версию подкаста (но ссылка на mp3 там тоже есть). То есть, с помощью волшебного переводчика гугля мы получили и английскую версию: можно удивлять наших зарубежных друзей радикализмом русских идей. «До основанья и затем», такого рода. Послушайте, там хорошо.

Следующая конференция пройдёт в конце сентября 2019 года в Гейдельберге. Да, том самом, где стоит университет, подаривший нам OpenMapSurfer и OpenRouteService. Конечно, до того времени будет много конференций поближе. Например, украинская NaviMotive или белорусская ByGIS. Будут ли конференции в России? Будут ли в каком-нибудь городе отмечать 12 августа день рождения OpenStreetMap? Это вам решать.

Моря коричневых квадратиков

Вы, наверное, слышали об инициативах HOT, особенно о серии картовстреч Missing Maps. Добровольцев сажают за JOSM и учат обклацывать домики в Центральной Африке. Результатом становятся сотни тысяч контуров с building=yes, которые аналитики используют для планирования акций помощи.

Jean-Marc Liotier намедни задал вопрос, столько неожиданный, сколько и очевидный: а зачем это всё? Добровольцы оставляют жутко неточную карту, на которую опытный осмер без слёз не взглянет. Дороги недорисованы, POI отсутствуют, будущим африканским мапперам будет проще удалить это всё и начать с нуля.

Зачем вообще рисовать контуры? Для анализа населённости достаточно нарисовать полигон landuse=residential с атрибутом плотности. На крайняк — вместо контуров ставить в центре домиков точки со всеми нужными тегами. У аналитиков будет способ посчитать население, а карта не пострадает. Зачем тратить время и силы ценного человеческого ресурса на работу, которую осмеры захотят удалить?

Для зарождающегося африканского сообщества эти недокарты вообще мина: здесь не кривые линии дорог нужно выправлять, как после импорта TIGER американцам, здесь каждый домик нужно скрупулёзно передвигать на правильное место. Любой, кто этим занимался, схватится за голову.

В рассылках вопрос поддержали опытные осмеры, а члены HOT ответили, но как-то не по существу. Про пользу да про валидаторов, которых всегда не хватает, потому что это не так интересно. Нет вопроса о пользе карты для кого-то, кроме аналитиков HOT, в справочнике команды. Никто не подумал. Проблемы не белых людей.

Один из вариантов ответа: встречи Missing Maps — отличный способ завербовать далёких от картографии людей в OpenStreetMap. Научить их редактированию и показать осязаемую пользу от работы. Да, качество их домиков будет ниже плинтуса, но если мы берём за цель их участие в сообществе, то то, что они нарисуют, можно удалить. Главное, что человек завяз.

Работа гуманитарной команды поднимает сразу несколько вопросов. Например, чем сотни тысяч нарисованных добровольцами домиков лучше автоматического импорта домиков из сторонней базы (тут как раз Bing пожертвовал 125 миллионов)? Наши правила запрещают массовые правки без обсуждения, но здесь же живые люди обклацывают снимки. Да, качество так себе, да, придётся большую часть удалить. При этом, сообщество не приемлет автоматические правки и импорты. Главный аргумент — потому что данные из сторонних источников всегда уступают тёплым ламповым нарисованным вручную домикам.

Впрочем, организованное редактирование скоро тоже зарегулируют новым регламентом. Он гласит, что если вы собрались больше трёх, то посчитаем это импортом: косо посмотрим, сплюнем, спросим за район.

Почему появился этот регламент? Некоторые компании начали платить мапперам за улучшение карт густо населённых районов, и осмеры из этих районов возмутились. Импорты и организованное редактирование никого не волнуют, пока не нарушают главное правило: только не на моём участке. Стоит задеть территорию опытного осмера, как узнаешь про много разных правил и ограничений. Классы дорог не трожь, используй contact:website вместо website, каждый POI должен быть проверен на местности и подтверждён нотариально заверенной фотографией. Правило «Не на моём участке» в сообществе идёт первым, до лицензии и проверяемости. Гуманитарной команде позволяют работать в Африке только потому, что там нет увлечённых мапперов, которые от очередного набега придут в ужас.

Наконец, проблема сотен тысяч домиков поднимает через Жана-Марка тот же вопрос, какой должен задавать себе каждый из нас: зачем мы картируем? Чем мы руководствуемся при выборе тегов и объектов для картирования, и какой конечный результат покажет нам, что мы выполнили свою работу хорошо? Линия на стандартном картостиле? Слово «МакАвто» в результатах поиска на смартфоне? Размер файла с выгрузкой города? Числа в валидаторе? Какой бы ни была ваша метрика, не бойтесь поделиться ею на форуме или в чатике: вам не только помогут найти лучшие источники и модули редакторов для работы, но и объяснят, почему ваша работа не имеет смысла. Мы всегда рады помочь.

Знаки

Вчера на форуме в очередной раз высказали мнение, что будущее открытой картографии — за автоматическим распознаванием. Несколько компаний исследуют это направление уже много лет. Самая заметная из них — Mapillary, «народные панорамы». Дождавшись, когда база фотографий подрастёт до сотен миллионов, они начали выяснять, что же на них запечатлено. В январе 2015 года Mapillary показали слой с дорожными знаками и спустя несколько месяцев добавили его в JOSM и iD.

Две недели назад они анонсировали большое обновление набора дорожных знаков. За это время от машинного зрения они перешли к машинному обучению, прокатали через него на порядок больше снимков, а в октябре ещё и запустили «игру», в которой человеку нужно оценить точность распознавания.

Telenav с их конкурирующим проектом OpenStreetCam занимается примерно тем же — но с конкретной целью улучшить OSM, а не только собрать базу «на всякий случай». Филипп Кэндал, руководитель разработки, рассказал в 2016 году, что его команда пишет распознавалку знаков и указателей и уже уточнила двадцать тысяч ограничений на карте. За автоматикой, по его словам, будущее.

Для картографов OSM знаки в плагинах Telenav появились только в феврале этого года: всего полмиллиона и лишь в США и Канаде. Зато они сравнивают распознанные ограничения с данными OpenStreetMap, и картографов можно оповестить о необходимости уточнить карту. В апреле эту функциональность добавили в модуль для JOSM.

Наконец, в мае Telenav снова признался в верности открытому сообществу, опубликовав весь код распознавания знаков и натренированную модель под открытой лицензией Mozilla. Саму базу знаков тоже скоро откроют. Мартайн предлагает задействовать эту нейросеточку для распознавания новых типов объектов: скамеек, фонарных столбов, остановок. Чтобы это открытие не прошло незамеченным, Telenav объявил конкурс: сделайте свой проект до 17 августа и выиграйте 10 тысяч долларов — если он распознает более 94% объектов. Условия расплывчаты — вероятно, более опытные участники таких конкурсов поймут, что к чему.

А что Mapbox? Странным образом, они тоже участвуют в этом ажиотаже — но до недавнего времени только командой картографии. В 2016 году они собрали интерактивную карту, сопоставляющую знаки от Mapillary и данные OSM (что Telenav, напомним, делает автоматически) и улучшали нашу карту — только в США, конечно. 13 июня этой карте пришёл конец, хотя все исходники доступны на github. А на следующий день Вирджиния из команды машинного обучения Mapbox раскрыла, что они взяли у Bing снимки StreetSide на 23 американских города, прогнали их через нейросеточки и получили новую интерактивную карту со 184 тысячами распознанных ограничений движения. Их команда картографов медленно продирается через этот набор данных, но от помощи они не откажутся.

Все эти компании распознают знаки на фотографиях, но автоматизируют только это — и, иногда, сопоставление с ограничениями в OpenStreetMap. А внесение в базу геоданных — ни-ни. Отчасти потому, что знаки не соответствуют никаким объектам на карте, они лишь задают свойства для уже существующих дорог. Причём не всегда привязанные к координатам знаков. Сопоставлять знаки и карту непросто, тем более, если с целью карту улучшить.

Другая причина — сообщество OSM не разделяет мнение Филиппа, что автоматическое распознавание — будущее картографии. Лучше в сто раз медленнее, но руками, с тёплыми ламповыми ошибками и чувством удовлетворения от работы, неведомым алгоритму. Фейсбук уже несколько лет пытается переломить это заблуждение — на конференции SotM в Милане через месяц они снова расскажут, как взаимодействуют с сообществом в Таиланде, куда импортируют распознанные нейросетями дороги.

Ранее Ctrl + ↓

Мнения, высказанные на этом сайте, отражают точку зрения лично автора сайта и ничью больше: ни его бывших или настоящих работодателей, ни семьи и знакомых.