Крадущийся Facebook, затаившийся DigitalGlobe

5 апреля, 2:09

На прошлом State of the Map US сотрудники Facebook рассказали о том, как они натравили алгоритмы машинного обучения на спутниковые снимки, чтобы найти на них дороги. Затем люди проверяют эти дороги и склеивают их с данными OpenStreetMap. Поразительно по двум причинам: Facebook дорисовывает OSM! И скоро никому не нужно будет обклацывать спутниковые снимки!

Правки сотрудников фейсбука начали появляться в Египте и Таиланде и их, конечно, быстро удалили. Как это обычно бывает с автоматическими массовыми правками: вместо улучшения геометрии удаляли нарисованное и заливали заново, причём с косяками (оставались узлы); качество было сомнительным, особенно на дефектах снимков, которые определялись как дороги; классы дорог очищали и тегировали всё как residential. Причём это началось ещё в мае, последующие попытки мы замечали в июле и августе. Откатили почти всё, фейсбук затаился.

В феврале тайские мапперы нашли страницу в вики, которая документирует процесс автоматического распознавания дорог фейсбуком. Неужели они решили соблюсти инструкцию по импорту и автоматическим правкам? Увы: на форуме быстро заметили, что сотрудники компании продолжают портить данные в Таиланде. Способы разнообразны и всегда печальны, тема читается как история неудач, «33 несчастья» по-осмерски. В субботу осмеры и фейсбуковцы в Таиланде встретились за чашкой чая и договорились об открытости процесса.

Иллюстрации из письма Facebook в рассылку imports@.

Главное, впрочем, в мелочах: немногие, кто возмущался новой попыткой фейсбука импортировать нам дороги, прочитали их вики-страницу до конца. Во-первых, фейсбук классифицирует снимки DigitalGlobe. Но не те обрезки, что доступны нам из Bing и Mapbox, а улучшенное покрытие +Vivid без облаков и стыков. А в конце они приводят разрешение DG на импорт производных от снимков данных в OSM и ссылки на тайлы с классифицированными дорогами, которые можно сравнить со спутниковой подложкой, где она есть.

Осмеры, конечно, спросили: а нельзя ли нам заодно и исходные спутниковые снимки? Вы знаете, как оно бывает: спросили, вместе посмеялись, вздохнули и разошлись. Но не в этот раз: Кевин Баллок из DigitalGlobe 16 марта ответил:

Рад сообщить, что мы приближаемся к отличному решению, которое позволит DG опубликовать спутниковый слой специально для трассировки в OpenStreetMap. Эту работу спонсируют несколько организаций, и она сделает слой +Vivid доступным для зарегистрированных редакторов OSM. Надеюсь, это позволит вам проверить импорт команды Facebook. Срок — примерно 4-8 недель. Объявим о результатах, пожалуй, в новой теме, а не в обсуждении импорта.

Так что ждём в мае третий глобальный слой спутниковых снимков для обрисовки, лучший из всех.

Лето на носу 2017

28 марта, 1:00

Шейдеры с отражениями для OSM2World сделал Зак Андерсон в рамках GSoC 2016

Ближайший важный дедлайн — это закрытие приёма заявок на доклады для State of the Map в Японии, второго апреля. Учитывая дороговизну полётов, билеты на самолёт и гостиницу лучше забронировать тоже до этого времени. Третьего же апреля другой дедлайн: для студентов-участников Google Summer of Code.

Проект OpenStreetMap участвует в GSoC в том или ином качестве с 2006 года. За это время студенты сделали немало заметных улучшений — правда, всё чаще в сопутствующих программах. Например, «испортили» картостиль или провели крупный рефакторинг ядра JOSM. Честно говоря, в списке законченных проектов я нашёл не устаревшие только с 2012 года, когда Ян плотно поработал над функциональностью редактора Vespucci. Но с каждым годом мы всё успешнее наставляем студентов, и их работа всё заметнее. Как редактор полосности дорог в iD, автора которого быстро замели в Mapbox.

Так что участие в Google Summer of Code не только помогает финансово (хотя в этом году доход будет чуть меньше прежних пяти тысяч долларов), но и ставит студента под прицел крупных компаний вроде Mapbox и Carto. Будьте осторожны — и выбирайте: в списке идей для проектов за двадцать предложений. Если вы осмер, то у вас, наверное, есть и свои. Напишите о своём желании в почтовую рассылку dev@ и до понедельника успейте составить формальную заявку для сайта GSoC 2017.

Если вы не студент, то айда в менторы. Почувствуете себя учителем, поможете студенту быстрее понять OpenStreetMap и направите его разработку в полезное русло. Всё, что нужно, — пара обязательных часов в неделю и письмо Петеру Барту с информацией о себе и своим e-mail. Координацией менторов в этом году занимается не он один, а целая рабочая группа EWG. Мы возродили её из пепла разработчиков и не допустим в ней прежних ошибок, то есть, разработки. Теперь EWG занимается исключительно управлением и координацией, помощью владельцам проектов и начинающим разработчикам. Во вторник в 23:00 по Москве её члены в третий раз созвонятся в Mumble, чтобы обсудить две насущные задачи: GSoC и список Top Ten Tasks.

Одни автопортреты

26 марта, 13:10

Недавно картинкой недели в вики выбрали скриншот коллекции OSMvis, где собраны визуализации данных OpenStreetMap и нашей вики. Все их создал Франц-Бенджамин Мокник, постдок на той же кафедре гейдельбергского университета, откуда вышли MapSurfer и OpenRouteService.

Этот сайт напомнил мне про See, also: тоже коллекцию визуализаций, но по данным википедии. Как и полагается более старому и более популярному проекту, в этой коллекции на порядок больше ссылок, но и авторы разные. Если посмотреть на темы работ в обеих коллекциях, налицо одно важное отличие.

Предметом визуализаций по OpenStreetMap почти всегда является OSM. А то и не почти. Распределение тегов, распределение правок, плотность данных, белые пятна, реки, «как мы хорошо помапили Африку». Все популярные в сообществе визуализации — а это и ResultMaps Паскаля, и видеоистории правок, и ITO Map, — сделаны только для осмеров. В See, also часто визуализируют не саму википедию, а содержание статей. Например, популярность музыкальных жанров в разные годы или распределение некрологов по полам.

Встречаются красивые картинки на основе OSM: Sorted Cities, Interchange Choreography, Roads to Rome, Smelly Maps. Почти все они сделаны дизайнерами «со стороны», упомянуты в одном твите или картинке в OSM и забыты. «Прикольно, но не про нас».

Города, заканчивающиеся на -ск* (темнее — больше доля): визуализация Places!

Мы много говорим о пользе OpenStreetMap и постоянно чувствуем тягу к картам. Хотя не каждый сможет описать, чем так хорошо рисование или просмотр карт. Это же не только поиск маршрута к магазину и не только обклацывание домиков для координации гуманитарной помощи. Хорошая карта не только точно отражает состояние местности. Но и даёт лучше понять окружающий мир, показывает неожиданные закономерности в сетке улиц или парков вокруг твоего дома. Карта может быть книгой, вчитываясь в которую узнаёшь об истории, геометрии, градостроительстве, дизайне, лингвистике, о привычках и обычаях жителей. Можешь увидеть схожесть и различия в жизни своего города и европейского, и даже между своим и соседним кварталами.

Картографические визуализации — такое же непаханое поле, как инструменты для работы с OpenStreetMap. Статьи в википедии двумерны, но OSM трёхмерен, и потому хороших визуализаций должно быть не пять и не сорок пять, а сотни и тысячи. И лучшие из них должны быть собраны на красивом информативном сайте. Для этого нужно, чтобы мы перестали относиться к карте как к «открытой базе геоданных всей планеты» и увидели мир за набором точек, линий и отношений.

Не только 64 бита

13 марта, 16:17

Вы помните о проблеме 2013 года, когда идентификаторы узлов в OpenStreetMap превысили 2³¹. Те, кто держит регулярно обновляемый сервер тайлов, вчера вечером могли заметить ошибку в логе osm2pgsql:

Osm2pgsql failed due to ERROR: insert_rel failed: ERROR: value «37945» is out of range for type smallint

Да, программа не ожидала, что на хранение количества членов отношения может не хватить двух байтов. Чтобы восстановить обновление, нужно откатить состояние до этого state.txt и убедиться, что osmosis скачивает диффов минимум на два часа. На гитхабе разработчики osm2pgsql обсуждают, как и где лучше ограничить размеры отношений.

Откуда взялось такое большое отношение? Это, слава богу, не мультиполигон. В Бразилии кто-то решил импортировать геодезические сети: 7700 точек плановой сети (для определения координат) и 38 тысяч — высотной (для определения высот). Не очень понятно, зачем в OSM последние: снимки по ним не привяжешь, а ЦМР по осму нормальные люди не корректируют. Но обсуждение импорта в почтовой рассылке не завязалось, а бразильскую группу в телеграме, куда сбежали осмеры, читать сложно.

Проблема оказалась в том, что все импортированные точки люди решили объединить в отношения. В вики с 2008 года предупреждают: отношения — не категории, не создавайте их для облегчения выкачивания данных. Есть же Overpass API, есть osmfilter. «Но мне же надо» — и получилось отношение из 38 тысяч точек. В течение пары минут после его загрузки у многих обвалился osm2pgsql и через полтора часа DWG откатила правку. По техническим причинам, так как формальности были соблюдены и скоро, видимо, точки вернут.

Большой ремонт мультиполигонов

12 марта, 21:43

Мультиполигон — это отношение с тегом type=multipolygon, содержащее линии в ролях inner и outer, образующие один или несколько замкнутых контуров. Их используют, чтобы нарисовать полигон с дыркой (например, дом со двором-колодцем) или не рисовать смежные полигоны по одним и тем же точкам. В принципе, если взять любой обычный полигон и навесить на него отношение с тегом type, он превратится в мультиполигон. Но так делать не стоит.

Если поставить теги на внешний контур, а не на отношение, такой мультиполигон будет считаться нарисованным в «старом стиле». Рендерер или osm2pgsql должны будут просмотреть все линии с ролью outer, убедиться, что теги совпадают, и использовать их для отрисовки. Теги на линиях внутренних контуров относятся к содержимому дырок, хотя иногда там можно встретить те же теги, что на внешнем контуре. Обрабатывать старые мультиполигоны сложно и долго.

«Новый» стиль тегирования мультиполигонов — это когда все теги на отношении. Что там висит на линиях контура — не важно. Рендерер сразу видит, что к чему, и не обязан просматривать каждый член отношения. Мультиполигоны в новом стиле нравятся всем, поэтому технари ратуют за истребление старых. Нужно перетегировать «всего» около 250 тысяч отношений, из 13 миллионов.

Йохен Топф предлагает делать это по ходу исправления сотен тысяч более важных ошибок в полигонах и мультиполигонах. К этому можно было приступить и раньше, взяв в помощь OSM Inspector, но планомерное истребление — не для всех. Иногда проще не видеть фронт работ, исправляя по ошибке за раз и имея выбор: нажать «следующая» или закрыть вкладку браузера. То есть, пойти в MapRoulette.

Зайдите сюда и посмотрите, что за задание в этот раз подготовил Йохен. Их довольно быстро выполняют, потому от раза к разу задания становятся всё больше. Прямо сейчас там ссылки для нескольких стран, включая Россию. Исправляют самопересечения, которых только у нас почти триста тысяч. По ходу можно встретить удивительные попытки рендерера нарисовать что-то вменяемое на месте ошибки. И, напоминает Йохен, не забывайте проверять, что теги мультиполигона висят на отношении.

Час созерцания карты

7 марта, 12:58

12 марта, в воскресенье, сервер базы данных OpenStreetMap отключат на час, с 14:00 до 15:00 по московскому времени. Возможно, управятся быстрее. В этот час лучше посмотреть свежую серию чего-нибудь на Netflix или в Амедиатеке, потому что на сайте останется работать разве что тайловый слой и поиск. Всё остальное — нет:

  • В API нельзя будет ничего загрузить, даже скачивать нельзя.
  • Войти на сайт не получится. Соответственно, на другие сайты, используя OAuth через OpenStreetMap, тоже. Это касается и форума.
  • GPS-треки, дневнички, просмотр пакетов правок и элементов карты отключат.

Работать с картой в этот час можно двумя способами. Либо скачать нужную область в JOSM за десять минут до отключения и обклацывать домики, чтобы не напороться на конфликт правок при загрузке через час-полтора. Либо установить MAPS.ME и пойти на улицу, искать новые заведения и обновлять время работы у уже обозначенных.

Все конференции весны-лета 2017

1 марта, 0:20

В эту субботу, уже почти послезавтра, в Минске пройдёт первая большая ГИС-конференция byGIS conference. Это будет день открытых данных, и хотелось упомянуть открытость в анонсе или внести конференцию в список тематических конференций этого дня, но не судьба: осмеров в Беларуси не так много, чтобы заполнить день, а остальные докладчики пришли с более серьёзными аббревиатурами. Начало в 11:00 четвёртого марта, вход платный — 40 белорусских рублей, это примерно 1200 русских.

15 марта пройдёт первая в году «схемотехника». Та самая объединённая мини-конференция ГИС-Лаба и OpenStreetMap. Снова в офисе Mail.Ru у метро «Аэропорт», в среду вечером, в 19:00. С прошлой встречи прошли три зимних месяца, там что есть надежда, что многим будет что рассказать. Заходите послушать и, главное, заходите выступить: как обычно, в формате «все свои», что у вас произошло, что сотворили, что узнали. Пишите темы на ilya@zverev.info и обязательно регистрируйтесь.

Одиннадцатая всемирная конференция State of the Map пройдёт 18-20 августа в городе Аидзувакамацу, это 260 км на север от Токио. Осмеры уже покупают билеты на самолёт: рейсы туда дорогие, лучше взять заранее. До 2 апреля продлится приём заявок на доклады. Как обычно, понадобятся заголовок и краткое описание.

Если участие обойдётся слишком дорого, подайте до 22 марта заявку на спонсирование поездки. Оргкомитет выберет участников, чей прилёт будет полезен и им, и осмерам, и покроет от трети до полной стоимости перелёта и проживания. Рабочая группа SOTMWG попробовала такой формат в прошлом году, и все — и организаторы, и участники программы — были довольны результатом.

К сожалению, европейской конференции State of the Map пока никто не анонсировал. Если не считать State of the Map France в Авиньоне 2-4 июля: французы проводят великолепные ежегодные конференции с одним лишь недостатком, из-за которого нам неудобно участвовать. Немцы уже приготовились выступать на FOSSGIS в Пассау 22-25 марта, но у этой конференции тот же недостаток.

Жители других, далёких континентов уже объявили свои региональные конференции: State of the Map Africa в Уганде 1-3 июля и State of the Map Latam в Перу с 29 ноября по 2 декабря. Как показал опыт, тем, интересных для жителей северного полушария, там немного.

Это оставляет нам европейскую версию главной ГИС-конференции планеты, FOSS4G Europe. Она пройдёт 18-22 июля, по словам организаторов, на полпути между Парижем и парижским дисней-лендом. Заявки на доклады они принимают до 17 марта — почти как на основной FOSS4G, который пройдёт в Бостоне, США 14-19 апреля.

Кнопка каждая важна

19 февраля, 1:45

На сайте openstreetmap.org новость: нажатие правой кнопки мыши на карте больше не выводит меню браузера. Теперь там меню сайта с традиционными для веб-карт пунктами: построить маршрут, посмотреть адрес, получить список объектов. Не нужно перетаскивать маркеры и не нужно целиться в кнопки со знаком вопроса или заметкой. Подсматривать адрес тайла и дёргать /dirty стало сложнее.

Все остальные веб-карты давно перехватывают нажатие правой кнопки. Google Maps его просто игнорирует, Яндекс.Карты тоже не откликаются (даже в редакторе, как ни странно), но двойное нажатие правой кнопки уменьшает масштаб, в противовес левой кнопке мыши. Так же ведёт себя новый сайт Карт Спутника.ру (в пятницу они обновили дизайн), но по одиночному клику показывает меню. Меню по правой кнопки мыши выпадает и у Bing Maps, самое красивое и полезное из всех: только в нём есть пункт «скопировать координаты».

Традиционно для нашего сайта, пул-реквест Дэна Стауэлла висел с августа 2015 года. Неделю назад Стефан Келлер нашёл его и написал, что ему часто жалуются на отсутствие всплывающего меню на osm.org. За шесть часов решили все проблемы и вчера Том, наконец, решительно нажал кнопку «Merge».

В этом году сайт развивается быстрее прежнего: недавно улучшили оформление писем и ограничили размер пакета правок. Четвёртого января неожиданно и неожиданно быстро, всего за семь часов, на сайт добавили слой GPS-треков. Тот самый, да. Наконец, на этой неделе все сервисы переводили на Let's Encrypt: помимо прочих, SSL-сертификат появился у домена osm.org, так что короткие ссылки стали безопасными.

Уточнение: В Google Maps и Яндекс.Картах есть меню по правой кнопке мыши. Оно появляется не во всех браузерах. В комментариях к этой заметке есть иллюстрации. Так что OSM, действительно, последним пришёл к такому решению — а мы даже не заметили, что отстаём.

Новая резалка по-новому режет

18 февраля, 13:14

Пару недель назад Йохен Топф рассказал про новую функцию osmium-tool: режим extract для вырезания областей. Диаграммы в заметке показывают, что osmium вырезает в два-три раза быстрее, чем osmconvert. То есть, как когда-то osmconvert заменил osmosis, потому что был не в пример быстрее, так теперь osmium, кажется, может заменить его.

Я решил сравнить утилиты чуть тщательнее и взял файл планеты в pfb от 30 января. Сделал его копию в o5m — формат стал популярен именно из-за osmconvert, который обрабатывает его чуть быстрее других. И поскольку osmuim не умеет писать в o5m, а только читает, сравнил скорость преобразования обратно в pbf:

33 минуты против 86! Серьёзная заявка на победу. Причина проста: osmium многопоточный. Пока osmconvert вяло крутит 70% одного ядра процессора, его конкурент задействует 265%, то есть, около трёх ядер. Отсюда и разница в 2,6 раза.

Для проверки вырезания регионов я взял Мюнхен, который в pbf займёт примерно 200 мегабайт. Вырезал по прямоугольнику и по полигону из 1200 точек. У обоих утилит есть настройка полноты вырезанных данных: простой режим сохраняет только те точки, что попали в область обрезки. Сложный «complete ways» досыпает точек за пределами области, которые принадлежат линиям изнутри её. То есть, в итоговом файле не будет неполных линий. Режим «complex ways» («smart» в osmium) дополнительно сохраняет целостность мультиполигонов.

Как видно, при работе с pbf osmium в полтора-два раза быстрее osmconvert. Разумеется, за счёт многопоточности. Но с o5m работать в несколько потоков не получается, поэтому столбцы красного оттенка отличаются несильно. Как видно, нет такого режима выгрузки, в котором osmium не превзошёл бы osmconvert.

Превосходство будет ещё заметнее, если не читать файл планеты для каждого региона отдельно, а вырезать несколько регионов за раз. Да, osmium это умеет. Правда, требует очень много памяти: Йохен советует сначала вырезать континенты, затем группы стран и так далее. Понадобится написать файл конфигурации, как описано в документации. В январе на многопоточное одновременное вырезание регионов перешли в Geofabrik, ускорив подготовку выгрузок с 10 до 4 часов.

А теперь непонятная диаграмма, дополняющая предыдущую:

Утилита time, которой я замерял время работы, выдаёт «real time», время от запуска до остановки, и «user time»: время процессора, затраченное исключительно на приложение. И если я правильно понимаю, osmium оказался менее оптимизированным, чем osmconvert, но он эффективнее использует ресурсы компьютера.

Итак, osmium может заменить osmconvert, и почти всегда окажется быстрее. Кроме того, он позволит снять зависимость от формата o5m, который хоть и поддерживается osm2pgsql и другими программами, основанными на libosmium, но требует больше места и дополнительной конвертации. Что с другими приложениями из комплекта osmctools?

Osmupdate удобен простым обновлением выгрузки или файла планеты. Достаточно указать в параметрах имя существующего и нового файла, и получим данные из OpenStreetMap на минуту запуска. Умеет ли подобное osmium-tool? Нет, к сожалению. Но osmupdate — лишь надстройка над wget и osmconvert, скачивающая файлы репликации и передающая в osmconvert для объединения и применения к исходному файлу. Osmium-tool может делать всё, что умеет osmconvert, и возможно слегка переписать osmupdate, чтобы он запускал его вместо osmconvert (и заодно curl вместо wget). Или встроить подобную функциональность в osmium — увы, пока этого никто не сделал.

Но в плане сравнения производительности можно посмотреть на время обновления файла планеты диффом за одни сутки:

Как и обещала справка osmconvert, файлы в формате o5m он обрабатывает быстрее. Как показали прошлые замеры, osmium работает быстрее независимо от формата.

Заменой для osmfilter должен стать osmium-filter. Мне удалось его скомпилировать, но я так и не разобрался в его формате запросов. Инструкция из readme не помогла. Поэтому сравнивать пока нечего. Увы, именно osmfilter требует формата o5m, поэтому если в ваш процесс обработки данных входит, например, фильтрация береговой линии, полностью снять зависимость от o5m не получится.

И ещё одно может стать препятствием: пакет osmctool очень редко обновляется, и потому он достаточно свеж во всех дистрибутивах Linux. А режим extract в osmium-tool появился только в версии 1.5, которая на этот момент загружена только в репозитории Debian (jessie-backports) и, конечно, AUR для Arch Linux. В Fedora устанавливается версия 1.4.0, а в Ubuntu — вообще 1.3.1. Для этих систем придётся собирать osmium-tool из исходников.

Тестирование проводилось на среднем по характеристикам ноутбуке Asus с четырёхъядерным i7-4700 @ 2,4 ГГц с гипертредингом, 12 гигабайтами памяти и каким-то HDD.

Грузим точки

16 февраля, 0:34

Знаете, бывает иногда: договорились с какой-нибудь «Пятёрочкой», что они откроют данные для загрузки в OpenStreetMap, месяц пробирались сквозь бюрократию, получили заветный файл в формате CSV... И что? Допустим, сделали из него OSM XML и открыли в JOSM. Там восемь тысяч точек, которые нельзя просто взять и загрузить: в OpenStreetMap половина уже отмечена, часть — полигонами или отношениями, ещё минимум тысяча не подписана. Перелопачивать весь массив долго, монотонно и уныло. А на подходе уже «Магнит», который прознал про нашу лучшую в мире карту и готовит свои девять тысяч точек. И через месяц — обновление.

Пока в MAPS.ME обращались небольшие компании с сотней-другой точек, мы махали рукой и просили либо разобраться в OSM самостоятельно, либо подождать, пока кто-нибудь напишет скрипт. Но вы знаете основной принцип открытого проекта, так что теперь такой инструмент есть. Задачу из первого абзаца легко решит OSM Conflator.

Это скрипт на Python 3, который принимает профиль с настройками импорта и функцией подготовки данных. Он скачивает свежий набор, запрашивает у Overpass API подходящие объекты из OpenStreetMap и сопоставляет точки из обоих наборов. Геометрия из OSM считается эталонной, как и все теги, кроме заранее определённого набора (например, времени работы, которое поставщику данных лучше знать). Существующим объектам скрипт досыпает тегов, добавляет новые точки туда, где в OSM ничего нет, и выдаёт файл osmChange.

Дальше его можно напрямую загрузить в OpenStreetMap, но это нехорошо, противоречит руководству по импортам. Правильнее будет открыть файл в JOSM, проверить глазами, что ничего не сломалось и теги правильные, а затем выдать профиль и файл на обсуждение сообществу. Именно это я проделал со списоком паркоматов Москвы, полученных с портала открытых данных: до пятницы можно поискать ошибки в файле osc и профиле, после чего паркоматов в OSM станет на 765 больше.

Если не хочется импортировать, или владелец данных не дал явного разрешения, можно обойтись валидатором CupIvan. Он примерно так же сравнивает данные OSM и официального источника, но вместо загрузки выводит таблицу, где видны неправильные значения тегов, лишние и отсутствующие объекты. Исправлять приходится по одному объекту за раз, зато нет головной боли с обсуждением импорта в сообществе. Иван давно не обновляет валидатор, эстафету за последние три года перехватывали dndred, KoolRu и Avlaak. Последние два даже обновляют данные.

Ctrl +  Ранее