21 заметка с тегом

импорт РСС

Крадущийся Facebook, затаившийся DigitalGlobe

5 апреля, 2:09

На прошлом State of the Map US сотрудники Facebook рассказали о том, как они натравили алгоритмы машинного обучения на спутниковые снимки, чтобы найти на них дороги. Затем люди проверяют эти дороги и склеивают их с данными OpenStreetMap. Поразительно по двум причинам: Facebook дорисовывает OSM! И скоро никому не нужно будет обклацывать спутниковые снимки!

Правки сотрудников фейсбука начали появляться в Египте и Таиланде и их, конечно, быстро удалили. Как это обычно бывает с автоматическими массовыми правками: вместо улучшения геометрии удаляли нарисованное и заливали заново, причём с косяками (оставались узлы); качество было сомнительным, особенно на дефектах снимков, которые определялись как дороги; классы дорог очищали и тегировали всё как residential. Причём это началось ещё в мае, последующие попытки мы замечали в июле и августе. Откатили почти всё, фейсбук затаился.

В феврале тайские мапперы нашли страницу в вики, которая документирует процесс автоматического распознавания дорог фейсбуком. Неужели они решили соблюсти инструкцию по импорту и автоматическим правкам? Увы: на форуме быстро заметили, что сотрудники компании продолжают портить данные в Таиланде. Способы разнообразны и всегда печальны, тема читается как история неудач, «33 несчастья» по-осмерски. В субботу осмеры и фейсбуковцы в Таиланде встретились за чашкой чая и договорились об открытости процесса.

Иллюстрации из письма Facebook в рассылку imports@.

Главное, впрочем, в мелочах: немногие, кто возмущался новой попыткой фейсбука импортировать нам дороги, прочитали их вики-страницу до конца. Во-первых, фейсбук классифицирует снимки DigitalGlobe. Но не те обрезки, что доступны нам из Bing и Mapbox, а улучшенное покрытие +Vivid без облаков и стыков. А в конце они приводят разрешение DG на импорт производных от снимков данных в OSM и ссылки на тайлы с классифицированными дорогами, которые можно сравнить со спутниковой подложкой, где она есть.

Осмеры, конечно, спросили: а нельзя ли нам заодно и исходные спутниковые снимки? Вы знаете, как оно бывает: спросили, вместе посмеялись, вздохнули и разошлись. Но не в этот раз: Кевин Баллок из DigitalGlobe 16 марта ответил:

Рад сообщить, что мы приближаемся к отличному решению, которое позволит DG опубликовать спутниковый слой специально для трассировки в OpenStreetMap. Эту работу спонсируют несколько организаций, и она сделает слой +Vivid доступным для зарегистрированных редакторов OSM. Надеюсь, это позволит вам проверить импорт команды Facebook. Срок — примерно 4-8 недель. Объявим о результатах, пожалуй, в новой теме, а не в обсуждении импорта.

Так что ждём в мае третий глобальный слой спутниковых снимков для обрисовки, лучший из всех.

Не только 64 бита

13 марта, 16:17

Вы помните о проблеме 2013 года, когда идентификаторы узлов в OpenStreetMap превысили 2³¹. Те, кто держит регулярно обновляемый сервер тайлов, вчера вечером могли заметить ошибку в логе osm2pgsql:

Osm2pgsql failed due to ERROR: insert_rel failed: ERROR: value «37945» is out of range for type smallint

Да, программа не ожидала, что на хранение количества членов отношения может не хватить двух байтов. Чтобы восстановить обновление, нужно откатить состояние до этого state.txt и убедиться, что osmosis скачивает диффов минимум на два часа. На гитхабе разработчики osm2pgsql обсуждают, как и где лучше ограничить размеры отношений.

Откуда взялось такое большое отношение? Это, слава богу, не мультиполигон. В Бразилии кто-то решил импортировать геодезические сети: 7700 точек плановой сети (для определения координат) и 38 тысяч — высотной (для определения высот). Не очень понятно, зачем в OSM последние: снимки по ним не привяжешь, а ЦМР по осму нормальные люди не корректируют. Но обсуждение импорта в почтовой рассылке не завязалось, а бразильскую группу в телеграме, куда сбежали осмеры, читать сложно.

Проблема оказалась в том, что все импортированные точки люди решили объединить в отношения. В вики с 2008 года предупреждают: отношения — не категории, не создавайте их для облегчения выкачивания данных. Есть же Overpass API, есть osmfilter. «Но мне же надо» — и получилось отношение из 38 тысяч точек. В течение пары минут после его загрузки у многих обвалился osm2pgsql и через полтора часа DWG откатила правку. По техническим причинам, так как формальности были соблюдены и скоро, видимо, точки вернут.

Грузим точки

16 февраля, 0:34

Знаете, бывает иногда: договорились с какой-нибудь «Пятёрочкой», что они откроют данные для загрузки в OpenStreetMap, месяц пробирались сквозь бюрократию, получили заветный файл в формате CSV... И что? Допустим, сделали из него OSM XML и открыли в JOSM. Там восемь тысяч точек, которые нельзя просто взять и загрузить: в OpenStreetMap половина уже отмечена, часть — полигонами или отношениями, ещё минимум тысяча не подписана. Перелопачивать весь массив долго, монотонно и уныло. А на подходе уже «Магнит», который прознал про нашу лучшую в мире карту и готовит свои девять тысяч точек. И через месяц — обновление.

Пока в MAPS.ME обращались небольшие компании с сотней-другой точек, мы махали рукой и просили либо разобраться в OSM самостоятельно, либо подождать, пока кто-нибудь напишет скрипт. Но вы знаете основной принцип открытого проекта, так что теперь такой инструмент есть. Задачу из первого абзаца легко решит OSM Conflator.

Это скрипт на Python 3, который принимает профиль с настройками импорта и функцией подготовки данных. Он скачивает свежий набор, запрашивает у Overpass API подходящие объекты из OpenStreetMap и сопоставляет точки из обоих наборов. Геометрия из OSM считается эталонной, как и все теги, кроме заранее определённого набора (например, времени работы, которое поставщику данных лучше знать). Существующим объектам скрипт досыпает тегов, добавляет новые точки туда, где в OSM ничего нет, и выдаёт файл osmChange.

Дальше его можно напрямую загрузить в OpenStreetMap, но это нехорошо, противоречит руководству по импортам. Правильнее будет открыть файл в JOSM, проверить глазами, что ничего не сломалось и теги правильные, а затем выдать профиль и файл на обсуждение сообществу. Именно это я проделал со списоком паркоматов Москвы, полученных с портала открытых данных: до пятницы можно поискать ошибки в файле osc и профиле, после чего паркоматов в OSM станет на 765 больше.

Если не хочется импортировать, или владелец данных не дал явного разрешения, можно обойтись валидатором CupIvan. Он примерно так же сравнивает данные OSM и официального источника, но вместо загрузки выводит таблицу, где видны неправильные значения тегов, лишние и отсутствующие объекты. Исправлять приходится по одному объекту за раз, зато нет головной боли с обсуждением импорта в сообществе. Иван давно не обновляет валидатор, эстафету за последние три года перехватывали dndred, KoolRu и Avlaak. Последние два даже обновляют данные.

Миллионы домиков

20 октября 2014, 0:54

В сентябре 2013 года адресные точки и контуры зданий Нью-Йорка были выложены в public domain. Компания MapBox, большинство клиентов которой — американцы, немедленно взялась их импортировать в OpenStreetMap. Но поскольку они не французы и понимают, что нельзя просто взять и скопировать, процесс затянулся на год и затронул около 20 сотрудников. После десятков обсуждений, документирования, написания кода, обработки и постобработки данных, в Нью-Йорке появился миллион зданий и 900 тысяч адресных точек. Для сравнения, в России нарисовано всего 7 млн зданий. Алекс Барт рассказал об исходных данных, результатах и выводах. Исходные коды всех инструментов опубликованы на GitHub.

В похожей заметке блога MapBox Алекс поведал решение проблемы обновления исходного набора данных на сайте города. Наша лицензия не позволяет напрямую копировать обновления в базу под public domain, поэтому нью-йоркский отдел ГИС получает ежедневную сводку с изменениями в адресации и контурах домов в OSM. Увы, перевести наши данные под PD для упрощения транзакций у компании не получилось.

Этим летом команда переключилась на другие города США. В июле импортировали 150 тысяч домов в Сан-Франциско. Сейчас идёт импорт трёх миллионов домов в Лос-Анджелесе (фрагмент — на картинке выше, из твита Эрика Фишера). Также обнаружил, что Ian Dees в марте 2013 года импортировал 300 тысяч домов в Чикаго — правда, более простым способом, без лишних дискуссий.

В нашем сообществе никто, кроме отдельных программистов, не любит импорты. По разным причинам, но чаще всего — потому что они делаются тяп-ляп, и результат ни поправить, ни откатить. С 2008 года длинная инструкция в вики описывает, какие шаги должен пройти идеальный импорт. Правда, мало кто ей следует. MapBox же обещает соответствовать не только этим требованиям, но и собственным правилам, которые сводятся к одному: «мы уважаем сообщество и учитываем его на всех этапах импортирования». Кажется очевидным, но пойди найди какого-нибудь другого импортёра, который подпишется под таким. Мы уже рады, когда уважение к работе других участников OSM проявляют обычные мапперы, редактирующие карту вручную.

Эстонский вопрос

27 марта 2013, 11:23

Вытащив адреса для всех домиков, что были в базе OSM, SviMik решил, что домиков маловато. И с помощью OverQuantum (который до того занимался упрощением опорной сети автодорог) он сделал сайт-опросник, который для каждого домика из официального кадастрового слоя выдаёт его контур с тегами и спрашивает, достаточно ли он хорош для нашей карты. Кнопок отбраковки две: «Mark as bad contour», если результат векторизации плохо выглядит, и «Mark as conflict», когда в OSM на месте домика что-то есть. В последнем случае можно запустить JOSM и убрать мешающий объект, если он хуже сделанного автоматически. О найденных проблемах пишут на форум, советую посмотреть примеры.

Импорт домов поднимает другую проблему, понятную из этой картинки: улицы-то не импортируются, их нужно рисовать вручную. Поиском недорисованного занимается валидатор SviMik, куда медленно прибывают девятизначные номера зданий, стоящих в пустоте. Источник для трассировки, похоже, должен быть тем же, что и для домиков: слои Maamet. Об их подключении рассказал, опять же, SviMik: инструкция и видеоролик.

Тем временем, эстонцы получили свой раздел на форуме и с присущей им скоростью плодят темы. А вчера даже заметили, что с картой страны что-то происходит.

Антарктида

10 марта 2013, 17:10

Главная проблема с Антарктидой на картах OpenStreetMap — её очень сложно рисовать. Для начала, у основных провайдеров там нет снимков, кроме ландсата. В обычной гуглевской проекции карта обрезана на 85-й широте, поэтому почти миллион квадратных километров недоступен. Можно перейти в WGS84 (до свидания, потлатч), но там все объекты сплющены в пять (как на базе McMurdo) или более раз, в таких условиях ровный прямоугольник дома нарисовать непросто. В отсутствие интереса континент пустует: данных во всей Антарктиде примерно столько же, сколько в одной Чечне (или в Магаданской области). Стандартный веб-интерфейс не провоцирует на изучение континента, и до него никому нет дела. Наземный GPS-трек там всего один: картографы-любители базы не посещают.

http://shtosm.ru/pictures/concordia.gif

Jochen Topf второй месяц работает над приведением карты Антарктиды в порядок. Для начала, он хочет выпилить неточную границу и импортировать новую, дешифрованную по снимкам и включающую, в том числе, территории океана, покрытые льдом. Единственный мультиполигон natural=glacier уйдёт, вместо него будет отмечена реальная поверхность через natural=bare_rock, natural=scree (камни россыпью) и тот же glacier, но только где необходимо.

Для отображения и редактирования есть замечательная проекция EPSG:3031. Тайлы в ней уже готовы: маркерами на карте отмечены объекты с тегами. Следующим шагом будет научить этой проекции JOSM. Плагин Proj4J, вроде, помогает, вот только перед Северным полюсом пасуют внутренние алгоритмы редактора.

В последней заметке Jochen отчитался о готовности данных для импорта. По его завершении начнётся наполнение карты топонимами и остальным, что удастся найти: многие источники находятся в public domain.

Третье измерение OpenStreetMap

15 января 2013, 12:12

В заметке UN Dispatch рассказывают про странные названия улиц столицы Афганистана на картах Apple. «Bad Monkey», «MoJo Way», вот это всё. Причина? Помните, как Эппл взял карты OSM, но древнейшие, от 2010 года? Оказалось, как раз в это время первые мапперы Кабула решили пошутить, дав свои названия нескольким улицам. С тех пор карта значительно подросла и посерьёзнела, вот только пользователи айпадов оценивают её по устаревшим данным. Это хороший повод дополнить известное утверждение:



Нельзя взять слепок данных и сказать: это — OpenStreetMap. Он теряет свою суть, своё главное отличие от остальных картографических данных в момент, когда вы его загружаете. Наш проект существует в трёх измерениях, и как нельзя от данных отнять широту или долготу, OSM лишается смысла, если его данные обрезать по оси времени. Участники это хорошо понимают, ожидая от всех сервисов на базе OpenStreetMap как минимум ежедневного обновления, в худшем случае — ежемесячного. Каждую секунду сотни человек существенно изменяют карту, что складывается в полгигабайта правок ежедневно, 0.2% от всех данных. Да, у нас масса ошибок, но в контексте третьего измерения они несущественны, поскольку обратная связь мгновенна. Обрежь время — и данные OSM превращаются в неполный, неудобный, местами просто неверный склад геоданных. Именно его часто сравнивают с альтернативами, коммерческими картографическими данными, ведь они точно так же лишены третьего измерения, имитируя его версионностью.

То же верно и для обратного процесса, импорта чужих данных в OSM. Многие энтузиасты рассматривают импорт как единичное вливание данных, «сделал дело — гуляй смело». В итоге на карте появляются двумерные кладбища данных, за которыми никто не присматривает. Источники импортов обновляются: так, пока американцы ковыряются в TIGER от 2005 года, уже вышел значительно превосходящий его по качеству TIGER 2012. Несколько стран импортировали покрытие CORINE 2006 года, которое неминуемо обновят, но иначе как всё удалить и импортировать заново, данные в OSM не обновить. А править руками импортированное настолько муторно, что этим никто не занимается. Большие импорты остаются зафиксированными во времени, они не становятся частью OSM, торча из него спустя годы, когда участник, загрузивший их, уже давно покинул проект.

Поэтому мы так осторожны с предложениями бесплатных геоданных для проекта и не спешим немедленно всё загружать, скорее наоборот, предостерегаем от этого других. Лучший способ добавить ваши POI — открыть обновляемый набор их координат и метаданных, которые осмеры будут синхронизировать в полуавтоматическом режиме, а то и вручную, через валидаторы вроде этого. Идеальный способ добавить нам пространственный слой, вроде лесов и полей или зон использования воздушного пространства, — открыть его отдельным набором и подключать во время отображения, не захламляя общую базу очередной нередактируемой и мешающей обычным участникам кучей объектов.

Эстонское чудо

10 января 2013, 20:26

Черновик итоговой заметки не продвинулся дальше абзаца «Ничего», поэтому ставлю вместо себя Кирилла, открывшего на форуме новогодний опрос. Правда, по его результатам получается, что почти ничего и не произошло. Ещё не поздно дорисовать вагон-другой.

За выходные на форуме появился эстонец SviMik, нашедший WMS-слой с адресами (который эстонская кадастровая организация, недолго думая, разрешила к использованию в OSM, вместе с несколькими другими слоями), и выдал идею, как эти адреса быстро загрузить на нашу карту. Удивительно, что не будучи опытным участником, он успел проникнуться духом краудсорсинга, и не стал углубляться в распознавание и прочую автоматизацию, как сейчас модно, а сделал простой сайт в духе рекапчи, где для контура дома из OpenStreetMap нужно ввести число с подложки. В итоге, за две недели большую часть работы сделали два десятка мапперов, и сейчас идут последние приготовления перед загрузкой результата в OSM. Названия улиц удалось привязать к номерам благодаря другой базе, так же задаром выданной кадастровой организацией.

Правда, именно здесь могут всплыть основные проблемы, и связаны они не с качеством данных, а со структурой эстонского сообщества. Планируя Новый год, я спросил в твитере, не хочет ли кто из Таллина встретиться и поговорить. Адресованный эстонскому сообществу, вопрос остался без ответа. Может, оно не читает русскоязычные источники, и стоило спросить в их рассылке — по видимости, единственном канале общения? Возможно, но плотность дискуссии в несколько сообщений в месяц не выдаёт в её обитателях активных мапперов. Мы знаем одного активного эстонца, Vitalts (теперь двух). Он адресует своё сообщество в третьем лице, будто не являясь его частью, и направляет на сайт maakart.ee. Мистические владельцы сайта (как бы local chapter) и подписчики рассылки — одни и те же люди? Они будто сидят на облаке, не проявляя себя, полностью невидимые для обычных участников.

Когда AlexTheTux поправил геометрию и адреса у нескольких домов в Таллине, его правку без объяснений быстро откатил ещё один неизвестный нам участник, руке которого принадлежит немалая часть объектов этого города. Может ли он входить в третье эстонское сообщество: затаившихся динозавров, блюдущих корректность и статус-кво? Возможно, таких мапперов там большинство: они рисуют десятки тысяч объектов, ни с кем не контактируя, а затем медленно погружаются в песок, при этом чутко реагируя на его колебания и выхватывая с поверхности зазевавшихся новичков, посмевших нарушить их покой. Где-то сверху витают «старейшины», лениво бросающие реплику в месяц в списке рассылки и владеющие неким выделенным сервером, а по поверхности, кроме озадаченных новичков, споро носятся продвинутые осмеры, не успевшие попасть в два суперкласса, но делающие реальную работу по улучшению карты Эстонии. Только благодаря им синяя линия не горизонтальна.

http://shtosm.ru/pictures/nodes-estlanlit.png

На деле, конечно, в предыдущем абзаце всё выдумка, но такое видение эстонского сообщества, по-моему, — оптимистичный вариант. Потому что иначе получается, что в этот Новый год в Таллине активных мапперов из России было не меньше, чем местных.

Прямой эфир II

10 сентября 2012, 19:08

Всего через четырнадцать месяцев после яндекса у нас появилось такое же затягивающее реалити-шоу: live.openstreetmap.fr. С той лишь разницей, что не нужно ждать две минуты, пока кто-нибудь нарисует очередной дом. Пока не отображается настоящая геометрия, лишь границы ченджсета. Изредка проскакивают импорты на десятки тысяч объектов, и это несколько пугает: «как? никого не предупредив? хватит мусорить в базе!» — а потом понимаешь, что это Канада, и у них там развлечение на многие года — импортировать озёра.

Здания, тысячи их

1 июня 2012, 17:10

Фредерик Рамм смотрит на импорт домов во Франции, и он его печалит. Сейчас 80% всех данных там — это дома. Из них меньше процента имеют адреса. Как с этим жить — непонятно. Он пытается донести ту же мысль, что я много раз высказывал без видимого эффекта: контуры домов по важности сопоставимы с лесами, и от их отсутствия карта не проигрывает. И ладно бы первый случай, так с границами во Франции тоже такая же петрушка. И ещё они импортировали Корину. Очень сложно не импортировать. Активных осмеров там немногим меньше, чем в России, но поддерживать все эти десятки миллионов объектов не под силу никому. Страна превратилась в склад данных, как когда-то Америка. И если не поменять модель данных OSM и не переписать инструменты, будет проще начать заново, чем разгребать эту кучу.
Ctrl +  Ранее