Толстый и тонкий
В начале марта Иван Мельников спросил в твитере: «это правда, что самое большое и маленькое здания в OSM — ошибки?» Давайте выясним.
Тег building — самый популярный в базе, если не считать бессмысленного source: 77 миллионов линий, 45% от всех линий OSM. Osmosis отфильтровал 80% планеты, оставив 3,8 гигабайта, которые osm2pgsql за два дня развернул в базу в 25 раз толще. То есть вся планета потребовала бы полтерабайта. Попутно я узнал, что в среднем на 10 зданий приходится 53 узла, без учёта общих точек (по отдельности получится около 60-61 узла, как пишет статистика гис-лаба). 1/4,4 всех точек в базе принадлежит зданиям, и лишь у 37 идентификаторы меньше миллиона.
Я обрабатывал отдельно отношения и линии. Первых оказалось совсем немного, 85 тысяч. Из трёх самых больших мультиполигонов зданий два — автозаводы близ Торонто: General Motors (563 тыс. м²) и Toyota (284 тыс. м²). Второе по размеру «здание» — крепостная стена Сианя, древней столицы Китая: 322 тыс. м². Все эти мультиполигоны правильные, хотя в Канаде одним контуром обведены по три здания, а стоит ли стену обозначать как building — непонятно.
На этой фотографии заснято самое большое по площади основания здание: фабрика Boeing в Эверетте, США. Официально 398 тыс. м², в OSM — 385, в пределах погрешности. Однако у нас оно не входит даже в первую сотню. Топ-5 на 14 февраля таков:
Познакомьтесь с самым маленьким (на 14 февраля) зданием в OpenStreetMap: домик в Словакии площадью 0,023 мм². На карте он выглядит бледной точкой. Даже используя буферизацию, не удалось избавиться от всех кривых геометрий, но второе и третье места по площади занимают дома в Сан-Франциско: 1.8 и 3,2 мм². Остальные здания рекордных размеров вы можете поискать самостоятельно.
В итоге, как резюмируют на MythBusters, CONFIRMED: сколько ни исправляй ошибки, самые большое и маленькое здания в OpenStreetMap не соответствуют зданиям на местности.
Тег building — самый популярный в базе, если не считать бессмысленного source: 77 миллионов линий, 45% от всех линий OSM. Osmosis отфильтровал 80% планеты, оставив 3,8 гигабайта, которые osm2pgsql за два дня развернул в базу в 25 раз толще. То есть вся планета потребовала бы полтерабайта. Попутно я узнал, что в среднем на 10 зданий приходится 53 узла, без учёта общих точек (по отдельности получится около 60-61 узла, как пишет статистика гис-лаба). 1/4,4 всех точек в базе принадлежит зданиям, и лишь у 37 идентификаторы меньше миллиона.
Я обрабатывал отдельно отношения и линии. Первых оказалось совсем немного, 85 тысяч. Из трёх самых больших мультиполигонов зданий два — автозаводы близ Торонто: General Motors (563 тыс. м²) и Toyota (284 тыс. м²). Второе по размеру «здание» — крепостная стена Сианя, древней столицы Китая: 322 тыс. м². Все эти мультиполигоны правильные, хотя в Канаде одним контуром обведены по три здания, а стоит ли стену обозначать как building — непонятно.
На этой фотографии заснято самое большое по площади основания здание: фабрика Boeing в Эверетте, США. Официально 398 тыс. м², в OSM — 385, в пределах погрешности. Однако у нас оно не входит даже в первую сотню. Топ-5 на 14 февраля таков:
- национальный парк, 36,6 км²
- «helping junior learn to edit more better», 8,6 км²
- озеро и здание L.94, 6,2 км²
- квадрат в Botto Penno, 4,2 км²
- территория бывшей военной части, 2,5 км²
Познакомьтесь с самым маленьким (на 14 февраля) зданием в OpenStreetMap: домик в Словакии площадью 0,023 мм². На карте он выглядит бледной точкой. Даже используя буферизацию, не удалось избавиться от всех кривых геометрий, но второе и третье места по площади занимают дома в Сан-Франциско: 1.8 и 3,2 мм². Остальные здания рекордных размеров вы можете поискать самостоятельно.
В итоге, как резюмируют на MythBusters, CONFIRMED: сколько ни исправляй ошибки, самые большое и маленькое здания в OpenStreetMap не соответствуют зданиям на местности.
А там такое: «аЁаАаМбаЕ аБаОаЛббаИаЕ аИ аМаАаЛаЕаНбаКаИаЕ аЗаДаАаНаИб аВ OpenStreetMap». :(
Пните кого надо, если знаете кого, что бы вписали уже charset в html’ку. (http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%B4%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B8_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D0%BE%D0%B2_%D0%B2_HTML)
building:levels:source=pano
addr:source=rgis
name:source=site ?
Кстати, все подобные изменения обычно вносятся разными changeset’ами, и у каждого может быть свой source
На заре ОСМа к объектам ещё часто добавлялся тег created_by, указывающий на версию редактора. Это свойство до сих пор кое-где встречается: http://www.openstreetmap.org/browse/way/8076564 Значение тега спокойно кочует себе от правки к правке, теряя всякий смысл и пользу и засоряя базу: http://www.openstreetmap.org/browse/way/4390593/history Массовой вычисткой этого тега никто не занимается (в этом нет смысла), но если он встретится вам во время правки какого-нибудь объекта, спокойно можете его удалить.
Например, когда всякая природа рисуется по Landsat/Yahoo/IRS/Bing, знатть про конкретный объект, откуда он срисован, весьма полезно.
Для мелких дорог это тоже важный тег, т. к. может служить для проверки надёжности информации.
Ну, а когда дома пачками стоят — тут смысл source лишь в защите от подозрений и при наличии Bing теряется.
JOSM занимается, при любой правке. Он, перед загрузкой на сервер изменённых объектов, автоматически удаляет у них created_by (и ряд других тегов).
П.С. Раз уж akks упомянул, то не лишним будет добавить в JOSM коменты правки при просмотре истории объекта.