Всероссийская перепись под угрозой
Российский OpenStreetMap ждёт огромное потрясение: DWG, рабочая группа по данным, прямо сейчас рассматривает правки шестисот участников самой массовой инициативы по уточнению карты. Сотрудники неизвестных организаций на протяжении полугода добавляли адреса, рисовали дома и подписывали улицы. Но на вопрос об источниках ответы ранжировались от никаких до прямо противоречащих условиям участия в проекте. Конец столь же предсказуем, как и печален: сотни тысяч адресов и прочие улучшения, внесённые в рамках этого загадочного проекта, будут удалены без возможности восстановления.
Всё началось в июне прошлого года: Wowik, автор одного из трёх валидаторов адресов, заметил резкий скачок в количестве адресов в Волгограде. «В личке ответ, что [адреса] из публичной кадастровой карты России и КЛАДР. Ну и что теперь с этим знанием нам делать?» Участница начала добавлять адреса в мае 2019 года и прекратила в июне, сразу после беседы об источнике данных.
23 июля Parukhin заметил в Архангельске «какое-то нашествие девушек, которые выравнивают домики по снимку при нулевом смещении, не глядя удаляют новые здания, которых нет на бинге, тянут адреса и POI с яндекса». Wowik подсобрал статистики и оказалось, что таких людей больше, чем кажется: более двух десятков человек массово вносили адреса только в тот день. На следующий день тема «обсуждение массовых правок» перестала быть темой про планирование автозамен: длинные списки картографов, день за днём вносящих адреса, захватили её на полгода и десять страниц.
Условия участия в OpenStreetMap, с которыми нельзя не согласиться при регистрации, гласят: «добавленные вами данные не должны нарушать авторские права кого-то ещё». Открытая лицензия — это главное и определяющее свойство нашей карты. Из него вытекают все условия, всё сообщество, вся популярность OSM в коммерческих и любительских проектах. Публикуя данные в открытой базе данных, вы делаете их открытыми: что тут непонятного? Другими словами, вносить данные, защищённые авторским правом без разрешения автора — то же самое, что купить фильм и выложить его в торренты. Легко, полезно для тысяч пользователей и противозаконно.
Загадочные картографы копировали адреса отовсюду. Некоторые честно отвечали: «кадастровая карта, яндекс, 2гис и т. д.» Многие ограничивались только первым пунктом: никто не знает, можно ли брать данные из ПКК, учитывая, что на пару дней её всю опубликовали как открытые данные (подсказка: нельзя). Но чем дальше, тем больше людей усваивали правильные ответы: «я всю жизнь тут живу и знаю», «помогают родственники и друзья», «в декрете много гуляю по местности». Звучало это подозрительно: адреса содержали те же ошибки, что яндекс или ПКК, количества измерялись тысячами в месяц. Заказчика не выдал никто — но поиск имён по социальным сетям показывал одну и ту же организацию: Ростелеком.
Редактировать OpenStreetMap просто. Отменить правки — нет. В данных всё связано со всем: представьте, что википедия — это не миллион разных страниц, а одна большая страница, и каждое предложение связано с каким-то другим. Откатить правку, сделанную месяц назад, будет близко к невозможному. Кроме того, правки обычно откатывают по одному пакету и это небыстрая операция. Пользователей в списках же сотни, и у каждого по сотне пакетов правок. Чтобы отменить правки даже одного человека, нужны специальные программы и опыт, который поможет не сломать данные вокруг. Кроме того, при откате данные всё равно остаются в истории объектов и нарушают лицензию — нужно специальное сокрытие данных, которое вправе делать только участники DWG.
Далее, в сообществе не принято делать резких движений, потому что в картографии вопросы лицензий сложны и вместе со вредными правки люди вносят полезные. Например, ставят украденные адреса на аккуратно отрисованные по разрешённым спутниковым снимкам контуры домов. Некоторые люди действительно собирают адреса самостоятельно: хорошо бы уважить их труд и не рубить сплеча. Каждого нужно спросить про источники — но люди отвечают «я там живу» и приходится делать моральный выбор: сделать вид, что поверил, и оставить как есть, или проверить внимательнее, сравнить с яндексом и ПКК и понять, что ответ ложь. Это гнетёт, поэтому мы считали людей, смотрели на адреса и ничего не делали.
Надежда на помощь появилась в январе: сотрудница крупной американской компании попросила объяснить, что это за полторы сотни человек добавляют адреса, врут в ответ на вопрос про источники и при удалении их данных быстро возвращают обратно. Я повторил всё, что написано выше, внутренне радуясь: крупная компания, которая использует OSM в своих продуктах для аудитории в сотни миллионов человек, едва ли оставит вопрос лицензионной чистоты на самотёк. Люди на зарплате соберут всю информацию и привлекут DWG к проверке и откату всех до единой нелегальных правок. На прошлой неделе они это сделали: группа получила список из шестисот имён (поправка: двухсот, см. комментарий mavl). Кажется, наша фрустрация скоро закончится. Если только не заменится другой: что мы сломали нам перепись.
Мы не знаем заказчика, поэтому не можем доказать, что эти сотни человек наносят адреса специально ко Всероссийской переписи населения, которая пройдёт в октябре. Впервые перепись пройдёт «с планшетами, в которых будут загружены цифровые карты». В России не существует достаточно полной базы адресов с координатами, но есть множество разрозненных источников: коммерческих карт, адресных планов, кадастр. В сообществе OSM считают, что Ростелекому и нескольким другим организациям поставили задачу собрать все адресные данные в базе OpenStreetMap. Работу оплачивают сдельно, по количеству домов, поэтому редакторы комментируют пакеты правок в духе «Сингапай (32 дома) + 4 контура». Инструкции, фотографии которых попали в соцсети, не перечисляют разрешённые источники данных, ограничиваясь словом «свободный» — и с кадастровой картой в качестве примера.
Главное подтверждение внезапно пришло из Дагестана. Местный картограф прямо ответил на вопрос: «информацию добавляем в систему по поручении первого заместителя Председателя Правительства РД, (протокол заседания Комиссии по проведению Всероссийской переписи населения 2020 года в Республике Дагестан). Срок до 1 февраля 2020 года обеспечить наполнение картографического материала на сайте OSM-карты». Другой местный картограф привлёк внимание тем, что вместо адресов писал в теги зданий полные имена жителей. С одной стороны, это уголовная ответственность за нарушение закона о персональных данных: штраф до 300 тысяч или лишение свободы до четырёх лет. Мы всё стёрли, конечно. С другой, это свидетельствует, что источником была явно не публичная кадастровая карта: с точки зрения лицензии тут всё чисто.
В качестве последней попытки я составил письмо в Росреестр: «Пожалуйста, сформулируйте разрешение на использование адресных данных Публичной кадастровой карты в целях уточнения карты OpenStreetMap. Или сформулируйте однозначный запрет». Отправил его в форму обратной связи на сайте кадастровой карты и на почтовые адреса двух релевантных отделов Росреестра. Разрешение использовать адреса с ПКК очистило бы достаточно большую часть внесённых адресов, чтобы можно было оставить все их с чистой совестью. Разве что удалив тех, кто неосторожно упомянул Яндекс или 2ГИС. Увы, за три недели с отправки я не получил ни одного ответа, кроме загадочного «проводятся мероприятия по восстановлению работоспособности сервисов». Госорганы традиционно выбрали третий путь: отмолчаться — но в OSM отсутствие «да» означает «нет».
Что произойдёт дальше: правки почти всех пользователей будут откатываться. DWG будет проверять каждого и скрывать те правки, которые однозначно нарушают условия участия. Скорее всего, к лету они устанут и коврово жахнут по всем пользователям из списка. В Ростелекоме найдут виноватых среди картографов, а потом осознают, что произошло. Будут в мыле искать специалистов, которые смогут восстановить стёртое. (Советую НекстГИС: там толковые ребята. Ребята, заломите ценник!) Торг, депрессия, принятие. Свою ГИС они поднять и наполнить не успеют, поэтому OSM снова ждут приключения. Внезапно получим разрешение от Росреестра. Но всё равно будем жёстче следить и откатывать. Ста процентов адресного покрытия уже не будет.
Нам, участникам проекта, не жалко данных. Мы теряли и больше: например, во время перелицензирования робот «порвал в обрывки вермишели всё подряд, а тут всего 10-30% всех домиков по деревням», как ярко сформулировал Макс в чате. Сообщество тогда быстро подсобралось и восстановило большую часть данных за пару месяцев. Были случаи, когда участники, попавшись на копировании с коммерческих карт, сносили за собой целые города. Это не катастрофа: данные не главное, главное — люди, которые за ними следят. Проходит год или пять лет, белые пятна затягиваются, данные остаются открытыми. У OpenStreetMap нет дедлайнов, поэтому мы выберем подождать двадцать лет, пока деревню не отрисуют, чем быстро получить результат, но терпеть нарушение авторских прав.
Репутация карты среди больших организаций после этого манёвра несомненно пострадает. Накосячили все: организация, что не посоветовалась с сообществом; участники, что затянули реакцию и позволили людям делать бессмысленную работу; исполнители, которые не поинтересовались, что они вообще делают. OpenStreetMap всегда был небезопасным хранилищем геоданных. Нельзя гарантировать, что ваш вклад не удалят или не изменят. Это бесплатная распределённая база, но это не ваша база. OSM — это риск со всех сторон: карта может сломаться, лицензия может укусить юристов, модель данных может оказаться неподходящей слишком поздно. Мы не говорим, что OSM нельзя использовать: нужно, но ответственно.
Открытый проект требует открытого подхода. Чтобы крупный проект на базе OSM не провалился, обсудите его заранее хотя бы с одним активным участником проекта. Не шифруйтесь, потому что это верный признак какой-то фигни — как во взаимоотношениях с сообществом, так и в самой организации. Неужели участники не будут рады полной базе адресов по всей стране? Всего-то стоило прошлой весной зайти на форум, в телеграм, или написать в совет о проекте, и мы бы совместно придумали процесс, оформили инструкции и следили бы за ходом выполнения. Чтобы полноценно использовать карту OpenStreetMap, не важно знание модели данных или инструментов. Главное — уметь раскрыться в словах. Это страшно, потому что людям может не понравиться идея, и они пресекут её на старте. Но что лучше — сразу подумать об альтернативе или потерять всю работу вблизи финиша?
Главный потенциальный плюс всего этого экшена — то, что из-за риска огрести нехилых люлей сверху за потенциальный срыв переписи Росреестр и правда раздуплится на нормальное разрешение использования данных ПКК в OSM. Ну просто потому что другого выбора не останется.
это нормальное состояние современного чиновничьего понимания.
большинство училось, воспитывалось при советской власти, когда кроме совестской власти ничего не было и чиновник мог ложить на все окружающее.
Ставлю литр, что не будет никакого разрешения. Они скорее всё это сделают ещё раз, но у же в свой ОСМ.
жаль в осм.ру нет совета, который бы на себя взял представительство осм в рф и влез в бумажные дрязги с полным официозом и регалиями, достучалс до оргов и через них решил вопросы в свою пользу...
А хз, успеют ли. Как я понимаю, идея была простая: наложить адресов в базу, а на планшетах поставить Maps.me/OsmAnd со свежими оффлайн-картами (хотя может кто-то из чинарей рассчитывал, что переписчики тупо будут в браузере онлайн всё смотреть). А тут надо поднимать свою базу, наливать туда текущий OSM + свои изменения, создавать свои сборки карт...
Они скорее всё это сделают ещё раз, но у же в свой ОСМ.
А хз, успеют ли.
Скопируют текущее состояние и добьют в своей уже базе. Думаю, что Ростелеком справится с поднятием стека OSM у себя.
Не стоит ли написать открытое письмо (например, на otkrytoe-pismo.ru или подобном сайте) причастным организациям? Кратко и по сути: нарушается лицензия,
из OSM данные будут удаляться, варианты решения ....
Что вы паритесь. Кадастр вам не дадут. Лучше пошли бы и откатили десяток другой пиратских правок.
Вот что мне не нравится в идее про открытое письмо: мы встаём в позицию просителя там, где наши права ущемляются. Государственная организация пришла и портит нам данные, и мы теперь что-то им должны. Но нет же: им писали сто раз разные люди через разные каналы. Адекватного ответа не было. Осталось задокументировать ситуацию для истории и разобраться с данными.
Zverik, спасибо, что попытались связаться с сотрудниками Росреестра. И спасибо за эту статью. Мне не всё понятно, так как я не читаю Telegram. Например, непонятен этот момент.
> На прошлой неделе они это сделали: группа получила список из шестисот имён
Напишу, что знаю. Если название крупной американской компании не называется, то давайте не будет его называть. Насколько мне известно, рабочая группа по данным не получала список из 600 имён. Действительно сотрудник одной компании связался с рабочей группой по данным и сообщил о подозрительном добавлении в России множества адресов (это было в середине декабря 2019 года). В письме был список пользователей. Не помню сколько их там было. Где-то около 100. Потом этот же сотрудник прислал обновлённый список, в котором было 187 пользователей. Список из ровно 600 имён действительно существует. Я его составил ранее. Я не сверял точно эти два списка, но беглый анализ показал, что, вероятно, все 187 пользователей есть в моём списке. Этот список уже устарел (например, в нём нет сотрудников администраций из Дагестана) и его нужно дополнять.
Что касается угрозы для всероссийской переписи. Не думаю, что она есть. Какая-то часть данных к началу переписи будет удалена, но это будет очень малая часть данных. Список пользователей не является абсолютной истиной и содержит имена пользователей, которые не нарушали условий участия в OSM. Также нет гарантии, что список содержит всех нарушителей (например, если кто-то добавлял по 50 адресов с одной учётной записи, а потом создавал другую, то этот кто-то не попадёт в список). Нужно будет связаться с каждым участником из списка и получить ответ на вопрос об источнике. В сложившейся ситуации молчание будет расценено не в пользу участника. А так как в OSM нет модераторов на зарплате, а есть недомодераторы-любители, то процесс опроса участников и удаления данных закончится после окончания переписи населения (это не осуждение, а просто наблюдение, поэтому прошу членов рабочей группы по данным не обижаться на это высказывание).
Большое спасибо участнику iWowik за комментарии в обсуждении пакетов правок с вопросами об источнике данных. Это сильно помогло. И за сайт со списками пользователей тоже спасибо.
Zverik, спасибо буду знать, что разрешения по-прежнему нет.
Спасибо за комментарий! Число шестьсот я взял из твоего ответа, скриншот которого мы видели в новостях. Список пользователей мне прислали, но я не смог его открыть и проверить. Поправил текст, чтобы стало правильнее. Согласен, что опасность преувеличена, но за время до переписи мы удалим достаточно много. Кроме того, можно привлечь к работе какие-нибудь компании типа Mapbox, чтобы их валидаторы помогли отделить хорошие правки от плохих.
Если интересно, то могу опубликовать оба списка. Можно, наверное, на форуме. Если участники готовы пооткатывать данные, то это будет большая помощь. Одна беда — конфликты. Например, я после откатов одного участника уже месяц проверяю конфликты. Одна участница выслала фотографии, на которых видны адреса, и была исключена из списка. Короче, всё сложно.
Подскажи, если мы сейчас удаляем с домов адреса, то технически скрыть предыдущие версии объекта будет легко?
freeExec, да легко.
В OSM можно скрыть только непоследнюю версию объекта (точки, линии, отношения). Простой пример. Была версия 1 домика без адреса. Потом какой-то пакет правок добавил адрес (версия 2 домика). Бот для скрытия данных не сможет скрыть версию 2, так как она последняя. Он должен вернуть объект (и создать для этого свой пакет правок) к предыдущей версии (версия 1). Это будет версия 3 домика. После этого бот сможет скрыть версию 2. Если до бота кто-то удалил адрес, то боту не нужно создавать пакет правок и он просто скроет версию 2.
Короче, можно откатить пакет правок любым инструментом (не ботом для скрытия данных). А потом скрыть данные этого пакета правок ботом.
Zverik, mavl
Так давайте уже подключать опытных мапперов к откату этой бодяги. Тонны кривой адрески, сломанный дорожный граф с сотнями изолятов. Я в ХМАО сцепился с этим бригадным подрядом по УрФО еще осенью прошлого года. Выслушать о себе пришлось очень много «лестного». Однако затихли ребята. пакостят понемножку, но биться можно. Давайте конкретно определяться: кто, где и когда.
В ответе уважаемого mavl написано, что можно затереть историю потом, сообщив номера правок.
Так что теперь совсем не вижу больших технических сложностей.
Если задачу ставить не как полный откат, а как удаление информации об адресе, то достаточно загрузить домики и удалить addr:housenumber.
Но я не очень понял, что именно надо отсылать на корм боту.
Есть домик без номера — версия 1. changeset — cs1
Есть домик с нелицензионным номером — версия 2. changeset — cs2
Есть домик с нормализованным нелицензионным номером — версия 3. changeset — cs3
Адрес стерли — версия 4. changeset — cs4
Если я просто пошлю сs4, то бот скроет только версию 3, а надо все версии, начиная с версии 2.
То есть бот должен принимать список объектов с номерами версий, которые надо закрыть.
Это он сумеет? В каком формате поймет данные?
Если использовать бота, то он скрывает пакеты правок целиком. Вызывается, например:
ruby redact_changeset.rb -r 184 -m «The changesets are redacted» 1 2 3 4 5
Здесь:
184 — редакция, которая используется (обычно одна на один источник данных) https://www.openstreetmap.org/redactions/184
1,2,3,4,5 — идентификаторы пакетов правок
Для бота нужен просто список пакетов правок. Если данные были нормализованы под соглашение, то также нужен список нормализующих пакетов правок.
Если скрывать конкретные версии конкретных объектов, то можно использовать API. Например:
perl redaction.pl apply 184 node 4772832287 1
Здесь:
184 — редакция
node — вид объекта (также way, relation)
4772832287 — ID объекта
1 — версия объекта
То есть, нужно знать type id version.
В какие новости меня сдали? :-)
Уже писали в Росреестр и не раз. И ответы получали. Если коротко — это авторское произведение и его использовать нельзя без заключения лицензионного договора и не важно что нарушается пара федеральных законов. Вот например: https://gis-lab.info/docs/law/pkk-rosreestr-answer.html
Я не предлагал «просить». Главная цель письма может быть — лаконично донести «внесенные данные будут удаляться».
Ну когда организм атакуют, он как-то начинает защищаться (бей или беги). Организм сам принимает решение об эффективности тех или иных мер.
От одного сообщества должно быть одно письмо, а не сто разных от ста разных людей по ста разным каналам.
У письма должен быть публичный URL (тогда на него можно репостить и ссылаться на «то самое письмо»).
Письмо должно подписываться от имени сообщества/коллектива, а не от отдельной личности.
Выполнение этих условий повысит вероятность того, что письмо будет замечено и осознано правильными людьми.
Если участники выберут такой вариант, я не буду возражать. Но, разбирая конфликты, я находил случаи, когда адрес участники не добавляли новый адрес, а заменяли старый. Таких случаев относительно немного. Обычно я возвращал старый адрес.
Тупые бараны, просто получите форк своего поделия в России. Вы считаете что тому же ртк сложно поднять геосервер и продолжить редактирование своего слоя зданий без ваших дебилов модераторов? Странно что проект с дибилами в управлении пока не загнулся, и очевидно что риски с таким подходом очень велики.
Паша, я сочувствую, что ваш труд оказался напрасен. Это тяжело, когда работал-работал, сам или по заданию, и в итоге потраченные дни оказались зря. Чувство бессилия знакомо: я испытывал его, когда пытался понять, кто и зачем добавляет адреса на нашу карту.
Я понимаю, о чём ты. Если мы хотим достучаться до органов, нужно выступить единым фронтом, всё сделать правильно, и тогда наши шансы повысятся.
Но вот что: правильные люди здесь — это мы. Организаторы переписи, а не мы, должны искать контакта, подписываться от имени коллектива и всё такое. Наша карта под угрозой, а не перепись, и нам это исправлять. Это наш OpenStreetMap и мы здесь власть. Мы достаточно предупреждали организаторов, последние предупреждения ушли, теперь можно действовать.
«Тупые бараны» — это те кто поставил такую задачу, не ознакомившись с правилами проекта.
Если бы не эти всякие лицензии, патенты и запреты, люди бы уже давно марс колонизировали
Согласен, если бы государства и крупные корпорации не прятали результаты работы и отвечали на вопросы, мы бы развивались гораздо быстрее. Взаимодействие в формате «вы нам бесплатно сделайте всё, а мы вам в благодарность поднасрём и скажите спасибо, что омон не вышлем» не мотивирует технический прогресс. Те же Штаты все результаты деятельности госорганов публикует в общественное достояние — и работает, уже готовят полёт на Марс.
Вполне вероятен вариант что удаление правок никак не повлияет на перепись: возможно что OSM использовали только как промежуточный слой для получения данных, и вся работа давно выкачана на сервера Росреестра.
Вот какой вопрос прошу пояснить, если можно. Допустим исполнитель добавил на карту дом с неправильным смещением, проставил ему building=yes и адрес. Потом за исполнителем прошел более ответственный осмер и исправил смещение, поставил правильный тип строения, возможно откорректировал адрес. После отката правок, что в итоге будет с этим домом?
Насколько я помню, автоматический откат в этом случае не сработает, и возникнет то, что называется конфликтом версий. Их DWG разбирает вручную.
Скорее всего домик погибнет, возможно погибнет тольно адрес на домике. Смотря кто и как сможет сделать.
То, что там потом адрес меняли, это разбирать тяжело. Был 15а сделали 15А автоматом подогнав под принятый стандарт. Таких изменений большинство.
Кроме явных нарушений лицннзии вносимых данных, эти массовые правки попадают под нарушение Рекоммендаций по организованному редактированию.
https://wiki.openstreetmap.org/wiki/RU:Organised_Editing_Guidelines
Они хоть и не обязательны к исполнению в полном объеме, но их неисполнение может привести и к откатам и банам, если чьи-то действия будут допекать других.
Как раз нынешний случай.
Если бы ВПН-2020 начали с публичных обсуждений предстоящей свонй деятельности, то многих эксцессов можно было бы избежать.
Author must learn what a word “cartographer“ means. Current use is totally incorrect. Capturing data is NOT cartography.
I’m so sorry I chose the wrong English word in my Russian article, Kenneth. I’ll try to be more attentive to that next time.
Если администрация OSM не попустится, то карты просто заблокирует РКН на территории России.
Взгляд со стороны.
p.s. я за то, чтобы в OSM (и не только в ОСМ) было много полезных, и главное, правильных данных.
Илья, Телеграмм не читаю (2 ссылки в тексте). Эти исполнители без инструкций шаг в сторону не сделают, а пишут инструкции высоко наверху. Кстати, по ссылке ответ Владимиру из Яндекса также не даёт прямого разрешения. Сейчас я уже сам не вспомню, когда рассматривал детали на Яндекс.панорамах.
Сервер свой не подымут за короткое время (freeExec, ставку литром поддерживаю), т. к. актуальной инструкции нет (да и пользуются исполнители браузерным редактором; не удивительно, что по ходу ещё ломают историю).
По вопросу отката правок: в josm раньше был инструмент (давно не пользовался), позволяющий применять фильтры к тегам и значениям.
Рад видеть тебя в комментариях! Согласен, что заменить OSM уже ничем не успеют. Странно, что до сих пор никаких комментариев от заказчиков не было — ни публично, ни лично. И да, понятно, что люди рисовали адреса по требованию сверху. Вымораживает, что среди этих требований явно было врать участникам OSM насчёт источников.
Там сидят потомственные сказочники, которые мыслит категориями халявы и двойных стандартов. Пусть либо наймут специалистов за нормальные деньги (им придётся спуститься с пьедестала), — специалисты знают, как поднять и настроить сервис не нарушая Авторского права, либо дальше сидят на своих закрытых тендерах и варят лапшу.
Илья, ну не все врут. Мне вот честно исполнитель призналась.
https://www.openstreetmap.org/changeset/80828411#map=17/61.31313/73.43944
Автор, пожалуйста, скажите, где такое правило, что перед противительным союзом «но» ставится тире?
1) Это авторская пунктуация, потом что простая запятая не даёт нужной паузы, а точка разделит фразу и противопоставление.
2) Конкретное правило вы можете найти сами: https://therules.ru/dash/ (я не ученик, а вы не мой учитель русского языка).