Не база данных
Что такое OpenStreetMap? Новички думают, что карта. Опытные картографы поправляют их, что на самом деле визуальное представление не важно, OSM — это база данных. Ветераны ставят под вопрос и это.
Недавно я объяснял людям-академикам некоторые нюансы OpenStreetMap, и речь, конечно, зашла про базу данных и многочисленные социальные проблемы, наросшие вокруг неё. Да, в сцепке «карта + сообщество» второе важнее: форки без сообщества умерли, а зияющие дыры после перелицензирования быстро перекартировали. В этом смысле OSM — лишь контейнер для наших усилий. Но когда я привычно назвал OSM базой данных, я почувствовал неточность.
Базы данных хорошо изучены, у них есть общие свойства. Все программисты знают их и умеют с ними работать. Есть нормальные формы BNF, есть ключи, типы колонок. Профессиональные форматы ГИС, типа Shapefile или GeoPackage, — те же базы данных, в которых одна колонка с геометрией, а остальное — как обычно. Можно делать update, можно делать join. Например, одно из свойств — каждая строка таблицы (то есть, каждый объект) независима от других. Проблемы с OSM начинаются с этого, но не заканчиваются.
Разработчики приходят в OpenStreetMap, читают, что это база данных, и у них в голове включается режим работы с базами данных. Технарям свойственно туннельное зрение: отбросить неважное и принудительно улучшать мир. Нормализуем теги! Насильно (массовыми правками) или мягкой силой (валидаторы и редакторы). Объединим базы в одну для удобства! Насильно (импорты, ведь они так просты и очевидны) или мягко (ключи-ссылки в ту или иную сторону). Автоматизируем работу с помощью ML! Напишем больше правил, добавим валидацию в API, разделим «строчки таблицы», введя тип area.
Ничего из этого не делает нашей карте лучше. Проблема баз данных — с ними тупо скучно работать, потому что там главенство алгоритмов, а не людей. Технологии обещали улучшить жизнь, будучи помощниками и инструментами, но вместо этого технари сделали людей помощниками и инструментами в руках технологий. Везде: от творчества (люди на копеечной зарплате генерируют базу для обучения AI) до работы (миллионные армии людей-инструментов в руках алгоритмов Uber, Amazon и их местных аналогов). Шаг влево — недовольный «бип» из системного блока и слово «нельзя». Данные не твои, их нарисовала и бережёт машина. Такой OpenStreetMap сделают технари, если им не мешать.
Источник этого — слова. Формулировки важны. Если мы называем OpenStreetMap картой, мы рисуем карту. Если мы называем его базой данных, мы наполняем и курируем таблицы базы данных. И, честно говоря, ни один из этих вариантов мне не нравится. Отсюда и то чувство в разговоре с академиками. Давайте переформулируем.
OpenStreetMap — это отражение реального мира. В окно видны улицы, и на OSM нарисованы улицы. Магазины делятся на продуктовые, мебельные и сувенирные, и у нас тоже такое разделение. Но если ты выйдешь на улицу, то едва ли сможешь согласиться с другими насчёт того, что входит в состав улицы и что отдельно от неё. Классифицировать заведения однозначно иногда невозможно. Граница между лесом и кустарником призрачна.
В реальном мире ничего не определено и не нормализовано, поэтому карты не отражают его на близких масштабах. Но OpenStreetMap ближе всего к тому, что можно назвать отражением. Именно потому, что он не карта и не база данных, в OSM нет ограничений этих двух сущностей. Но есть сообщество, которое рисует и в этой работе постоянно переосмысливает структуру реальности и способы её отражения.
Если принять эту формулировку, то становится понятен источник многих болей. Почему импорты никогда не проходят гладко? Из-за разницы между базой данных и реальным миром: в базе объекты сами по себе, а в реальности всё взаимосвязано. Почему нормализации тегов каждый раз противится сообщество? Теги не сами по себе, и человек, выставивший их, явно хотел что-то сообщить об объекте. Нужно смотреть в комплексе.
Одной из главных «проблем» OpenStreetMap многие технари считают топологичность: то, что геометрии не раздельны, их нужно собирать их кусков. Отсюда их святой грааль в виде нормальных area, с чем Йохен носится уже больше декады. Но выглянем на улицу и поймём: ничего не само по себе. Геометрии взаимосвязаны. Теги взаимосвязаны. Слоёв нет. Правильным было бы принять это «несовершенство» за имманентное свойство и упрощать работу с ним, не уничтожая.
Поэтому any tags you like. Truth on the ground. Мы пытаемся классифицировать мир, но это невозможно. Любая техническая помощь помогает не туда. OpenStreetMap сложен для использования именно потому, что он отражение реального мира, а не потому, что нет типа area и валидаций в API. Отражение взгляда миллионов его редакторов на этот мир, которое невозможно нормализовать. Все они правы. Сопротивление бесполезно.