41 заметка с тегом

статистика

Миллиард

Аманда обратила внимание, что в субботу американский картограф залил в базу линию с круглым номером — 1 000 000 000.

Практического смысла в таких событиях нет, зато это повод отметить рост OpenStreetMap. Как в феврале можно было отпраздновать стамиллионный пакет правок, в апреле — точку 2³³, а скоро мы увидим десятимиллиардную точку.

Таких ошибок, как восемь лет назад, когда номера точек перевалили за 32-битный лимит, и многие приложения сломались, мы уже не допускаем. Или..? Что произойдёт через пару лет, когда номера линий тоже выйдут за 2³², требуя другого типа данных для их хранения? Когда чинили типы для точек, все ли попутно увеличили лимит для линий?

Некоторые готовятся уже сегодня. Например, Overpass API. В нём есть отдельный тип данных, area (области). Его идентификаторы генерируются из идентификатора линий или отношений, добавлением фиксированного очень большого числа. Но что выглядело большим десять лет назад, теперь пугающе близко к настоящим номерам. Для линий выделено окошко всего в 1,2 миллиарда значений. В следующем году нумерация area на замкнутых линиях в Overpass API начнёт пересекаться с областями на отношениях.

В версии 0.7.57 Overpass API, вышедшей в октябре, такая нумерация областей больше не поддерживается. Автор переписал обработку замкнутых линий, и теперь нужно пользоваться либо запросами на поиск области по названию и местоположению, либо кодом way(1234567); map_to_area;.

Хитрости с числами рано или поздно выходят боком. Вспомним проблему 2000 или даты в GPS. Хочется сказать: не делайте так. Но такие оптимизации помогают сделать алгоритмы быстрее и уменьшить их требования к памяти. Аккуратное отношение к типам данных помогло, например, когда-то запихнуть движок OSRM внутрь мобильного приложения MAPS.ME.

Так что решение — не мешок побольше, а постоянная поддержка. Заходить раз в пару лет в репозиторий и проверять, что предположения, сделанные годы назад, ещё верны. Жаль, что в мире открытых исходников популярность не означает денег на поддержку, и некоторые инструменты устаревают просто потому, что некому поменять несколько букв в исходном коде.

2021   api   статистика

Тротуары Лондона недостаточно широки для твоей мамы

Увидел очередную заметку на тему ширины тротуаров и социального дистанцирования, и немного вскипел. Сколько можно делать этот бессмысленный арт, отвлекая внимание от остальных каналов телеграма?!

Собрать данные о тротуарах в масштабе подобных карт — сложнейшая задача, недоступная непрофессионалам. «Урбика» собирала их для Москвы в 2015 году, и получилось совсем чуть-чуть. Мили Харви для карты Нью-Йорка совершила вычислительное чудо в GeoPandas. На картах ширин тротуаров мы видим многолетнюю работу специалистов, десятки тысяч километров промеренных дорог, сложные гео-вычисления — это нельзя не уважать.

Но связывать эти карты с коронавирусом и урбанистикой стыдно.

  1. Социальное дистанцирование, которое нужно соблюдать, — не то же самое, что физическое. В первом случае вы избегаете контактов с людьми: не ходите в гости и на мероприятия, откладываете покупки и поездки. Физическое дистанцирование — это рекомендованные 2 метра друг от друга. С 18 марта ВОЗ говорит только о физическом дистанцировании — не потому, что зараза научилась прыгать с человека на человека, аки блоха. А потому что в понятие социального дистанцирования входят и виртуальные связи, которые сейчас нужно укреплять, а не обрывать. Лучше пусть встречаются, но не близко.
  2. При движении круг опасности заражения вокруг вас сужается и вытягивается назад. Даже если бы заражение было мгновенным от одной частички вируса, достаточно было бы обходить других за один метр, но держать расстояния в три метра от следующего. Для бегунов и велосипедистов «хвост» вируса может вытягиваться до 20 метров. Поэтому два метра — это слишком.
Из препринта исследования Берта Блокена сотоварищи
  1. Вероятность заболеть также пропорциональна количеству частиц вируса, которые вы соберёте. Для заражения нужно взаимодействовать с больным на очень близком расстоянии, либо долгое время, 10-15 минут. Пройти мимо больного на улице практически безопасно. Если вы остановились поговорить со знакомым на десять минут и стоите не вдоль, а поперёк тротуара, то да, вам может понадобиться два метра.
  2. Карты ширин тротуаров лукавят. Два метра ширины они кладут в «красный» сектор, потому что от 60% до 90% тротуаров уже достаточно широки. Авторы агитируют за тротуары от трёх, и то и пяти метров, как на карте Нью-Йорка. Если представить, что все тротуары сделали шириной пять метров, то мы получим условный Минск. Несоразмерные человеку площади, гигантские бесполезные пространства. Разумный город захочет их сузить: поставить торговые палатки и скамейки, посадить кусты. Эффективная ширина тротуаров вернётся к двум метрам. Вирус довольно потирает метафорические ручки.
© La Citta Vita, CC-BY-SA 2.0

Даже картография тут расстраивает. Нынешняя эпидемия вируса осыпала нас гигантским количеством карт. Распределение заражений по странам, свойства городов, перелёты, закрытые границы. Каждая из этих карт по-своему чудовищна. Что немного предсказуемо: вирус не знает про границы, статистика не сохраняет индивидуальные случаи, а карты не умеют показать то, у чего нет координат. Когда кто-то пытается собрать эти координаты в достаточном количестве, они напарываются на этическую проблему с тотальной слежкой. Проблема неразрешима, если мы всё ещё думаем о людях, а не о карте и вычислениях на ней.

Мир захватили инженеры. Им свойственно считать, что знание инструментов и алгоритмов заменяют любую экспертизу. Нет проблем, есть технические задачи. Во время самоизоляции есть куча времени, чтобы покопаться в форматах, установить библиотеку, поиграть со слоями. Ощущить свою полезность через код и пиксели. Не нужно быть картографом, чтобы сделать карту. Как и в остальном информационном дизайне, инфографика теперь не для объяснения чисел, а их разукрашивания. Написать «Россия 12000» некомильфо, нужно нарисовать кружок в Красноярском крае. Самые продвинутые качают GeoJSON регионов и раскрашивают их в картограмму. Снова техническая задача. Снова простое, но неправильное решение.

Это гугль, но у яндекса то же самое. Хорошо, что это пятно до Москвы доберётся нескоро

И вот у нас есть карта ширин тротуаров. Какое её полезное действие? Если расширить тротуары — то где анализ, можно или нельзя, пешеходные потоки и почему это надо? Если привлечь внимание к дистанцированию — то почему три метра, а не два? Если поразвлекать — то почему эти карты невозможно читать? Нужно масштабировать, но непонятно, зачем. Я вглядываюсь в полоски — чтобы что? Понять, где можно говорить со случайными знакомыми, встав поперёк тротуара, а где нет?

Несоответствие труда и выхлопа огорчает. Сочетание никакой цели и огромных средств — самоизоляция, как видно, высвободила огромные ресурсы, люди могли бы приносить пользу, как когда-то Джон Сноу, но вместо этого тратят время на фигню.

Польза от всех этих вирусных карт, с тротуарами, кружочками, стрелочками, есть. Но нужно понимать, что она только для одного человека: автора. Он или она прокачали свои навыки работы с данными, визуализации, кодирования. Пополнили портфолио. А для других людей это лишь очередной мемчик: посмотрели, хмыкнули, перешли к следующей картинке.

Вот что меня и выбесило — пока я смотрю мемчики, люди рисуют карты, пусть бессмысленные, и прокачивают навыки. Хватит, третий месяц пандемии завершается, пора. Пора закрыть ленту и открыть метафорический QGIS. Раскопать проект, заброшенный пять лет назад, и довести до ума. Придумать собственный мем. Написать в штосм. Или, хотя бы, порисовать деревни.

 1 комментарий   2020   ВНЕЗАПНО   искусство   статистика

Одни автопортреты

Недавно картинкой недели в вики выбрали скриншот коллекции OSMvis, где собраны визуализации данных OpenStreetMap и нашей вики. Все их создал Франц-Бенджамин Мокник, постдок на той же кафедре гейдельбергского университета, откуда вышли MapSurfer и OpenRouteService.

Этот сайт напомнил мне про See, also: тоже коллекцию визуализаций, но по данным википедии. Как и полагается более старому и более популярному проекту, в этой коллекции на порядок больше ссылок, но и авторы разные. Если посмотреть на темы работ в обеих коллекциях, налицо одно важное отличие.

Предметом визуализаций по OpenStreetMap почти всегда является OSM. А то и не почти. Распределение тегов, распределение правок, плотность данных, белые пятна, реки, «как мы хорошо помапили Африку». Все популярные в сообществе визуализации — а это и ResultMaps Паскаля, и видеоистории правок, и ITO Map, — сделаны только для осмеров. В See, also часто визуализируют не саму википедию, а содержание статей. Например, популярность музыкальных жанров в разные годы или распределение некрологов по полам.

Встречаются красивые картинки на основе OSM: Sorted Cities, Interchange Choreography, Roads to Rome, Smelly Maps. Почти все они сделаны дизайнерами «со стороны», упомянуты в одном твите или картинке в OSM и забыты. «Прикольно, но не про нас».

Города, заканчивающиеся на -ск* (темнее — больше доля): визуализация Places!

Мы много говорим о пользе OpenStreetMap и постоянно чувствуем тягу к картам. Хотя не каждый сможет описать, чем так хорошо рисование или просмотр карт. Это же не только поиск маршрута к магазину и не только обклацывание домиков для координации гуманитарной помощи. Хорошая карта не только точно отражает состояние местности. Но и даёт лучше понять окружающий мир, показывает неожиданные закономерности в сетке улиц или парков вокруг твоего дома. Карта может быть книгой, вчитываясь в которую узнаёшь об истории, геометрии, градостроительстве, дизайне, лингвистике, о привычках и обычаях жителей. Можешь увидеть схожесть и различия в жизни своего города и европейского, и даже между своим и соседним кварталами.

Картографические визуализации — такое же непаханое поле, как инструменты для работы с OpenStreetMap. Статьи в википедии двумерны, но OSM трёхмерен, и потому хороших визуализаций должно быть не пять и не сорок пять, а сотни и тысячи. И лучшие из них должны быть собраны на красивом информативном сайте. Для этого нужно, чтобы мы перестали относиться к карте как к «открытой базе геоданных всей планеты» и увидели мир за набором точек, линий и отношений.

 1 комментарий   2017   искусство   статистика

Дело о нотариусах

(Фотография с пикабу)

Если кто-то хочет ввести в вики OpenStreetMap новый тег, нужно создать для него пропозал: страницу, объясняющую суть, модель тегирования и чем тег поможет. Процесс древний и хорошо документированный. Создав страницу, начните обсуждение в рассылку tagging@, через пару недель запускайте голосование, и его результаты покажут, насколько тег интересен другим мапперам. Правда, в рассылке живут около ста человек, голосуют 15-20, причём редко те же люди, которые тег потом будут использовать.

Пользователь Math1985 полгода назад проследил, как пропозалы, устаревания, картостиль и пресеты (заготовки) редакторов влияют на популярность тегов. Он воспользовался гениальной страницей Мартина Райфера, которая строит график популярности для любого количества тегов. Исследование Math1985 показало, что картостиль не влияет никак, вики влияет лишь поверхностно, а вот пресеты побеждают всё. Наиболее показателен случай shop=seafood против shop=fishmonger: в 2010 году первый победил второй в вики-голосовании, но благодаря Potlatch 2 и iD значений fishmonger было больше до 2014 года, когда пресеты в iD поправили.

Месяц назад один человек обозначил офис нотариуса как office=lawyer, а другой заметил это и вместо того, чтобы добавить уточняющий тег lawyer=notary, перетегировал в office=notary. Я про такой вариант не знал, на вопрос мне ответили, что этот тег указан в пресетах JOSM. Два тега для обозначения одного и того же — ненормально, поэтому углубляемся в историю.

В мае 2010 года в вики создали страницу для ключа office и 12 его популярных значений, включая office=lawyer. На странице для последнего сразу указали три возможных уточняющих тега, среди них — lawyer=notary. В тот месяц в рассылку tagging@ написали полтысячи писем, включая обсуждение shop=fishmonger, но не про office. Тем не менее, сразу после описания в вики на карте начали появляться офисы нотариусов, обозначенные задокументированной парой тегов.

Спустя четыре года, в марте 2014, пользователь CMartin отредактировал таблицу значений тега office, добавив туда пять строк, включая office=notary. На личное письмо он ответил, что обсуждения не было, он лишь внёс заметные значения из таблицы Taginfo. Через полгода строчку в таблице заметили и в её описании сослались на устоявшийся способ тегирования: office=lawyer. В таком виде список провисел до ноября 2016 года, когда Math1985 заменил его на автогенерируемый из Taginfo.

В ноябре 2015 года Klumumbus вытащил список значений office в заготовки JOSM. К этому моменту в базе было примерно 240 тегов office=notary против 860 lawyer=notary. Разумеется, после выхода новой версии JOSM первый график рванул вверх, а второй замедлился. На этот момент первый ещё не вырвался вперёд: у нас 925 office и 1020 lawyer. Росту способствовала и короткая вики-страница тега, которую, не разобравшись, создал Math1985. Он даже не упомянул альтернативный тег.

Ошибка налицо, в январе этого года я решил её исправить, создав тикет в JOSM на замену тега в заготовках. Увы, это непросто: подошёл человек из Бразилии и рассказал, что там нотариусы не являются юристами. Klumbumbus подхватил его мысль, предложив, если что-то не нравится, пройти в рассылку tagging@. Железный аргумент, фиг оспоришь. А остановки — не дороги, почему они в highway? Или почему аптеки — amenity, когда там торгуют?

Другими словами, название тега и значение тега — разные вещи. BushmanK целый год по-всякому объясняет это в своём дневнике. Проблема здесь не в обозначении, а в двух тегах для одного и того же. Благодаря бездумному копированию из таблиц, оба набора тегов теперь используются примерно одинаковое количество раз. Именно это я хочу исправить: давайте выберем один и будем его придерживаться. И у office=notary нет никаких преимуществ, кроме присутствия в заготовках JOSM.

Борьба продолжается: я только что написал в рассылку tagging@ и не ожидаю, что все её читатели легко согласятся. Впереди, наверное, и пропозалы, и голосования. Тем временем, влияние JOSM на статистику должно ослабнуть. Не потому, что началась дискуссия. А потому что в редакторе iD в субботу тоже добавили пресет для нотариуса. С правильными тегами.

 3 комментария   2017   josm   статистика   теги

Вожделенная галочка

Два сайта статистики пользователей должен знать каждый русскоязычный маппер: stat.latlon.org с рейтингом по правкам и HDYC с россыпью чисел. Весной прошлого года на последнем у некоторых участников появились галочки « ✓ подтверждённый». Как добавить такую в свой профиль? Паскаль Найс объяснил по шагам:

  1. У вас должно быть не менее 100 пакетов правок.
  2. Зарегистрируйтесь на форуме, на сайте помощи (подойдут логин и пароль с osm.org) и в вики.
  3. Перечислите ссылки на все свои аккаунты в профиле на сайте OpenStreetMap.

Пример заполнения есть в блоге malenki. Спустя сутки зелёная галочка появится в вашей странице HDYC. На сегодня сайт собирает статистику из восьми источников, полный список смотрите, например, в моём профиле.

Календарь активности а-ля гитхаб Паскаль добавил в августе, и он привлекает внимание сильнее чисел. В теме «ни дня без OpenStreetMap» мы нашли людей, кто в прошлом году правил карту каждый день: их шесть человек. И ещё двое, как видно на диаграмме freeExec, продержались до осени.

 3 комментария   2017   pascal   статистика
Ранее Ctrl + ↓

Мнения, высказанные на этом сайте, отражают точку зрения лично автора сайта и ничью больше: ни его бывших или настоящих работодателей, ни семьи и знакомых.