Борьба за частоту

11 ноября 2011, 13:44

Интерфакс опубликовал список самых популярных названий улиц. AMDmi3 полтора месяца назад выкладывал аналогичный рейтинг по России — правда, только для регионов, обрабатываемых его ботом для нормализации названий. Интересно сравнить эти два списка. Вот первый (в скобках — позиция улицы во втором):
  1. Центральная (19)
  2. Молодёжная (21)
  3. Школьная (18)
  4. Лесная (25)
  5. Садовая (13)
  6. Советская (2)
  7. Новая (34)
  8. Набережная (24)
  9. Заречная (64)
  10. Зелёная (42)
Улица Ленина, лидирующая в OSM, в списке Федеральной налоговой службы занимает лишь четырнадцатое место. Почему такое значительное расхождение? Ответ понятен любому, кто заглядывал в КЛАДР: первые места здесь занимают деревенские улицы, и во многих деревнях единственная улица была заочно окрещена Центральной (разумеется, на местности таблички не развешивали). Это же верно и для остальных улиц в десятке: почитайте их списки для произвольных деревень в валидаторе границ (пример наугад — 6 из 10). В OpenStreetMap же названия расставлены почти исключительно в городах, где состав улиц совершенно иной: едва ли найдётся город без улицы Ленина. Да и разделены городские улицы на большее количество сегментов из-за роутинга, маршрутов ОТ и смены характеристик.
Ватикан       Ctrl       Сплошные аэродромы

2 комментария

Ilis #
Да и разделены городские улицы на большее количество сегментов из-за роутинга, маршрутов ОТ и смены характеристик.
Но они же собраны обратно и сопоставлены единственной улице в КЛАДРе.
Илья Зверев
Думаю, разъяснить насчёт собирания отрезков может только AMDmi3. Я что-то сомневаюсь — повода нет.
AMDmi3 #
> правда, только для регионов, обрабатываемых его ботом

Обрабатывается вся Россия. Благодаря Котяре, теперь и Беларусь, но статистика только по России.

У меня, помимо собственно улиц, названия собираются ещё и из addr:street, и надо думать, наибольший вклад вносят как раз адреса, поэтому по ссылке что-то вроде веса каждого названия.

Но если подсчитать только name вот что получится: http://pastebin.com/Gf0AkB6F Это уже сегменты, но от первого списка почти не отличается. ФНС же, очевидно, считает просто по КЛАДР.