Настоящая многоязычность
Вы, наверное, помните карты для википедии, которые благодаря Тиму Альдеру (более известному как Kolossos) щеголяют надписями на языке пользователя. Он сделал около двухсот слоёв с буквами, которые накладывает на слой без них. При самостоятельном рендеринге карты можно использовать любые теги для подписей — так, карта космоснимков выпускается в трёх вариантах: на русском, белорусском и английском. Другой вопрос, что для той же википедии придётся держать две сотни отдельно работающих тайлсерверов, и это несколько неэффективно.
Весной этого года Тим выиграл грант немецкой википедии на улучшение системы перевода карт, но в подмогу позвал Jochen Topf. С тех пор последний работал над более современным решением, и позавчера продемонстрировал почти готовую многоязычную карту. В своей основе это тоже два слоя: без подписей (на основе улучшенного немецкого стиля) и с подписями, но последний, создаваемый с помощью MapQuest Render Stack, параметрический. То есть, ему можно передать «ru,en,_» и получить слой с надписями на русском, где при отсутствии name:ru отобразится английский перевод, а если нет и его — то значение тега name. Также можно делать подписи со скобками, как в азиатских странах: так, в Финляндии «sv|fi,_» выведет шведские названия с финским переводом в скобках (если перевода нет, то с name).
Завершение этого проекта должно снять вопрос о языке для тега name: выбор языка карты станет достаточно простым, чтобы не заморачиваться этим вопросом. Возможно, когда-нибудь многоязычными станут и карты на osm.org. Остаётся вопрос, как перевести все те сотни тысяч надписей, что уже есть в базе. Массовые импорты названий не приветствуются: так, некоторые уже роптали на Kolossos-а, загрузившего в OSM переводы названий всех стран на все языки. Несмотря на несовместимость лицензий OSM и википедии, самым популярным инструментом для перевода остаётся плагин Add-tags (про который рассказывал trolleway на конференции). Он просто берёт перевод из интервики. СканЭкс когда-то держал сервис name4osm для автоматического перевода топонимов, но принцип работы сайта был со всех сторон окритикован, и, наверное, поэтому его закрыли.
На этой неделе появился новый переводчик: Nomino. Логинитесь через OAuth, выбираете топоним (при правом клике на карту выдаётся дерево от Nominatim) и добавляете переводы — только те, что знаете сами. Конечно, не без проблем: так, при наличии контурных границ название на точке place перевести, похоже, невозможно.
А на форуме снова напоминают: не смотрите, что в теге name указано русское название, дублируйте его в name:ru. Это странное требование объясняется довольно просто: это разные сущности. Name содержит подпись для рендерера (поэтому расстановка name — это тегирование для рендерера, да), а name:ru — название на конкретном языке. Во многих странах получаются теги с одинаковыми значениями, но в Японии, например, принято составлять name из двух и более названий.
Весной этого года Тим выиграл грант немецкой википедии на улучшение системы перевода карт, но в подмогу позвал Jochen Topf. С тех пор последний работал над более современным решением, и позавчера продемонстрировал почти готовую многоязычную карту. В своей основе это тоже два слоя: без подписей (на основе улучшенного немецкого стиля) и с подписями, но последний, создаваемый с помощью MapQuest Render Stack, параметрический. То есть, ему можно передать «ru,en,_» и получить слой с надписями на русском, где при отсутствии name:ru отобразится английский перевод, а если нет и его — то значение тега name. Также можно делать подписи со скобками, как в азиатских странах: так, в Финляндии «sv|fi,_» выведет шведские названия с финским переводом в скобках (если перевода нет, то с name).
Завершение этого проекта должно снять вопрос о языке для тега name: выбор языка карты станет достаточно простым, чтобы не заморачиваться этим вопросом. Возможно, когда-нибудь многоязычными станут и карты на osm.org. Остаётся вопрос, как перевести все те сотни тысяч надписей, что уже есть в базе. Массовые импорты названий не приветствуются: так, некоторые уже роптали на Kolossos-а, загрузившего в OSM переводы названий всех стран на все языки. Несмотря на несовместимость лицензий OSM и википедии, самым популярным инструментом для перевода остаётся плагин Add-tags (про который рассказывал trolleway на конференции). Он просто берёт перевод из интервики. СканЭкс когда-то держал сервис name4osm для автоматического перевода топонимов, но принцип работы сайта был со всех сторон окритикован, и, наверное, поэтому его закрыли.
На этой неделе появился новый переводчик: Nomino. Логинитесь через OAuth, выбираете топоним (при правом клике на карту выдаётся дерево от Nominatim) и добавляете переводы — только те, что знаете сами. Конечно, не без проблем: так, при наличии контурных границ название на точке place перевести, похоже, невозможно.
А на форуме снова напоминают: не смотрите, что в теге name указано русское название, дублируйте его в name:ru. Это странное требование объясняется довольно просто: это разные сущности. Name содержит подпись для рендерера (поэтому расстановка name — это тегирование для рендерера, да), а name:ru — название на конкретном языке. Во многих странах получаются теги с одинаковыми значениями, но в Японии, например, принято составлять name из двух и более названий.
А так же для всей системы адресного поиска, которая сейчас построена на основе name.
В частности, они сейчас так же, в полуавтоматическом режиме, переносятся в Викиданные (в которых данные под CC0).
Поэтому пассаж автора про «раскритикованность name4OSM со всех сторон» не проливает свет на его недостатки.
Если претензия в том, что пользователь выбирает варианты перевода, личной информацией о которых не обладает и это порождает ошибки -
Ну что ж, ошибки в переводе будут и имеют право на существование, как впрочем и ошибки в самих данных ОСМ, которые в далекой перспективе при наборе критической массе могут быть исправлены.
Главное, что пользователям предлагается выступить экспертами и чтобы их поддержать предлагаются автоматические варианты перевода и это немного больше, чем просто дать возможность ввести имя топонима на своем языке.
При этом Nomino подвержен угрозе вандализма, и от ошибок точно не застрахован.
Сам сервис -хороший, удобный, только никак не решает проблему массового перевода.
Name4OSM -это больше идея про игровую форму, фан.
Т. к. теперь на OSM API выставляется правильный заголовок Access-Control-Allow-Origin:, удалось избавиться от прокси-сервера, так что параноїки могут не бояться, что их пароли кто-то перепишет — все коммуникации идут напрямую на http://api.openstreetmap.org. Ну, при условии, что Wi-Fi не прослушивается воооон тем человеком с лаптопом за соседним столиком. Эээй!..
Во-первых, не имеют. Во-вторых, одно дело случайно допустить ошибку, а другое — фактически намеренно вносить одни только ошибки.
Нездоровое преувеличение
С названиями и их переводом не все так просто. Наши географические познания заканчиваются на общеупотребительных топонимах -страны, столицы. Дальше начинается мрак. В советском союзе все топонимы были переведены. Сидела группа редакторов и переводчиков и по таблицам переводила топонимы. Стало ли при этом название какой-нибудь деревни в Африке. общеупотребительным — не факт. Скорее оно является эталоном и единственно возможным вариантом для специалистов.
Что происходит в интернет. Применяются автоматические методы перевода. Гугловские топонимы на русском — это машинный перевод. Происходит ли при этом сверка со словарями географических названий? Думаю нет. Потому что этих словарей в электронном виде не существует. Если пользователи находят ошибки и на них указывают, то ошибки исправляются.
Что такое перевод топонимов в Википедии? Сплошное любительство. То есть народ сам, по созвучию и соразмерно своим знаниям прицепляет перевод. Возьмем, например, административное деление стран. В википедии -очень много ошибок. И здесь ошибка -это именно отличие от названия в классических атласах
И это все только вершина айсберга -названия населенных пунктов. Названия улиц и прочего никто никогда и не переводил. Поэтому возможны только автоматические методы перевода. Ошибки при этом и ошибками назвать трудно. Потому что нет эталона. А есть только правила практической транскрипции, которым и следует Name4OSM предлагая пользователю варианты, то есть уменьшая вероятность того, что появится ошибка.