Как справиться с различными способами написания одного и того же текста

Я хочу узнать, есть ли в Django какой-нибудь модуль для решения этой проблемы. У меня есть несколько способов написания одного и того же названия города в базе данных Postgresql, которые были получены в результате скраппинга различных веб-сайтов. Поле "название города" может быть "S. Diego" или "San Diego". Мой вопрос заключается в том, могу ли я иметь модуль, который может нормализовать всегда "San Diego" в обеих ситуациях, и я могу добавить некоторую нормализацию, когда появляется какое-то новое слово, например "S Diego", и поддерживать этот рабочий процесс.

Спасибо

Вы можете использовать API для нормализации данных, которые вы соскребли. Яндекс или Google имеют функцию возврата возможного списка названий местоположений на основе вашего поискового запроса. Получите наиболее возможный ответ, который они вернули, и используйте его для сопоставления вашего ввода с правильным. Существуют функции составления карт вручную, но я настоятельно рекомендую воспользоваться одним из гигантов, решивших эту проблему до нас.

Вернуться на верх