Попытка закончить поиск определенных данных с веб-сайтов для поисковой системы Solr в моем проекте Django
Я пытаюсь закончить бэкэнд (Django) моей поисковой системы Solr. Я определил поля в search_indexes.py, создал ядро Solr, настроил schema.xml и перестроил индекс.
Небольшая предыстория моей поисковой системы. Вертикальная поисковая система будет ориентирована на домовладельцев, которые ищут местных арбористов (услуги по уходу за деревьями), задавая запросы.
Документы с полями, которые я создал и проиндексировал, это название компании, виды услуг, отзывы и т.д.....0 Итак, чтобы закончить поисковую систему, мне нужно соскоблить некоторые данные с сайтов арбористов, то есть названия компаний, отзывы, типы услуг.
Из моего базового понимания веб-скреппинга/индексирования, я должен выполнить следующие шаги для достижения этой цели. Отправка GET-запросов к url'ам -- разбор сырых HTML-данных с помощью BeautifulSoup для поиска элементов/тегов, содержащих нужные данные -- сохранение их в JSON-файле -- индексация через Solr.
Название компании находится внутри 'meta_tag = soup.find('meta', attrs={'name':'description'})', отзывы - внутри '', а виды услуг - внутри HTML/JSON-структуры сайта.
Теперь я создал в своем проекте Django файлы: scrape.py, parser.py, save_json.py и solr_index.py для выполнения этих четырех задач. Таким образом, мне придется разделить код веб-скрапинга/парсинга на эти файлы, поскольку я рассчитываю скрапировать гораздо больше сайтов.
Итак, перейдем к моей первой проблеме. Когда я пытаюсь запустить программу для scrape.py, я получаю следующий вывод Company name not found
. Вот мой код scrape.py. PS Я использую IntelliJ и на Windows