Как создать кластер ссылок, затем передать его в scrapy для поиска данных по ссылке на основе глубины и стратегии поиска, заданной пользователем из браузера [закрыто]

Нам нужна помощь в выполнении этого проекта для нашего проекта по программной инженерии на младших курсах. Итак, наше веб-приложение должно:

  1. Login/Register/Authenticate via google : (we have completed this using Django Allauth.)

  2. Then, users will be able to create a cluster of links in a new cluster creating page, there the users will be able to provide information about the clusters. They will provide: cluster name, links to crawl data from, set a depth for each link they provide. (By depth I mean, following the links and webpages associated with the website) Finally, the users will be able to provide a crawling strategy to what to crawl, for this instance(we do not want to crawl any non textual data) : non HTML text data, pdf, doc files.

  3. Then, we need to crawl the data and store it in a database or a service (We intend to use Apache Lucene here). So, the data is searchable for the end user from a cluster that they had created.

На данный момент, как мы можем реализовать все вещи, упомянутые в пункте 2? Может кто-нибудь помочь, разложив пошагово, что именно нам нужно сделать? Мы немного ошеломлены и не в своем уме. Спасибо.

Вернуться на верх