-
Notifications
You must be signed in to change notification settings - Fork 0
Documentation — web_crawler.py
revoltMoon edited this page Nov 14, 2018
·
5 revisions
- Описывает типы данных.
- Описывает типы источников данных.
- Абстрактное представление источников данных.
- Для использования необходим наследник.
- Получение данных по данному id документа и типу данных.
- Метод должен быть перегружен.
def get_data(self, dataId: str, dataType: DataType)
- self — представление класса;
- dataId — id документа;
- dataType — тип данных, поддерживается только
DataType.DOCUMENT_HEADER ,DataType.DOCUMENT_TEXT
.
text — текст из файла, либо None, если тип данных не поддерживается.
- Получение словаря из данных с заданным типом.
- Метод должен быть перегружен.
def get_all_data(self, dataType: DataType)
- self — представление класса;
- dataType — тип данных, поддерживается только
DataType.DOCUMENT_HEADER, DataType.DOCUMENT_TEXT
.
- headers — JSON заголовков файлов, если
dataType = DataType.DOCUMENT_HEADER
, либо словарь{dataId: self.get_data(dataId, DataType.DOCUMENT_TEXT) for dataId in self._decition_urls}
, еслиdataType == DataType.DOCUMENT_TEXT
.
- Попытка подготовить источник данных для работы.
- Метод должен быть перегружен.
def prepare(self)
- self — представление класса.
- False, если подготовка не удалась, True, если все в порядке.
- WebCrawler — обертка вокруг множества источников данных, он работает только для управления источником данных.
- Для запроса каких-либо данных используйте типы DataSource.
- Получение данных по заданному имени файла.
def get_data_source(self, name: str)
- self — представление класса.
- name — имя файла.
Данные, если есть файл с заданным именем, иначе None.
- Попытка инициализировать все существующие источники данных и выбрать
available_source
источники, которые подготовлены к работе.
- Подготавливаем источник данных.
def _prepare_source(self, dataSource: str, databaseSource: str)
- self — представление класса.
- dataSource — источник данных.
- databaseSource — источник базы данных.
- Подготавливаем источник данных.
def prepare_sources(self, sourcesNameList: dict, databaseSource: str)
- self — представление класса.
- sourcesNameList — словарь с именами источников данных, по умолчанию
None
. - databaseSource — источник базы данных, по умолчанию
None
.