urlCluster Табличная Функция
Позволяет обрабатывать файлы из URL в параллельном режиме с множества узлов в указанном кластере. На инициаторе создается соединение со всеми узлами в кластере, раскрывается звездочка в пути к файлу URL и динамически распределяются каждый файл. На рабочем узле он запрашивает у инициатора следующую задачу для обработки и обрабатывает её. Это повторяется, пока все задачи не будут завершены.
Синтаксис
Аргументы
Аргумент | Описание |
---|---|
cluster_name | Имя кластера, которое используется для формирования набора адресов и параметров подключения к удаленным и локальным серверам. |
URL | Адрес HTTP или HTTPS сервера, который может принимать GET запросы. Тип: String. |
format | Формат данных. Тип: String. |
structure | Структура таблицы в формате 'UserID UInt64, Name String' . Определяет имена и типы колонок. Тип: String. |
Возвращаемое значение
Таблица с указанным форматом и структурой и с данными из определённого URL
.
Примеры
Получение первых 3 строк таблицы, содержащей колонки типа String
и UInt32 из HTTP-сервера, который отвечает в CSV формате.
- Создайте базовый HTTP-сервер с использованием стандартных инструментов Python 3 и запустите его:
Глобусы в URL
Шаблоны в фигурных скобках { }
используются для генерации набора шардов или для указания резервных адресов. Поддерживаемые типы шаблонов и примеры см. в описании функции remote.
Символ |
внутри шаблонов используется для указания резервных адресов. Они перебираются в том же порядке, в каком они перечислены в шаблоне. Количество сгенерированных адресов ограничено настройкой glob_expansion_max_elements.