Быстрый старт с ClickHouse OSS

В этом учебном пособии быстрого старта мы поможем вам установить OSS ClickHouse за 8 простых шагов. Вы загрузите подходящий двоичный файл для вашей операционной системы, научитесь запускать сервер ClickHouse и использовать клиент ClickHouse для создания таблицы, затем вставите данные в неё и выполните запрос для выбора этих данных.

Загрузка ClickHouse

ClickHouse работает нативно на Linux, FreeBSD и macOS, и работает на Windows через WSL. Самый простой способ загрузить ClickHouse локально - запустить следующую команду curl. Она определяет, поддерживается ли ваша операционная система, после чего загружает соответствующий двоичный файл ClickHouse.

примечание

Рекомендуем запускать команду ниже из новой и пустой подкаталога, так как некоторые файлы конфигурации будут созданы в каталоге, где находится двоичный файл, при первом запуске сервера ClickHouse.

curl https://clickhouse.com/ | sh

Вы должны увидеть:

Successfully downloaded the ClickHouse binary, you can run it as:
    ./clickhouse

You can also install it:
sudo ./clickhouse install

На этом этапе вы можете игнорировать подсказку о запуске команды install.

примечание

Для пользователей Mac: если вы получаете ошибки о том, что разработчик двоичного файла не может быть проверен, пожалуйста, смотрите "Исправление ошибки проверки разработчика в MacOS".

Запустите сервер

Запустите следующую команду, чтобы стартовать сервер ClickHouse:

./clickhouse server

Вы должны увидеть, как терминал заполняется логами. Это нормально. В ClickHouse уровень логирования по умолчанию установлен на trace, а не warning.

Запустите клиент

Используйте clickhouse-client, чтобы подключиться к вашему сервису ClickHouse. Откройте новый терминал, перейдите в каталог, где сохранён ваш двоичный файл clickhouse, и выполните следующую команду:

./clickhouse client

Вы должны увидеть улыбающееся лицо, когда он подключается к вашему сервису, работающему на localhost:

my-host :)

Создайте таблицу

Используйте CREATE TABLE, чтобы определить новую таблицу. Обычные SQL DDL команды работают в ClickHouse с одним дополнением - таблицы в ClickHouse требуют параметра ENGINE. Используйте MergeTree для получения выигрыша в производительности от ClickHouse:

CREATE TABLE my_first_table
(
    user_id UInt32,
    message String,
    timestamp DateTime,
    metric Float32
)
ENGINE = MergeTree
PRIMARY KEY (user_id, timestamp)

Вставьте данные

Вы можете использовать знакомую команду INSERT INTO TABLE с ClickHouse, но важно понимать, что каждая вставка в таблицу MergeTree вызывает создание того, что мы называем частью в ClickHouse для хранения. Эти ^^части^^ позже объединяются в фоновом режиме ClickHouse.

В ClickHouse мы стараемся вставлять много строк одновременно (десятки тысяч или даже миллионы за раз), чтобы минимизировать количество частей, которые нужно объединить в фоновом процессе.

В этом руководстве мы пока не будем об этом беспокоиться. Запустите следующую команду для вставки нескольких строк данных в вашу таблицу:

INSERT INTO my_first_table (user_id, message, timestamp, metric) VALUES
    (101, 'Hello, ClickHouse!',                                 now(),       -1.0    ),
    (102, 'Insert a lot of rows per batch',                     yesterday(), 1.41421 ),
    (102, 'Sort your data based on your commonly-used queries', today(),     2.718   ),
    (101, 'Granules are the smallest chunks of data read',      now() + 5,   3.14159 )

Выполните запрос к вашей новой таблице

Вы можете написать запрос SELECT, так же как и с любой SQL базой данных:

SELECT *
FROM my_first_table
ORDER BY timestamp

Обратите внимание, что ответ приходит в красивом табличном формате:

┌─user_id─┬─message────────────────────────────────────────────┬───────────timestamp─┬──metric─┐
│     102 │ Insert a lot of rows per batch                     │ 2022-03-21 00:00:00 │ 1.41421 │
│     102 │ Sort your data based on your commonly-used queries │ 2022-03-22 00:00:00 │   2.718 │
│     101 │ Hello, ClickHouse!                                 │ 2022-03-22 14:04:09 │      -1 │
│     101 │ Granules are the smallest chunks of data read      │ 2022-03-22 14:04:14 │ 3.14159 │
└─────────┴────────────────────────────────────────────────────┴─────────────────────┴─────────┘

4 rows in set. Elapsed: 0.008 sec.

Вставьте свои собственные данные

Следующий шаг - импортировать ваши собственные данные в ClickHouse. У нас есть много табличных функций и интеграций для загрузки данных. У нас есть примеры в закладках ниже или вы можете ознакомиться с нашей страницей Интеграции для длинного списка технологий, которые интегрируются с ClickHouse.

Используйте s3 таблицу функцию, чтобы читать файлы из S3. Это табличная функция - означает, что результатом является таблица, которая может быть:

использована в качестве источника для запроса SELECT (что позволяет вам выполнять запросы ad-hoc и сохранять ваши данные в S3), или...
вставить полученную таблицу в таблицу MergeTree (когда вы будете готовы переместить ваши данные в ClickHouse)

Запрос ad-hoc выглядит так:

SELECT
passenger_count,
avg(toFloat32(total_amount))
FROM s3(
'https://datasets-documentation.s3.eu-west-3.amazonaws.com/nyc-taxi/trips_0.gz',
'TabSeparatedWithNames'
)
GROUP BY passenger_count
ORDER BY passenger_count;

Перемещение данных в таблицу ClickHouse выглядит следующим образом, где nyc_taxi - это таблица MergeTree:

INSERT INTO nyc_taxi
SELECT * FROM s3(
'https://datasets-documentation.s3.eu-west-3.amazonaws.com/nyc-taxi/trips_0.gz',
'TabSeparatedWithNames'
)
SETTINGS input_format_allow_errors_num=25000;

Посмотрите нашу коллекцию страниц документации по AWS S3 для получения множества деталей и примеров использования S3 с ClickHouse.

s3 таблица функция, используемая для чтения данных в AWS S3, также работает с файлами в Google Cloud Storage.

Например:

SELECT
*
FROM s3(
'https://storage.googleapis.com/my-bucket/trips.parquet',
'MY_GCS_HMAC_KEY',
'MY_GCS_HMAC_SECRET_KEY',
'Parquet'
)
LIMIT 1000

Найдите больше деталей на странице s3 таблица функции.

url таблица функция читает файлы, доступные из интернета:

--By default, ClickHouse prevents redirects to protect from SSRF attacks.
--The URL below requires a redirect, so we must set max_http_get_redirects > 0.
SET max_http_get_redirects=10;

SELECT *
FROM url(
'http://prod2.publicdata.landregistry.gov.uk.s3-website-eu-west-1.amazonaws.com/pp-complete.csv',
'CSV'
);

Найдите больше деталей на странице url таблица функции.

Используйте file таблицу двигатель, чтобы читать локальный файл. Чтобы упростить задачу, скопируйте файл в каталог user_files (который находится в директории, где вы загрузили двоичный файл ClickHouse).

DESCRIBE TABLE file('comments.tsv')

Query id: 8ca9b2f9-65a2-4982-954a-890de710a336

┌─name──────┬─type────────────────────┐
│ id        │ Nullable(Int64)         │
│ type      │ Nullable(String)        │
│ author    │ Nullable(String)        │
│ timestamp │ Nullable(DateTime64(9)) │
│ comment   │ Nullable(String)        │
│ children  │ Array(Nullable(Int64))  │
└───────────┴─────────────────────────┘

Обратите внимание, что ClickHouse выводит названия и типы данных ваших колонок, анализируя большую партию строк. Если ClickHouse не может определить формат файла по имени файла, вы можете указать его в качестве второго аргумента:

SELECT count()
FROM file(
'comments.tsv',
'TabSeparatedWithNames'
)

Посмотрите на страницу документации file таблица функции для получения более подробной информации.

Используйте postgresql таблица функцию для чтения данных из таблицы в PostgreSQL:

SELECT *
FROM
postgresql(
'localhost:5432',
'my_database',
'my_table',
'postgresql_user',
'password')
;

Посмотрите на страницу документации postgresql таблица функции для получения более подробной информации.

Используйте mysql таблица функцию для чтения данных из таблицы в MySQL:

SELECT *
FROM
mysql(
'localhost:3306',
'my_database',
'my_table',
'mysql_user',
'password')
;

Посмотрите на страницу документации mysql таблица функции для получения более подробной информации.

ClickHouse может читать данные из любого ODBC или JDBC источника данных:

SELECT *
FROM
odbc(
'DSN=mysqlconn',
'my_database',
'my_table'
);

Посмотрите на страницы документации odbc таблица функции и jdbc таблица функции для получения более подробной информации.

Очереди сообщений могут передавать данные в ClickHouse, используя соответствующий табличный двигатель, включая:

Kafka: интеграция с Kafka с помощью Kafka табличный двигатель
Amazon MSK: интеграция с Amazon Managed Streaming for Apache Kafka (MSK)
RabbitMQ: интеграция с RabbitMQ с помощью RabbitMQ табличный двигатель

ClickHouse имеет табличные функции для чтения данных из следующих источников:

Hadoop: интеграция с Apache Hadoop с помощью hdfs таблица функции
Hudi: чтение из существующих таблиц Apache Hudi в S3 с помощью hudi таблица функции
Iceberg: чтение из существующих таблиц Apache Iceberg в S3 с помощью iceberg таблица функции
DeltaLake: чтение из существующих таблиц Delta Lake в S3 с помощью deltaLake таблица функции

Исследуйте

Ознакомьтесь с нашим разделом Основные Концепции, чтобы узнать некоторые основы работы ClickHouse.
Ознакомьтесь с Расширенным Учебным Пособием, которое глубже погружается в ключевые концепции и возможности ClickHouse.
Продолжите обучение, пройдя наши бесплатные курсы по обучению по запросу в ClickHouse Academy.
У нас есть список примеров наборов данных с инструкциями по их вставке.
Если ваши данные поступают из внешнего источника, посмотрите нашу коллекцию учебных пособий по интеграции для подключения к очередям сообщений, базам данных, конвейерам и другим.
Если вы используете инструмент визуализации UI/BI, посмотрите руководства пользователя для подключения UI к ClickHouse.
Руководство пользователя по первичным ключам - это всё, что вам нужно знать о первичных ключах и о том, как их определять.

Загрузка ClickHouse​

Запустите сервер​

Запустите клиент​

Создайте таблицу​

Вставьте данные​

Выполните запрос к вашей новой таблице​

Вставьте свои собственные данные​

Исследуйте​