Внимание:Поток Google BigQuery → ClickHouse — в статусе открытого альфа тестирования. Учтите, что функционал потока еще находится разработке. Если вы столкнулись со сложностями в настройке потоком и работе с ним — пожалуйста, пишите об этом нашей службе поддержки на bi@owox.com или в онлайн-чат.
Поток Google BigQuery → ClickHouse позволяет вам автоматизировать загрузку данных в систему управления базами данных ClickHouse от Яндекс.
Благодаря этому потоку вы можете:
- Организовать автоматический импорт в ClickHouse данных, которые вы собираете в BigQuery удобным для вас способом
- Перенести конфиденциальные и личные данные со стороннего облачного сервера на ваш собственный, где вы можете свободно ими распоряжаться
Что нужно для начала настройки потока Google BigQuery → ClickHouse
Для настройки потока вам нужны:
- Данные, собранные в таблице Google BigQuery. Например, сырые данные о поведении пользователей сайта, загруженные с помощью потока OWOX BI Google Analytics → Google BigQuery
- Установленный и настроенный ClickHouse на сервере. Руководство по настройке и работе с ClickHouse — читайте в официальной документации ClickHouse
- База данных и таблица ClickHouse, в которые вы хотите настроить поток импорта данных из BigQuery — вам нужно будет указать их в процессе настройки потока
- SQL-запрос для получения данных из таблицы BigQuery.
Важно:Прежде, чем создавать поток, добавьте в таблицу ClickHouse все поля таблицы BigQuery, к которым обращается ваш SQL-запрос. Если поле указано в запросе, но его нет в таблице ClickHouse или тип данных этого поля в ClickHouse отличается от типа данных поля в таблице BigQuery, то поток не будет передавать значения этих полей.
Обратите внимание:Поток по умолчанию загружает данные из таблицы BigQuery в таблицу ClickHouse — без замены данных, если они дублируются. Логика добавления/обновления данных управляется на стороне ClickHouse. Чтобы избежать возможного дублирования данных, перед созданием потока убедитесь, что ваше хранилище ClickHouse настроено в соответствии с вашими потребностями по хранению данных.
Как создать поток
На главной странице OWOX BI в блоке Pipeline нажмите Создать поток:
- Выберите в качестве источника Google BigQuery:
- В качестве пункта назначения потока — ClickHouse:
- Выдайте OWOX BI доступ к аккаунту Google, у которого есть доступ к проекту Google BigQuery, из которого вы хотите выгружать данные:
- Выберите проект Google BigQuery, из которого вы хотите выгружать данные:
- Предоставьте доступ к ClickHouse. Для этого укажите Хост и Порт вашего сервера ClickHouse, а также Имя пользователя и Пароль.
Важно: В поле Хост нужно указать IP-адрес сервера с ClickHouse или доменное имя без указания схемы (https://). Обратите внимание, что подключится можно только по протоколу HTTPS. Протокол HTTP не поддерживается намеренно — это незащищенный канал и при его использовании есть угроза перехвата ваших данных.
- В финальном шаге создания потока укажите Базу данных и Таблицу ClickHouse, в которую вы хотите настроить импорт данных, а также способ загрузки данных — Дописывать или Перезаписывать:
- Поток создан, но имеет статус Заблокирован. На этом этапе вам нужно отправить нашей команде поддержки на bi@owox.com ваш SQL-запрос для получения нужных вам данных из таблицы BigQuery и ссылку на созданный поток.
- Как только наша поддержка подтвердит, что SQL-запрос применен к вашему потоку, перейдите на страницу потока, нажмите кнопку Активировать в правом верхнем углу экрана, а затем — в появившемся окне — нажмите Запрос готов:
Готово. Поток Google BigQuery → ClickHouse настроен и будет загружать данные на ваш сервер ClickHouse. На странице потока в OWOX BI вы можете приостановить или удалить поток:
0 Комментарии