Есть два способа сбора сессионных данных - на основе Google Analytics API и на основе данных о хитах с помощью нового алгоритма OWOX BI.

Для чего нужен новый алгоритм?

При большом объеме трафика в Google Analytics происходит семплирование данных, таким образом количество сессий получается неполным и часть данных будет потеряна.

Новый алгоритм позволяет собирать сессии на основе сырых хитовых данных без использования Google Analytics.

Как определить, что нужно включать новый алгоритм?

  • количество сессий на сайте больше 200 тыс. в сутки (или приближается к этому числу). 
  • необходимо отслеживать истинный источник перехода (по модели Last Click, а не Last Non-Direct Click). Например, для объединения с мобильным отслеживанием, настроенным в другом сервисе с Last Click моделью, либо для объединения с данными из внутренней базы.
  • необходимо поле userOwoxId (присутствует в хитовых данных) в сессионных таблицах.

Отличия в структуре таблиц

В новом стриминге таблицы имеют такую же структуру, отличается лишь набор полей, а именно:

  • отсутствуют поля total.*, поскольку эти поля содержали суммарное количество хитов, собранное в Google Analytics. Рекомендуется использовать поля totalsStreaming.*
  • отсутствуют значения для полей visitNumber и newVisits. Данные поля есть в таблицах, однако они пока пустые. Расчет этих значений будет добавлен в следующих обновлениях.
  • добавлены поля customDimensions, customMetrics, customGroups, однако пока не распределены по области действия (все на уровне хитов). Области действия пользовательских переменных будут добавлены в следующих обновлениях.
  • добавлено поле isTrueDirect, значение которого будет особенно актуально при изменении модели атрибуции на Last Non-Direct Click.
  • присутствует поле userOwoxId (как в хитовых таблицах).

Изменение настроек для включения нового алгоритма

  • Если до этого был настроен сбор сессий на основе алгоритма Google Analytics, не нужно менять настройки кода отслеживания. 
    Если не был настроен сбор сессий, необходимо модифицировать код отслеживания для сбора SessionID в custom dimension уровня сессии.
  • С помощью нативной интеграции Google Data Transfer необходимо включить выгрузку сырых отчетов AdWords в BigQuery для получения данных по авторазметке (с gclid) и указать путь к набору данных BigQuery с этими отчётами в настройках сессионного стриминга.
  • Поле userid формируется непосредственно на основании параметра userid (&uid), при этом custom dimension не используется. По этому, если на сайте не настроено отслеживание и сбор &uid, необходимо это сделать согласно стандартному способу.

Отличия в сборе данных

 Стадия  На основе Google Analytics  На основе алгоритма OWOX BI
Формирование сессий

Из Google Analytics API загружаются значения SessionID (custom dimension уровня сессии), источники трафика, геоданные, данные об устройствах. Таким образом, начало/окончание сессии и источник трафика определяются логикой Google Analytics.


К полученным сессионным данным добавляются сырые хитовые данные из таблиц streaming_.

Сессии формируются в BigQuery на основе полностью сырых данных о хитах, используя алгоритм OWOX BI.

Триггеры начала и окончания сессий такие же, как в Google Analytics.

Определение источников трафика

Источник сессии формируется в Google Analytics по модели Last Non-Direct Click, т.е. всем прямым переходам присваивается канал из последнего непрямого взаимодействия (за последние 6 месяцев).

Нет возможности отследить был ли переход действительно прямым.

Источником сессии является фактический канал перехода (по модели Last Click).

В следующем обновлении данного потока сессии будут собираться по Last Non-Direct Click модели, словарь источников трафика для которой будет формироваться на стороне OWOX BI.

Определение utm меток по авторазметке AdWords (gclid)

Определяется благодаря использованию Google Analytics API, который имеет нативную интеграцию с AdWords.

Необходимы отчеты с сырыми данными AdWords в BigQuery. Настраиваются в один клик с помощью нативной интеграции Google Data Transfer.
Структура таблиц

Таблицы разделены по дням во временной зоне представления Google Analytics.

Каждая сессия представлена отдельной строкой с вложенными полям - сырами данными о входящих в неё хитах.

Такая же, как в прошлом методе.
Время начала сбора таблиц за прошедшие сутки (по временной зоне представления Google Analytics)

5 утра (5am), поскольку данные в Google Analytics API становятся доступны с 4 утра.

1 ночи (1am)
Фильтрация данных Используются отфильтрованные сессии из Google Analytics, согласно фильтрам представления Сессии полностью нефильтрованные

 

Была ли эта статья полезной?
Пользователи, считающие этот материал полезным: 0 из 0
Еще есть вопросы? Отправить запрос

0 Комментарии

Войдите в службу, чтобы оставить комментарий.