Алгоритм сбора данных о поведении пользователей работает по принципу “доставлено хотя бы один раз”. Благодаря этому мы обеспечиваем сбор всех хитов, которые были отправлены на точку доступа OWOX BI.
В некоторых случаях это может приводить к сбору дублирующих обращений с одинаковым идентификатором хита 'hitId'. Как правило, доля таких хитов составляет менее 0,1%.
Пример дедупликации хитов
Если вы пишете SQL-запросы напрямую к хитовым таблицам 'streaming_YYYYMMDD', то мы рекомендуем модифицировать ваш SQL-запрос, чтобы исключить дубликаты.
Пример кода:
WITH uniqueHistTable AS(
SELECT
*
EXCEPT(rowNumber)
FROM
(
SELECT
*,
ROW_NUMBER() OVER (PARTITION BY hitId) rowNumber
FROM
HITS_TABLE
)
WHERE
rowNumber = 1
)
SELECT * FROM uniqueHistTable
Важно!Алгоритм сессионизации автоматически удаляет все дубликаты хитов в процессе формирования сессионных таблиц ‘owoxbi_sessions’.
0 Комментарии