Что означает принцип хотя бы однократной доставки данных при сборе хитов?

Алгоритм сбора данных о поведении пользователей работает по принципу “доставлено хотя бы один раз”. Благодаря этому мы обеспечиваем сбор всех хитов, которые были отправлены на точку доступа OWOX BI.

В некоторых случаях это может приводить к сбору дублирующих обращений с одинаковым идентификатором хита 'hitId'. Как правило, доля таких хитов составляет менее 0,1%.

Пример дедупликации хитов

Если вы пишете SQL-запросы напрямую к хитовым таблицам 'streaming_YYYYMMDD', то мы рекомендуем модифицировать ваш SQL-запрос, чтобы исключить дубликаты.

Пример кода:

WITH uniqueHistTable AS(
    SELECT
        *
    EXCEPT(rowNumber)
    FROM
        (
            SELECT
                *,
                ROW_NUMBER() OVER (PARTITION BY hitId) rowNumber
            FROM
                HITS_TABLE
        )
    WHERE
        rowNumber = 1
)

SELECT * FROM uniqueHistTable

Важно!Алгоритм сессионизации автоматически удаляет все дубликаты хитов в процессе формирования сессионных таблиц ‘owoxbi_sessions’.

Была ли эта статья полезной?
Пользователи, считающие этот материал полезным: 0 из 0
Еще есть вопросы? Отправить запрос

0 Комментарии

Войдите в службу, чтобы оставить комментарий.