S příchodem Google Analytics 4 jsme se začali častěji setkávát s nástrojem BigQuery. Google totiž s příchodem nové verze Google Analytics poskytl propojení s BigQuery zdarma. Proč byste tento nástroj měli začít využívat, a jak na propojení s vaším GA4 projektem?
K čemu slouží BigQuery?
BigQuery je nástroj od Googlu, který je součástí Google Cloud Platform (GCP), a který si můžete představit jako datový sklad. Existuje tedy virtuální prostor, neboli cloud, který běží na Google serverech. Tento prostor Google poskytuje pro uložení a zpracování vašich dat. Vy tak nemusíte řešit vlastní servery a jejich údržbu.
BigQuery je jako služba zdarma, ale pouze do určitého objemu dat. Konkrétně máte ve free verzi k dispozici 10 GB pro ukládání dat v datovém skladu a 1 TB datové kapacity pro zpracování vašich dat například pomocí dotazů. Náklady na využití této služby jsou tedy u většiny CZ webů často nulové, nebo minimální (nižší desítky dolarů za měsíc).
Založení účtu Google BigQuery
Google BigQuery si můžete založit na tomto odkazu. Pro založení Google BigQuery potřebujete Google účet (podobně jako u dalších Google služeb). Na stránce kliknete na možnost vyzkoušet si free trial a přihlásíte pod svým existujícím Google účtem, případně si založíte nový. Doporučuju používat stejný Google účet, pod kterým máte přístupy do dalších služeb od Google – zjednodušuje to pak administraci těchto služeb a jejich případné propojení.
Po přihlášení ke Google účtu po vás Google bude chtít základní informace o vašem projektu – například zemi, velikost firmy atd. Dále po vás bude chtít odsouhlasit obchodní podmínky. V dalším kroku pak vyplníte informace o firmě a platební metodu.
Založení projektu v Google BigQuery
Po vytvoření účtu se dostanete na hlavní přehled BigQuery. Abyste mohli nastavit export z GA4 do BigQuery, je nejdřív potřeba vytvořit nový projekt v Google Cloud Platform. Tento projekt tedy můžete využívat i pro další nástroje z rodiny GCP, nejenom pro BigQuery.
Při tvorbě projektu volíte jeho název a Project ID. Využít můžete například název webu, nebo firmy. Doporučuju editovat Project ID a zbavit se vygenerovaných čísel (pro zjednodušení práce v GCP). Pokud vámi zadané Project ID nebude k dispozici, využil ho už někdo jiný a je zapotřebí hodnotu upravit.
Dále je potřeba vytvořit Billing Account. Ten vytvoříte tak, že přejde do hlavního menu Google Cloud Platform vlevo nahoře a kliknete na záložku Billing. Vyplníte potřebné údaje a Billing Account propojíte s vaším BQ projektem. Jeden Billing Account lze využít pro více BQ projektů.
Propojení Google BigQuery s GA4
Poté co máte vytvořený projekt v BigQuery stačí jít do Google Analytics 4 property, kterou chcete do BigQuery exportovat. Je ale potřeba mít práva správce. Po přihlášení do této služby přejdete vlevo dole do sekce Admin / Správce, v prostředí části kliknete na záložku BigQuery Links a dál kliknete na modré tlačítko pro vytvoření nového propojení. Nastavení pak probíhá následovně:
Vyberete založený BigQuery projekt, který chcete s GA4 propojit. V sekci Data location zvolíte, kde chcete mít exportovaná data uložená. Lokace pro uložení dat může ovlivňovat pricing a zároveň souvisí s privacy. Doporučuju nastavit European Union (eu).
V sekci Event data volíte typ exportu:
• Daily – každý den vytvoří v BigQuery tabulku s názvem events_XXXXXXXX např. events_20230824 (číslo za podtržítkem je datum). Pro každý den tak v BQ existuje samostatná exportní tabulka. Co řádek, to jeden event zaslaný do GA4.
• Streaming – v BQ vytváří tabulku events_intraday_XXXXXXXX. Jedná se v podstatě o realtime data za aktuální den. Lze používat i k debugu měření. Lze nastavit pouze, pokud máte k projektu v BigQuery přiřazený billing účet s vyplněními fakturačními údaji a nastavenou platbou.
V sekci User data volíte, zda chcete vytvářet export také pro uživatelská data.
• Daily – funguje podobně jako denní export eventů – toto nastavení každý den vytvoří v BigQuery tabulku s názvem pseudonymous_users__XXXXXXXX. Co řádek, to jeden uživatel se svým jedinečným identifikátorem pseudo_user_id.
První export může trvat i několik dní. Následně byste pod vaším projektem měli vidět nový dataset s názvem analytics a s ID vaší GA4 property. Pod tímto datasetem budete mít tabulky pro denní exporty a tabulku intraday pro realtime data (pokud jste pro ni export také nastavili).
Pozor na nastavení expirace u BigQuery tabulek
Nakonec si u datasetu zkontrolujte nastavení expirace dat. Klikněte na název data setu a zkontrolujte, že pro Default table expiry máte nastavenou hodnotu Never. Pokud vidíte jinou hodnotu, změňte ji přes tlačítko Edit details. Pokud jste projekt založili bez vyplnění fakturačních údajů a platební metody, je defaultní hodnota nastavená na 60 dní! Dejte se tedy pozor.
Maximální denní limit pro počet eventů je 1 milion. Při překročení tohoto limitu dojde k pozastavení exportů z GA4 a je potřeba přejít na placenou verzi, nebo nastavit filtry pro snížení objemu dat.
Jaké jsou výhody GA4 exportů do BigQuery?
Export z GA4 do BigQuery v podstatě vytváří jednu velkou tabulku, která obsahuje informace o všech eventech odeslaných do GA4. Narozdíl od reportů přímo v GA4 jsou tedy data v BigQuery neagregovaná a neupravená GA4 processingem. Jsou to jednoduše raw data tak, jak padají na vstupu do GA4. Abyste ale s těmito daty mohli dát pracovat, je potřeba ovládat alespoň základy SQL.
• BQ exporty se mi samozřejmě mohou hodit, pokud chci s daty pracovat na pokročilejší úrovni, propojovat je s jiným daty a vytvářet si reporty pomocí vlastní metodiky.
• Export dat z GA4 do BigQuery můžete využít čistě jako zálohu dat. Ve chvíli, kdy budete chtít vaši práci s daty posunout na další úroveň, budete mít v BQ připravené historické exporty.
• Narozdíl od GA4 reportů mohou exportní tabulky v BQ obsahovat také informace o eventech od uživatelů, kteří nedali souhlas se zpracováním osobních údajů. U těchto eventů akorát nejsou k dispozici žádné informace o uživateli (např. jeho jedinečný identifikátor User pseudo ID). K dispozici tak můžete mít kompletní data o návštěvnosti bez ohledu na consent.
• Pokud v GA4 máte zapnuté Google Signals, můžete se při procházení GA4 reportů setkat s tzv. thresholdingem. Pokud vámi navolené filtry, sekundární dimenze atd. mohou způsobit, že byste získali podrobnější informace o konkrétních uživatelích (např. poznali pohlaví / věk uživatele apod.), Google se tomu pomocí thresholdingu snaží zabránit – takže vám v reportech odmaže některé řádky a vy tak nemáte k dispozici kompletní data. Velký problém je toto zejména u webů s nízkým trafficem. V této situaci mohou data z BQ opět pomoci – na ně se totiž thresholding neaplikuje. BigQuery tedy budete pravděpodobně potřebovat, pokud chcete pracovat s vysokou kardinalitou dat (např. na úrovni User ID) a chcete se vyhnout agregaci a thresholdingu.
• V GA4 dochází k promazávání dat a v reportech máte podrobná data k dispozici max. 14 měsíců zpětně (viz screenshot). Co to ale znamená? Určitě to neznamená, že byste si ve vašich GA4 reportech nemohli zobrazit statistiky za období delší než 14 měsíců – zobrazit si můžete jakákoliv data od doby, kdy měříte. Jedná se ale opět o agregovaná data po processingu. Pokud si ale chcete vytvořit třeba custom report na záložce Explore, dál než za 14 měsíců se nedostanete. Pokud chcete pracovat s kompletními daty za období delší než 14 měsíců, mohou se GA4 exporty do BQ opět hodit.