Regex en Google Analytics 4 para análisis de datos

regex en google analytics 4 para analisis de datos

¿Te has encontrado con el término «regex» en Google Analytics 4 y te has preguntado qué significa? Si es así, este artículo es perfecto para ti. Las expresiones regulares (regex) son herramientas poderosas que pueden optimizar tu análisis de datos y brindarte una comprensión más profunda de cómo interactúan los usuarios con tu sitio web.

Las expresiones regulares son secuencias de caracteres especiales que permiten buscar, extraer y manipular texto de manera efectiva. En el contexto de GA4, las regex te permiten filtrar y segmentar datos en tus informes, facilitando la obtención de información relevante sobre el comportamiento de los usuarios.

A lo largo de este artículo, exploraremos los fundamentos de las expresiones regulares, cómo se utilizan en Google Analytics 4, ejemplos prácticos y consejos que te ayudarán a aprovechar esta poderosa herramienta.

¿Qué son las expresiones regulares?

Las expresiones regulares son combinaciones de caracteres normales (como letras y dígitos) y caracteres especiales que tienen significados específicos dentro de la sintaxis de regex. Estas combinaciones permiten buscar patrones o secuencias específicas de caracteres en un texto.

En GA4, es común encontrarse con términos como “Regex matches” y “Regex does not match”. La primera indica que solo se incluirán los datos que coincidan con el patrón de regex, mientras que la segunda significa que se incluirán todos los datos excepto aquellos que coincidan.

Por ejemplo, si tienes un sitio web que vende zapatos y deseas analizar las vistas de las páginas de detalles de productos, podrías utilizar regex para filtrar esas URLs específicas. En lugar de usar filtros convencionales que podrían incluir datos irrelevantes, las expresiones regulares te permiten definir con precisión qué datos deseas analizar.

Fundamentos de la sintaxis y patrones de regex

Para utilizar correctamente las expresiones regulares en GA4, es fundamental entender su sintaxis básica. A continuación, exploraremos algunos de los elementos clave que conforman las regex.

Comodines

Los comodines son símbolos que permiten incluir variaciones o elementos desconocidos en la entrada. Los cinco caracteres clave son:

  • Punto (.): Coincide con cualquier carácter único.
    • Ejemplo: “/sho.s/” coincide con “/shops/”, “/shoes/” o “/shows/”.
  • Signo de interrogación (?): Coincide con el carácter anterior 0 o 1 vez.
    • Ejemplo: “/shoes?/” coincide con “/shoes/” o “/shoe/”.
  • Signo más (+): Coincide con el carácter anterior al menos una vez.
    • Ejemplo: “/shoes+/” coincide con “/shoess/” o “/shoesss/”.
  • Asterisco (*): Coincide con el carácter anterior 0 o más veces.
    • Ejemplo: “/shoes*/” coincide con “/shoe/” o “/shoesss/”.
    • Una combinación valiosa es “.*”, que representa 0 o más de cualquier carácter.
  • Tijera (|): Se usa como una declaración OR.
    • Ejemplo: “/shoes/123|/shoes/abc” coincide con “/shoes/123” o “/shoes/abc”, pero no con “/shoes/a1b2c3”.

Anclas

Las anclas especifican las posiciones dentro del texto que un patrón debe coincidir, como el principio o el final de la cadena.

  • Caret (^): Coincide cuando los caracteres posteriores están al comienzo de la cadena.
    • Ejemplo: “^/shoes/” coincide con “/shoes/123-112233”, pero no con “/tusitio.com/shoes/123-112233”.
  • Signo de dólar ($): Coincide cuando la cadena termina con los caracteres anteriores.
    • Ejemplo: “/shoes/$” coincide con “/tusitio.com/shoes/”, pero no con “/tusitio.com/shoes/123”.

Escape

El carácter “” se utiliza para interpretar el carácter posterior literalmente, en lugar de como un carácter especial de regex.

Por ejemplo, “/shoes/search?q=.*” coincide con “/shoes/search?q=sneakers”, donde “?” se interpreta como un carácter literal.

Grupos

Los grupos actúan como contenedores que permiten designar partes de tu patrón – una palabra, frase o colección de caracteres – como una sola unidad.

  • Paréntesis ( ): Coincide con el orden exacto de los caracteres dentro de los paréntesis.
    • Ejemplo: “(/shoes/)” coincide con “/shoes/123-112233” o “/womens/shoes/”.
  • Corchetes [ ]: Coincide con cualquier orden de los caracteres en los corchetes.
    • Ejemplo: “/shoes/[123]” coincide con “/shoes/1”, “/shoes/2” o “/shoes/3”.
  • Guión (-): Crea un rango de caracteres dentro de los corchetes para coincidir en cualquier orden.
    • Ejemplos comunes:
      • [A-Z] representa todas las letras mayúsculas.
      • [a-z] representa todas las letras minúsculas.
      • [0-9] representa todos los dígitos.
      • [A-Za-z0-9] representa todos los caracteres alfanuméricos.
    • Ejemplo: “/shoes/[0-9]+” coincide con “/shoes/102” o “/shoes/77”.
  • Llaves { }: Definen cuántas veces deben aparecer los caracteres dentro de los corchetes en la cadena.
    • {n}: Exactamente n ocurrencias.
      • Ejemplo: “/shoes/[0-9]{1}” coincide con “/shoes/1” o “/shoes/7”.
    • {n,}: Al menos n ocurrencias.
      • Ejemplo: “/shoes/[0-9]{1,}” coincide con “/shoes/6” o “/shoes/12”.
    • {n,m}: Al menos n ocurrencias, pero no más de m ocurrencias.
      • Ejemplo: “/shoes/[0-9]{1,3}” coincide con “/shoes/0”, “/shoes/14” o “/shoes/123”.

Consejos útiles sobre expresiones regulares

A continuación, se presentan algunos consejos útiles sobre el uso de expresiones regulares en GA4 que pueden ayudarte a mejorar tu análisis de datos.

  • Las expresiones regulares son sensibles a mayúsculas y minúsculas. Por lo tanto, “/Shoes/” no es lo mismo que “/shoes/”. Es recomendable utilizar la opción de “Matches regex (ignore case)” para no perder datos.
  • Utiliza corchetes para simplificar expresiones. Por ejemplo, en lugar de usar “(^/shoes/$)|(^/boots/$)”, puedes combinarlos en “^/(shoes|boots)/$”.
  • Prueba tus expresiones regulares utilizando herramientas en línea como regex101.com. Ten en cuenta que este sitio puede requerir más escapes de los necesarios para GA4.
  • Recuerda que la regex de GA4 es una «coincidencia exacta», no una «coincidencia parcial». Si deseas capturar una URL que contiene “/shoes/”, utiliza “.*/shoes/.*” para evitar omisiones.
  • Asegúrate de utilizar el signo de dólar ($) para limitar la coincidencia y evitar incluir datos no deseados. Por ejemplo, si deseas capturar solo “www.site.com/shoes”, debes utilizar “.*/shoes$”.

Uso de expresiones regulares en Google Analytics 4

En GA4, puedes encontrar hasta cuatro opciones que incluyen expresiones regulares: “matches regex”, “partially matches regex”, “does not match regex” o “does not partially match regex”. Es importante tener en cuenta que la coincidencia parcial normalmente no estará disponible, por lo que se asume que las coincidencias son exactas.

La diferencia entre “matches regex” y “matches partial regex” es que la coincidencia parcial actúa como una «coincidencia de contenido» en lugar de una «coincidencia exacta». Por ejemplo, para la URL “www.website.com/shoes/123-112233”, se debería usar “.*/shoes/[0-9]{3}-[0-9]{6}$” para una coincidencia exacta.

Filtrado en informes estándar

Existen dos formas de filtrar un informe estándar en GA4: (1) utilizando el botón “Add filter” o (2) personalizando el informe.

Uso del botón “Add filter”

Accede a la pestaña de informes, selecciona el informe que deseas filtrar y haz clic en “Add filter”. Elige la dimensión que deseas filtrar y selecciona una de las opciones de coincidencia de regex, ingresando el patrón correspondiente.

Por ejemplo, si deseas incluir solo visitantes de Canadá y EE. UU., selecciona “Country” como dimensión y utiliza el patrón “Canada|USA”.

Personalización de informes

Al personalizar un informe, el elemento de filtro se verá igual que en el caso anterior. Sin embargo, una vez en el informe que deseas personalizar, haz clic en el ícono de lápiz en la esquina superior derecha y selecciona “Add filter” en la pestaña de personalización.

Si deseas excluir datos de visitantes en EE. UU. o Canadá, puedes reutilizar la misma dimensión y patrón, pero utilizando la condición “does not match regex”.

Exploración de datos

Al utilizar el filtro de Exploration en GA4, puedes filtrar tus informes según dimensiones y métricas. Cuando filtramos por una dimensión, tienes la opción de usar un patrón regex, lo que ofrece más flexibilidad para visualizar tus datos. El filtro utilizará “matches regex”, por lo que el patrón deberá ser una coincidencia exacta.

En la sección de Exploración, encontrarás el elemento de Filters en la parte inferior de la pestaña de Settings. Puedes hacer clic en el elemento o arrastrar una dimensión al filtro.

Es importante asegurarte de que la dimensión que deseas filtrar se haya ingresado previamente en el informe.

GA4 automáticamente rastrea algunos eventos. Si tienes un informe que analiza todos los eventos, puede resultar molesto tener eventos automáticos en él; quizás solo desees ver los eventos personalizados que creaste. Utiliza la condición “does not match regex” para excluir eventos no deseados, separando los eventos con el carácter de tubería (|), por ejemplo, “page_view|scroll|user_engagement|session_start|click”.

Segmentos y audiencias

Los segmentos permiten analizar tus datos retroactivamente en subconjuntos que puedes utilizar en Exploraciones de GA4. Las audiencias, por otro lado, te permiten dividir tus datos en subconjuntos, pero no de manera retroactiva. No se pueden usar audiencias en Exploraciones, pero sí en comparaciones dentro del informe estándar.

Tanto los segmentos como las audiencias pueden definirse mediante múltiples condiciones, las cuales se pueden filtrar utilizando expresiones regulares.

Creación de segmentos

Para crear un segmento, dirígete a Explore y crea un nuevo informe o utiliza uno existente. En la interfaz de Exploración, haz clic en el signo más (+) junto a Segmentos y selecciona “User segment”. A continuación, aquí hay algunos ejemplos de cómo usar regex:

  1. Excluir usuarios de países específicos: “Country ID” does not match regex “US|CA”.
  2. Usuarios que han visitado páginas de blog: “Page location” matches regex “.*/(blog|article|posts|news)/.*”.
  3. Usuarios que visitaron páginas de productos específicos: “Page location” matches regex “.*/product/[A-Za-z0-9-]+$”.

Creación de audiencias

Para crear audiencias, dirígete a Admin > Data display > Audiences y haz clic en “Create a custom audience”. Puedes utilizar los mismos ejemplos anteriores para crear audiencias que se alineen con tus objetivos de negocio. Es recomendable revisar el artículo sobre Audiencias en GA4.

Grupos de canales personalizados

Los grupos de canales personalizados te permiten clasificar las fuentes de tráfico en grupos definidos por ti. Esto significa que puedes decidir los nombres de los canales y las reglas que dictan cómo agrupar las fuentes de tráfico.

Una posible aplicación es agrupar todas las redes sociales en un solo canal. Para ello, puedes tomar todas las plataformas que consideres redes sociales y separarlas con el símbolo de tubería (|), colocándolas entre paréntesis y agregando (?i) al principio para evitar distinciones entre mayúsculas y minúsculas.

El resultado final sería “(?i)(facebook|instagram|linkedin)”.

Filtrado de tráfico interno

Si deseas evitar rastrear tu propio tráfico en el sitio, deberás utilizar el filtrado de tráfico interno. Para ello, dirígete a Admin > Data collection and modifications > Data streams. Selecciona el flujo de datos que deseas modificar, desplázate hacia abajo hasta Configure tag settings > Show more > Define internal traffic.

Aquí, podrás indicar las direcciones IP que no deseas rastrear. Si tienes varias direcciones IP, puedes utilizar expresiones regulares para definir el patrón.

Definición de referencias no deseadas

Cuando observes “Referral” en los datos de tráfico, se refiere a los visitantes que llegaron a tu sitio desde otro sitio sin utilizar un motor de búsqueda. GA4 permite listar dominios específicos que no deben ser reconocidos como tráfico de referencia, sino etiquetados como tráfico directo.

Para acceder a esta función, dirígete a Admin > Data collection and modifications > Data streams. Selecciona el flujo de datos que deseas modificar, desplázate hacia abajo hasta Configure tag settings > Show more > List unwanted referrals.

Ahora puedes definir los dominios de referencia que deseas mostrar como “directos” en lugar de “referidos” en tus informes de GA4.

Si deseas excluir subdominios, utiliza el patrón “.*(paypal|example).com”.

Creación y modificación de eventos

Directamente en la interfaz de GA4, puedes crear y modificar eventos, lo cual es útil cuando deseas crear una versión de un evento existente sin necesidad de recurrir a Google Tag Manager o a un desarrollador.

Para acceder a esta función, dirígete a Admin > Data display > Events > Create events.

Ejemplo 1: Crear un nuevo evento combinando dos eventos existentes

Imagina que tienes dos eventos que cumplen funciones similares, pero a veces deseas verlos como eventos separados. En este caso, puedes crear un nuevo evento que combine ambos. Por ejemplo, combinemos los eventos form_submission y generate_lead en un nuevo evento llamado form_completed.

Ejemplo 2: Crear un nuevo evento basado en múltiples URLs de páginas

Otra situación podría ser que tengas varias páginas que se muestran a un visitante tras realizar una acción exitosa, como una página de “gracias” después de una compra. Puedes crear un evento que capture cada vez que un usuario visualiza una de estas páginas, llamándolo thank_you_page. La URL variará según tu sitio, así que adapta tu patrón regex a la estructura específica de tu sitio. Para ilustrar, utilizaremos el siguiente ejemplo: “https://.*(success|thank-you).*”.

Recuerda que al usar el parámetro page_location, la entrada debe comenzar con “http://” o “https://”.