Scrapear Datos con Screaming Frog

Para scrapear datos de páginas web no es necesario saber de programación. Hay varias alternativas para obtener datos de otras páginas web sin entrar a código. Una muy usada podría ser la extensión de Chrome WebScraper y otra, la que voy a explicar hoy, obtener datos con Screaming Frog.

Scrapear datos con Screaming Frog es sencillísimo, aunque es recomendable saber algo de Xpath, aunque sabiendo lo básico se pueden hacer cosas muy interesantes.

Seleccionar el Modo del Spider

Un paso muy importante es elegir el modo en el que va a crawlear la web Screaming Frog. Lo más eficiente es obtener las URL que se quieren scrapear de alguna otra forma, y luego añadir solo esas URL para que sean analizadas. Para ello, se usa el modo «List».

imagen 2022 01 08 184621

Con este modo, pulsando en «Upload» podrás añadir únicamente las URL que quieres que se analicen. Los podrás incluir a mano, copiando el portapapeles o mediante un fichero de texto. Pero esto hazlo depués de hacer primero el paso siguiente.

Seleccionar los Campos para Extraer

Ahora hay que seleccionar qué es lo que queremos scrapear. Para ello, hay que ir a «Configuration > Custom > Extraction» y ahí rellenar los campos.

imagen 2022 01 08 185401

Se pueden extraer datos de diversas formas:

  • Xpath: Comandos Xpath. Es en mi opinión lo más sencillo y eficaz.
  • CSSPath: Clases CSS.
  • Regex: Expresiones regulares.

Para hacer un ejemplo, voy a scrapear datos de futbolistas de la página Transfermarket. Para ello, voy a usar los siguientes Xpath:

  • Nombre
  • Fecha de nacimiento
  • Lugar de nacimiento
  • La dirección de la imagen del futbolista de la web
imagen 2022 01 08 190457

También es importante determinar como queremos extraer cada campo, ya que hay varias opciones:

  • Extract Text: El texto del elemento HTML y sus etiquetas hijas.
  • Extract Inner HTML: El contenido HTML interior a partir del determinado.
  • Extract HTML Element: El contenido HTML determinado y todo su contenido interior.
  • Function Value: Resultado de la función determinada.

Resultado de la Extracción

El resultado de este scraping en concreto sería el mostrado en la siguiente imagen. Cada campo añadido se muestra en una columna y luego se pueden extraer a Excel, CSV o al formato que se interese. También se puede conectar Google Sheets para sincronizar las exportaciones a Google Drive.

imagen 2022 01 08 191059

Para ver solo los resultados de la extracción, selecciona que se muestre la pestaña «Custom Extraction».

imagen 2022 01 08 194119

Luego después de exportarlo, en la mayoría de casos se tendría que hacer el análisis y la transformación de datos. En este ejemplo rápido que he hecho, el contenido de la fecha de nacimientos tiene espacioes en blanco enter medias y contiene la fecha y el número de años entre paréntesis. Estos cambios se podrían hacer usando extracciones diferentes o depués modificando el resultado con expresiones regulares.

Deja un comentario