guia raspado datos marketing

Guía práctica para el raspado de datos para los profesionales de marketing de contenidos

Como especialistas en marketing digital debemos utilizar los grandes datos como herramienta de toma de decisiones. Usar cierta información para entender lo que funciona dentro de nuestra industria es crucial en las campañas de marketing de contenido y me sorprende saber que tantas empresas no se centran en ello.

Una de las razones por las que a menudo oigo decir a las empresas es que no tienen el presupuesto para invertir en herramientas complejas y costosas que les proporcionan toneladas de datos. Dicho esto, no siempre es necesario invertir en herramientas costosas para recopilar información valiosa, y ahí es donde entra el raspado de datos.

Para darle un ejemplo, aquí está una breve descripción del Data Scraping extraído de Wikipedia:

Básicamente se trata de desplazarse por una página web y recopilar información que puede utilizar para llevar a cabo su análisis. Por ejemplo, puede buscar un sitio como Search Engine Land y raspar los nombres de los autores de cada post publicado, luego puede correlacionarlo con los datos de intercambio social para averiguar quiénes son los autores de mayor rendimiento de ese sitio.

Espero que empieces a ver lo útiles que son estos datos. Además, no se requiere ningún conocimiento de codificación: siguiendo unas sencillas instrucciones, puede empezar a recopilar información útil para sus campañas.

Nota: Antes de empezar a leer el post es necesario especificar que el raspado de un sitio puede violar sus términos de servicio. Usted debe asegurarse de que esto no suceda antes de comenzar sus actividades de raspado. Por ejemplo, Twitter prohíbe estrictamente el raspado de información en su sitio web.
Esto es lo que lees en los Términos de servicio de Twitter:

Del mismo modo, Google prohíbe el raspado de contenido:

¡Así que cuidado, chicos!

Análisis de contenido

El dominio de los conceptos básicos del raspado de datos abrirá un abanico infinito de posibilidades para el análisis de contenido. Recomiendo que cada vendedor de contenido (o al menos un miembro de su equipo) se mantenga al día sobre el tema.

Antes de empezar con ejemplos específicos, asegúrese de que su computadora tenga Microsoft Excel (¡todo el mundo debería tener Excel!) y también el plugin de SEO Tools para Excel (aquí puede descargarlo gratis). También hice un tutorial para el plugin de herramientas de SEO que puede ser de su interés.

También necesitarías una herramienta de rastreo web como Screaming Frog’s SEO Spider o Xenus Link (ambos tienen opciones gratuitas). Una vez que estés listo, podrás hacer lo que describo a continuación. Aquí aprenderá cómo hacer un análisis final del contenido y algunas maneras de aplicarlo a sus campañas de marketing de contenido.

1. Encontrar los diferentes autores de un blog

Analizar publicaciones y blogs importantes para averiguar quiénes son los autores influyentes puede proporcionarle datos realmente importantes. Una vez que obtenga la lista de autores de un blog, descubrirá a aquellos que han creado contenido, obtenido buenos resultados en los medios sociales y generado muchos comentarios, y también recopilará estadísticas adicionales acerca de su seguimiento en los medios sociales, etc.

Yo personalmente uso esta información diariamente para establecer relaciones con los autores más influyentes y puedo asegurar que mi contenido se publica en los sitios web más importantes de la industria. Aquí está cómo hacerlo:

Paso 1:

Recoge una lista de URLs del dominio que estás analizando usando Screaming Frog’s SEO Spider. Simplemente agrega el dominio raíz dentro de la interfaz de Screaming de Frog y presiona start (si nunca has usado esta herramienta antes, echa un vistazo a mi tutorial). Tan pronto como la herramienta haya completado la colección de todas las URLs (esto puede tomar mucho tiempo para sitios grandes), simplemente exporte todo a una hoja de cálculo de Excel.

Paso 2:

Abra Google Chrome y vaya a una de las páginas que contienen artículos dentro del dominio que está analizando y encuentre dónde se menciona el nombre del autor (normalmente se encuentra dentro de la sección de biografía de un autor o bajo el título del mensaje). Una vez encontrado, haz clic con el botón derecho en el nombre y selecciona el elemento inspeccionar (llegarás a la consola de desarrollo de Chrome). Dentro de la consola del desarrollador, la línea de código asociada con el nombre del autor que seleccionaste será resaltada (ver imagen abajo). Lo que necesita hacer ahora es hacer clic derecho en la línea de código resaltada y seleccionar Copiar XPath.

Para el sitio web de Search Engine Land, el código que se copiará será el siguiente:

Paso 3:

Recupera tu hoja de URL y borra toda la información extra que te ha proporcionado Screaming Frog, dejando sólo la lista de URLs. Una vez hecho esto, agréguelos a la primera columna (columna A) de su hoja de trabajo.

Paso 4:

En la celda B2 agregar la siguiente fórmula:

Sólo para ejemplificar mejor esta fórmula, la función XpathOnUrl le permite usar directamente dentro del código XPath (pero sólo con el plugin SEO Tools instalado, sin el cual no funcionará). El primer elemento de la función especifica en qué URL vamos a raspar. En este ejemplo seleccioné la celda A2, la cual contiene una URL que obtuve del escaneo de la Rana Gritando (alternativamente puedes escribir la URL, asegurándote de que esté entre comillas). Finalmente, la última parte de la función es nuestro código XPath. Debe eliminar las comillas del código y reemplazarlas con apóstrofes. En este ejemplo (me refiero a la sección «leftCol», que he cambiado a ‘leftCol’) si no lo hace Excel no podrá leer la fórmula correctamente.

Una vez que presione Enter, probablemente le tomará un par de segundos al plugin de herramientas SEO para escanear la página.

Debe tenerse en cuenta que dentro del ejemplo anterior, estamos buscando nombres de autores dentro de las páginas de un artículo, por lo que si intento usar una URL que no sea un artículo (por ejemplo: la página de inicio) obtendré un error.

El código XPath funciona desde el principio del código URL especificado y siguiendo las instrucciones dadas para encontrar los artículos en la página y devolver los resultados. Así que, para el siguiente código:

Estamos diciendo que buscará cada elemento (//*) que tenga un ID de Col a la izquierda y luego bajará al segundo TAG DIV (div[2]), seguido de un TAG P, un SPAN y un A. El resultado debería ser el texto contenido en el TAG A.

No se preocupe si no puede entenderlo, pero si lo consigue, le ayudará a crear su XPath. Por ejemplo, si desea extraer el contenido de un TAG A que contiene rel=auothor (otra gran manera de encontrar autores de páginas), entonces podría usar un XPath que se vea así:

La fórmula completa en Excel será algo así:

Una vez que haya creado la fórmula, puede arrastrarla hacia abajo y aplicarla a un gran número de URLs al mismo tiempo. Esto significa un gran ahorro de tiempo ya que, sin raspar, habría tenido que ir manualmente a cada sitio y copiar y pegar para que cada autor obtuviera los mismos resultados. ¡Una gran pérdida de tiempo!

Ahora que he explicado los conceptos básicos, le mostraré otras maneras en las que se puede usar el raspado.

2. Más detalles en la página de los autores

Así que, encontramos una lista de nombres de autores, y eso es genial, pero para saber más sobre ellos necesitamos más datos. Repito: a menudo estos darios pueden ser recuperados raspando el sitio que se está analizando.

La mayoría de los blogs/publicaciones que enumeran los nombres de los autores de los artículos en realidad tienen páginas sobre los autores individuales. Una vez más, usando Search Engine Land como ejemplo, si haces clic en mi nombre en la parte superior de este post serás llevado a una página que contiene más detalles sobre mí, incluyendo mis perfiles en Twitter, Google+ y Linkedin. Este es el tipo de datos que quiero recopilar porque me proporciona un punto de contacto con el autor al que intento llegar.

Aquí está cómo hacerlo.

Paso 1:

Primero necesitamos tener las URLs del perfil del autor para poder rasparlas y obtener más detalles. Para ello, puede utilizar el mismo método utilizado para encontrar el nombre del autor, con una pequeña adición a la fórmula:

La adición de la parte «href» de la fórmula extraerá la producción del atributo href del CTC A. En otras palabras, encontrará el hipervínculo vinculado al nombre del autor y como resultado le dará la URL

Paso 2:

Ahora que tenemos las URLs de las páginas de perfil del autor, puedes proceder con la recuperación de los perfiles en las redes sociales. En lugar de raspar las URLs de los artículos, usaremos las URLs de los perfiles.

Como antes, para recopilar los enlaces de Twitter, Google+ y Linkedin necesitamos encontrar el código XPath. Para ello, abra Google Chrome y vaya a una de las páginas del perfil de los autores, haga clic con el botón derecho en el enlace de Twitter y seleccione Inspeccionar elemento. Una vez hecho esto, pase el ratón por encima del código resaltado dentro de las herramientas de desarrollo de Chrome, haga clic con el botón derecho y seleccione Copiar XPath.

Paso 3:

Finalmente abra su hoja de cálculo de Excel y añada la siguiente fórmula (usando el XPath que copió arriba):

Recuerde que este es el código para raspar en Search Engine Land, así que si usted está raspando en un sitio diferente, es casi seguro que será diferente. Una cosa importante a tener en cuenta es que aquí seleccioné la celda C2, que contiene la URL del perfil del autor y no sólo la página que contiene el artículo. Además de eso, notaréis que he incluido «href» al final porque queremos la URL real del perfil de Twitter y no sólo las palabras `Twitter’.

En este punto puedes repetir el mismo procedimiento para obtener las URLs de los perfiles de Google+ y Linkedin y añadirlas a tu hoja de cálculo. Espero que esté empezando a ver el valor de este proceso y entienda cómo puede ser utilizado para recopilar tanta información oculta que puede ser utilizada para todo tipo de actividades en línea, no sólo para su SEO y campañas de medios sociales.

3. Reúne la lista de seguidores de las redes sociales

Ahora que tenemos los relatos de los autores en los medios sociales, es razonable tener la lista de sus seguidores para que puedan ser clasificados de acuerdo a su influencia dentro de la lista.
Aquí encontrará una fórmula final de XPath que puede conectar directamente a Excel para cada red social para obtener listas de sus seguidores. Todo lo que tiene que hacer es reemplazar el texto de la URL de INSERTAR PERFIL SOCIAL por la celda de referencia de URL de Google+/Linkedin:

Google+:

LinkedIn:

4. Raspado con títulos de página

Una vez que tenga una lista de URLs, querrá saber cuál es el contenido. Usando este XPath para cada URL se mostrará el título de la página:

Si utiliza el plugin SEO Tools para Excel, puede utilizar simplemente la función del programa para raspar los títulos de las páginas, pero siempre es útil saber cómo hacerlo manualmente.

Otro gran movimiento para el análisis es mirar el número de palabras usadas dentro de los títulos de las páginas. Para ello, utilice la siguiente fórmula:

Desde aquí puede hacerse una idea de cuál es la longitud óptima para un poste dentro de un sitio. Esto es muy útil si está preparando un artículo sobre una publicación específica. Si creas el mensaje de tal manera que encaje mejor en el sitio, tendrás más posibilidades de éxito.
Un paso más allá, puede recopilar las acciones sociales de cada URL utilizando las siguientes funciones:

Nota: Para llegar a estos resultados también puede utilizar una herramienta como el Perfilador de URL, que funciona mucho mejor con una gran cantidad de datos.

Si desea obtener aún más estadísticas sociales, puede utilizar la API de SharedCount y así es como se hace.
En primer lugar, cree una nueva columna en su hoja de cálculo de Excel y añada la siguiente fórmula (donde A2 es la URL de la página web de la que desea extraer estadísticas sociales):

Ahora debería tener una celda que contenga la URL de la página web con el prefijo URL de la API de SharedCount. Esto es lo que utilizaremos para recopilar estadísticas sociales. Ahora aquí está la fórmula de Excel para cada red (donde B2 es la celda que contiene la fórmula anterior):

StumbleUpon:

Reddit:

Delicioso:

Digg:

Interés:

LinkedIn:

Acciones de Facebook:

Comentarios en Facebook:

Una vez que tenga estos datos, puede empezar a mirar más profundamente en los elementos de un mensaje exitoso.

Aquí está el ejemplo de un gráfico que he creado alrededor de una gran muestra de artículos analizados en Upworthy.com

El gráfico analiza el promedio de las acciones sociales que recibe un artículo de Upworthy frente al número de palabras contenidas en su título. Estos son datos valiosos que pueden ser utilizados para una amplia gama de diferentes elementos de una página para obtener una plantilla de artículo perfecta para el sitio que está lanzando.

¿Ves? Los datos grandes son útiles!

5. Fecha/hora en que se publicó el mensaje

Junto con el análisis de los detalles de los títulos que funcionan dentro de un sitio, para obtener los mejores resultados, es aconsejable tener en cuenta también los mejores momentos en los que se publican las publicaciones. Hago esto regularmente en mi blog para asegurarme de obtener los mejores resultados del tiempo que paso escribiendo.

Cada sitio es diferente, por lo que es muy difícil para una herramienta automatizada recopilar esta información. Algunos sitios tendrán estos datos dentro de la sección de sus páginas web, pero otros los mostrarán directamente bajo el título del artículo. Una vez más, Search Engine Land es un ejemplo perfecto de un sitio que hace esto:

Así que aquí está cómo raspar esta información de los artículos de Search Engine Land:

Ahora tienes la fecha y hora de la publicación. Se recomienda reducirlo y reformatearlo para su análisis de datos, y como ya lo tiene todo en Excel, debería ser bastante sencillo.

Perspectivas

El raspado de datos es realmente poderoso, y después de experimentarlo una vez te darás cuenta de que no es tan complicado. Los ejemplos que te he dado son sólo un punto de partida, pero después de que hayas confiado en tu creatividad empezarás a ver las oportunidades que vienen con ella.

Resumiendo

>> Empiece por utilizar datos reales para sus campañas en lugar de confiar en sus»sentimientos».
>> Reúna información sobre los dominios específicos que desea utilizar para la colocación de contenidos y cree el artículo ideal para su público.
>> Manténgase al día sobre XPath y JSON a través del uso del plugin SEO Tools para Excel
>> Dedique más tiempo a analizar qué contenido le ofrece la mayor cantidad de resultados en lugar de los sitios que le ofrecen la mayor cantidad de»enlaces».
>> Antes de raspar, por favor revise los Términos de Servicio.

NEGOCIO VIVO – Empresa de posicionamiento SEO Málaga Empresa de paginas web en Málaga Redes sociales

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *