Algoritmo de Google

En este capítulo vamos a explicar qué es y cómo funciona el algoritmo de Google, su importancia en el mundo de internet y el SEO y los cambios que ha ido experimentando a lo largo de su corta pero intensa historia.

Si solamente existiese un resultado por búsqueda, no sería necesaria la existencia de un ranking de los resultados ya que no sería preciso, ni tan siquiera posible, jerarquizar diferentes resultados. Pero, por suerte, existe una cantidad potencialmente infinita de respuestas diferentes a una misma pregunta o de opiniones ante un tema cualquiera. Así pues, los motores de búsqueda se ven forzados a definir una serie de reglas que jerarquicen los resultados de búsqueda para las diferentes consultas o cadenas de búsqueda de sus usuarios. Y así nace la necesidad de contar con un algoritmo, un conjunto de operaciones de orden matemático, que clasifique y ordene la información en función de su relevancia, valor e interés para los posibles lectores.

A continuación presentaremos las características generales de este algoritmo y sus hitos históricos más reseñables.

Contenidos

¿Qué es y cómo funciona el algoritmo de Google?

Como decíamos anteriormente, un algoritmo es un conjunto de operaciones de carácter matemático. Esencialmente, desde su fundación, Google depende de un algoritmo nuclear que cumple la función de algoritmo de clasificación y jerarquización de la información para las diferentes cadenas de búsqueda posibles que introducen los usuarios en busca de información. En sus orígenes, dicha jerarquización se basaba de manera exclusiva en el archiconocido PageRank, ideado en el año 1998, que no es otra cosa que un indicador de la relevancia de una web, basado en una escala de 0 a 10, donde 0 es el valor mínimo y 10 el valor máximo.

El PageRank de una web se define así recursivamente en función de la cantidad de enlaces que una web recibe de otras páginas y el PageRank de esas mismas páginas, de tal modo que una página con PageRank más elevado transmite más fuerza – más link juice – a otra web que una web con un PageRank menor.

Actualizado cada vez con menor frecuencia, el PageRank se actualizó por última vez en diciembre de 2013, aunque se estima que ha dejado de ser la métrica que determina los rankings hace ya unos años. Para conocer más detalles acerca de la constitución originaria de Google como motor de búsqueda basado en el PageRank, no dejes de consultar este enlace, en el que S. Brin y L. Page, los creadores de esta patente, exponen los fundamentos mismos de Google en su nacimiento.

Un enlace es un voto a favor

A pesar de la pérdida de importancia del PageRank, a rasgos generales, podemos decir que Google comenzó a valorar cada enlace entrante hacia una web cualquier como un voto a favor, es decir, como muestra de que aporta algo de valor para el usuario que enlaza y que, por tanto, merece ser tenido en cuenta en cierta medida en los resultados de búsqueda. No es más por tanto que una forma de refrendar el valor, utilidad o interés de tal webmaster por la web de tal otro webmaster, y es la forma en la que Google, esencialmente, entiende que han de valorarse los enlaces y por la que han de regirse, hasta cierto punto, los rankings.

Los problemas del algoritmo originario o cómo controlar el webspam

Una vez que Google se había hecho ya con una gran cuota de mercado y se había convertido en una suerte de página de inicio, de punto de partida, para millones y millones de internautas, comenzaron a hacerse evidentes los problemas de este primer algoritmo. Como es natural, todos los webmasters y empresas que tenían intereses en la red estaban igualmente interesados en ubicar sus páginas entre los primeros resultados de búsqueda para la mayor cantidad posible de cadenas de búsqueda o keywords. Al fin y al cabo, el negocio les va en ello. Así las cosas, todo el mundo quería, y quiere, burlar el algoritmo en su favor. Y de esta manera nacieron diferentes prácticas SEO, basadas generalmente de alguna forma en la creación u obtención de enlaces entrantes, se popularizó la compraventa de enlaces entre webmasters y empresas, y surgieron las diferentes primeras herramientas de link building automático como Xrumer, Scrapebox o SENuke X, que contribuyeron a hacer si cabe más evidente lo sencillo que era manipular los rankings a través del webspam.

Por todo eso, fue preciso hacer más sofisticado el algoritmo para que no resultase tan sencillo usarlo en favor de una página. Y así se dio origen al célebre equipo contra el webspam de Google, encabezado por el mediático Matt Cutts, y conformado por un conjunto de personas encargadas de velar por la pulcritud de los resultados del buscador y la imagen pública del mismo.

Convencidos de la necesidad y urgencia de perfeccionar el algoritmo clasificatorio, los ingenieros de Google trabajan sin descanso para pulirlo y hacerlo cada vez más efectivo e imperceptible, más poderoso e invisible al usuario medio – y también para los más intrépidos. Se condenó así a muerte al PageRank y comenzaron a introducirse filtros para valorar la relevancia y fuerza de tal o cual enlace hacia una web en función de diferentes parámetros como el uso de determinado anchor text.

Factores que influyen en los actuales resultados de búsqueda

No es nuestro objetivo presentar aquí un listado de los factores, siempre cambiantes, que determinan los resultados de búsqueda de Google y desgranar su significado y relevancia puesto que ello requeriría, al menos, un libro aparte. Baste decir que, según las últimas declaraciones de Google, el algoritmo tiene en cuenta más de 200 factores diferentes a la hora de establecer la ordenación de los resultados de búsqueda por las diferentes cadenas de búsqueda.

Dichos factores son de naturaleza muy diferente entre sí, pero pueden agruparse en dos tipos generales: por una parte, los tradicionales elementos de optimización interna o SEO On Page y, por otra, los factores relativos a la optimización externa (si se nos permite la expresión), SEO Off Page o link building.

Puedes encontrar una lista bastante exhaustiva y bien explicada de muchos de ellos en el siguiente enlace o bien en este artículo en inglés. Ten en cuenta no obstante que la inmensa mayoría de estos criterios no están confirmados por Google, ni se conoce realmente su alcance real; son una recopilación fruto del trabajo de estudio e investigación constante de miles y miles de personas que se dedican, de un modo u otro, a entender el funcionamiento del algoritmo desde fuera. El algoritmo, como tal, en su complejidad y sus detalles, sigue siendo un misterio.

Las actualizaciones del algoritmo

Dada su importancia para mantener la credibilidad de Google ante su público, cada vez más exigente, el algoritmo se actualiza de manera constante para corregir errores o imprecisiones en su formulación, incorporar cada vez más y más elementos de juicio para determinar los rankings o incluso, directamente, para bloquear los esfuerzos de determinados grupos de webmasters y SEOs de vulnerar el algoritmo como tal en su beneficio. Google necesita que sus resultados sean lo más interesantes posibles para satisfacer a quienes buscan información por la red y, ante todo, necesita que nadie pueda manipular su algoritmo con facilidad. Para ello, nada mejor que cambiar las reglas de juego con frecuencia y solucionar los diferentes huecos, errores o fallos del algoritmo a toda velocidad. De hecho, se estima que Google actualiza, de media, más de 500 veces su algoritmo en un año, lo que equivale a decir que el algoritmo es diferente de un día para otro. A pesar de todo ello, existen una importante serie de constantes a lo largo de todas estas actualizaciones que permiten trazar una línea divisoria entre las prácticas que Google considera lícitas y/o positivas para el usuario y las prácticas que considera ilícitas y/o negativas para el usuario, lo que a su vez da pistas del rumbo hacia el que se dirige Google en su evolución como motor de búsqueda.

Si deseas consultar las últimas actualizaciones de Google y su influencia en los resultados de búsqueda así como el estado de las fluctuaciones de los resultados en tiempo real, puedes consultar el tiempo de las SERPs según Moz aquí o según Algoroo aquí.

Fuera de juego o las penalizaciones algorítmicas

Así es como nacen las penalizaciones algorítmicas, es decir, los castigos o sanciones que Google impone a quienes detecta saltándose, consciente o inconscientemente, voluntaria o involuntariamente, las reglas establecidas en su compendio de buenas reglas de conducta para webmasters.

En las siguientes páginas haremos un breve repaso por algunas de las actualizaciones del algoritmo más importantes, indicando qué novedades aportan al decurso normal de los acontecimientos y cuáles son los caminos que van marcando a su paso, empezando por Google Panda.

Google Panda

El día 24 de febrero del año 2011 Google anuncia la primera gran actualización de su algoritmo: Google Panda, que afectó en su primera versión a más del 10% de búsquedas, lo que es una cantidad realmente significativa. El propósito de Panda es básicamente eliminar o relegar de los resultados de búsqueda las páginas con escaso contenido o un ratio de anuncios/texto muy elevado o bien páginas con escasez de contenido original. Afectó por tanto de manera destacada a páginas de tipo warez, que no suelen dedicar esfuerzos a la publicación de contenido textual propio, y a las granjas de contenido, como los directorios de artículos que publican artículos escritos por usuarios, que en su momento no prestaban atención a la originalidad o falta de originalidad de las aportaciones de su comunidad.

Al igual que sucede actualmente con Penguin, y al contrario que la inmensa mayoría de actualizaciones que Google realiza diariamente en el algoritmo, Panda es un tipo de actualización que tiene efecto de forma puntual, durante unos días a partir de cuando se hace efectiva, y no era por tanto parte del algoritmo como tal hasta recientemente, sino una especie de enmienda. Este proceso de despliegue de las actualizaciones como Panda o Penguin es lo que se conoce como rollout y sus efectos en las SERPs pueden notarse durante varios días en función del calado de la actualización en sí. El hecho de que estas actualizaciones operen de este modo se debe a una razón muy simple a la par que poderosa: estos rollouts precisan de una gran potencia de cálculo y, son por tanto, muy costosos para Google en todos los sentidos, por lo que, al menos por el momento, no pueden permitirse mantenerlas como parte integrante activa del algoritmo de clasificación^¹.

Contra los sitios de baja calidad

Si Panda se diferencia por algo es por haber puesto en boca de todo el mundo el concepto de calidad de un sitio web. Nunca hasta la fecha había pretendido Google poder valorar, al menos de manera interna, examinando solamente su arquitectura y contenidos propios, la calidad de una web.

Panda castigó de forma muy severa a las webs que definieron como de baja calidad, no merecedoras de figurar en los primeros puestos por ninguna cadena de búsqueda ya que no ofrecen información de calidad o no aportan ningún valor para el usuario. Pero, ¿qué es la calidad cuando hablamos de una web?, ¿cómo podemos decidir si una web tiene o no calidad? Más allá de las definiciones vacías y los malentendidos producidos por las mismas declaraciones del equipo de Google, lo poco que se puede decir a este respecto es que Google considera que una web es de calidad cuando ofrece información relevante, contrastada, estructurada y de utilidad a sus usuarios. ¿Y cómo puede valorar un algoritmo esto? Básica y toscamente, eliminando de los resultados las páginas con escaso o nulo contenido textual y privilegiando a las webs con actualizaciones frecuentes de contenido original y extenso.

Contenido, contenido y contenido

Seguramente has leído y escuchado hasta la saciedad que “el contenido es el rey”. Pues bien, esta frasecita tiene su mismo origen en la aparición de Panda, puesto que marcó un antes y un después en lo que se refiere al concepto que los webmasters barajan de lo que es el contenido, así como de su importancia general.

No nos engañemos: estamos muy lejos, si es que resulta posible algún día, de que una máquina, por muy potente y sofisticada sea, sea capaz de discriminar el contenido de calidad del contenido de baja o nula calidad, e incluso en ocasiones le resulta complicado diferenciar el contenido con sentido del que carece del mismo. Por tanto, hay que tener en cuenta que, cuando Google habla de la importancia de la existencia de contenido de calidad en nuestras webs, en realidad está hablando ante todo de la corrección ortográfica, la originalidad y la extensión, ni más ni menos. En 2011 abundaban todavía los sitios con escaso contenido textual, que apenas eran algo más que un compendio de tablas y código HTML con alguna etiqueta identificativa. Y Google quería servir información, original y de utilidad para sus usuarios, por lo que la mejor manera de hacerlo es establecer la extensión y profusión de los contenidos textuales como elemento de valoración de una web.

De esta manera, muchas webs que no disponían apenas de contenido textual propio, o bien que se limitaban a copiar el contenido a terceros, se vieron penalizadas al entrar en vigor Google Panda y por eso, hoy por hoy, se recomienda a todo webmaster que su web tenga la mayor cantidad de contenido original posible, y a ser posible, aunque esto no pueda determinarlo Google con sencillez, que sea de interés para los posibles lectores.

Google Penguin

El 24 de diciembre de 2012, Google lanzó Google Penguin, una actualización de su algoritmo destinada a dar caza a las páginas que emplean técnicas consideradas ilegítimas por Google para beneficiarse en los resultados de búsqueda. Tuvo impacto en un total aproximado del 5% de búsquedas. Penguin fue la primera gran actualización algorítmica en penalizar páginas web por malas prácticas en lo relativo al link building, por diferentes factores.

Es, con diferencia, la actualización más sonada de Google, y la que dio paso a la aparición de la herramienta para desautorizar enlaces o disavow tool por petición de la comunidad webmaster, que sentía pánico por la mera posibilidad de que algún competidor pudiera aprovechar la aparición de estas penalizaciones algorítmicas para hacer SEO negativo a sus webs creando enlaces entrantes basura de todo tipo.

Vamos a presentar tres de los factores que Penguin toma en cuenta por considerarlos más relevantes y de mayor influencia en la evolución de Google hasta la fecha.

Sobreoptimización de anchor text

Desde la aparición de Google, los webmasters saben que un enlace con anchor text, en particular un anchor text que apunte a una keyword por las que desean que aparezca su web, tiene más valor que un enlace con una palabra genérica cualquiera como texto de anclaje. Pues bien, al igual que sucedió en el caso de Panda, Penguin introdujo como elemento de juicio el uso reiterado de palabras clave a la hora de enlazar una web, de tal modo que tiende a penalizar a las páginas que cuentan con una sobreoptimización de anchor text en sus enlaces entrantes, ya sea reiterando una y otra vez las keywords por las que desea posicionar o haciendo pequeñas variaciones sobre las mismas. Esta es quizá una de las medidas más eficaces de cuantas ha introducido Google para discriminar los sitios web que obtienen enlaces artificiales, véase, no naturales, pero es también obviamente la más manipulable de todas ellas.

El razonamiento que justifica la inclusión de esta revisión por parte del algoritmo es muy sencillo, y es que no es razonable creer o pensar que quienes enlazan a una web por propia voluntad, porque la web que mencionan les ha sido útil o porque desean compartirla con los demás, enlacen siempre o de una manera habitual justamente con las palabras clave que interesan al webmaster; y es que más bien ocurre que la inmensa mayoría de enlaces naturales o bien apuntan al nombre de marca de la web, o bien emplean palabras o cadenas genéricas o bien, finalmente, son enlaces desnudos o bare links, es decir, la URL sin anchor text.

Desde hace un tiempo, y según los estudios realizados, se dice que lo más prudente es mantener siempre la distribución de anchor texts en los enlaces entrantes lo más variada posible, y que toda web con una reiteración de anchor texts en los enlaces de más del 10% sobre el total de sus enlaces puede ser objeto en cualquier momento de una penalización por Penguin. Y es de esperar que este mínimo de alarma no haga más que decrecer conforme pasa el tiempo y Google se vuelve más estricto.

Link velocity y link loss

Muchas veces, los webmasters que se dedican activamente a la obtención de enlaces de diversa índole, ven cómo las páginas en las que han colocado enlaces hacia sus páginas eliminan dichos enlaces, ya sea porque desaparecen, ya sea porque moderan el contenido publicado por sus usuarios, por falta de interés de dicho enlace o por cualquier otra razón. Esta desaparición de enlaces entrantes es lo que se conoce como link loss.

Pues bien, desde Google, conscientes de este hecho, decidieron que esto mismo podría incorporarse al algoritmo y usarse como dato para establecer el valor y la credibilidad que ha de tener un enlace saliente. Así, si una web tiene, de forma consistente en el tiempo, un link velocity – cómputo de enlaces entrantes perdidos y ganados hacia una web – negativo o bien muy inconstante – con picos un día y sin mayor repercusión al día siguiente -, entonces algo raro está ocurriendo con la web enlazada, y muy probablemente se deba a que el webmaster en cuestión ha estado intentando vulnerar los rankings publicando enlaces en sitios que no están realmente interesados en su web. Es por tanto importante intentar controlar, en la medida de lo posible, que nuestra web no pierda enlaces entrantes de manera masiva.

Relación temática

Otro de los elementos que Penguin se encarga de revisar concienzudamente es la relación temática entre la web enlazada y la web que enlaza, de tal manera que concede más valor a un enlace que relacione dos webs con temáticas similares que a un enlace que relacione a dos webs con temáticas completamente diferentes entre sí. Esta es una manera de intentar regular la pertinencia y relevancia de un enlace para valorar de algún modo si tiene sentido y valor, más allá de un posible intercambio económico entre los dueños de las diferentes páginas, que una web publique un enlace saliente hacia otra. Por tanto, si una web tiene una gran cantidad de sus enlaces entrantes publicados en páginas que no guardan relación temática con la suya, se expone a ser sospechosa de manipulación.

Aunque esto es algo que el algoritmo general ya controla de por sí, parece claro, por los resultados de las diferentes actualizaciones de Penguin, que existe cierto tipo de reajuste en los cálculos de esta relevancia cuando se produce un rollout de Penguin en busca de esquemas de enlaces artificiales o intentos de manipulación deliberada de los rankings.

Penguin recibe, por norma general, al menos un rollout al año, y cada vez incorpora pequeñas mejoras y variaciones sobre la actualización general, aunque puede decirse que, en líneas generales, sigue la misma tendencia, con la salvedad de que tienden a hacerse más estricto.

Otras actualizaciones y rollouts

Naturalmente, además de Panda y Penguin, Google ha puesto en marcha muchas otras actualizaciones de diversa importancia, algunas de ellas con nombre propio, que completan este singular animalario. Muchas de ellas se centran en incorporar elementos de juicio específicos, como en el caso reciente de los certificados SSL, otras son de carácter más general y otras, finalmente, intentan capar determinados errores en el algoritmo general, como en el caso de la actualización que afectó a los EMDs (Exact Match Domains, dominios con la palabra clave exacta en su nombre) rebajando su relevancia orgánica en los resultados en vista del abuso que los webmasters venían haciendo de los mismos.

Google Hummingbird y Google Pigeon

Destacamos estas dos actualizaciones no tanto por su repercusión directa en las SERPs (Search Engine Ranking Positions, posiciones en los motores de búsqueda) como por su significado y por el hecho de ser las más recientes en el tiempo. Tanto Hummingbird como Pigeon, tanto Colibrí como Paloma, apuntan en una misma y sola dirección: Aparecidos en 2013 y 2014 respectivamente, ambas actualizaciones tienen en común el intento de que el buscador de Google sea capaz de responder adecuadamente a las consultas de tipo más coloquial, es decir, a que sea quien de interactuar de una manera más cercana con el internauta, lo que incluye la capacidad para responder preguntas concretas relativa a la ubicación del internauta o la capacidad de interpretar sinónimos o expresiones equivalentes en las búsquedas. Digamos en consecuencia que lo que Google persigue es ir modificando los hábitos de búsqueda de los usuarios, acostumbrados ya a realizar consultas por keywords concretas, para que comiencen a hacer consultas más naturales al buscador. En resumen, ambas actualizaciones intentan mejorar la experiencia de usuario acercando la tecnología a la interacción humana, salvando naturalmente las distancias.

Y esto es revelador, ya que es una muestra de la visión de Google acerca del futuro, un escenario que se imaginan, por lo que podemos entrever, completamente diferente al actual, en el que el buscador responderá a dudas y preguntas específicas haciendo uso de datos contextuales relativos al propio internauta, en lugar de hacer uso de las actuales búsquedas basadas en la utilización de keywords.

A la vanguardia del Black Hat: el PayDay algo

En el mundo anglosajón, los payday loans son el equivalente de los préstamos rápidos por internet en España; préstamos que apenas solicitan explicaciones a quienes los piden y que establecen unas condiciones de devolución y unos intereses completamente abusivos. Es, por tanto, como te puedes imaginar, un nicho en el que se juega una cantidad de dinero enorme y por tanto un nicho en el que, desde siempre, se han visto las prácticas Black Hat más punteras y al que se consagran buena parte de las empresas de marketing más destacadas y SEOs más vanguardistas. Pues bien, para intentar poner orden en este complicado y convulso nicho, muy proclive al webspam más refinado, así como en otros sectores de comportamiento similar como el de venta de viagra, desde junio de 2013, Google incorporó un algoritmo especial, a mayores del algoritmo general, que regula el spam atendiendo a las características generales de las prácticas que se dan en los mencionados sectores. Se conoce como PayDay algo en honor a estos créditos basura.

En esencia, y sin entrar en oscuros detalles y profundos debates, actúa como una especie de Penguin más restrictivo, hasta el punto de que se especula con que se imponen sanciones de desindexación con mucha frecuencia.

Cuando el algoritmo se queda corto o las penalizaciones manuales

Como es bien sabido, Google cuenta en su equipo con los mejores ingenieros informáticos de todo el mundo y recluta cada año a los más sobresalientes para intentar mantener su liderazgo como buscador web de cabecera para cientos y cientos, acaso miles, de millones de personas en todo el mundo. A pesar de ello, a veces no es suficiente. Por mucha potencia de cálculo de que disponga, Google se enfrenta día a día a miles y miles de personas que intentan, a veces con éxito, manipular esa potencia de cálculo a su antojo.

Conscientes de este hecho, Google ha introducido hace ya algún tiempo una nueva serie de medidas, mucho más certeras que las anteriores pero también mucho más costosas, para controlar el webspam y, en general, para mantener limpios los resultados de su buscador. Estamos hablando de las revisiones y penalizaciones manuales, no algorítmicas, es decir, de la incorporación de una serie de casos, cada vez menos excepcionales, en los que, de un modo u otro, interviene de forma más o menos directa un ser humano a la hora de decidir si tal o cual página web merece tal o cual puesto, tal o cual recompensa o castigo.

De todas maneras, conviene no confundir las cosas: aunque hay constancia de que hay personas vigilando de forma efectiva y constante los resultados para determinadas cadenas de búsqueda, generalmente las más lucrativas y en las que, en consecuencia, tienen mayor tradición las prácticas propias del Black Hat más vanguardista, no parece razonable pensar que Google tenga contratadas a cientos de personas realizando búsquedas aleatorias y valorando la pertinencia de los primeros resultados de su buscador. El proceso ha de estar mucho más automatizado, y es de suponer que existirán una especie de alertas que, cuando saltan por la actividad de tal o cual página, pasan a ser revisadas por parte de este equipo de revisores.

El futuro del algoritmo

Desde su nacimiento, la historia de Google ha estado estrechamente ligada a la historia del desarrollo de su algoritmo, pues, en buena medida, su éxito como buscador y como empresa depende de la potencia, eficacia y buen funcionamiento de su algoritmo. Y aunque hoy día Google es mucho más que un mero buscador web, su imagen pública, credibilidad y la inmensa mayoría de sus ingresos derivan de su liderazgo como motor de búsqueda. Hablar pues del futuro de Google es, hasta cierto punto, hablar del futuro de su algoritmo.

Podemos decir sin ningún miedo a equivocarnos que nunca, hasta la fecha, había existido tal cantidad de información disponible en la red, pero tampoco había existido tanta cantidad de enlaces basuras o webspam en general. Y cuanto más sofisticado se vuelve el algoritmo, más lo hacen también las herramientas destinadas a vulnerarlo y el software SEO en general. Es por tanto una carrera de espionaje y contraespionaje constante que evoluciona a una velocidad de vértigo, y en la que Google se juega mucho.

Una cosa está clara: teniendo en cuenta la creciente cantidad de personas, empresas e incluso instituciones interesadas en la manipulación de los resultados de búsqueda, a Google, a pesar de sus ingenieros, le quedan dos alternativas para mantener el control, o tender al estaticismo en sus resultados o tender, cada vez más, a depender del control humano directo y constante. Y la primera parece cumplirse poco a poco, ya que los grandes portales de contenido y las grandes marcas con amplia presencia online, valiéndose de lo que se denomina autoridad, van copando los resultados de búsqueda de una manera forma cada vez más obvia, aunque en ocasiones sea en detrimento de la calidad de los resultados.

Aunque todo esto, naturalmente, no son más que conjeturas y especulaciones, y como tales han de ser tomadas. Lo único que podemos dar por hecho es que el algoritmo seguirá gobernando los resultados.

1 Al menos por el momento, aunque Panda esté incorporado ya en el algoritmo, realmente no puede considerarse parte del mismo sin más ya que opera igualmente a base de rollouts, por muy frecuentes que hoy día sean, no en tiempo real.