ChatGPT vs SEO: ¿Pueden los buscadores penalizar el contenido generado por inteligencia artificial?

6 min readMay 19, 2023

Una de las principales virtudes de la inteligencia artificial (IA) es la capacidad de optimizar procesos y recursos en las distintas industrias y áreas productivas, volviendo todo más sencillo. Esta nos brinda una amplia gama de modelos y técnicas que nos permiten solucionar diferentes problemas, siempre y cuando tengamos la capacidad de entrenarlas adecuadamente; y digamos que el volumen de información que genera la web en estos días, da para entrenar diversos tipos de IA’s.

Una de las industrias que se ha visto ampliamente beneficiada con el auge de la inteligencia artificial ha sido la publicidad digital y el marketing digital, en donde destaca el SEO como uno de los servicios más frecuentes que se le solicitan a las agencias. Pero… ¿Qué tiene que ver la inteligencia artificial con SEO? ¿Qué es SEO? Ok, vamos por parte.

El objetivo de este post es determinar si los buscadores tienen la factibilidad técnica de penalizar el contenido generado por inteligencias artificiales, más específicamente ChatGPT. Pero les voy a dar un poco más de contexto para que se entienda mejor.

Entonces, SEO es…

En palabras sencillas, SEO o Search Engine Optimization implica lograr un conjunto de buenas prácticas tanto en la estructura interna de un sitio web (SEO On page), además de lograr que este sea referenciado por otros sitios importantes para que este aumente su valor (SEO Off Page). La consecuencia de esto es aparecer en los primeros lugares de los motores de búsqueda de forma orgánica, en otras palabras, atraer mayor tráfico de valor a tu sitio web sin tener que invertir en plataformas de anuncios publicitarios.

Resultado orgánico para keyword: “iron maiden”

Pero no sólo basta con tener buenas prácticas, ya que un error podría hacer que tu posición en los resultados de búsqueda se vaya al tacho de la basura debido a una o varias penalizaciones. Y es que han existido situaciones en las que Google ha hecho upgrades a su buscador incorporando algoritmos como Google Penguin o Google Panda que literalmente, generaron una purga sin precedentes en la historia de la web como la conocemos.

La irrupción de ChatGPT

Llevando las cosas a un contexto más actual, ChatGPT se ha robado toda la atención de la gente y los distintos medios, ya que esta inteligencia artificial en muy poco tiempo, es capaz de responder diversas preguntas e incluso realizar tareas súper específicas con un muy buen nivel de respuesta, de hecho, pasa el Test de Turing. Por mencionar algunas pocas utilidades que posee ChatGPT, podemos encontrar:

Responder preguntas sencillas y complejas.
Creación de chatbots.
Crear letras de canciones y poemas.
Generar códigos de programación en un lenguaje que se le pida.
Planear la rutina diaria de una persona en base a objetivos específicos.
Generar contenido para blogs y portales de noticias.

ChatGPT en acción. Fuente: https://shorturl.at/jkADF

Aprovecho de hacer énfasis en la última viñeta del listado, ya que para quienes redacten contenido o para el que desee prescindir del servicio para ahorrar algo de dinero, la solución aparentemente se ve buenísima. Sin embargo, no todo lo que brilla es oro y en el peor de los casos, si Google tuviera la factibilidad de poder detectar el contenido generado por inteligencia artificial, la penalización podría dejarse caer con fuerza. ¿Es factible o no que suceda esto?… Ya vamos para allá, te lo prometo.

El Experimento

Para salir de dudas, decidí hacer un experimento en el que probamos diferentes detectores de contenido generado por IA disponibles en internet, contra 10 textos de distinto tipo, 5 generados por humanos y 5 generados por ChatGPT.

Los textos seleccionados para el estudio están escritos en inglés, ya que es el idioma universal y el objetivo es detectar tanto predicciones correctas como predicciones erróneas (falsos positivos y falsos negativos), lo anterior debido a que sería muy triste que se penalizara a escritores cuyo contenido es original y en algunos casos podría pasar. Para efectos de este experimento las métricas con las que se midió la performance de los detectores fueron las siguientes:

Accuracy: (Positivos Verdaderos + Negativos Verdaderos) / Total
Precision: (Positivos Verdaderos) / (Total predicciones positivas)
Recall: (Positivos Verdaderos) / (Positivos Reales)
F-1 Score: 2*(Precision * Recall) / (Precision + Recall)

Si tienes alguna duda de esto, aquí te dejo un post más detallado acerca de métricas de evaluación de modelos de clasificación.

Por otro lado, aprovecho de hacer publicidad gratuita a los diferentes detectores que fueron utilizados para este análisis:

En este caso en particular, vamos a plantear la hipótesis de que si existen herramientas de acceso libre en la web que son capaces de predecir si un contenido es generado por humanos o no, Google también puede hacerlo y penalizar a aquellos sitios que incurran en esta práctica no deseada. Dicho esto y aclarado lo anterior, lo que estaban estaban esperando ¡Vamos a ver qué pasó!

Resultados

Después de probar los distintos textos con sus respectivas predicciones, los resultados entregados por los detectores fueron los siguientes:

Content At Scale

Accuracy: 70%.
Precision: 66.7%.
Recall: 80%.
F-1 Score: 72.7%.

Copyleaks (Flawless Victory)

Accuracy: 100%.
Precision: 100%.
Recall: 100%.
F-1 Score: 100%.

Crossplag

Accuracy: 90%.
Precision: 66.7%.
Recall: 100%.
F-1 Score: 80%.

Sapling (Fatality)

Accuracy: 100%.
Precision: 100%.
Recall: 100%.
F-1 Score: 100%.

Content Detector AI

Accuracy: 60%.
Precision: 66.7%.
Recall: 40%.
F-1 Score: 50%.

Resumen de Resultados

A partir de los resultados obtenidos del experimento, se creó este gráfico de resumen, en donde se puede observar en términos generales la performance de los detectores. ¿Impresionante no?

Resultados arrojados para los detectores de contenido generado por IA.

Conclusiones

Los detectores de contenido generado por IA funcionaron mucho mejor de lo que se esperaba en términos de rendimiento y Google tiene el poder de fuego para poder llevar una penalización de este tipo sin problemas, ya que tiene mucha información y capacidad computacional para entrenar modelos detectores de contenido.

Para efectos del experimento, los mejores detectores fueron Copyleaks y Sapling, los cuales tuvieron un nivel de performance del 100%, es decir, no se equivocaron en ningún caso. Es importante recalcar que el hecho de que una inteligencia artificial pase el test de turing u otro test, no implica que no puedan existir modelos que sean capaces de detectar el contenido generado por ellas, ya que este tipo de modelos, se centran en la manera que la IA tiene para escribir, es decir, en su estilo y forma de redacción.

Lo más recomendable es utilizar las IA para complementar y apoyar el proceso de creación de contenido, y así hacerlo más rápido y eficiente. Recuerda que la creatividad y la originalidad siempre son bien compensados.

Como consejo adicional, no es recomendable basar tu estrategia digital sólo en SEO, ya que una penalización podría borrarte por completo del mapa. Es mucho mejor apuntar a estrategias enfocadas en la omnicanalidad, con buenas políticas de protección de los datos y con sistemas de medición que permitan tomar decisiones lo más rápido posible.

Si necesitas asesoría, capacitación o implementación de estrategias digitales en 360, en Mentalidad Web contamos con una amplia variedad de servicios. Para mayor información, visítanos en nuestro sitio web https://www.mentalidadweb.com o a nuestro correo electrónico contacto@mentalidadweb.com.

Espero sorprenderlos luego con algún otro post relacionado con marketing digital e integración de datos ¡Hasta la vista amigos míos!