Volver al blog
IALLMsGEOReddit

¿Cómo decide la IA qué recomendar? Dentro de las respuestas de los LLMs

¿Qué pasa cuando alguien le pide a ChatGPT o Claude una recomendación de herramienta? Aprende cómo los LLMs obtienen sus respuestas y por qué Reddit juega un rol central.

·6 min de lectura

Cómo los modelos de lenguaje generan respuestas

Cuando le pedís a ChatGPT o Claude que te recomiende una herramienta, no está ocurriendo ninguna búsqueda en una base de datos en vivo de reseñas de software. El modelo está haciendo algo fundamentalmente diferente: está buscando patrones a través de miles de millones de secuencias de texto que procesó durante el entrenamiento, y luego genera la continuación estadísticamente más plausible de tu mensaje.

Entender esta distinción es la base de todo lo que sigue en este artículo. Los LLMs no recuperan respuestas — las reconstruyen a partir de patrones internalizados. Y esos patrones provienen de un conjunto específico de datos de entrenamiento sobre el que vos, como fundador de SaaS, podés razonar e influir.

Con qué se entrenan los LLMs

Los corpus de entrenamiento de los modelos de lenguaje de gran escala no son secretos — los principales proveedores de modelos han publicado investigaciones describiendo sus fuentes de datos. La mezcla típica para un modelo de frontera incluye:

  • Common Crawl. Una instantánea masiva y actualizada continuamente de la web pública. Es la fuente individual más grande para la mayoría de los modelos, aunque es ruidosa — incluye spam, páginas de baja calidad y contenido duplicado que se filtra mediante varios procesos de limpieza.
  • Wikipedia y fuentes enciclopédicas. Altamente estructuradas, densas en información y escritas por personas que se preocupan por la exactitud. Estas fuentes tienen una influencia desproporcionada en relación con su tamaño en los resultados del modelo.
  • Libros y texto de formato largo. Aportan patrones de razonamiento coherente y vocabulario específico de cada dominio que el contenido web de formato corto no puede proveer.
  • Reddit (a través de Pushshift y alianzas directas). Décadas de discusiones en hilo, recomendaciones entre pares e informes de experiencia directa — todo en lenguaje natural y conversacional. Reddit ha sido una parte explícita de los datos de entrenamiento de múltiples modelos de frontera.
  • Stack Overflow y GitHub. Pares de preguntas y respuestas técnicas y código, especialmente relevantes para productos SaaS orientados a desarrolladores.

Por qué Reddit está sobrerrepresentado en las respuestas de IA

De todas las fuentes anteriores, Reddit merece atención especial por una razón práctica: cuando las personas le preguntan a los asistentes de IA sobre herramientas de software, las respuestas se alinean de manera desproporcionada con las discusiones de Reddit.

Hay razones estructurales para esto. Las discusiones de Reddit están escritas por humanos con experiencia en un dominio que hablan directamente a otros humanos con el mismo problema. Un hilo titulado "¿Qué CRM usás para un equipo de ventas de 5 personas?" es exactamente el tipo de pregunta que un comprador le hace a un asistente de IA — y las respuestas en ese hilo son exactamente el tipo de recomendaciones entre pares que tienen valor durante el entrenamiento.

Wikipedia describe qué es un CRM. Un hilo de Reddit describe qué CRMs específicos adoptaron personas reales, cuáles probaron y descartaron, y por qué. Esa capa de conocimiento experiencial y con opinión es lo que los LLMs sacan a la superficie cuando hacen recomendaciones de productos. También es notoriamente difícil de falsificar — la comunidad rápidamente vota negativo las publicaciones promocionales que suenan a marketing, lo que significa que el contenido que sobrevive es de una calidad y autenticidad inusualmente altas.

El proceso de recomendación

Cuando un usuario escribe "¿cuál es la mejor herramienta para gestionar calendarios editoriales?" en ChatGPT, el modelo no ejecuta una búsqueda. Recurre a representaciones comprimidas de cada discusión que procesó donde apareció un lenguaje similar. Si tu producto fue mencionado de forma consistente y positiva en hilos de Reddit sobre herramientas de calendarios editoriales — especialmente en hilos donde el autor original describía un problema específico que tu producto resuelve — el modelo aprendió esa asociación durante el entrenamiento.

Si tu producto nunca fue mencionado en esos hilos, o solo fue mencionado en publicaciones de baja participación que quedaron enterradas, el modelo tiene poca o ninguna base para incluirte en su respuesta. El proceso de recomendación es, en efecto, una auditoría de contenido de largo plazo de las comunidades de pares más confiables de internet.

Esto crea un imperativo estratégico claro: tu producto necesita aparecer en las discusiones de Reddit donde tu perfil de cliente ideal hace preguntas. No de manera spam o autopromocional — eso se elimina rápidamente y juega en tu contra — sino como un participante genuino en conversaciones donde tu herramienta es realmente la respuesta correcta.

Cómo hacer ingeniería inversa de las recomendaciones de IA

Una de las formas más rápidas de entender tu posición actual en la capa de recomendaciones de IA es preguntarle directamente. Abrí ChatGPT, Claude o Gemini y hacé las preguntas que haría tu cliente ideal: "¿Cuál es la mejor herramienta para X?", "¿Qué plataformas usan los fundadores para Y?", "¿Cuáles son las alternativas a [competidor]?"

Anotá qué productos se nombran, en qué orden y con qué framing. Luego hacé preguntas de seguimiento: "¿Por qué recomendás eso?" o "¿De dónde aprendiste eso?" El modelo a menudo mostrará el tipo de fuente en la que se basa — discusiones de comunidades, sitios de reseñas, publicaciones de blog. Eso te da un mapa de dónde necesitás construir presencia.

Si tu producto no aparece en ninguna de esas respuestas, eso no es un reflejo de la calidad de tu producto — es un reflejo de tu distribución en los datos de entrenamiento. Y la distribución en los datos de entrenamiento es algo sobre lo que podés actuar.

Cómo asegurarte de que tu producto sea mencionado

La estrategia práctica para mejorar la descubribilidad en IA es estar genuinamente presente en las comunidades en las que los LLMs confían. Específicamente:

  • Encontrá los hilos de Reddit donde personas de tu mercado objetivo hacen preguntas que tu producto responde. Estas son las conversaciones de mayor apalancamiento en las que participar.
  • Contribuí de forma sustancial. Respondé la pregunta completamente, mencioná tu producto donde sea relevante y honesto, y dejá que la participación de la comunidad haga el resto.
  • Buscá hilos que ya estén indexados por motores de búsqueda y recibiendo tráfico — estos son los que tienen más probabilidades de haber sido incluidos en datos de entrenamiento y de ser referenciados por asistentes de IA en el futuro.

Herramientas como Reddily te ayudan a encontrar las publicaciones específicas de Reddit que son candidatas probables para influir en las respuestas de IA en tu categoría — para que puedas participar en esas conversaciones y asegurarte de que tu producto sea mencionado en los lugares que más importan para el entrenamiento y la recuperación de los LLMs.

El futuro: datos de entrenamiento y búsqueda en tiempo real juntos

El panorama está evolucionando rápidamente. Los productos de IA más nuevos — Perplexity, SearchGPT y Gemini con búsqueda en vivo habilitada — combinan conocimiento entrenado con recuperación web en tiempo real. Esto significa que dos cosas importan simultáneamente: tu presencia en datos de entrenamiento históricos (que influye en modelos sin búsqueda en vivo) y tu presencia en contenido indexado actualmente con alta participación (que influye en modelos que recuperan resultados en vivo).

Reddit se encuentra en la intersección de ambos. Los hilos más antiguos de Reddit formaron los datos de entrenamiento. Los nuevos hilos de Reddit están siendo indexados activamente y recuperados por herramientas de búsqueda de IA. Construir una presencia consistente en comunidades relevantes de Reddit es una de las pocas estrategias que rinde en ambas dimensiones.

Los fundadores que entiendan esta dinámica primero tendrán una ventaja significativa. El descubrimiento impulsado por IA no está reemplazando al SEO — está agregando una nueva capa encima que opera con reglas diferentes y recompensa comportamientos distintos. La buena noticia es que esos comportamientos — participación genuina, respuestas sustanciales, confianza de la comunidad — son exactamente el tipo de marketing que construye equidad de marca real al mismo tiempo.