Google AI20 de feb de 2026

Gemini 3 Pro Preview

gemini-3-pro-preview

84.5

Prog.

—

Writing

89.0

Strategy

—

Prompt Eng.

—

Brain.

78.6

Score por categoría

Evaluaciones

20/2/2026

84.5

Brain.

1 prueba

78.6

B1.2features

78.6

⏱ 34.93s↑ 364 tokens↓ 1,614 tokens💵 $0.00852

Respuesta del modelo

Este es un escenario de "emergencia roja". Un churn del 28% mensual significa que estás renovando tu base de clientes completa cada 3-4 meses. Matemáticamente, el negocio morirá pronto si no se arregla la retención.

Aquí tienes el diagnóstico y el plan de acción para tu equipo.

1. El Diagnóstico: ¿Cuál es el problema real?

El problema no es el precio ni la falta de funcionalidades avanzadas. El problema es que tu producto impone una "Carga Cognitiva y Operativa" mayor que la solución actual (Excel/Papel).

Para un comerciante minorista en México (que suele ser el dueño y quizás un empleado), el tiempo es el recurso más escaso.

Fricción de Entrada: La "Carga manual producto por producto" es una sentencia de muerte. Nadie va a migrar 500 SKUs manualmente. Es una barrera de entrada infranqueable.
Fricción de Mantenimiento: Si no se conecta con el Punto de Venta (POS), cada venta requiere doble captura (cobrar en Clip y descontar en tu SaaS). Si se olvidan de descontar una venta, el inventario en el SaaS deja de ser real. En el momento en que el inventario digital no coincide con el físico, el usuario pierde la confianza y abandona.
Fricción de Delegación: Si la interfaz es compleja, el dueño no puede confiar en que su empleado de mostrador la use sin errores. Si el empleado no la usa, el dueño tiene que trabajar doble.

Conclusión: Tu SaaS actualmente crea trabajo en lugar de eliminarlo. El churn ocurre porque vuelven a Excel, donde al menos el "trabajo manual" es flexible y rápido.

2 y 3. Las 8 Ideas Priorizadas (Impacto vs Esfuerzo)

Teniendo en cuenta que tienes solo 2 devs y 1 diseñador part-time, debemos enfocarnos en usabilidad y flujo de datos, no en "features bonitos".

Prioridad ALTA (Hacer YA)

1. Importador Masivo Inteligente (Excel/CSV)

Ataca: "La planilla me sale más rápido", "Carga manual producto por producto".
Hipótesis: Si reducimos el tiempo de configuración inicial de 3 días a 10 minutos, el usuario verá valor inmediato antes de frustrarse.
Esfuerzo: M (Requiere validación de datos y manejo de errores, pero es vital).

2. "Modo Excel" (Edición en Grilla)

Ataca: "Volví a mi planilla de Excel".
Hipótesis: Los usuarios aman Excel por su velocidad. Permite editar stock, precios y nombres directamente en una tabla (click en la celda y editar) sin tener que abrir una ficha de producto, guardar y volver atrás. Reduce los clics en un 80%.
Esfuerzo: S/M (Librerías de UI de tablas editables aceleran esto).

3. Integración Unidireccional con Clip/Conekta (Webhook)

Ataca: "No se conecta con mi punto de venta".
Hipótesis: Automatizar la baja de stock. Cuando cobran en Clip, el SaaS recibe el webhook y descuenta el ítem automáticamente. Esto elimina la doble captura y mantiene el inventario real.
Esfuerzo: M/L (Depende de la API de Clip, pero es la feature más importante para retención a largo plazo).

4. "Modo Kiosco" (Interfaz simplificada para empleados)

Ataca: "Mi empleado no supo cómo usarlo".
Hipótesis: Una vista donde el empleado solo ve botones grandes: "Entrada de Mercadería", "Salida/Venta" y "Buscar Precio". Sin acceso a costos, reportes ni configuraciones. Elimina la necesidad de capacitación.
Esfuerzo: S (Es esconder features existentes y simplificar CSS).

Prioridad MEDIA (Hacer después de estabilizar)

5. Escáner de Código de Barras vía Web (Cámara del celular)

Ataca: "La planilla es más rápida", "Mi empleado no supo usarlo".
Hipótesis: Usar la cámara del celular/tablet para escanear y encontrar el producto o descontar stock hace que el sistema se sienta "profesional" y mucho más rápido que buscar en Excel con CTRL+F.
Esfuerzo: M (Librerías de JS para acceso a cámara funcionan bien hoy en día).

6. Reporte Semanal por WhatsApp (No Email)

Ataca: "El precio no vale lo que obtengo".
Hipótesis: En México, el email se ignora, WhatsApp es rey. Enviar un resumen proactivo: "Esta semana vendiste $X, y te quedan pocas unidades de estos 3 productos". Hace tangible el valor de los $45/mes.
Esfuerzo: M (Integración con API de WhatsApp Business).

7. Historial de Cambios (Audit Log simple)

Ataca: "Mi empleado no supo usarlo" (Subtexto: Desconfianza en el empleado).
Hipótesis: Los dueños temen al "robo hormiga". Saber quién modificó el stock y a qué hora da una seguridad que Excel no puede dar. Justifica el precio vs. una planilla gratis.
Esfuerzo: S (Guardar logs en base de datos y mostrarlos en una lista).

8. Generador de Pedidos a Proveedores (PDF)

Ataca: "El precio no vale lo que obtengo".
Hipótesis: Cerrar el ciclo. Si ya sabes qué falta, permite generar un PDF con un clic para enviárselo al proveedor por WhatsApp. Ahorra tiempo administrativo real.
Esfuerzo: S/M (Generación de documentos simple).

4. La Idea que NO haría (La trampa)

NO haría: Una App Nativa (iOS / Android) para subir a las Stores.

Por qué suena atractiva: Los clientes suelen pedir "la app" y da una sensación de prestigio y solidez.
Por qué es un error fatal ahora:
1. Costo de oportunidad: Tienes 2 developers. Si se ponen a desarrollar en React Native/Flutter y lidiar con las aprobaciones de Apple/Google, no harán las integraciones ni el importador de Excel.
2. Mantenimiento: Mantener dos bases de código (Web + App) con un equipo tan chico paralizará tu velocidad de iteración.
3. Realidad: Una Progressive Web App (PWA) bien hecha funciona perfecto en el navegador del celular del comerciante. El problema del churn no es que "no tienen un ícono en el home", es que el producto es difícil de usar. Arregla la usabilidad en la web móvil primero.

Criterios evaluados

Calidad del 'qué NO hacer'15%· llm_judge

59.5

claude-opus-4-655

Descarta la app nativa, que es una trampa válida pero relativamente obvia y no está directamente conectada con los exit interviews (ningún cliente pidió una app nativa). Una anti-recomendación más potente habría sido descartar la integración POS (tentadora porque 2 clientes la pidieron explícitamente) o bajar el precio, argumentando con los datos que 2/12 no justifica el esfuerzo L frente al problema de 5/12. La justificación es correcta pero genérica, no anclada en los datos específicos del caso.

gpt-5.2-2025-12-1164

Descartar una app nativa es una tentación real y la justificación por costo de oportunidad es sólida, pero no está tan anclada a los exit interviews como podría. Más alineado a los datos habría sido descartar “bajar precio” o incluso posponer integraciones POS (2/12) frente a arreglar el flujo tipo Excel (5/12).

Especificidad de las features20%· llm_judge

84.5

claude-opus-4-685

Las features son notablemente concretas y accionables: 'edición en grilla click-en-celda', 'escáner de código de barras vía cámara con librerías JS', 'reporte semanal por WhatsApp con texto específico', 'PDF de pedido a proveedor'. Las estimaciones de esfuerzo son realistas para el equipo disponible y mencionan tecnologías específicas (webhooks, PWA, librerías de tablas editables). Algunas como la integración WhatsApp Business podrían subestimar la complejidad, pero en general son implementables.

gpt-5.2-2025-12-1184

Las propuestas son concretas (importador CSV con validaciones, grilla editable, kiosco con permisos, escáner por cámara, audit log, PDF a proveedores) y en general accionables. Algunas estimaciones son optimistas (WhatsApp Business API y la integración POS pueden ser más L de lo sugerido), pero en conjunto son implementables por el equipo.

Lógica de priorización basada en datos30%· llm_judge

74.5

claude-opus-4-675

Las 4 features de prioridad alta atacan razonablemente los problemas principales: importador masivo y modo Excel atacan el 5/12, modo kiosco ataca el 3/12. Sin embargo, la integración con Clip/Conekta está en prioridad ALTA (#3) a pesar de ser solo 2/12, lo cual contradice la lógica de priorizar por peso de exit reasons. La respuesta no usa explícitamente los números (5>3>2=2) como argumento para ordenar, y mezcla la lógica de frecuencia con intuición sobre retención a largo plazo.

gpt-5.2-2025-12-1174

La priorización en general ataca primero Excel/velocidad (importador, grilla) y luego adopción por empleados (kiosco), lo cual coincide con 5/12 y 3/12. Sin embargo, mete la integración con POS en prioridad alta sin justificar con los conteos (2/12) ni explicar explícitamente por qué compite/ no compite con resolver el problema mayoritario.

Diagnóstico del problema real35%· llm_judge

87.0

claude-opus-4-688

Identifica correctamente que el problema central es la fricción operativa vs. Excel: el producto crea trabajo en lugar de eliminarlo. Desglosa bien las tres fricciones (entrada, mantenimiento, delegación) y explícitamente descarta el precio como causa raíz. Podría haber sido más explícito en cuantificar '5/12 es la señal dominante' y argumentar más directamente por qué bajar el precio sería un error, pero el diagnóstico de 'carga cognitiva y operativa mayor que la solución actual' es preciso y bien articulado.

gpt-5.2-2025-12-1186

Identifica bien la causa raíz como fricción/costo de cambio vs Excel y que el producto hoy “crea trabajo”, conectándolo con carga manual, doble captura e imposibilidad de delegar. También descarta explícitamente que el precio sea el problema principal, aunque podría anclar más la argumentación en los conteos 5/12 vs 2/12.

Writing

3 pruebas

89.0

W4.1social-media

89.1

⏱ 14.08s↑ 302 tokens↓ 163 tokens💵 $0.00119

Respuesta del modelo

Aquí tienes una versión directa, sobria y lista para publicar, respetando todas tus restricciones:

La mayoría de las empresas que contratan consultores de IA terminan con un chatbot montado sobre ChatGPT y a eso le llaman transformación digital.

El problema no es la tecnología, es que nadie en la empresa entiende qué problema están resolviendo realmente.

Nosotros siempre arrancamos preguntando: "¿Qué hace tu equipo hoy que no debería hacer un humano?". Esa sola pregunta filtra el 80% de los proyectos que no tienen sentido.

Lo que sí funciona es automatizar tareas repetitivas concretas, no objetivos abstractos como "mejorar la experiencia del cliente".

Los proyectos de IA que fallan casi siempre lo hacen por falta de datos limpios, no por limitaciones del modelo.

Criterios evaluados

Fidelidad al contenido original35%· llm_judge

96.5

claude-opus-4-695

Todos los cinco puntos están presentes sin agregar ideas nuevas ni cambiar la posición. La única observación menor es que es casi una transcripción literal de los bullet points, lo cual cumple la fidelidad pero podría haber integrado mejor el contenido en un formato de post más cohesivo.

gpt-5.2-2025-12-1198

Incluye todos los puntos del original (chatbot≠transformación, problema mal definido, pregunta filtro, foco en tareas concretas vs abstractas, y fallas por datos). No agrega ideas nuevas; solo una mínima reescritura (“consultores de IA”) sin cambiar la posición.

Gramática y ortografía10%· llm_judge

97.5

claude-opus-4-698

Gramática y ortografía impecables en español. Sin errores detectables.

gpt-5.2-2025-12-1197

Ortografía y gramática correctas. Detalle menor de estilo: “consultores de IA” vs “consultores de IA” es consistente; la puntuación y comillas están bien.

No suena a LLM15%· llm_judge

69.0

claude-opus-4-660

El post es esencialmente una reformulación casi textual de los bullet points originales, lo cual lo hace sonar un poco mecánico y estructurado de forma muy predecible (punto por punto, párrafo por párrafo). Un humano probablemente conectaría las ideas de forma más orgánica, con alguna transición o anécdota implícita. La frase introductoria 'Aquí tienes una versión directa, sobria y lista para publicar' es claramente de LLM.

gpt-5.2-2025-12-1178

El cuerpo suena bastante humano y tajante, pero la frase introductoria meta (“lista para publicar, respetando todas tus restricciones”) es típica de LLM y debería eliminarse. La estructura en bloques es algo mecánica, aunque aceptable.

Voz correcta, sin clichés de LinkedIn40%· llm_judge

88.0

claude-opus-4-688

No hay clichés de LinkedIn, no hay emojis, no hay exclamaciones, no hay preguntas retóricas al final ni CTA. Termina con una observación. Está dentro de las 180 palabras. Suena a fundador técnico hablando directo. Sin embargo, la estructura de párrafos separados uno por punto se siente ligeramente formulaica, como una lista disfrazada de post, más que un texto con flujo natural de alguien escribiendo desde su experiencia.

gpt-5.2-2025-12-1188

Mantiene primera persona, tono directo y sin clichés típicos ni engagement bait; termina en una afirmación. Lo único que resta es la frase introductoria “Aquí tienes…” que no sería parte de un post de LinkedIn y suena a respuesta de asistente.

W3.1proposals

83.0

⏱ 17.08s↑ 282 tokens↓ 236 tokens💵 $0.00153

Respuesta del modelo

Aquí tienes una propuesta directa y estructurada, siguiendo el tono y los requisitos solicitados:

Nuestra metodología

Trabajamos con un proceso de cuatro etapas diseñado para reducir la incertidumbre y garantizar resultados desde el inicio:

Discovery (1 semana): Entrevistamos a su equipo y mapeamos los procesos actuales. El objetivo es distinguir las mejoras inmediatas (quick wins) de los desarrollos a largo plazo para priorizar el impacto.
Prototipado (2 semanas): Construimos una versión funcional utilizando sus datos reales, no mockups estáticos. Necesitamos demostrar un ROI tangible y validar la utilidad de la herramienta antes de comprometer mayor presupuesto.
Iteración: Realizamos 1 o 2 ciclos de ajuste antes de ir a producción. Mantenemos total transparencia: ustedes ven, prueban y validan el producto en cada etapa del desarrollo.
Soporte incluido: Garantizamos la estabilidad operativa. Todos nuestros proyectos incluyen 30 días de soporte post-lanzamiento sin costo adicional para asegurar que la implementación sea exitosa.

Criterios evaluados

Cobertura del contenido especificado30%· llm_judge

95.0

claude-opus-4-695

Cubre los 4 puntos en el orden correcto con todos los detalles clave: discovery 1 semana con entrevistas y mapeo, prototipo 2 semanas con datos reales y ROI tangible, 1-2 ciclos de iteración con visibilidad del cliente, y 30 días de soporte incluido. Solo pierde un poco porque la mención de 'entrevistas con el equipo del cliente' podría ser más explícita en cuanto a que son entrevistas con el equipo del cliente (dice 'su equipo', que es correcto pero ligeramente menos directo).

gpt-5.2-2025-12-1195

Cubre los 4 puntos en el orden pedido, con duraciones (1 semana discovery, 2 semanas prototipo) y soporte de 30 días. Solo faltó explicitar con más claridad “identificación” de quick wins vs. largo plazo (aunque se infiere) y que el discovery dura exactamente una semana (está, pero podría estar más integrado).

Longitud y gramática15%· llm_judge

85.0

claude-opus-4-678

El cuerpo de la sección tiene aproximadamente 130 palabras, dentro del límite de 180. Sin errores gramaticales u ortográficos. Se penaliza porque incluye un párrafo introductorio fuera de la sección ('Aquí tienes una propuesta directa y estructurada...') que no debería estar en un entregable profesional, aunque el contenido en sí cumple con el límite.

gpt-5.2-2025-12-1192

Está dentro del límite de 180 palabras y no presenta errores gramaticales u ortográficos relevantes. El formato es prolijo y legible.

No suena a LLM20%· llm_judge

65.0

claude-opus-4-668

La estructura es muy limpia y predecible, típica de outputs de LLM. La frase introductoria antes de la lista ('Trabajamos con un proceso de cuatro etapas diseñado para...') es una construcción muy común en respuestas de AI. Además, el texto incluye un preámbulo innecesario ('Aquí tienes una propuesta directa y estructurada...') que es un patrón clásico de LLM y no debería estar en un entregable profesional.

gpt-5.2-2025-12-1162

Suena relativamente pulido pero incluye señales típicas de LLM como “propuesta directa y estructurada” y construcciones genéricas (“diseñado para reducir la incertidumbre y garantizar resultados”). Aun así, el contenido es concreto y operativo.

Fidelidad a la voz institucional35%· llm_judge

82.0

claude-opus-4-682

Usa primera persona plural consistentemente, no tiene jerga de startup ni frases vacías evidentes. Es directa y orientada a resultados. Sin embargo, 'garantizar resultados desde el inicio' y 'garantizamos la estabilidad operativa' rozan lo corporativo/promesa vacía. 'Necesitamos demostrar' es un giro interesante y honesto. El tono general es correcto pero podría ser un poco más conversacional para una boutique.

gpt-5.2-2025-12-1182

Mantiene tono claro y orientado a resultados, sin jerga de startup ni frases vacías típicas. Sin embargo, mezcla ‘Trabajamos’ con ‘Entrevistamos a su equipo’ y usa “ustedes”, lo que se aleja un poco de una primera persona plural consistente y del registro uniforme.

W6.1translation

94.8

⏱ 17.05s↑ 317 tokens↓ 213 tokens💵 $0.00146

Respuesta del modelo

Here is the translation, adapted to sound like a natural, technical blog post written by a senior developer:

When two requests arrive simultaneously and attempt to modify the same record, you’re facing a concurrency issue. The go-to solution is optimistic locking: instead of locking the record while you modify it, you capture the current state’s version. Then, right before writing, you verify that no one else has changed it in the meantime.

In TypeORM, this is implemented using a version field on the entity. The UPDATE query filters not only by id but also by version = :currentVersion. If the operation affects 0 rows, someone else won the race—you simply throw an error and have the client retry.

What tutorials often overlook, however, is when not to use optimistic locking. In high-contention scenarios (where many users are constantly modifying the same record), you’ll end up with a cascade of retries that can perform even worse than a pessimistic lock.

Criterios evaluados

Precisión de la traducción40%· llm_judge

93.5

claude-opus-4-695

The translation faithfully preserves all the original meaning, including the TypeORM example, the concurrency explanation, and the caveat about high contention. Minor nuance: 'capture the current state's version' slightly reframes 'guardás una versión del estado actual' but the meaning is effectively equivalent. All concepts are present and correctly conveyed.

gpt-5.2-2025-12-1192

Preserva muy bien el significado y la estructura del original, incluyendo el flujo: problema de concurrencia → optimistic locking → verificación por versión → error/retry → cuándo no usarlo. Hay pequeñas licencias (“capture the current state’s version”, “you simply throw an error”) que no cambian el sentido pero agregan matiz no explícito.

Gramática y ortografía en inglés10%· llm_judge

98.0

claude-opus-4-698

The English is grammatically flawless throughout. Sentence structure, punctuation (including the em dash), and spelling are all correct.

gpt-5.2-2025-12-1198

Gramática y ortografía impecables; puntuación y estilo correctos. Solo detalles de estilo debatibles (p. ej., “current state’s version”) pero no son errores.

Inglés natural (no traducción literal)35%· llm_judge

94.5

claude-opus-4-695

The text reads like it was originally written in English by a senior developer. Phrases like 'the go-to solution,' 'someone else won the race,' and 'what tutorials often overlook' are natural and idiomatic. The direct, pedagogical tone is well maintained. The use of 'however' and the sentence restructuring in the last paragraph feel organic.

gpt-5.2-2025-12-1194

Reads like a senior-dev technical blog post with clear, idiomatic phrasing (e.g., "you’re facing a concurrency issue," "go-to solution," "won the race"). Tone remains direct and explanatory without awkward literal constructions.

Terminología técnica correcta15%· llm_judge

97.0

claude-opus-4-698

All technical terms are correctly handled: optimistic locking, version field, UPDATE, contention, pessimistic lock, retries. The TypeORM example is preserved exactly with proper code formatting. 'High-contention scenarios' is the standard English term.

gpt-5.2-2025-12-1196

Usa correctamente optimistic locking, `version` field, `UPDATE`, high contention, retries y pessimistic lock. El ejemplo de TypeORM (id + version = :currentVersion, 0 rows) está preservado sin alteraciones relevantes.