

Escándalos, actualizaciones polémicas y avances técnicos redefinen la inteligencia artificial; Grok 4 destaca pero divide opiniones
Esta semana, el mundo de la inteligencia artificial ha sido sacudido por el lanzamiento de Grok 4, el modelo de IA de última generación de la empresa xAI (fundada por Elon Musk). Musk presentó a Grok 4 con bombos y platillos, calificándolo como “la IA más inteligente del mundo”, supuestamente capaz de rendir a nivel de doctorado en prácticamente cualquier disciplina.
Sin embargo, como todo lo que tiene que ver con Elon Musk, no vino sin controversias o escándalos. Esta semana exploraremos este nuevo lanzamiento de la IA, recapitularemos los últimos avances en el sector y comenzaremos a explorar el impacto de la IA en el trabajo de la gente.
EL ATAQUE DE MECHAHITLER
Quizá usted haya oído hablar de Grok de Elon Musk, especialmente si cuenta con una cuenta de X/Twitter, ya que es el modelo de IA que viene incorporado en dicha plataforma y que, cuando se le llama, interactúa con el usuario para explicar información, dar contexto sin pretexto y, en ocasiones, discutir con usuarios de manera educada y centrada, a veces, fundamentando sus argumentos con datos e información de terceros.
La crisis estalló entre el 4 y el 12 de julio de este año. El día 4, Musk anunció que habían mejorado a Grok significativamente, con nuevas instrucciones que incluían “no rehusarse a hacer afirmaciones que sean políticamente incorrectas, mientras estén bien fundamentadas” o “asumir que los puntos de vista subjetivos provenientes de la prensa [tradicional] están sesgados”. Tras esta actualización, este modelo se volvió más confrontativo, comenzó a promover opiniones sesgadas y a atacar a ciertos grupos de personas.
La situación escaló rápidamente cuando, tras una actualización destinada a hacer que el chatbot Grok fuera más «desinhibido» y políticamente incorrecto, usuarios comenzaron a formular preguntas provocativas sobre qué figura histórica del siglo XX sería la más adecuada para «lidiar con el odio anti-blanco«. En respuesta, el chatbot no solo sugirió a Adolf Hitler como opción ideal, sino que se autodenominó «MechaHitler» —un término que fusiona «mecha» (de mecha o mecánico) con el nombre del dictador nazi— y procedió a elaborar detalladamente las «medidas extremas» que Hitler hubiese tomado, incluyendo referencias implícitas a políticas genocidas y supremacistas, todo ello en un tono que aparentaba ser humorístico o satírico pero que resultó ser profundamente ofensivo y antisemita.
Te puede interesar: Grok: Nuevo lanzamiento de Elon Musk
Estos mensajes, eliminados luego, provocaron una ola de indignación. xAI tuvo que desactivar temporalmente al chatbot y publicar disculpas, afirmando que estaban eliminando las respuestas inapropiadas y ajustando el modelo para prohibir discursos de odio. En Turquía enfrenta una investigación por respuestas con lenguaje ofensivo y por amenazar e insultar al presidente Erdogan, comportamiento que se repitió en Polonia y la India. En México el revuelo fue menor; si bien criticó la gestión del gobierno actual, no perdió tiempo en burlarse de igual manera tanto de los simpatizantes del gobierno como con los de la oposición.
El escándalo tuvo consecuencias inmediatas entre la directiva de X. Al día siguiente, Linda Yaccarino, CEO de X (a quien Musk había fichado un año atrás de NBC-Universal para calmar a los anunciantes), anunció sorpresivamente su renuncia al cargo. Si bien Yaccarino no mencionó directamente a Grok en su comunicado de despedida, numerosos medios vincularon su salida a esta “rebelión” del chatbot. Al final, Musk se limitó a agradecerle por sus servicios sin aludir al escándalo, mientras comentaba con sorna en su perfil: “Nunca hay un momento aburrido en esta plataforma”.
Además, periodistas de TechCrunch y The Verge detectaron que Grok 4 (la nueva versión) al ser consultado sobre asuntos sensibles —como el conflicto israelí-palestino o el aborto— consultaba primero las publicaciones de Musk en X antes de responder, alineándose con sus posturas personales y evidenciando los riesgos de que estos modelos tomen y amplifiquen las opiniones y las posturas de los magnates que los controlan. La lección no ha pasado desapercibida en la industria, donde la seguridad y moderación de las IA es un tema cada vez más crítico.
GROK 4, LA IA MÁS AVANZADA
A pesar de la polémica, Elon Musk siguió adelante y dos días después, el 11 de julio, presentó Grok 4 como la gran apuesta de xAI en la carrera de las IA avanzadas. En una transmisión en vivo de una hora de duración, Musk y su equipo revelaron este modelo de última generación, al que describieron como un salto gigantesco respecto a las versiones previas.
Grok 4 es un modelo de lenguaje de gran tamaño (aún no se han revelado públicamente sus parámetros exactos ni su entrenamiento con detalle) diseñado para sobresalir en tareas de conversación, razonamiento complejo, matemáticas, programación y más. Musk llegó a afirmar entusiasta que Grok 4 posee “nivel de posgrado en todo”, e incluso es “mejor que un doctorado en cada materia, al menos en preguntas académicas”. Según él, este modelo de IA puede sacar puntuaciones perfectas en exámenes estandarizados como el SAT (el examen estadounidense para entrar a la universidad) y casi perfectas en los GRE (admisión a posgrado). Es decir, tendría conocimientos enciclopédicos tanto de humanidades como de ciencias exactas.
Te puede interesar: IA que resuelve tareas y entretiene: así es Baby Grok
Detrás del lanzamiento hubo mejoras técnicas importantes respecto a Grok 3. Por un lado, xAI amplió enormemente la memoria de la IA: Grok 4 acepta contextos por consulta de hasta 256 mil tokens, equivalentes a leer unas 384 páginas de texto. Además es multimodal: puede procesar imágenes junto con texto, describirlas o analizarlas. También incluye funciones de búsqueda en internet en tiempo real y capacidades de generación de código informático. Musk destacó una característica llamada “agentic coding”, mediante la cual Grok 4 podría “escribir, depurar y ejecutar código de forma autónoma para resolver problemas”, acercándose al concepto de agente IA.
Por último, xAI anunció dos versiones para distintos públicos: la Grok 4 estándar (el modelo principal, equilibrado en desempeño y costo) y Grok 4 Heavy, una variante aún más grande y optimizada para labores especialmente difíciles en investigación, matemáticas y otros dominios académicos de alto nivel, que básicamente consiste en poner a un grupo de Groks 4 a discutir y trabajar para llegar a una mejor respuesta. La suscripción al servicio reflejó esta diferenciación: acceder a Grok 4 tiene un costo de $30 USD mensuales, mientras que el paquete premium “SuperGrok Heavy” cuesta $300 USD al mes, siendo una de las suscripciones más caras de servicios de IA entre las alternativas más populares.
BENCHMARKS: ¿CÓMO SE MIDE LA “INTELIGENCIA” DE UNA IA?
Para entender por qué Musk proclama a Grok 4 como la IA más avanzada, hay que fijarse en las pruebas de evaluación (benchmarks) con los que se comparan las IA. Un benchmark en este contexto es un conjunto de tests estandarizados diseñados por expertos para medir y contrastar las capacidades de distintos modelos en tareas específicas.
Son como exámenes estandarizados para IA que abarcan preguntas o desafíos muy variados, desde resolver problemas matemáticos, programar código, hacer preguntas de cultura general o razonar lógicamente en múltiples pasos. La idea es obtener métricas numéricas (porcentajes de aciertos, puntuaciones) que permitan ver cuál modelo es “más capaz” en ciertos dominios.
Los benchmarks más comunes cubren distintas áreas del “intelecto” artificial. Por ejemplo, MMLU (Massive Multitask Language Understanding) es un test con preguntas de opción múltiple en 57 materias académicas, que van desde historia, derecho o medicina hasta informática y matemáticas; sirve para medir cuánto sabe el modelo de múltiples campos del conocimiento a nivel universitario.
Otros benchmarks, como HumanEval o MBPP, evalúan la capacidad de escribir código: le plantean a la IA problemas de programación y verifican si el código generado es correcto. Existen pruebas específicas de razonamiento lógico y abstracto; destaca el ARC-AGI (Abstraction and Reasoning Corpus), un desafío creado para probar si una IA puede resolver problemas de patrones y analogías que no se pueden obtener memorizando datos, similares a pruebas de coeficiente intelectual.
Encuentra contenidos similares en: Apuntes de datos
Y en el terreno de las matemáticas competitivas, hay benchmarks basados en exámenes de olimpíadas de matemáticas o concursos como el HMMT (Harvard–MIT Math Tournament), diseñados para exigir demostraciones paso a paso y resolución creativa de problemas. Destaca especialmente el “Humanity`s Last Exam” (HLE – El último exámen de la humanidad), el cual es un examen de 2,500 preguntas que mezclan texto e imágenes y que ha sido elaborado por 1,000 expertos con doctorado en más de 100 disciplinas del conocimiento humano. En suma, estos tests buscan empujar a las IA más allá de “completar frases”, obligándolas a demostrar razonamiento complejo y conocimiento profundo.
Ahora bien, en esta ocasión, Grok 4 sobresalió en muchos de estos benchmarks, según los datos presentados por xAI. El equipo de Musk mostró gráficas donde Grok 4 superaba a modelos líderes de la competencia –como GPT-4 de OpenAI (identificado en los resultados como “GPT-4o”) o Gemini 2.5 Pro de Google– en varias pruebas difíciles. Por ejemplo, en Humanity’s Last Exam, Grok 4 habría obtenido alrededor de 25.4% de aciertos sin ayuda externa. Puede sonar bajo, pero ese puntaje se equipara a los reportados para los mejores modelos de Google y de OpenAI en circunstancias similares.
Además, al permitirle usar herramientas (por ejemplo búsquedas web o ejecutar código de Python durante el test), Grok 4 subió su desempeño en HLE a 38.6%, y con la versión potenciada Grok 4 Heavy alcanzó 44.4%. Este resultado entusiasma a xAI porque se acerca a resolver correctamente casi la mitad del examen.
Resultados de Grok4 en los benchmarks.
Fuente: xAI
Otro indicador citado fue el ARC-AGI. En este, Grok 4 aparece como el modelo con mejor desempeño público registrado en la segunda versión (ARC-AGI-2) de este benchmark. La fundación ARC Prize, que administra estas pruebas, confirmó que Grok 4 ocupó el primer puesto tras repetir las evaluaciones con un conjunto de problemas que xAI no había visto de antemano (para descartar trampas). En resumen, sobre el papel, Grok 4 se coronó en varios de los rankings de IQ artificial.
¿Trampa o genio?
No todos están convencidos de que Grok 4 sea realmente tan superior a sus rivales en usos cotidianos, a pesar de sus impresionantes resultados. Algunos expertos han expresado preocupación de que xAI pudiera haber sobreajustado (overfitting) el modelo a estas pruebas.
En aprendizaje automático, sobreajuste significa que el sistema memoriza las respuestas del examen en lugar de aprender las habilidades subyacentes, dando resultados engañosamente altos en la evaluación pero flojos fuera de ella. Y, en efecto, cuando Grok 4 comenzó a ser utilizado por usuarios reales (yo incluído ☺), estos reportaron que su desempeño “no era para tanto” y que fallaba en casos de uso en el mundo real.
En otras palabras, su dominio sobre ciertos exámenes no se traducía en una ventaja aplastante cuando se le pedía, por ejemplo, escribir un ensayo creativo o depurar un programa novedoso. Algunos sospechan que xAI afinó tanto a Grok 4 en los benchmarks que resultó en algo así como cuando un estudiante saca 10 en los exámenes porque se los sabe de memoria, pero no le va igual frente a preguntas nuevas. A pesar de estas sospechas, Grok 4 representa un avance técnico notable y marca un nuevo estándar que sus rivales tendrán que igualar en los próximos meses.
LA EVOLUCIÓN EN EL SECTOR DE LA IA
El lanzamiento de Grok 4 llega en un momento de feroz competencia en la industria de la IA generativa. Hasta hace poco, OpenAI (con GPT-4) y Google (con su modelo Gemini) eran vistos como los punteros en esta carrera hacia la AGI (Inteligencia artificial general), la superinteligencia capaz de realizar cualquier tarea intelectual de la que sea capaz un ser humano.
Desde el último artículo en el que exploramos este tema (IA 2025, 11 de febrero del 2025) han cambiado muchas cosas; las herramientas con IA han sido más adoptadas por la gente, especialmente por oficinistas y estudiantes que las usan para facilitar sus labores diarias. Salieron nuevos modelos para la generación de video, como Veo 3 de google, que ya generan videos con diálogos y sincronización de labios, o asistentes de programación, como Cursor, Gemini CLI o Claude Code, que, a través del vibe coding, permiten a los programadores pasar rápidamente de las ideas al prototipo.
Los modelos actuales pasaron a tener capacidades multimodales, pudiendo procesar texto, imágenes, videos y voz, además de incorporar “razonamiento”, mejorando sus capacidades en campos como las matemáticas y la programación. Han avanzado los modelos Open-source: modelos de lenguaje que pueden ejecutarse de manera local en computadoras propias, permitiendo alternativas fuera del control absoluto de las grandes empresas. La IA ya está presente en nuestros celulares, en los programas de edición de fotos y videos, en las redes sociales, en las búsquedas de internet y hasta en el programa que estoy usando para escribir este artículo.
Encuentra este y otros contenidos en nuestro Semanario A Tiempo Ed. 159
El liderazgo de Grok 4 en esta carrera será algo temporal en este ciclo en el que cada mes una nueva empresa toma la delantera en el desarrollo de estas tecnologías. Tanto Google con Gemini, OpenAI con el próximo lanzamiento de GPT-5 y su fuerte inversión en infraestructura (proyecto Stargate), Meta con su modelo abierto LlaMA 3, Anthropic con su modelo Claude, los Chinos con DeepSeek o los franceses con Mistral son candidatos fuertes para reclamar el primer lugar en esta tabla de posiciones.
Todos estos desarrollos en IA generativa no ocurren en el vacío: prometen transformar numerosos sectores laborales. Por un lado, estas IA que son cada vez más capaces podrían convertirse en asistentes universales que potencien la productividad de profesionales en áreas como la programación, la investigación científica, la medicina o la educación. Por otro lado, existe el temor de que muchas funciones queden directamente automatizadas y se genere un desplazamiento de personal en ciertos empleos.
Sectores enteros —desde call centers hasta estudios legales— están evaluando cuánto del trabajo intelectual puede delegarse a la IA sin pérdida de calidad. En varios sectores, como el tecnológico o el de los videojuegos, ya comienzan a presentarse despidos. La carrera por la IA no es solo entre empresas, es también una carrera de la humanidad por adaptarse a su propia creación. Nos esperan tiempos interesantes, y es crucial estar informados y preparados. Sobre esto hablaremos en próximas entregas.
ATiempo.Tv es el primer medio de comunicación nativo digital e independiente en Coahuila, caracterizado por su compromiso y responsabilidad de contribuir a la sociedad; brindando información verificada de manera profesional, ética y confiable. Es por eso que te invitamos a seguirnos en nuestras redes sociales para que tengas acceso a las noticias más relevantes a nivel local, nacional e internacional.

