#DerechoPenal
#InteligenciaArtificial
#Perú
#TomaDeDecisiones
marzo 25, 2026

Cuando un juez se sienta a decidir si una persona debe ser condenada, no lo hace en el vacío. Lo hace llevando consigo décadas de experiencias, prejuicios incorporados, el peso de lo que leyó esa mañana, el humor que trae del tráfico, y una profunda, aunque muchas veces inconsciente, red de generalizaciones sobre cómo son las víctimas, cómo mienten los acusados, y cómo luce la culpabilidad. Esta realidad, tan incómoda como irrefutable, ha reabierto con fuerza una pregunta que el avance de la inteligencia artificial generativa (IA-Gen) coloca ya en el centro del debate procesal contemporáneo: ¿puede una máquina decidir mejor que un juez humano al momento de emitir una condena penal? La respuesta, como suele ocurrir con las preguntas más interesantes, no es sencilla, y exige desagregar con cuidado los distintos componentes de esa decisión.
El punto de partida inevitable es Daniel Kahneman. En su influyente libro Noise (2016) identificó que los seres humanos somos, en esencia, tomadores de decisiones poco confiables: nuestros juicios están fuertemente condicionados por factores completamente irrelevantes para el asunto en cuestión, como el estado de ánimo, el tiempo transcurrido desde la última comida, o incluso el clima. A este fenómeno lo denominó “ruido”: la variabilidad aleatoria de los juicios que no puede explicarse por los datos del caso. En el ámbito judicial, este ruido se traduce en algo que debería escandalizarnos más de lo que suele hacerlo: dos jueces frente al mismo expediente, con los mismos hechos y la misma normativa, pueden llegar a conclusiones radicalmente distintas no por razones jurídicas, sino por factores completamente extrajudiciales. El clásico estudio de Danziger, Levav y Avnaim-Pesso (2011) lo demostró empíricamente al documentar cómo la tasa de decisiones favorables de jueces israelíes variaba dramáticamente según si acababan o no de almorzar. Jerome Frank lo había intuido décadas antes: a los jueces les afectan las mismas cosas que a los demás, simplemente porque son humanos (Frank, 1931). Una IA-Gen, en contraste, no almuerza, no se cansa, no llega de mal humor. Ante casos objetivamente similares, su respuesta será consistente, lo que desde un plano epistémico representa una ventaja nada menor.
Pero el ruido es solo parte del problema. Los seres humanos también operamos con sesgos: errores sistemáticos y predecibles en el razonamiento. Tversky y Kahneman (1974) describieron con precisión cómo el heurístico de representatividad, esa tendencia a juzgar la probabilidad de un evento según cuánto se parece a nuestro prototipo mental, contamina nuestras inferencias. El juez que evalúa el testimonio de una víctima de violación sexual acude inevitablemente a su imagen interna de cómo debería comportarse una víctima, y si el relato no encaja con ese prototipo, porque ella no gritó, porque no opuso resistencia física, porque estaba paralizada por el miedo, el sesgo puede conducirlo a una conclusión errada, incluso cuando la ciencia neurocognitiva explica perfectamente esa respuesta de inmovilidad (Dhawan, 2023). En este terreno, la IA-Gen también tiene sesgos, pero con una diferencia crucial: los suyos son rastreables, corregibles y auditables. A través del ajuste supervisado (fine-tuning) con corpus especializados, protocolos forenses, jurisprudencia con perspectiva de género, doctrina probatoria depurada, planteamos que podría ser posible reemplazar generalizaciones sesgadas por generalizaciones fundadas.
El juez, en cambio, rara vez explicita sus máximas de experiencia y menos aún las somete a escrutinio externo. Las técnicas de Chain-of-Thought permiten además que la IA exponga paso a paso su razonamiento inferencial, algo que la motivación judicial promedio difícilmente alcanza (Wei et al., 2022). En ese sentido, la trazabilidad de la máquina supera con frecuencia la del humano.
Todo esto podría llevar a concluir precipitadamente que la IA-Gen es un mejor decisor. Y en el plano puramente valorativo, esto es, en la formación de inferencias probatorias, en la detección de incoherencias testimoniales, en la comparación de documentos, los argumentos en favor de la asistencia algorítmica son sólidos y crecientes. Las arquitecturas retrieval-augmented generation (RAG), combinadas con LLM legales especializados como LawyerGPT o CaseGPT, permiten anclar cada afirmación a fuentes verificables, reduciendo drásticamente las alucinaciones y mejorando la calidad del razonamiento inferencial respecto al de un juez que opera desde la intuición (Hou et al., 2025; Yang, 2024). Sin embargo, el momento decisorio, ese instante en que el juez cruza el umbral y declara a una persona culpable más allá de toda duda razonable, es algo cualitativamente distinto. Una IA no decide: predice. Selecciona el token siguiente en función de distribuciones de probabilidad aprendidas. Si en el 87 % de los casos similares con los que fue entrenada el veredicto fue “culpable”, asignará esa probabilidad a su salida. No hay convicción; hay cálculo estadístico. No hay creencia; solo un autocompletar automatizado. Y aquí reside la diferencia que no puede ser saldada con más datos ni con mejor entrenamiento: la IA puede simular confianza, pero no puede tener convicción (Gless, 2023). Puede calcular probabilidades, pero no puede sentir el peso moral de privar a una persona de su libertad.
El estándar del más allá de toda duda razonable (MADR) no es, en su núcleo más íntimo, un ejercicio matemático. Es una garantía procesal, como bien señalaba Susan Haack (2013), exige una comprensión semántica de lo que significa condenar: implica asumir que podría estar equivocado, que existe una presunción de inocencia que opera activamente como freno moral, que el error tiene un costo humano irreversible. El MADR exige, en términos de la filosofía de la mente, conciencia fenoménica: esa dimensión de la experiencia subjetiva por la que “hay algo que se siente” al tomar la decisión (Sebastián, 2016). Un sistema que carece de sensación fenoménica puede manipular los símbolos asociados a la condena, pero no puede entender qué significa dictarla. Puede operar con una comprensión “como si” entendiera, pero no con estados cognitivos genuinos como la creencia o la elección. El experimento mental del Cuarto Chino de Searle sigue siendo, en este punto, muy pertinente: la sintaxis nunca es suficiente para la semántica.
Entonces, para evaluar una decisión llegamos a dos conclusiones: la primera que, tanto en la máquina como en el ser humano influyen factores como los sesgos, las generalizaciones o los heurísticos para las evaluaciones valorativas. Y la segunda es que, en la decisión, este estar convencido o creer algo, es un mecanismo cognitivo estructurado en el ser humano, que aprehende del exterior, integra y valida sus percepciones, lo cual no ocurre en una máquina, que solo escoge por probabilidad debido a no ser consciente y no poder metarrepresentar el resultado de su decisión. Por ello, la cualidad del juez humano que sí resulta imposible de replicar es la capacidad y la conciencia de sopesar sus decisiones y conocer el alcance de ellas, y esa es la razón de por qué los jueces no solo deciden, sino que también desempeñan una importante función pública y educativa, que como bien señala Sourdin (2018), representa en la sociedad el ideal de justicia y equidad. No podemos abdicar de ello.
Elaborado por: Vélgika Rafaele