The Salvadoran government has already created one million “virtual citizens” to train AI systems — El gobierno salvadoreño ya creó un millón de «ciudadanos virtuales» para entrenar sistemas de IA

Jun 9, 2026

The lack of transparency in the hiring of personnel from the ruling coalition has put the ruling party in the public eye: nearly a month after a group of hackers revealed a database of 450 people working for Nuevas Ideas with salaries of thousands of dollars, the political group has only made public half of the appointments in that state body.
With support from NVIDIA and the tech company WideLabs, the government developed a database of one million synthetic (fictional) profiles aimed at reproducing the demographic characteristics of the Salvadoran population. The project uses information and statistics from the 2024 Census. — Con apoyo de NVIDIA y la empresa tecnológica WideLabs, el gobierno desarrolló una base de datos de un millón de perfiles sintéticos (ficticios) que buscan reproducir las características demográficas de la población salvadoreña. El proyecto utiliza información y estadísticas provenientes del Censo 2024.

The National AI Agency (ANIA), a government institution created last year, announced the creation of a database containing up to one million fictional profiles—also referred to as synthetic personas or virtual citizens—that capture the demographic characteristics of the Salvadoran population, with representation from all 14 of the country’s departments.

Although the institution uses the term “synthetic personas,” the project consists of a database of artificial profiles built from this information; it does not include avatars or digital replicas of real Salvadoran citizens.

Even so, it is necessary to define what a fictional person is. Javier Villegas, a professor and researcher at the Autonomous University of Baja California in Mexico, told El Diario de Hoy that “a synthetic person is an artificial representation or image of a person, designed to be like us, with specific anatomical and physiological characteristics.” This includes aspects such as skin color, manner of dress, or facial features, and the idea is that it can interact with users “in a less robotic way,” he notes.

This definition aligns with the article “Artificial Intelligence Agents and Synthetic Humans,” published in the journal of the Spanish Association of Scientific-Technical and Academic Authors (ACTA). The article maintains that these types of systems are “an interface capable of reacting in real time to what the user says, synchronizing facial expressions and body language.”

In this regard, the dataset announced by ANIA—developed alongside tech companies NVIDIA and WideLabs—is aimed at using the demographic information of Salvadorans to feed the development of Artificial Intelligence agents or AI language models. According to the institution, “AI is transitioning from simple chatbots to agents that perform multi-step tasks for people, and that raises the bar for reliability, coherence, and cultural compatibility. We cannot get there with data translated from other markets or written in generic Spanish from elsewhere.”

This relates to what Villegas defines as “bias in AI systems”—meaning most models of this technology are subject to the perceptions of the companies or individuals programming them. For example, he explains, an AI agent developed in England is not the same as one developed in the United States or China, since each model comes preloaded with a series of patterns and perceptions skewed toward the reality of its place of origin.

For this reason, the project announced by ANIA, named Nemotron-Personas-El Salvador, has drawn on the demographic and statistical data produced by the 2024 National Population and Housing Census. According to Villegas, this is important because an AI agent could then have its database adapted to the Salvadoran context, incorporating Salvadoran idioms and expressions, or the population’s physiological characteristics, among other elements, in a “localized” way.

According to ANIA, this “is El Salvador’s first open dataset with completely synthetic virtual citizens, based on official national statistics and Salvadoran Spanish.” The agency also maintains that it will allow “teams to build and test these agents without using anyone’s real personal data.”

This last point is key, as the institution emphasizes that the 2024 Census data was used to feed the design of the nearly one million fictional personas created, allowing AI agents to run tests and train to interact as if dealing with real people. “Each person is artificially generated and no real people are represented, making it safe, ethical, and ready to use from the start,” ANIA affirms, adding that the dataset “is free for the government, universities, tech startups, and researchers.”

Areas of application

Now that the meaning and definition of a synthetic or fictional person is clear, it is important to outline the potential areas of application for these types of profiles. According to the ACTA article, fictional profiles can be used in sectors such as customer service, marketing, and entertainment, as well as in the government sector through testing linked to public policy.

Regarding the latter, the article notes that synthetic persons can be used to run scenario simulations. This means that “instead of merely analyzing historical data series, synthetic populations are built comprising thousands or millions of agents (representing individual citizens), each with defined preferences and behaviors, to observe how they evolve under certain conditions.”

This makes it possible to test how a country’s or locality’s population might react to changes, such as the introduction of a new tax, or to analyze the public response to education plans or changes in public transit systems. The fact that ANIA confirmed the dataset contains up to one million fictional persons paves the way, in theory, for running these types of simulations in the country, even stratified by geographic area. However, the institution has not specified a particular area of application.

On the other hand, Professor Villegas points out that, beyond the advantages these synthetic persons could bring to the development of AI-based systems or services, there are intrinsic risks regarding how this type of technology could be used. According to the researcher, the government’s use of synthetic profiles could serve to manipulate Salvadoran public opinion or mask issues that concern the population before they escalate—including electoral processes—thanks to the enormous amount of information they could compile about the population.

On this point, Villegas also notes that even though it is an open-access dataset, it may carry a bias tied to its developer—in this case, the Salvadoran government. AI agents could potentially be used to collect information on the problems plaguing the population, identify them, and manipulate them in the media to suit official interests.

Nevertheless, the researcher clarifies that these are only potential risks and possible misuses that could arise from AI agents developed with the demographic data of Salvadorans, but he also considers it a “very fun” project with vast potential across different areas of interest.

El Diario de Hoy: https://www.eldiariodehoy.com/negocios/el-gobierno-salvadoreno-ya-creo-un-millon-de-ciudadanos-virtuales-para-entrenar-sistemas-de-ia/78960/2026/

El gobierno salvadoreño ya creó un millón de «ciudadanos virtuales» para entrenar sistemas de IA

Por Juan Carlos Mejía

La Agencia Nacional de IA (ANIA), una institución gubernamental creada el año pasado, anunció la creación de una base de datos con hasta un millón de perfiles ficticios, denominados también como personas sintéticas o ciudadanos virtuales, que reúnen las características demográficas de la población salvadoreña, con representaciones de los 14 departamentos del país.

Aunque la institución utiliza el término «personas sintéticas», el proyecto consiste en una base de datos de perfiles artificiales construidos a partir de dicha información, pero no incluye avatares o réplicas digitales de ciudadanos salvadoreños reales.

Aún así, es necesario definir qué es una persona ficticia. El profesor e investigador de la Universidad Autónoma de Baja California, en México, Javier Villegas, explicó a El Diario de Hoy que “una persona sintética es una representación o imagen artificial de una persona, diseñada para ser como nosotros, con características anatómicas y fisiológicas específicas”, lo que incluye aspectos como el color de piel, forma de vestir o el rostro, y la idea es que pueda interactuar con los usuarios “de forma menos robótica”, señala.

Esta definición coincide con lo explicado en el artículo Agentes de inteligencia artificial y humanos sintéticos, publicado en la revista de la Asociación de Autores Científico-Técnicos y Académicos (ACTA) de España, y el cual sostiene que este tipo de sistemas son “una interfaz capaz de reaccionar en tiempo real a lo que dice el usuario, sincronizando expresiones faciales y lenguaje corporal”.

En este sentido, el conjunto de datos que anunció la ANIA, y que fue desarrollado junto a las empresas tecnológicas NVIDIA y WideLabs, va encaminado a la posibilidad de utilizar la información demográfica de los salvadoreños para alimentar el desarrollo de agentes de Inteligencia Artificial o modelos de lenguaje en IA. Según la institución, “la IA está pasando de simples chatbots a agentes que realizan tareas de varios pasos para las personas, y eso eleva el listón en cuanto a fiabilidad, coherencia y compatibilidad cultural. No podemos llegar ahí con datos traducidos de otros mercados o escritos en español genérico de otro lugar”.

Lo anterior se refiere a algo que Villegas define como “sesgo en los sistemas de IA”, es decir, que la mayoría de modelos de este tipo de tecnología están sujetos a la percepción que tienen las empresas o personas que los programan. Por ejemplo, explica, no es lo mismo un agente de IA desarrollado en Inglaterra, que uno desarrollado en Estados Unidos o China, ya que cada modelo trae precargado una serie de patrones y percepciones que se inclinan hacia la realidad del lugar donde se origina.

Por ello, es que el proyecto que anunció la ANIA, y que tiene por nombre Nemotron-Personas-El Salvador, ha retomado los datos demográficos y estadísticos que arrojó el Censo Nacional de Población y Vivienda realizado en 2024. Según Villegas, esto es importante porque un agente de IA, entonces, podría tener en su base de datos información adaptada al contexto salvadoreño, incluyendo información relacionada con modismos o expresiones salvadoreñas, o las características fisiológicas de la población, entre otros, de una forma “tropicalizada”.

Según la ANIA, este «es el primer conjunto de datos abiertos de El Salvador con ciudadanos virtuales completamente sintéticos, fundamentado en estadísticas nacionales oficiales y español salvadoreño», al mismo tiempo que sostiene que servirá «para que los equipos puedan construir y probar estos agentes sin usar los datos personales reales de nadie”.

Ese último punto es clave, ya que la institución enfatiza en que los datos del Censo de 2024 han sido utilizados para alimentar el diseño de las cerca de un millón de personas ficticias creadas, y las cuales permitirán que los agentes de IA puedan realizar pruebas y entrenarse en la forma de interactuar como si se tratara de personas reales. “Cada persona está generada artificialmente y no hay personas reales representadas, lo que la hace segura, ética y lista para usar desde el principio”, afirma la ANIA, al mismo tiempo que indica que el conjunto de datos “es gratuito para el gobierno, universidades, empresas tecnológicas emergentes e investigadores”.

Las áreas de aplicación

Teniendo claridad sobre el significado y definición de una persona sintética, o ficticia, es importante apuntar cuáles son las posibles áreas de aplicación de este tipo de perfiles. Según el artículo de la ACTA, los perfiles ficticios pueden utilizarse en sectores como el servicio al cliente, en el marketing y entretenimiento y también en el plano gubernamental a través de pruebas vinculadas con políticas públicas.

Con respecto a esto último, el artículo apunta que con las personas sintéticas se puede implementar la simulación de escenarios, es decir que “en lugar de limitarse a analizar series históricas de datos, se construyen poblaciones sintéticas compuestas por miles o millones de agentes (que representan a ciudadanos individuales), cada uno con preferencias y comportamientos definidos, para observar cómo evolucionan bajo determinadas condiciones”.

Esto permite poder hacer pruebas sobre cómo reaccionaría una población de un país o de una localidad ante cambios como la introducción de un nuevo impuesto, por ejemplo, o analizar la respuesta de la población ante planes de educación o de cambios en los sistemas de transporte público. El hecho de que la ANIA confirme que el conjunto de datos asciende a un millón de personas ficticias, da paso a que, en teoría, se puedan realizar este tipo de simulaciones en el país, incluso, de manera estratificada por zona geográfica. No obstante, la institución no ha especificado un área particular de aplicación.

Por otro lado, el profesor Villegas señala que, más allá de las ventajas que podrían aportar estas personas sintéticas al desarrollo de sistemas o servicios basados en IA, también hay riesgos intrínsecos debido al uso que podría dársele a la tecnología de este tipo. Según el investigador, el uso de los perfiles sintéticos desde el gobierno podría servir para manipular la opinión pública de los salvadoreños o maquillar problemas que preocupan a la población antes de que escalen, incluyendo los procesos electorales, gracias a la enorme cantidad de información que podrían recopilar sobre la población.

En este punto, Villegas también señala que, aunque sea un conjunto de datos de acceso abierto, puede incluir un sesgo vinculado con quien lo desarrolla, en este caso el gobierno salvadoreño, pues los agentes de IA podrían ser utilizados incluso para recolectar información sobre los problemas que aquejan a la población, detectarlos y manipularlos mediáticamente de acuerdo con los intereses oficiales.

No obstante, el investigador aclara que estos son solo riesgos potenciales, y posibles usos inadecuados, que podría darse a los agentes de IA desarrollados con la información demográfica de los salvadoreños, pero también considera que es un proyecto “muy divertido” y con alto potencial de alcance para distintas áreas de interés.

El Diario de Hoy: https://www.eldiariodehoy.com/negocios/el-gobierno-salvadoreno-ya-creo-un-millon-de-ciudadanos-virtuales-para-entrenar-sistemas-de-ia/78960/2026/