Metodología

Fuentes Oficiales

Congreso de los Diputados

Open Data JSON con biografías. Patrón: odsDiputadosXX__*.json

https://www.congreso.es/webpublica/opendata/diputados/

Senado

XML con fichas individuales. tipoFich=10 (lista) + tipoFich=1 (ficha)

https://www.senado.es/web/ficopendataservlet?tipoFich=10&legis=15

Investigación con IA

Cuando las fuentes oficiales no incluyen información educativa o profesional, usamos Perplexity AI (modelo sonar) para investigar en tiempo real:

→Wikipedia (español, catalán, euskera, gallego)
→LinkedIn y perfiles profesionales
→Webs de partidos políticos
→Portales municipales y autonómicos
→Hemerotecas y medios de comunicación

La IA busca datos verificables con fuentes citables. Los resultados se revisan antes de incorporarse.

Trazabilidad

Cada parlamentario tiene un campo source:

official

Datos extraídos directamente de Congreso/Senado

researched

Datos obtenidos por agentes de investigación

Clasificaciones

Nivel Educativo

Universitario

Título universitario declarado

Universitario_inferido

Profesión que requiere título

FP_Tecnico

Formación profesional

Secundario

Bachillerato o ESO

Estudios_incompletos

Sin completar

No_consta

Sin información

Categoría Profesional

Profesional_liberal

Abogados, médicos, etc.

Funcionario

Empleados públicos

Empresario

Propietarios, directivos

Politica

Carrera política

Oficina

Trabajo administrativo

Manual

Trabajo manual

No_consta

Sin información

Actualización Automática

Cron mensual: Sincroniza con APIs oficiales de Congreso y Senado

Detección: Nuevos parlamentarios, bajas y cambios en composición

Bajas: Senadores que causan baja se mantienen con estado: baja

Investigación: Perplexity AI para perfiles sin datos educativos (cooldown 30 días)

Endpoint: /api/cron/check-updates

Por qué 1.257 parlamentarios

Nuestro dataset incluye parlamentarios de dos legislaturas históricamente significativas:

I Legislatura

1979-1982

350 diputados

265 senadores

615 total

Primera legislatura democrática tras la Transición.

XV Legislatura

2023-presente

350 diputados

273 senadores activos

19 senadores (bajas)

642 total

Legislatura actual, actualizada mensualmente.

615 + 642 = 1.257 parlamentarios

Permitiendo comparación histórica: primera democracia vs. actualidad.

Calidad de Datos

Cada parlamentario pasa por un proceso de validación automática que detecta:

Duplicados

Detectamos entradas duplicadas por nombre exacto y por similitud fonética.

Conflictos entre fuentes

Cuando Congreso, Senado y Perplexity reportan datos diferentes para el mismo campo.

Inconsistencias lógicas

Profesiones que requieren título pero educación aparece como "No consta".

Metadatos de bajas

Senadores marcados como "baja" deben tener fecha y sustituto registrado.

El sistema genera un informe de calidad con métricas de cobertura (% de datos completos) y lista de conflictos a revisar.

Tracking Multi-Fuente

Cada dato de educación y profesión se registra con su fuente original. Un parlamentario puede tener múltiples entradas de diferentes fuentes:

congreso

API Open Data

senado

XML Fichas

perplexity

Investigación IA

{
  "data_sources": [
    {
      "source": "congreso",
      "field": "estudios",
      "raw_text": "Licenciado en Derecho",
      "extracted_at": "2025-01-15T10:30:00Z"
    },
    {
      "source": "perplexity",
      "field": "profesion",
      "raw_text": "Abogado del Estado",
      "extracted_at": "2025-01-20T14:00:00Z",
      "citations": ["https://..."]
    }
  ]
}

Esto permite auditar de dónde viene cada dato y detectar conflictos cuando las fuentes no coinciden.

Normalización Educativa (3 niveles)

España ha tenido múltiples sistemas educativos. Normalizamos todo a tres niveles:

Nivel	Descripción	Ejemplo
`original`	Texto exacto de la fuente	"Licenciado en Derecho por la UCM"
`normalized`	Sistema educativo actual	"Licenciatura"
`simplified`	Categoría amplia	"Universitaria"

Mapeo histórico

Reconocemos terminología de diferentes épocas:

Pre-1970

Bachillerato Elemental

1970-1990

EGB, BUP, COU, FP

1990-2006

ESO, Bachillerato, FP

Pre-Bolonia

Licenciado, Diplomado

Categorías normalizadas

Obligatoria

ESO

Postobligatoria

Bachillerato, FP Medio, FP Superior

Universitaria

Grado, Licenciatura, Máster, Doctorado

Inferencia Educación-Profesión

Cuando falta el dato de educación pero conocemos la profesión, podemos inferir el nivel educativo requerido.

Reglas de inferencia

Abogado/a→Licenciado en Derecho(95%)

Médico/a→Licenciado en Medicina(95%)

Enfermero/a→Diplomado en Enfermería(90%)

Arquitecto/a→Arquitectura(90%)

Ingeniero/a→Ingeniería(80%)

Catedrático/a→Doctorado(70%)

Las inferencias no se aplican automáticamente. Se almacenan con su nivel de confianza para revisión humana antes de incorporarse al dataset.

{
  "education_inference": {
    "inferred_education": "Licenciado en Derecho",
    "inference_rule": "profession_requires_degree",
    "confidence": 0.95,
    "applied": false,
    "reviewed_by": null,
    "approved": null
  }
}

Legislaturas Disponibles

1979-1982

615 parlamentarios. Primera legislatura democrática.

2023-presente

642 parlamentarios (350 diputados + 273 senadores + 19 bajas). Legislatura actual.

Ver datos →Descargar JSON