← Volver

Metodología

Fuentes Oficiales

Congreso de los Diputados

Open Data JSON con biografías. Patrón: odsDiputadosXX__*.json

https://www.congreso.es/webpublica/opendata/diputados/

Senado

XML con fichas individuales. tipoFich=10 (lista) + tipoFich=1 (ficha)

https://www.senado.es/web/ficopendataservlet?tipoFich=10&legis=15

Investigación con IA

Cuando las fuentes oficiales no incluyen información educativa o profesional, usamos Perplexity AI (modelo sonar) para investigar en tiempo real:

  • Wikipedia (español, catalán, euskera, gallego)
  • LinkedIn y perfiles profesionales
  • Webs de partidos políticos
  • Portales municipales y autonómicos
  • Hemerotecas y medios de comunicación

La IA busca datos verificables con fuentes citables. Los resultados se revisan antes de incorporarse.

Trazabilidad

Cada parlamentario tiene un campo source:

official
Datos extraídos directamente de Congreso/Senado
researched
Datos obtenidos por agentes de investigación

Clasificaciones

Nivel Educativo

Universitario
Título universitario declarado
Universitario_inferido
Profesión que requiere título
FP_Tecnico
Formación profesional
Secundario
Bachillerato o ESO
Estudios_incompletos
Sin completar
No_consta
Sin información

Categoría Profesional

Profesional_liberal
Abogados, médicos, etc.
Funcionario
Empleados públicos
Empresario
Propietarios, directivos
Politica
Carrera política
Oficina
Trabajo administrativo
Manual
Trabajo manual
No_consta
Sin información

Actualización Automática

Cron mensual: Sincroniza con APIs oficiales de Congreso y Senado

Detección: Nuevos parlamentarios, bajas y cambios en composición

Bajas: Senadores que causan baja se mantienen con estado: baja

Investigación: Perplexity AI para perfiles sin datos educativos (cooldown 30 días)

Endpoint: /api/cron/check-updates

Por qué 1.257 parlamentarios

Nuestro dataset incluye parlamentarios de dos legislaturas históricamente significativas:

I Legislatura
1979-1982

350 diputados

265 senadores

615 total

Primera legislatura democrática tras la Transición.

XV Legislatura
2023-presente

350 diputados

273 senadores activos

19 senadores (bajas)

642 total

Legislatura actual, actualizada mensualmente.

615 + 642 = 1.257 parlamentarios

Permitiendo comparación histórica: primera democracia vs. actualidad.

Calidad de Datos

Cada parlamentario pasa por un proceso de validación automática que detecta:

Duplicados

Detectamos entradas duplicadas por nombre exacto y por similitud fonética.

Conflictos entre fuentes

Cuando Congreso, Senado y Perplexity reportan datos diferentes para el mismo campo.

Inconsistencias lógicas

Profesiones que requieren título pero educación aparece como "No consta".

Metadatos de bajas

Senadores marcados como "baja" deben tener fecha y sustituto registrado.

El sistema genera un informe de calidad con métricas de cobertura (% de datos completos) y lista de conflictos a revisar.

Tracking Multi-Fuente

Cada dato de educación y profesión se registra con su fuente original. Un parlamentario puede tener múltiples entradas de diferentes fuentes:

congreso
API Open Data
senado
XML Fichas
perplexity
Investigación IA
{
  "data_sources": [
    {
      "source": "congreso",
      "field": "estudios",
      "raw_text": "Licenciado en Derecho",
      "extracted_at": "2025-01-15T10:30:00Z"
    },
    {
      "source": "perplexity",
      "field": "profesion",
      "raw_text": "Abogado del Estado",
      "extracted_at": "2025-01-20T14:00:00Z",
      "citations": ["https://..."]
    }
  ]
}

Esto permite auditar de dónde viene cada dato y detectar conflictos cuando las fuentes no coinciden.

Normalización Educativa (3 niveles)

España ha tenido múltiples sistemas educativos. Normalizamos todo a tres niveles:

NivelDescripciónEjemplo
originalTexto exacto de la fuente"Licenciado en Derecho por la UCM"
normalizedSistema educativo actual"Licenciatura"
simplifiedCategoría amplia"Universitaria"

Mapeo histórico

Reconocemos terminología de diferentes épocas:

Pre-1970
Bachillerato Elemental
1970-1990
EGB, BUP, COU, FP
1990-2006
ESO, Bachillerato, FP
Pre-Bolonia
Licenciado, Diplomado

Categorías normalizadas

Obligatoria
ESO
Postobligatoria
Bachillerato, FP Medio, FP Superior
Universitaria
Grado, Licenciatura, Máster, Doctorado

Inferencia Educación-Profesión

Cuando falta el dato de educación pero conocemos la profesión, podemos inferir el nivel educativo requerido.

Reglas de inferencia

Abogado/aLicenciado en Derecho(95%)
Médico/aLicenciado en Medicina(95%)
Enfermero/aDiplomado en Enfermería(90%)
Arquitecto/aArquitectura(90%)
Ingeniero/aIngeniería(80%)
Catedrático/aDoctorado(70%)

Las inferencias no se aplican automáticamente. Se almacenan con su nivel de confianza para revisión humana antes de incorporarse al dataset.

{
  "education_inference": {
    "inferred_education": "Licenciado en Derecho",
    "inference_rule": "profession_requires_degree",
    "confidence": 0.95,
    "applied": false,
    "reviewed_by": null,
    "approved": null
  }
}

Legislaturas Disponibles

I
1979-1982
615 parlamentarios. Primera legislatura democrática.
XV
2023-presente
642 parlamentarios (350 diputados + 273 senadores + 19 bajas). Legislatura actual.