Trazabilidad y método

Metodología

Cómo construimos cada dataset: fuente, transformaciones, supuestos y limitaciones documentadas. La data pública sólo es útil cuando puedes verificar cómo llegó al número final.

Principios

Trazabilidad completa

Cada dato tiene fuente original, fecha de extracción, transformación documentada y registro de ejecución en lineage.

Limitaciones explícitas

Cada dataset declara qué no mide, dónde tiene sesgo, y qué transformaciones son interpretación vs cálculo determinístico.

Reproducible

ETL es Python + Alembic migrations. Cada corrida queda registrada en meta.ingestion_runs con duración + filas + status.

Datasets actuales

Centros de Estudio · Political Compass

think_tanks
Ver dataset →

Posicionamiento ideológico anual de 18 think tanks chilenos 1990-2026, basado en codificación experta + scraping de publicaciones WP.

Método
Anchors manuales (5-11 por centro) + year_deltas (25-37 ajustes). Interpolación lineal entre anchors. Influencia = z-score experto + ln(1+n_pubs)*0.05.
Fuente
CIS · codificación propia + literatura (Mella 2024, González Bustamante 2018) + scrape WP API
Limitaciones
Cualitativa, sesgo del codificador. No es ranking de "qué tan correctos son". Centros sin WP solo aportan anchor manual.

Presupuesto · Clasificación Funcional COFOG

dipres_funcional
Ver dataset →

Gasto fiscal del gobierno general 2010-2024, clasificado por función (COFOG nivel 0-3).

Método
Mapping DIPRES → COFOG via crosswalk oficial. Pivots por año + función + región. Cálculos de % PIB y % gasto total.
Fuente
DIPRES · ejecución presupuestaria mensual consolidada
Limitaciones
Mapping COFOG es interpretación — partidas mixtas se asignan a la función predominante. No incluye municipal ni regional autónomo.

World Development Indicators · Chile

worldbank_chile
Ver dataset →

Indicadores de desarrollo del Banco Mundial filtrados por Chile, 1960-2024.

Método
Pull directo via API pública WB. Sin transformación, sólo normalización de naming.
Fuente
World Bank · api.worldbank.org/v2/country/CL
Limitaciones
Calidad y revisiones del WB son la fuente. Series con gaps están reflejadas como NULL, no imputadas.

INE Denuncias Policiales

ine_denuncias_policiales
Ver dataset →

Denuncias agregadas Carabineros + PDI por categoría + región + año.

Método
Scrape INE estadísticas-policiales · normalización a tasas por 100k hab.
Fuente
INE Chile · ine.gob.cl/estadisticas/sociales/seguridad-publica-y-justicia
Limitaciones
Denuncia ≠ delito ocurrido. Cifra negra (delitos no denunciados) varía por categoría. ENUSC puede usarse como complemento.

ELE-7 · Adopción Tecnológica en Empresas

ele7_tech_adoption
Ver dataset →

Adopción de software, e-commerce, gasto TIC y capacitación, por tamaño y sector productivo. Microdata 2020-2022.

Método
Microdata ELE-7 INE · agregaciones por TAMANO (CORFO ventas) y CIIU. Pivots por sector + tamaño.
Fuente
INE Chile · Encuesta Longitudinal de Empresas
Limitaciones
Auto-reportado por empresas. Cobertura sólo formal. ELE-8 no publicada aún.

ENE · Empleo + Exposición a IA

ene_employment_ai
Ver dataset →

Empleo trimestral por ocupación CIUO-08 cruzado con índice de exposición a IA.

Método
ENE microdata · cruce con índices Eloundou et al. 2023 + Felten et al. 2021 a nivel ISCO-08 1-dígito.
Fuente
INE Chile · Encuesta Nacional de Empleo
Limitaciones
AI exposure es una proxy a partir de descripciones de tareas, no medición empírica. Subestima sub-tareas no codificadas.

Cómo trazar un dato específico

  1. Andá a la página del indicador (ej. /indicador/pib_per_capita): vas a ver fuente, methodology, references y la serie completa.
  2. Click en el dataset al que pertenece (ej. /dataset/worldbank_chile): muestra schema canónico (gold.wb_chile_indicators), fuente externa, lineage y ejecuciones recientes.
  3. /lineage tiene el grafo completo de transformaciones (bronze → silver → gold) y todos los pipelines registrados.
  4. /calidad registra cada corrida ETL: timing, rows in/out, status. Lo que falló queda visible.

Doc completo de arquitectura: docs/architecture.md · API contracts: docs/api.md · Tech debt: docs/tech-debt.md en el repo cochid-datos.

COCHID — Compañía Chilena de Inteligencia de Datos · empresa asociada al CIS · de propiedad de Martín Illanes.