Justificación y finalidad
Entre las técnicas empleadas en el control y mejora de la calidad de datos, destacan por su complejidad las que permiten determinar, de forma eficiente y eficaz, si dos registros de información hacen referencia a una misma entidad (persona, empresa, producto, domicilio...). Son técnicas de matching que se utilizan para la detección de duplicados, cruce de ficheros, fusión de listas, integración de bases de datos, consultas aproximadas, etc. Se suelen presentar bajo denominaciones diversas: Entity Matching, Record Linkage, Identity Resolution, Deduplication, Fuzzy Searching, etc. Los primeros desarrollos, ya en los años 50, se hicieron para aparejamiento de listas censales, enlace de registros médicos, estudios genealógicos, etc. Actualmente estas técnicas se han extendido a todo tipo de áreas de aplicación, especialmente en procesos para la mejora de la calidad de los datos. Existen muchísimos productos software basados en esas técnicas de matching (ejemplos: DataFlux, Trillium, Informatica, Microsoft Integration Services, WinPure, etc.) pero su uso adecuado exige conocerlas. Como hay muchas técnicas posibles y generalmente son complejas, hemos considerado interesante ofrecer un curso en el que se muestren los conceptos básicos y las técnicas más utilizadas.
A quien va dirigido
Jefes de proyecto, consultores, responsables de I+D, analistas, programadores y técnicos en general, que quieran introducirse en el amplio y complejo mundo de las técnicas de enlace para la integración y mejora de la calidad de datos.
Contenidos
1.- Calidad de los datos
- Criterios de calidad y tipos de anomalías.
- Detección y análisis.
- Corrección y transformaciones. Aspectos negativos.
- Procesos ETL.
- Métricas sobre calidad de datos.
2.- Enlace de registros (Record Linkage, Entity Matching)
- Aplicaciones.
- Teoría y práctica: Métodos deterministas y métodos probabilistas.
- El caso específico de los Nombres y Direcciones.
- Record-Linkage clásico.
- Errores de enlace y su medición.
- Semejanzas y diferencias. Distancias.
- Sistemas de codificación.
- Otras semejanzas: frecuencias y jerarquías.
- Eficiencia: técnicas de preparación de bloques para la reducción de comparaciones.
- Pasos típicos del proceso de enlace.
- Software comercial.
3.- Búsqueda aproximada
- Micro-semejanza: codificación y distancias.
- Evaluación de la eficacia.
- Macro-semejanza.
- Estructuras de datos apropiadas y algoritmos eficientes.
Profesor
Rafael Camps Paré. Profesional informático desde 1962 (Fue Jefe de proyectos y Consultor senior en BULL y UNIVAC/UNISYS). Doctor en Informática. Profesor jubilado de la UPC. Socio nº 1 de ATI.
Duración, fechas y horario
12 horas
Semana 1: martes 21 y jueves 23 de septiembre.
Semana 2: martes 28 y jueves 30 de septiembre.
Horario: de las 18.30 a las 21.30 h.
Lugar
CEP. Centre d’Estudis Politècnics
Plaça Urquinaona 10.
08010 Barcelona
(mapa)
Importe
SOCIOS ATI | NO SOCIOS | |
Inscripciones ANTES del 30 de junio: | 120 € | 240 € |
Inscripciones DESPUÉS del 30 de junio: | 200 € | 400 € |
Información e inscripciones
Secretaría de ATI-Catalunya
Vía Laietana 46, pral. 1ª
08003 Barcelona
934125235
secrecat@ati.es
Horario de atención al público
Lunes a jueves: 10-13 h. y 16-19 h.
Viernes: 10-13 h.
(*) Sólo se aplicará la tarifa de socio a quien acredite su condición como tal. El importe de la matrícula se abonará ANTES de comenzar el curso. En el caso de solicitarla, la factura para SOCIOS será personalizada y constará en ella el NIF del socio.
GRUPO MÍNIMO: 5 PERSONAS.
PLAZAS LIMITADAS A 15 ASISTENTES.
ATI se reserva el derecho de efectuar las modificaciones necesarias.