Mejorar la calidad de datos de inventario con algoritmos tipográficos y semánticos

Retomando desde nuestro último análisis, donde en el artículo «Gobernanza de Datos: La Clave para un Inventario Rentable» abordamos el impacto crítico de los datos en la cadena de suministro. Resaltamos cómo la falta de una gobernanza de datos adecuada genera un ecosistema de problemas, desde stockouts inesperados hasta sobreinventario, y cómo la inconsistencia en la taxonomía y la semántica de los productos es el origen de muchos de estos desafíos. En este artículo veremos algunos de los métodos para detectar duplicados e inconsistencias en clasificación.

Duplicados por Tipografía

El algoritmo de Levenshtein es una herramienta para encontrar duplicados por errores de escritura. Analiza qué tan similares son dos nombres de productos a nivel de caracteres, dándoles una «distancia de edición» que cuenta el número mínimo de cambios (inserciones, eliminaciones o sustituciones) necesarios para que sean idénticos. Es ideal para detectar errores de digitación como «Tuerca hexagonal 3/8» y «Tureca hexagonal 3/8». También puede ser útil en donde se necesite detectar SKUs que requieren mejorar el estándar cuando han sido registrados con palabras en diferente órden, como por ejemplo «Tuerca 3/8 hexagonal» y «Tuerca hexagonal 3/8».

Este algoritmo, por su naturaleza, ofrece una alta precisión en la identificación de similitudes. Aunque su funcionamiento interno implica la creación de una matriz de distancias por cada par de textos, lo que lo hace muy potente, también lo convierte en un método computacionalmente intensivo. Para inventarios que superan los 1,000 SKUs y especialmente en rangos de 5,000 ítems o más, el tiempo de procesamiento puede ser considerable. En Signeo AI, hemos comprobado que la clave para un diagnóstico rápido y práctico reside en el poder de la nube. Plataformas como Amazon Web Services (AWS) permiten ejecutar estos modelos en instancias de alto rendimiento, optimizando drásticamente el tiempo de procesamiento.

Inconsistencias en clasificación

Recordando el anterior artículo esta situación se da cuando artículos de la misma naturaleza se clasifican de forma diferente. Por ejemplo sucede cuando «Válvula de Paso 8» aparece clasificada en el grupo Válvulas pero una similar «Válvula de Paso 5», aparece clasificada en el grupo de Mangueras, saliéndose del estándar. En estos casos se puede usar el mismo algoritmo de Levenshtein, con ciertos cambios en el parámetro de búsqueda que permite detectar SKUs de la misma naturaleza pero que han sido agrupos de forma diferente.

Duplicados por Nomenclatura (búsqueda semántica)

Esta herramienta aborda los ítems que son lo mismo, pero con nombres completamente diferentes. La búsqueda de similitud semántica se basa en inteligencia artificial, utilizando la misma tecnología de embeddings que los modelos de lenguaje a gran escala (LLMs) como Gemini utilizan. El sistema convierte los nombres y descripciones de los productos en vectores numéricos que capturan su significado.

Un motor de búsqueda de similitud semántica puede ser el motor FAISS. Al manejar descripciones en vectores puede encontrar que «Smartphone» y «Teléfono inteligente» tienen vectores casi idénticos y colocarles una bandera de similitud. Al no depender de la similitud de caracteres, el sistema puede identificar que ambos son el mismo producto, sin importar la variación en la nomenclatura.

Estandarización como medida preventiva

Una vez que el inventario está depurado, la forma de mantenerlo así es implementando un orden riguroso. Este es el lado preventivo del problema. A continuación una sugerencia de un estándar para nombrar y algunos de los estándares que se siguen para nombrar.

Para evitar la ambigüedad, se recomienda un sistema de nomenclatura estructurada.

Una forma de aplicar esto, inspirada en los estándares de la industria, puede seguir una sintaxis similar a esta:

1. Nombre genérico: La categoría principal del ítem.

Ejemplo: Tuerca, Tornillo, Buje

2. Dimensión principal: Medidas cruciales del producto.

Ejemplo: 3/8”, M12x1.5

3. Especificación técnica: Detalles de diseño o funcionamiento.

Ejemplo: Rosca NC, rosca métrica, tipo XYZ

4. Material: De qué está hecho el producto.

Ejemplo: Acero, titanio, bronce

5. Acabado / Tratamiento: Recubrimiento o proceso final.

Ejemplo: Galvanizado, anodizado, templado

6. Norma / Referencia (si aplica): Estándar técnico que cumple.

Ejemplo: ISO 4032, DIN 934, MIL-SPEC

Ejemplo Estandarizado: Tuerca, Hexagonal, 3/8”, Rosca NC, Titanio, Anodizado, ISO 4032

Metodologías de Familias y Categorías

Para clasificar los productos de manera global y consistente de un catálogo, existen diversos códigos y metodologías estructuradas.

ISO 8000 (Data Quality / Master Data): Esta es la norma fundamental para la calidad de datos. Establece los principios para crear «descripciones estructuradas» con atributos obligatorios y opcionales, asegurando que las descripciones sean legibles para humanos y comparables para sistemas. El estándar global ISO 8000 promueve la calidad de los datos para que sean confiables y consistentes. Es crucial entender que ISO 8000 no dicta una plantilla específica, sino que exige una disciplina de datos que su organización debe crear y seguir.

eCl@ss: Muy popular en Europa y la industria química. Va un paso más allá de una simple clasificación, definiendo qué atributos y en qué orden deben describir cada tipo de ítem.

INCOTEC / NCS (NATO Codification System): Aunque de origen militar, su sistema de «Nombre de ítem» más «Atributos Clave» en un orden lógico ha sido adoptado en diversas industrias.

UNSPSC (United Nations Standard Products and Services Code): Un sistema de clasificación jerárquica que ayuda a ubicar un producto dentro de una categoría global, sin dictar necesariamente el orden de la descripción.

GS1 Global Product Classification (GPC): Principalmente usado en el sector de retail y logística, define jerarquías de categorías para facilitar la gestión de bienes de consumo.

SAP Material Master Naming Conventions: Grandes sistemas ERP como SAP y Oracle recomiendan sus propias convenciones de nomenclatura, que a menudo son variantes simplificadas inspiradas en los estándares anteriores.

En resumen, los estándares más robustos para la nomenclatura estructurada son ISO 8000, eCl@ss y el NATO Codification System. La clave no es adoptar uno solo, sino entender sus principios para crear un sistema de descripción adaptado a las necesidades de su empresa, que sea simple, consistente y, sobre todo, confiable.

Al implementar estas herramientas y estándares, su inventario deja de ser un problema reactivo y se convierte en un activo de negocio preciso y confiable.

Signeo AI