Tabla de contenidos
La normalización es un proceso de convertir diseños de bases de datos no optimizados en una mejor forma. Este puede ser el caso, por ejemplo, debido a redundancias o entradas con múltiples valores. La normalización reduce la falta de estructura.
Las bases de datos deberían ayudar a las organizaciones no solo a recopilar los datos recopilados, sino también a poder utilizarlos de una manera realmente significativa. Para garantizar esto, una base de datos también debe estar adecuadamente estructurada.
El proceso de eliminar redundancias o dividir entradas de valores múltiples se denomina normalización. El objetivo es estructurar la base de datos en una forma optimizada en la que los datos estén correctamente relacionados entre sí y la búsqueda y clasificación funcionen como se desee. El punto de partida para esto es una forma normal previamente definida.
Leer: ¿Qué hace un enfriador en el centro de datos?
De la forma normal a la normalización
Por definición, cada base de datos tiene una forma normal, es decir, un estado objetivo. Esto está definido y los requisitos para esto dependen completamente del uso deseado de la base de datos.
Para las tiendas online, por ejemplo, es más relevante saber qué clientes todavía tienen artículos en sus carritos de compras, mientras que para un boletín de franquicia es más importante conocer los códigos postales de los clientes para poder ordenarlos en consecuencia.
Sin embargo, no solo hay una forma normal, sino varias formas normales definidas, de modo que la normalización convierte la base de datos de una forma normal a la siguiente. Para aclarar esto, tiene sentido echar un vistazo a las definiciones de las diferentes formas normales.
Forma cero normal
La base de datos contiene toda la información, pero aún no está disponible la normalización. Este estado se produce principalmente en los casos en los que aún se está creando el análisis de requisitos.
Primera forma normal
La base de datos se divide en columnas de tabla Atomic. Atomic corresponde a la idea de que la información en el campo de la tabla no se puede dividir más sin perder su significado. En términos concretos, esto significa que el código postal y la ciudad están separados, ya que son piezas de información separadas.
Segunda forma normal
En la segunda forma normal, se lleva a cabo una verificación de la funcionalidad completa o la dependencia funcional de los valores. Para este propósito, se forman tipos de relaciones que purifican la base de datos a través de dependencias funcionales. Por ejemplo, todos los registros de datos relacionados con el cliente reciben un número de cliente individual, por lo que las compras solo tienen que estar relacionadas con el número de cliente. Se crea una nueva tabla que garantiza más claridad.
Tercera forma normal
Aquí, las redundancias y las anomalías se eliminan mediante la normalización, y la optimización también crea mejores valores de rendimiento, especialmente en bases de datos grandes. La segunda forma normal es absolutamente necesaria como etapa preliminar, la tercera forma normal elimina las dependencias transitivas y las almacena en nuevas subtablas.
El lugar de residencia, por ejemplo, depende transitivamente del código postal único y, por lo tanto, puede subcontratarse. El país de residencia y el código de área tienen una dependencia transitiva similar entre sí.
Forma normal de Boyce Codd (BCNF)
En muchos casos, la normalización se completa con la tercera forma normal; una mayor normalización de la base de datos transferiría una base de datos a la BCNF. La forma normal de Boyce Codd solo se requiere cuando una base de datos tiene varios candidatos clave con superposición parcial.
Leer: ¿Qué es DHCP?
Si no se cumple esta condición, la tercera forma normal es idéntica a la BCNF. Un ejemplo de esto sería la gestión de almacenes, en la que los pedidos en la base de datos enumeran el artículo solicitado y la ubicación de almacenamiento. La división de los datos en subtablas crea una nueva clave principal y, por lo tanto, puedes optimizar los procesos de almacenamiento, por ejemplo.
Cuarta forma normal
Una vez que una base de datos se ha normalizado para estar en BCNF, se puede normalizar a la cuarta forma normal. Aquí, las dependencias de varios valores se eliminan porque son dependencias triviales. En la práctica, esta normalización adicional rara vez ocurre.
Existe una dependencia trivial, por ejemplo, cuando todos los pedidos anteriores se guardan con un número de cliente, incluso si se enviaron a direcciones diferentes. La dependencia de valores múltiples podría resolverse utilizando tablas adicionales.
Quinta forma normal
Si la cuarta forma normal es difícilmente práctica ¿Cuál es el valor agregado de normalizar a la quinta forma normal? El objetivo de esta normalización es la resolución de todas las multiplicidades y la resolución uno y uno en dependencias que no pueden separarse más. Por ejemplo, los pedidos no solo se pueden llamar por número de cliente y número de artículo, una tienda online podría crear una nueva referencia sobre el fabricante de un producto.
De esta forma, se crea una mayor densidad de información para poder sacar conclusiones sobre si la base de clientes prefiere artículos de determinados fabricantes, de determinados materiales o con determinados plazos de entrega. La quinta forma normal se utiliza para el análisis y la recopilación de información y puede entenderse como un paso intermedio para optimizar los procesos comerciales y de marketing.
Leer: ¿Qué es SIEM?
Normalización en la práctica
Lo que en teoría puede sonar como si la normalización adicional siempre optimizaría una base de datos en la práctica es en realidad una falacia. Para la mayoría de los escenarios de aplicación de bases de datos, una normalización en la tercera forma normal no solo es completamente suficiente, sino incluso ventajosa.
Si se resuelven más dependencias y redundancias, la base de datos requiere más claves primarias, que a su vez hacen referencia a más tablas. En la práctica, la base de datos se normaliza a una forma normal más alta, pero como resultado ha perdido mucha claridad.
La tercera forma normal puede entenderse en consecuencia como una optimización entre las necesidades de los usuarios de una base de datos y la optimización técnica. Las optimizaciones y tablas adicionales también aumentan las demandas de memoria y potencia informática. Y los procesos como los informes a menudo necesitan anular las normalizaciones para obtener resultados de manera más rápida y eficiente.