Entropía - 1

Hoy vamos a hablar de la teoría de la información. De entre todos sus aspectos, en concreto vamos a hablar de la entropía, también conocida como entropía de la información o como a mi me gusta más, entropía de Shannon, en honor a Claude E. Shannon que fue el fundador del campo de la teoría de la información.

La entropía mide la incertidumbre de una fuente de información. A mí me gusta más definirla como la cantidad de información que contiene una variable aleatoria, de modo que podemos decir que es la manera en la que medir la cantidad de información promedio que contienen los símbolos utilizados.

La entropía se debe ver como la cantidad de desorden o la peculiaridad de ciertas combinaciones. Por ejemplo, en un texto hay palabras que tienen una mayor probabilidad de aparecer o que son más frecuentes. En la frase “El coche rojo se ha roto” las palabras “El”, “se” y “ha” aportan poca información debido en parte a que son palabras con una probabilidad de aparición muy alta, mientras que las palabras como “coche”, “rojo” y “roto” cuentan con una frecuencia de aparición mucho menor.

Según Shannon en su artículo A Mathematical Theory of Communication (Una teoría matemática de la comunicación), la entropía debe de satisfacer las siguientes 2 afirmaciones:

La medida de información debe ser proporcional. Un pequeño cambio en una las probabilidades tienen que afectar poco, haciendo que la entropía cambie poco.

Si todos los elementos de la señal son igual de probables, a la hora de aparecer, entonces la entropía será máxima. Esto quiere decir que, si por ejemplo estamos hablando de un mensaje en lenguaje español y en una de las señales aparecen todas las letras del abecedario, entonces la entropía es máxima.

La fórmula de la entropía de Shannon es la siguiente:

O lo que es lo mismo:

Dicha formula cumple las siguientes propiedades:

  • La entropía no puede ser negativa.
  • La entropía no puede ser mayor que log2(n), siendo n la variable o señal.
  • La entropía es máxima cuando en una serie de posibles resultados con probabilidades relativas, todas las variables con igual de probables.
  • La entropía es nula, cuando una de las probabilidades de una serie de resultados sea igual a cero.

Aplicando a un ejemplo, imaginemos que contamos con un mensaje m, de longitud 1, el cual está dentro del conjunto de caracteres ASCII, si suponemos que existe la misma probabilidad para los 256 caracteres ASCII, la entropía será la siguiente:

Y este es un pequeño ejemplo de como funciona el calculo de la entropía, es la manera más sencilla de calcularlo. Pero existen muchos más tipos de entropía, como la entropía lineal o la entropía condicional. Poco a poco iremos viendo en futuras entras al blog en que consisten el resto de las entropías y como calcularlas.

Así mismo, veremos cómo realizar las futuras entradas de este blog, el calculo de la entropía vista hoy, en lenguajes de programación, así como la aplicabilidad dentro de aplicaciones o calculo sobre texto.

Gracias a todos los que habéis llegado hasta aquí, se ha hecho de esperar, pero ya hay nueva entrada en el blog.

Un saludo, nos vemos en la siguiente entrada :)

Comentarios

Entradas populares de este blog

Realizando hash con PowerShell

Cracking hashes con Hashcat - 4

Cracking hashes con Hashcat - 2