NLP: La ley de Herdan

La ley de Herdan es una ley empírica que describe el número de palabras distintas en un documento (o conjunto de documentos) como una función de la longitud del documento. La fórmula de la ley de Herdan es:

V_{R} = K \cdot n^{β}

donde $V_{R}$ es el número de palabras distintas en un documento de tamaño $n$ , y $K$ y $β$ son parámetros libres que se determinan empíricamente. Con un texto en inglés, típicamente $K$ es entre 10 y 100, y $β$ es entre 0,4 y 0,6 ¹ ² ³.

El parámetro $K$ se refiere a la riqueza léxica del documento, es decir, el número de palabras distintas que aparecen en el documento. El valor de $K$ depende del idioma y del tipo de texto. Por ejemplo, un texto técnico tendrá una riqueza léxica más baja que un texto literario.

El parámetro $β$ se refiere a la tasa de crecimiento de la riqueza léxica con respecto al tamaño del documento. Un valor de $β$ cercano a 1 indica que la riqueza léxica crece linealmente con el tamaño del documento, mientras que un valor de $β$ menor que 1 indica que la riqueza léxica crece a una tasa cada vez más lenta a medida que el tamaño del documento aumenta.

Por ejemplo, si tenemos un documento de 1000 palabras en inglés con $K = 50$ y $β = 0, 5$ , podemos calcular el número de palabras distintas en el documento como:

V_{R} = K \cdot n^{β} = 50 \cdot 100 0^{0, 5} \approx 224

Esto significa que hay alrededor de 224 palabras distintas en el documento.

elaprendiz0000

Buscar este blog

NLP: La ley de Herdan

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

[Validación Cruzada] [Machine Learning] [Evaluación de Modelos] [Ciencia de Datos] [R Programming] [Resampling] Validación Cruzada: Concepto y Técnicas Principales

[DATA SCIENCE] [R PROGRAMMING] [DATA VISUALIZATION] Explorando Técnicas de Análisis y Visualización de Datos en R

[Machine Learning][Python][Clasificación] Understanding Support Vector Machines with Python