About: Suavizado de n-gramas

Un problema bastante frecuente en procesamiento del lenguaje natural es el cálculo de la verosimilitud (probabilidad) de una secuencia de palabras, por ejemplo para puntuar diversas hipótesis alternativas y seleccionar la más probable. Supongamos que un sistema de reconocimiento de voz identifica una frase y sugiere, debido a su parecido fonético, dos posibles textos alternativos: * Texto A: "sax and violins on TV" * Texto B: "sex and violence on TV" Con las técnicas de suavizado intentamos evitar las probabilidades cero producidas por k-gramas no vistos.

Property	Value
dbo:abstract	Un problema bastante frecuente en procesamiento del lenguaje natural es el cálculo de la verosimilitud (probabilidad) de una secuencia de palabras, por ejemplo para puntuar diversas hipótesis alternativas y seleccionar la más probable. Supongamos que un sistema de reconocimiento de voz identifica una frase y sugiere, debido a su parecido fonético, dos posibles textos alternativos: * Texto A: "sax and violins on TV" * Texto B: "sex and violence on TV" A primera vista parece que el texto B es más probable que el A, sin embargo, un sistema automático carece de tal sentido común y deberá basarse en un modelo de lenguaje determinado para evaluar cuál de las dos secuencias de palabras tiene mayor puntuación. Para el cálculo de la probabilidad de la observación (la frase en cuestión) se emplea habitualmente un modelo de k-gramas y es bastante frecuente que determinados k-gramas tengan probabilidad 0, es decir, que no aparecen en el texto. Con las técnicas de suavizado intentamos evitar las probabilidades cero producidas por k-gramas no vistos. Son varios los algoritmos de suavizado que se conocen. A continuación se describen algunos de los más utilizados. (es) Un problema bastante frecuente en procesamiento del lenguaje natural es el cálculo de la verosimilitud (probabilidad) de una secuencia de palabras, por ejemplo para puntuar diversas hipótesis alternativas y seleccionar la más probable. Supongamos que un sistema de reconocimiento de voz identifica una frase y sugiere, debido a su parecido fonético, dos posibles textos alternativos: * Texto A: "sax and violins on TV" * Texto B: "sex and violence on TV" A primera vista parece que el texto B es más probable que el A, sin embargo, un sistema automático carece de tal sentido común y deberá basarse en un modelo de lenguaje determinado para evaluar cuál de las dos secuencias de palabras tiene mayor puntuación. Para el cálculo de la probabilidad de la observación (la frase en cuestión) se emplea habitualmente un modelo de k-gramas y es bastante frecuente que determinados k-gramas tengan probabilidad 0, es decir, que no aparecen en el texto. Con las técnicas de suavizado intentamos evitar las probabilidades cero producidas por k-gramas no vistos. Son varios los algoritmos de suavizado que se conocen. A continuación se describen algunos de los más utilizados. (es)
dbo:wikiPageExternalLink	http://citeseer.ist.psu.edu/brants95tagging.html
dbo:wikiPageID	1023955 (xsd:integer)
dbo:wikiPageLength	5245 (xsd:integer)
dbo:wikiPageRevisionID	129993662 (xsd:integer)
prop-es:autor	Martin, S.; Hamacher, C.; Liermann, J.; Wessel, F.; Ney, H. (es) Brants, Thorsten; Samuelsson, Christer (es) Martin, S.; Hamacher, C.; Liermann, J.; Wessel, F.; Ney, H. (es) Brants, Thorsten; Samuelsson, Christer (es)
prop-es:año	1995 (xsd:integer) 1999 (xsd:integer)
prop-es:id	http://citeseer.ist.psu.edu/brants95tagging.html
prop-es:publicación	6 (xsd:integer) Proceedings of the 10th Nordic Conference of Computational Linguistics. Helsinki, Finland (es)
prop-es:título	Tagging the Teleman Corpus (es) Assessment of smoothing methods and complex stochastic language modeling (es) Tagging the Teleman Corpus (es) Assessment of smoothing methods and complex stochastic language modeling (es)
dct:subject	category-es:Bioinformática category-es:Algoritmos category-es:Lingüística_computacional
rdfs:comment	Un problema bastante frecuente en procesamiento del lenguaje natural es el cálculo de la verosimilitud (probabilidad) de una secuencia de palabras, por ejemplo para puntuar diversas hipótesis alternativas y seleccionar la más probable. Supongamos que un sistema de reconocimiento de voz identifica una frase y sugiere, debido a su parecido fonético, dos posibles textos alternativos: * Texto A: "sax and violins on TV" * Texto B: "sex and violence on TV" Con las técnicas de suavizado intentamos evitar las probabilidades cero producidas por k-gramas no vistos. (es) Un problema bastante frecuente en procesamiento del lenguaje natural es el cálculo de la verosimilitud (probabilidad) de una secuencia de palabras, por ejemplo para puntuar diversas hipótesis alternativas y seleccionar la más probable. Supongamos que un sistema de reconocimiento de voz identifica una frase y sugiere, debido a su parecido fonético, dos posibles textos alternativos: * Texto A: "sax and violins on TV" * Texto B: "sex and violence on TV" Con las técnicas de suavizado intentamos evitar las probabilidades cero producidas por k-gramas no vistos. (es)
rdfs:label	Suavizado de n-gramas (es) Suavizado de n-gramas (es)
prov:wasDerivedFrom	wikipedia-es:Suavizado_de_n-gramas?oldid=129993662&ns=0
foaf:isPrimaryTopicOf	wikipedia-es:Suavizado_de_n-gramas
is dbo:wikiPageRedirects of	dbpedia-es:Suavizado_de_n_gramas
is foaf:primaryTopic of	wikipedia-es:Suavizado_de_n-gramas