About: Tf-idf

Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras.

Property	Value
dbo:abstract	Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras. Variaciones del esquema de peso tf-idf son empleadas frecuentemente por los motores de búsqueda como herramienta fundamental para medir la relevancia de un documento dada una consulta del usuario, estableciendo así una ordenación o ranking de los mismos. Tf-idf puede utilizarse exitosamente para el filtrado de las denominadas stop-words (palabras que suelen usarse en casi todos los documentos), en diferentes campos como la clasificación y resumen de texto. Una de las funciones de ranking más sencillas se calcula como la suma de los valores tf-idf de cada término de la consulta. Muchas funciones de ranking más complejas constituyen variaciones de este simple modelo. (es) Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras. Variaciones del esquema de peso tf-idf son empleadas frecuentemente por los motores de búsqueda como herramienta fundamental para medir la relevancia de un documento dada una consulta del usuario, estableciendo así una ordenación o ranking de los mismos. Tf-idf puede utilizarse exitosamente para el filtrado de las denominadas stop-words (palabras que suelen usarse en casi todos los documentos), en diferentes campos como la clasificación y resumen de texto. Una de las funciones de ranking más sencillas se calcula como la suma de los valores tf-idf de cada término de la consulta. Muchas funciones de ranking más complejas constituyen variaciones de este simple modelo. (es)
dbo:wikiPageExternalLink	https://archive.org/details/introductiontomo00salt http://portal.acm.org/citation.cfm%3Fid=358466 http://www.soi.city.ac.uk/~ser/idfpapers/ksj_orig.pdf
dbo:wikiPageID	5530510 (xsd:integer)
dbo:wikiPageLength	7463 (xsd:integer)
dbo:wikiPageRevisionID	121943707 (xsd:integer)
prop-es:autor	Jones KS (es) McGill MJ (es) Salton G (es) Salton G, Buckley C (es) Salton G, Fox EA, Wu H (es) Wu HC, Luk RWP, Wong KF, Kwok KL (es) Jones KS (es) McGill MJ (es) Salton G (es) Salton G, Buckley C (es) Salton G, Fox EA, Wu H (es) Wu HC, Luk RWP, Wong KF, Kwok KL (es)
prop-es:año	1972 (xsd:integer) 1986 (xsd:integer) 1988 (xsd:integer) 2008 (xsd:integer)
prop-es:doi	101016 (xsd:integer) 101108 (xsd:integer) 101145 (xsd:integer)
prop-es:editorial	dbpedia-es:McGraw-Hill
prop-es:enlaceautor	Gerard Salton (es) Karen Spärck Jones (es) Gerard Salton (es) Karen Spärck Jones (es)
prop-es:fecha	noviembre de 1983 (es) noviembre de 1983 (es)
prop-es:isbn	0 (xsd:integer)
prop-es:número	1 (xsd:integer) 3 (xsd:integer) 5 (xsd:integer) 11 (xsd:integer)
prop-es:páginas	1 (xsd:integer) 11 (xsd:integer) 513 (xsd:integer) 1022 (xsd:integer)
prop-es:título	A statistical interpretation of term specificity and its application in retrieval (es) Term-weighting approaches in automatic text retrieval (es) Interpreting tf–idf term weights as making relevance decisions (es) Extended Boolean information retrieval (es) Introduction to modern information retrieval (es) A statistical interpretation of term specificity and its application in retrieval (es) Term-weighting approaches in automatic text retrieval (es) Interpreting tf–idf term weights as making relevance decisions (es) Extended Boolean information retrieval (es) Introduction to modern information retrieval (es)
prop-es:url	https://archive.org/details/introductiontomo00salt http://portal.acm.org/citation.cfm%3Fid=358466 http://www.soi.city.ac.uk/~ser/idfpapers/ksj_orig.pdf
prop-es:volumen	24 (xsd:integer) 26 (xsd:integer) 28 (xsd:integer)
dct:subject	category-es:Funciones category-es:Procesamiento_de_lenguaje_natural
rdfs:comment	Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras. (es) Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en la colección de documentos), es una medida numérica que expresa cuán relevante es una palabra para un documento en una colección. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de texto. El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en la colección de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras. (es)
rdfs:label	Tf-idf (es) Tf-idf (es)
owl:sameAs	freebase:Tf-idf
prov:wasDerivedFrom	wikipedia-es:Tf-idf?oldid=121943707&ns=0
foaf:isPrimaryTopicOf	wikipedia-es:Tf-idf
is owl:sameAs of	dbr:Tf-idf
is foaf:primaryTopic of	wikipedia-es:Tf-idf