This HTML5 document contains 10 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

PrefixNamespace IRI
wikipedia-eshttp://es.wikipedia.org/wiki/
dbohttp://dbpedia.org/ontology/
foafhttp://xmlns.com/foaf/0.1/
dbpedia-eshttp://es.dbpedia.org/resource/
rdfshttp://www.w3.org/2000/01/rdf-schema#
n7http://es.wikipedia.org/wiki/Q-learning?oldid=130006832&ns=
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
owlhttp://www.w3.org/2002/07/owl#
provhttp://www.w3.org/ns/prov#
xsdhhttp://www.w3.org/2001/XMLSchema#
dbrhttp://dbpedia.org/resource/
Subject Item
dbr:Q-learning
owl:sameAs
dbpedia-es:Q-learning
Subject Item
dbpedia-es:Q-learning
rdfs:label
Q-learning
rdfs:comment
Q-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones.
foaf:isPrimaryTopicOf
wikipedia-es:Q-learning
dbo:wikiPageID
8778214
dbo:wikiPageRevisionID
130006832
dbo:wikiPageLength
24197
prov:wasDerivedFrom
n7:0
dbo:abstract
Q-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones. Para cualquier finito (PDMF) (finite Markov decision process en inglés), Q-learning encuentra una política óptima en el sentido de que maximiza el valor esperado de la recompensa total sobre todos los pasos sucesivos, empezando desde el estado actual.​ Q-learning puede identificar una norma de acción-selección óptima para cualquier PDMF, dado un tiempo de exploración infinito y una norma parcialmente aleatoria​ "Q" nombra la función que devuelve la recompensa que proporciona el refuerzo y representa la "calidad" de una acción tomada en un estado dado.​
Subject Item
wikipedia-es:Q-learning
foaf:primaryTopic
dbpedia-es:Q-learning