En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas. * Datos: Q2882343

Property Value
dbo:abstract
  • En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas. En versiones iniciales de este problema, el jugador no tiene información inicial sobre las máquinas. El compromiso esencial que el jugador debe abordar en cada iteración es entonces entre la explotación de la máquina con mayor recompensa esperada y la exploración del resto para obtener más información sobre las recompensas esperadas de las demás tragaperras. Este compromiso entre exploración y explotación también aparece en el contexto de aprendizaje reforzado (reinforced learning). * Datos: Q2882343 (es)
  • En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas. En versiones iniciales de este problema, el jugador no tiene información inicial sobre las máquinas. El compromiso esencial que el jugador debe abordar en cada iteración es entonces entre la explotación de la máquina con mayor recompensa esperada y la exploración del resto para obtener más información sobre las recompensas esperadas de las demás tragaperras. Este compromiso entre exploración y explotación también aparece en el contexto de aprendizaje reforzado (reinforced learning). * Datos: Q2882343 (es)
dbo:wikiPageID
  • 8236897 (xsd:integer)
dbo:wikiPageLength
  • 1165 (xsd:integer)
dbo:wikiPageRevisionID
  • 118718140 (xsd:integer)
dct:subject
rdfs:comment
  • En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas. * Datos: Q2882343 (es)
  • En teoría de la probabilidad, el problema del bandido multibrazo (también llamado (problema del bandido de N o K brazos) es un problema en el que un jugador ante una fila de tragaperras (también denominadas "bandidos de un solo brazo") tiene que decidir con qué máquinas juega, y en qué orden. Cuando juega, cada tragaperras devuelve una recompensa aleatoria derivada de la distribución de probabilidad específica de la máquina. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de máquinas. * Datos: Q2882343 (es)
rdfs:label
  • Bandido multibrazo (es)
  • Bandido multibrazo (es)
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is owl:sameAs of
is foaf:primaryTopic of