- Desarrollo, Tecnología
Primeros pasos en Reinforcement Learning (con práctica en juegos de la NES).
- Jhoan Cardozo - Jonathan Rubio
- enero 23, 2023
A la hora de hablar de automatización y IA se nos vienen a la cabeza múltiples ideas de uso en nuestra vida cotidiana, el cómo iniciar y con qué medios se pueden desarrollar todos esos mecanismos automatizados, es un misterio incluso para varios desarrolladores que entienden del tema y aquí es donde entramos nosotros, te daremos un recorrido de primera mano en este mundo del refuerzo profundo basando nuestros artículos en distintas partes, en esta te daremos una introducción a los temas principales que debes entender para lograr el objetivo de realizar tu primer agente en un videojuego mediante algoritmos de aprendizaje, para que puedas de esta manera superar niveles en juegos de la NES (“El límite lo pondrás tú”).
Lo primero y más importante es hablar de lo que se ha dicho en un principio, pero que aún no sabemos realmente de qué se trata (“si es tu primera vez leyendo sobre este tema”), y es el aprendizaje por refuerzo. Cuando hablamos de aprendizaje en específico nos llega la definición de una adquisición del conocimiento. Ahora para hablar de aprendizaje por refuerzo, tengamos claro el término Psicología conductista el cual se desarrolla en el análisis experimental y para ponerlo fácil es: que conducta toma un individuo al ejercerse una acción sobre él. Todos estos términos nos ayudaran para entender la base teórica del estudio y no solo las funcionalidades que se puedan realizar con este, ahora con este repaso tengamos en cuenta que esas conductas pueden orientarse a las máquinas ó (“agentes”) para que generen acciones y aprendan de ellas logrando el mejor camino posible a una solución.
El aprendizaje por refuerzo tiene una característica muy importante de aludir, y es que no tiene un fin (“salida ó final”) en específico. por lo que tenemos claro que nuestro algoritmo debe aprender por sí mismo sin ningún limitante con tal de lograr su objetivo, al mismo tiempo se tendrán en cuenta todos los factores que puedan detenerlo.
Ahora vamos brevemente a tratar los componentes que hacen parte del aprendizaje por refuerzo, uno de ellos es el (“agente”) que será nuestro el sujeto de pruebas, el que se debe entrenar para tomar decisiones y aprender de ellas, el (“ambiente”) que será nuestro entorno, donde se desarrollan las interacciones con nuestro agente y es el encargado de poner las limitaciones necesarias las cuales debemos superar. Existen funciones para ellos como la (“Acción”) que hace parte de los posibles movimientos que nuestro agente puede establecer, el (“Estado”) que son elementos del ambiente y con ellos las limitaciones sujetas a él, y las (“Recompensas”) que es la manera de guiar si las acciones tomadas por el agente se orientan por el camino correcto a la solución, o en su caso (“castigos”) que identifica caminos o acciones erróneas.

Entonces tenemos que cuando el agente realiza una acción que no contenga consecuencias y pueda avanzar para lograr el mejor camino, este será recompensado y lograra retroalimentarse de dichas recompensas para seguir tomando este mismo camino a futuro. Mientras que cuando dicho agente realice una acción que acabe como castigo, a futuro evitará seguir dicho camino (“debe tener en cuenta el explorar diferentes acciones y evitar estancar el algoritmo por no tomar acciones de riesgo”). de esta manera funciona el aprendizaje por refuerzo.
Por último, dejamos claro que para que nuestro agente pueda aprender la única manera es que cometa errores y que de estos errores logre las recompensas necesarias para avanzar hasta el final de los procesos. ya con esto tenemos las bases teóricas necesarias para empezar a echar mano en el desarrollo real del aprendizaje por refuerzo, les pido que estén pendientes al próximo blog que desarrollare donde hablaremos de Q-Learning y les mostraremos cómo desarrollar esta teoría en un entorno real, ¡hasta la próxima!
Compartir
También te podría interesar

Tips rápidos para crear videos en TikTok
TikTok es en definitiva una de las redes sociales con mas auge en la actualidad. Siendo una red de contenido audiovisual, especialmente de videos.

UX/UI : El futuro de los diseñadores en la era digital
Cuando estudiamos diseño, siempre se nos habla de el arte y la inspiración, pero nunca de los retos que implica ser diseñador en una ciudad como Cúcuta.

Primeros pasos en Reinforcement Learning (con práctica en juegos de la NES).
A la hora de hablar de automatización y IA se nos vienen a la cabeza múltiples ideas de uso en nuestra vida cotidiana, el cómo iniciar y con qué medios…