Definiciones IA
Redes Neuronales: Son estructuras computacionales inspiradas en el cerebro humano, compuestas por capas de neuronas artificiales interconectadas. Cada neurona recibe entradas, aplica una función de activación (como ReLU o sigmoide) y produce una salida. Hay varios tipos, desde Redes Feedforward con Flujo unidireccional, Redes Recurrentes (RNN), Conexiones recursivas para datos secuenciales y Convolucionales (CNN),Usadas en visión por computadora.
Machine learning: Es un subcampo de la IA que permite a los sistemas aprender de datos sin ser programados explícitamente. Hay tres tipos principales: Supervisado: Modelos entrenados con datos etiquetados (ej: clasificación), No supervisado: Detección de patrones en datos sin etiquetas (ej: clustering) y Reforzado: Aprendizaje basado en recompensas (ej: AlphaGo).
Tokenización: La tokenización es el proceso de dividir un texto en unidades más pequeñas llamadas tokens. Estos tokens pueden ser palabras, partes de palabras, caracteres individuales o incluso símbolos, dependiendo del método utilizado. Es un paso fundamental en el procesamiento del lenguaje natural (NLP), ya que permite a los modelos de inteligencia artificial entender y procesar el texto de manera estructurada. Hay varios tipos, tokenización por palabras, por subpalabras, por carácteres, y es muy común en bibliotecas de Phyton.
Embedding: Representación vectorial densa de datos con palabras o imágenes)en un espacio de alta dimensión. Es una técnica que convierte palabras, frases o textos en vectores numéricos que capturan su significado y relaciones en un espacio multidimensional. Estos vectores permiten que las computadoras procesen y comprendan el lenguaje de manera más eficiente.
El objetivo principal es capturar relaciones semánticas (ej: "rey" - "hombre" + "mujer" ≈ "reina") y se utilizan en modelos como ChatGpt, Word2Vec, GloVe, o embeddings aprendidos en transformers.
ç
Lematización: Reducción de palabras a su forma base (lema), considerando el contexto gramatical. Es un proceso dentro del procesamiento del lenguaje natural (NLP) que consiste en reducir una palabra a su forma base o canónica, llamada lema. A diferencia de la stemming , la lematización considera el significado y el rol gramatical de la palabra para devolver su forma más pura (por ejemplo, un infinitivo en verbos o singular en sustantivos).Sirve para Normalizar palabras para análisis de texto (ej.: contar "corrió", "corriendo" y "correr" como la misma raíz) y mejorar la precisión en tareas como búsquedas de información , análisis de sentimientos o traducción automática.
Sampling:Es elegir una parte de los datos para trabajar más rápido o equilibrar la información.El sampling (o muestreo) es el proceso de seleccionar un subconjunto de datos de un conjunto más grande para su análisis o entrenamiento de modelos. En el contexto de Machine Learning (ML) y Procesamiento del Lenguaje Natural (NLP), el sampling es crucial para manejar grandes volúmenes de datos, reducir costos computacionales o equilibrar conjuntos de datos sesgados.
Existen varios tipos, el aleatorio donde todos tienen la misma oportunidad de ser elegido, y el estratificado, que se asegura de que grupos importantes estén representados (ej: mismo número de hombres y mujeres en una encuesta).
Entrenamiento en secuencia:Es cuando una IA aprende paso a paso, como un niño que primero ve letras, luego palabras y después frases. El entrenamiento en secuencia se refiere a métodos de entrenamiento en Machine Learning (ML) y Deep Learning (DL) diseñados para manejar datos secuenciales, como texto, series temporales, audio o ADN. Estos métodos son clave en modelos que procesan información donde el orden y el contexto temporal son importantes, como en Procesamiento del Lenguaje Natural (NLP) y Reconocimiento de Voz.
Ejemplo: Una RNN analiza una frase palabra por palabra, recordando lo anterior.
Long-Shrort Term Memory: Un tipo de red neuronal buena para aprender de datos secuenciales (como texto o series de tiempo). Las LSTM son un tipo especial de Red Neuronal Recurrente (RNN) diseñada para resolver el problema del desvanecimiento de gradientes (vanishing gradients) en secuencias largas. A diferencia de las RNN estándar, las LSTM pueden recordar información relevante por períodos prolongados gracias a su arquitectura con "puertas" (gates) que controlan el flujo de información.
Qué hace: Recuerda información importante por más tiempo y olvida lo innecesario.
Ejemplo: Predice la siguiente palabra en un mensaje, teniendo en cuenta el contexto.
Transformers (Capa de atención): Son modelos (como GPT o BERT) que analizan datos (ej: texto) en paralelo, fijándose en las partes más importantes. Los Transformers son una arquitectura revolucionaria en Deep Learning, introducida en 2017 por el paper "Attention is All You Need". A diferencia de las RNN/LSTM, los Transformers procesan secuencias completas en paralelo (no paso a paso) gracias a su mecanismo de atención auto-referenciada (self-attention), lo que los hace más eficientes y escalables. Existen la atención clásica, Usada en modelos antiguos de traducción (ej.: encoder-decoder con RNN). Este decoder "mira" los estados ocultos del encoder para generar palabras; y la "Self Attention", que sufre una Innovación clave de los Transformers: Cada palabra/token en la secuencia puede interactuar con todas las demás (incluida sí misma).
Ejempo: Atención: Si lees "El gato cruzó la calle porque tenía hambre", la IA entiende que "hambre" está relacionado con "gato", no con "calle".
Paralelizar (Entrenamiento en paralelo): Es dividir el trabajo de entrenar una IA en varias partes para hacerlo más rápido. Para acelerar el entrenamiento de modelos grandes (como Transformers, CNNs o LLMs), se usan técnicas de paralelización que distribuyen la carga de trabajo entre múltiples GPUs/TPUs o nodos en un clúster. existen diferentes estrategias: El Data Parallelism ,qué Divide el batch de entrenamiento en sub-batches y los distribuye entre GPUs. Cada GPU tiene una copia completa del modelo,Cada GPU procesa un sub-batch y calcula sus gradientes y finalmente Los gradientes se sincronizan (usando all-reduce) y se actualizan en todas las GPUs. Por otro lado existe el "Model Parallelsim" que Divide el modelo en capas o bloques y los distribuye entre GPUs. Se usa em modelos demasiado grandes para caber en una sola GPU (ej.: GPT-3, Mixtral).
Ejemplo: Usar 10 computadoras en vez de 1 para procesar datos.
Bert: Un modelo de lenguaje de Google que entiende el contexto de las palabras.
y que funciona: Leyend todo el texto a la vez (no solo palabra por palabra) y usa "atención" para ver relaciones.
Ejemplo: En "El banco del río vs. El banco de dinero", sabe que "banco" significa cosas distintas.
OpenAi:Una empresa que desarrolla IA avanzada, como ChatGPT o DALL·E (genera imágenes desde texto), Esta enfocada en la investigación en inteligencia artificial (IA), y fue fundada en 2015 con el objetivo de desarrollar IA avanzada que beneficie a la humanidad. Es conocida por crear modelos revolucionarios como ChatGPT, GPT-4, DALL·E (generación de imágenes) y Whisper (reconocimiento de voz)
GitHub Copilot: Un asistente de programación que sugiere código en tiempo real, como un "autocompletado inteligente".
Cómo funciona: Usa un modelo de OpenAI entrenado con millones de códigos públicos.
RLFHF: Es entrenar una IA con opiniones humanas para mejorar sus respuestas.Pasos:
La IA genera varias respuestas.
Humanos votan cuál es la mejor.La IA aprende a preferir ese estilo (ej: más claro o educado).
Comentarios
Publicar un comentario