Glosario

Navegue por el glosario usando este índice.

Especial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | Ñ | O | P | Q | R | S | T | U | V | W | X | Y | Z | TODAS

Página: 1 2 3 4 5 6 7 8 9 10 ... 14 (Siguiente)
TODAS

A

Accuracy o porcentaje de acierto

Promedio de aciertos total obtenido por el modelo de clasificación, representado en tanto por ciento

Alta dimensionalidad

Existe un alto número de variables de entrada en el problema de aprendizaje

Análisis por grupos

Enfoque utilizado para analizar las RAs obtenidas. Consiste en analizar las reglas agrupándolas en función de los ítems que contienen. Podemos analizarlas creando grupos de reglas que tengan algún elemento común en el antecedente o en el consecuente. También se pueden crear los grupos seleccionando las reglas que tengan en el consecuente y en el antecedente el mismo itemset, permitiendo estudiar reglas distintas pero con asociaciones relacionadas.

Antecedente de la RA

En una regla A → C, A es el antecedente de la regla, es decir, aquello que debe aparecer en la instancia para que con una alta probabilidad también aparezca C.

Aprendizaje Supervisado

En aprendizaje automático y minería de datos, el aprendizaje supervisado es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento consisten de pares de objetos: una componente del par son los datos de entrada y el otro, los resultados deseados

Apriori

Es el primer algoritmo que se propuso en la literatura para obtener RAs a partir de un conjunto de datos. Este algoritmo hace uso de un proceso de generación en anchura para extraer todos los itemsets frecuentes y después genera las RAs a partir de ellos. Hace uso de la propiedad de anti-monotonía de la medida de soporte para mejorar la eficiencia al generar los itemsets frecuentes.

Á

Árbol de decisión

Tipo de modelo de aprendizaje supervisado basado en una serie de condiciones aplicadas de manera jerárquica, representado en forma de árbol, con decisiones dicotómicas en cada nodo, y donde cada decisión o salida se obtiene recorriendo el camino de la raíz a las hojas.

Árbol de regresión

Es un árbol de decisión en cuyas hojas hay una constante

A

AUC o Área bajo la curva ROC

Métrica de calidad basada en las probabilidades de salida del clasificador, y el balance que se alcanza entre verdaderos y falsos positivos para cada valor de umbral de probabilidad.

B

Bagging o Bootstrap Aggregating

Tipo de Ensemble que utiliza un subconjunto diferente de los datos de entrenamiento. En este caso, se entrena un número M de estimadores de manera independiente

Bioinformática

Campo interdisciplinar para el desarrollo de métodos y software para entender datos biológicos. La Bioinformática combina Biología, Ciencias de Computación, Ingeniería, Matemáticas y Estadística para analizar e interpretar datos biológicos.

Boosting

Tipo de Ensemble que usa pesos o costes para los ejemplos más difíciles de identificar correctamente. En este caso, se realizan un número M de iteraciones, en cada una generando un estimador dependiente del resultado de la etapa anterior

C

Centroide

Instancia que representa a un conjunto o cluster de instancias.

Chip de proteínas

Técnica de Biología Molecular que permite rastrear las interacciones y actividades de las proteínas, así como determinar su función, a gran escala. Su principal ventaja radica en el hecho de que se pueden rastrear grandes cantidades de proteínas en paralelo. El chip consta de una superficie de soporte que bien puede ser un portaobjetos de vidrio, una membrana de nitrocelulosa, o una microplaca a la que se unen una serie de proteínas de captura

Chord diagram o rueda de dependencia

Un diagrama de Chord permite visualizar relaciones ponderadas entre varias entidades. El gráfico tiene forma circular, donde cada entidad está representada por un fragmento en la parte exterior de la disposición circular. El tamaño de cada uno de estos fragmentos refleja la frecuencia de aparición de dicha entidad.

Los fragmentos de distintas entidades están conectados por bandas o enlaces donde la anchura o tamaño de la banda se corresponde con la frecuencia de aparición de esa combinación de entidades en el conjunto de datos.

Ciencia de Datos

Área de trabajo que busca extraer conocimiento a partir de la información que representa un caso de estudio concreto.

Ciencias Ómicas

Disciplinas que estudian las distintas moléculas que caracterizan la regulación genética y el funcionamiento de los seres vivos. Algunas de las ciencias ómicas se definen como sigue:

Genómica: disciplina centrada en el estudio de la estructura y función de los genomas.
Transcriptómica: disciplina centrada en el estudio de la expresión de todas las moléculas de ARN en una célula o colección de células bajo unas circunstancias concretas.
Epigenómica: disciplina centrada en el estudio de cambios químicos en el ADN y en las histonas (proteínas responsables de la compactación del ADN).
Proteómica: disciplina centrada en el estudio de la colección de proteínas en una célula, tejido u organismo.
Metabolómica: disciplina centrada en el estudio de la colección de pequeñas moléculas químicas, llamadas metabolitos (por ejemplo, hormonas) en una célula, tejido u organismo.
Metagenómica: estudio del material genético recuperado directamente de muestras ambientales, normalmente asociado a material genético de bacterias y microorganismos

Palabra(s) clave:

Clase Negativa

Concepto usualmente complementario a la clase positiva, dentro del problema de clasificación.

Clase Positiva

Concepto de mayor interés a identificar en el problema de clasificación.

Clasificación

Tarea por la cual se realizan predicciones de etiquetas de clase o categorías sobre nuevas muestras.

Clasificación binaria

Es aquel problema de aprendizaje supervisado donde la variable de salida sólo tiene dos estados posibles.

Clasificación multiclase

Es aquel problema de aprendizaje supervisado donde la variable de salida tiene más de dos estados posibles.

Clasificador lineal

Modelo de clasificación en el que la función discriminante sigue un hiperplano.

Cluster

Un conjunto de instancias que se parecen entre sí.

Cluster de ordenadores

Un cluster de ordenadores es un conjunto (grande) de ordenadores conectador por red y que se comportan como si fueran un único ordenador.

Clustering

Técnicas de Aprendizaje No Supervisado cuyo objetivo es la identificación de grupos en los datos.

Coeficientes lineales

También conocidos como coeficientes beta, son estimados para cada variable de entrada Xi en un modelo de regresión. Representan el efecto promedio en Y de una unidad de incremento en Xi, manteniendo el resto de variables de entrada fijas

Colinealidad

En regresión hace referencia al fenómeno por el cual una variable X1 es combinación lineal de otra X2

Computación en la nube (Cloud computing)

Sistema que nos permite trabajar con servidores de computación y almacenamiento en una red, normalmente a través de Internet.

Confianza de una RA

Representa en qué porcentaje de instancias de en las que aparece el antecedente de la regla en el conjunto de datos aparece también el consecuente de la regla.

Confounding o variable espuria

Atributos de entrada que presentan una correlación con la variable de salida, pero que no deben representar realmente información de utilidad para la predicción

Conjunto de entrenamiento

Un subconjunto del total de los datos que se utiliza para realizar el aprendizaje del modelo

Conjunto de test

Un subconjunto del total de los datos, independiente del conjunto de entrenamiento, que se utiliza para validar el aprendizaje del modelo.

Consecuente de la RA

En una regla A → C, C es el consecuente de la regla, es decir, aquello que aparece en la instancia con una alta probabilidad cuando aparece A en dicha instancia.

Control de Calidad

Etapa del análisis computacional en la que se identifican patrones anormales que indiquen sesgos experimentales no corregidos por los métodos de normalización. Para esta etapa es habitual emplear representaciones gráficas.

Conviction

Esta medida mide el error esperado de la regla, es decir, con qué frecuencia aparece el antecedente de la regla en una transacción en la que el consecuente no aparece. Su dominio es [0,∞], donde los valores inferiores a 1 representan dependencia negativa, 1 representa independencia y los valores superiores a 1 representan dependencia positiva.

Coste (parámetro SVM)

Indica cómo de permisivo es el entrenamiento de acuerdo a muestras de entrenamiento que caigan incorrectamente al lado contrario del plano de separación de su clase. Tiene una relación directa con el sobreaprendizaje de la SVM

CSV

Un archivo CSV (del inglés Comma-Separated Values) es un fichero que tiene una tabla de datos en formato de texto separado por comas u otro delimitador. Cada fila de la tabla de datos se corresponde con una línea del fichero, y cada uno de los valores de los campos en esa fila está separado de los demás por comas.

D

Datos no estructurados

Generalmente son datos binarios que no tienen estructura identificable. Los datos estructurados, normalmente tienen forma de tabla.

Dendrograma

Jerarquía de clusters. Representación de cómo las instancias se relacionan entre sí dando lugar a agrupamientos de distinto tamaño.

Desviación estándar

También conocida como desviación típica y representada de manera abreviada por la letra griega minúscula sigma σ o la letra latina s, así como por las siglas SD (de standard deviation, en algunos textos traducidos del inglés), es una medida que se utiliza para cuantificar la variación o la dispersión de un conjunto de datos numéricos

Diagrama o gráfico de categorías paralelas

Tipo de visualización para conjuntos de datos categóricos multidimensionales. Cada variable del conjunto de datos está representada por una columna de rectángulos, en la que cada rectángulo corresponde a un valor distinto asumido por esa variable. Las alturas o tamaño de los rectángulos reflejan la frecuencia de aparición del valor correspondiente.

Los rectángulos de distintas categorías están conectados por bandas o enlaces donde la altura o tamaño de la banda se corresponde con la frecuencia de aparición de esa combinación de categorías en el conjunto de datos.

Dimensionalidad

Referida a un conjunto de datos hace alusión al número de variables que lo componen

Distribuido

Cuando un proceso software se ejecuta en varias máquinas distintas o un conjunto de datos se almacena en varios ordenadores.

E

Ensemble

Tipo de modelo de Machine Learning formado a su vez por un conjunto de modelos individuales que, en conjunto, realizan la predicción final

Entrenamiento o ajuste

Fase de aprendizaje del modelo a partir del algoritmo de Machine Learning

Epistasis

En Biología Molecular, es la interacción entre diferentes genes al expresar un determinado carácter fenotípico, es decir, cuando la expresión de uno o más genes dependen de la expresión de otro gen. Sucede cuando la acción de un gen se ve modificada por la acción de uno o varios genes

Error

La incertidumbre o error numérico es una medida del ajuste o cálculo de una magnitud con respecto al valor real o teórico que dicha magnitud tiene

Escalable

Es la capacidad de un programa de adaptarse a distintas configuraciones hardware, por ejemplo, que si se ejecuta en un cluster de 10 ordenadores y luego pasa a ejecutarse en un cluster de 100 ordenadores iguales al anterior, que la velocidad mejore sobre unas 10 veces.

Especificidad o recall

Ratio de aciertos sobre la clase negativa.

Espectofotometría de masas

Es una técnica de análisis Bioquímico que permite identificar y cuantificar un amplio rango de moléculas en función de su masa

Estimador

Sinónimo de modelo de Machine Learning, referido a tanto a clasificación, regresión, clustering, etc.

F

Fenotipo

Colección de características observables o medibles de un organismo determinadas por factores genéticos y/o medioambientales.

Flujo de datos

El flujo de datos se compone de distintos nodos que permiten realizar tareas del ciclo de ciencia de datos y que están compuestos de nodos (iconos) que se conectan entre sí.

FP-growth

Algoritmo clásico de extracción de RAs que hace uso de una estructura de árbol (FP-tree) para generar los itemsets frecuentes de una forma eficiente, y después generar las RAs a partir de ellos.

Frontera de decisión

Línea o espacio de división entre las clases, asociado directamente con la función discriminante del modelo aprendido en clasificación.

Función

En matemáticas, una función f es una relación entre un conjunto dado X (el dominio) y otro conjunto de elementos Y (el codominio) de forma que a cada elemento x del dominio le corresponde un único elemento del codominio f(x)

Función discriminante

Representación matemática del modelo de clasificación que permite distinguir las clases, es decir, la función divide el espacio de entrada en dos o más grupos, cada uno correspondiente a una etiqueta de clase.

Función Kernel

Función matemática que realiza una transformación no lineal para incrementar la dimensionalidad del problema. Las más usuales son la función polinomial y la red de base radial (Radial Base Function o RBF)

G

Ganancia de Información o Entropía

Medida utilizada en la construcción de un árbol de decisión para determinar la pareja <atributo, valor> que mejor separa las dos clases del problema.

Gene Ontology (GO)

Recurso ampliamente utilizado que ha establecido una ontología genética que categoriza en anotaciones el conocimiento científico actual sobre las funciones de los genes de muchos organismos diferentes, desde humanos hasta bacterias. Tiene un vocabulario de términos y la relación entre ellos para los diferentes tipos de funciones biológicas (Función Molecular), las vías que llevan a cabo diferentes programas biológicos (Proceso Biológico) y lugares donde ocurren estos (Componente Celular)

Grid Search

Estrategia de búsqueda de los mejores hiperparámetros de un algoritmo de aprendizaje realizando todas las combinaciones posibles sobre un conjunto de valores definidos por el usuario

H

Heatmap

Representación gráfica de datos en forma matricial, en la que las celdas de la matriz se colorean en función del valor de los datos contenidos en las mismas.

Hiperplano

Plano multi-dimensional que representan una frontera de decisión para la clasificación de las muestras. Las muestras (o puntos de datos) que se encuentren a cada lado del hiperplano serán predichos como una clase distinta

Hold-out o retención

Técnica de validación o particionamiento por la cual los conjuntos de entrenamiento y test se dividen en dos conjuntos disjuntos únicos.

I

Impureza o Índice de Gini

Medida utilizada en la construcción de un árbol de decisión para determinar la pareja <atributo, valor> que mejor separa las dos clases del problema.

Í

Índice Silueta e índice Calinski-Harabaz

Métricas que permiten determinar el número de clusters de instancias en un conjunto de datos.

I

Insulino-resistencia

Es una condición en la cual los tejidos presentan una respuesta disminuida para disponer de la glucosa circulante ante la acción de la insulina; en especial el hígado, el músculo esquelético, el tejido adiposo y el cerebro. Esta alteración en conjunto con la deficiencia de producción de insulina por el páncreas puede conducir después de algún tiempo al desarrollo de una diabetes mellitus tipo 2

Interpretabilidad

Propiedad deseable de todo modelo de Machine Learning para ser comprendido por un usuario humano, es decir, entender el tipo de función discriminante. Lo opuesto a los modelos de “caja negra”.

Item

Elementos o valores de un conjunto de datos entre los que queremos identificar o representar dependencias.

Itemset

Conjunto de ítems de un conjunto de datos.

Itemset frecuente

Itemset cuyo soporte es igual o mayor que el mínimo soporte definido por el usuario.

K

K Vecinos Más Cercanos

Modelo de aprendizaje supervisado que aproxima el valor de salida al de las K muestras de entrenamiento más similares

K-fold cross validation o validación cruzada de k-particiones

Técnica de validación o particionamiento por la cual se crean “k” conjuntos disjuntos para test. Para cada uno de ellos, el conjunto de entrenamiento se forma con la unión de los “k-1” restantes

k-Itemset

Conjunto con k ítems de un conjunto de datos.

KEGG

KEGG (Kyoto Encyclopedia of Genes and Genomes): Es una base de datos para comprender los fenotipos y sistemas biológicos a partir de información molecular, especialmente conjuntos de rutas metabólicas y redes de señalización en diferentes organismos

Kernel Trick

Estrategia usada en el aprendizaje de las SVM para transformar o ampliar el espacio de características del problema de manera que se pueda encontrar un hiperplano lineal de separación

L

Lazy Learning o aprendizaje basado en instancias

Paradigma de aprendizaje supervisado que se realiza de acuerdo a la similitud de la muestra de test con respecto a las instancias de entrenamiento.

Leave one out o dejar uno fuera

Técnica de validación o particionamiento por la cual se utiliza todo el conjunto como entrenamiento, salvo un ejemplo para test; el proceso se repite para todos los ejemplos del conjunto de datos.

Lenguaje R

R es un entorno y lenguaje de programación con un enfoque al análisis estadístico. R nació como una reimplementación de software libre del lenguaje S, adicionado con soporte para alcance estático

Leverage

Esta medida mide la diferencia entre la probabilidad conjunta observada y la esperada de la regla suponiendo que el antecedente y el consecuente son independientes. Su dominio es [-1,1], donde los valores inferiores a 0 indican dependencia negativa, 0 indica independencia y los valores superiores a 0 indican dependencia positiva.

Lift

Esta medida representa la relación entre la confianza de la RA y la confianza esperada de la regla. Su dominio es [0,∞], donde los valores inferiores a 1 indican dependencia negativa, 1 indica independencia y los valores superiores a 1 indican dependencia positiva.

M

Machine Learning / Aprendizaje Automático

Herramienta de la Inteligencia Artificial que construye modelos o representaciones simplificadas de los datos.

Máquina de Vectores Soporte o SVM

Tipo de modelo de aprendizaje supervisado basado en encontrar el hiperplano de separación de máximo margen entre los ejemplos

Matriz de confusión

Tabla cuadrada donde se agrupan los resultados de la clasificación, usualmente por filas se indica la clase real, y por columnas se indica la clase predicha. La diagonal compila el número total de aciertos, o ejemplos bien etiquetados.

Matriz de expresión

Representación matricial (típicamente una fila por gen, una columna por muestra) con los valores numéricos que cuantifican la expresión de cada gen por cada muestra.

Medidas antropométricas

lConjunto de medidas tomadas durante la evaluación de la composición corporal

Megabase

Unidad de longitud para fragmentos de ADN que equivale a 1 millón de nucleótidos (aproximadamente 1 centimorgan, cM).

MeSH

Términos MeSH (Medical Subject Headings): conjunto de vocabulario y términos curados desarrollado por la biblioteca nacional de medicina de Estados Unidos, utilizado para indexar artículos para PubMed

Metaclasificador

Es un algoritmo que utiliza por debajo algún clasificador como base. Los ensembles se pueden considerar metaclasificadores.

Metanodo

Los metanodos son nodos que contienen subflujos de datos, es decir, en el flujo de datos principal se ven como un solo nodo, aunque pueden contener muchos nodos e incluso más metanodos en su interior.

Métricas de rendimiento

Diferentes fórmulas o medidas para analizar el comportamiento o calidad del modelo de Machine Learning.

Microarray de ADN

Técnica de Biología Molecular que permite estudiar la expresión de muchos genes a la vez. Consiste en colocar miles de secuencias génicas en lugares determinados sobre un portaobjetos de vidrio llamado chip. Una muestra que contiene ADN o ARN se pone en contacto con el chip

Microbioma

Colección completa de microbios presentes en un organismo.

Mínima confianza

Umbral definido por el usuario que indica la mínima confianza que tienen que tener las RAs obtenidas.

Mínimo soporte

Umbral definido por el usuario que indica el mínimo de soporte que tienen que tener los itemsets y las RAs obtenidas.

Modelo

Visión simplificada o condensada de los datos, generado a partir de los atributos que describen el problema.

Modelo de caja negra

Tipo de modelo de Machine Learning cuya representación es compleja, no comprensible o legible directamente por el usuario, y del que se desconoce el procedimiento de inferencia para determinar la salida.

Modelo de regresión

Es un árbol de decisión en cuyas hojas habrá cualquier modelo obtenido mediante una técnica de regresión sobre los datos de dicha hoja (por ejemplo, un modelo lineal multi-variable)

N

NCBI

NCBI es el acrónimo de National Center for Biotechnology Information: https://www.ncbi.nlm.nih.gov/: Centro nacional (americano) de información biotecnológica, centraliza y proporciona acceso a información biomédica y genómica.

Network

Red. Se emplea esta visualización para representar objetos (nodos o vértices de la red) que están conectados entre sí mediante arcos.

Nodo

Los nodos son los elementos principales de KNIME que permiten realizar todo tipo de tareas, incluida la lectura / escritura de archivos, la transformación de datos, los modelos de capacitación, la creación de visualizaciones, etc. Son cajas “negras” en las que sólo hay que indicar unas opciones para poder ejecutarlo sin necesidad de programar.

Nodo (de un cluster de ordenadores)

Cada uno de los ordenadores o procesadores de un cluster de ordenadores.

Nodo maestro (de un cluster de ordenadores)

Es el nodo del cluster que se encarga de la gestión del mismo.

Normalización

Proceso de transformación de las distribuciones de los valores de variables. Con estas transformaciones se pretende habilitar o facilitar el análisis posterior de estos datos. Las técnicas de normalización permiten corregir en parte la variabilidad inherente a las técnicas experimentales en ciencias -ómicas. De este modo, estas técnicas resultan fundamentales antes de combinar datos obtenidos en distintos experimentos, incluso si han sido producidos en el mismo laboratorio, por el mismo equipo técnico y utilizando los mismos instrumentos.

O

Ontología

Una ontología cataloga las variables requeridas para algún conjunto de computación y establece las relaciones entre ellos, sirven para limitar la complejidad y para organizar la información. (Fuente Wikipedia)

Outlier

Instancia que difiere significativamente del resto de instancias en un conjunto de datos.

P

Paradigma de clasificación

Cada uno de los tipos de modelos de clasificación diferentes, de acuerdo al tipo de función discriminantes.

Polimorfismos genéticos

Variantes en la secuencia del ADN entre individuos de la misma especie y que se encuentra con una frecuencia superior al 1% (por debajo de esto, lo llamamos mutación)

Preprocesamiento

Etapa de todo proceso computacional de análisis en la que los datos se preparan para dicho análisis. Esta etapa incluye cualquier tipo de transformación, re-estructuración, filtrado o imputación de valores en los datos. Algunas formas de preprocesamiento habituales en datos ómicos son los cambios de formato de variables y tablas, la selección de un subconjunto de variables de interés, la imputación de valores perdidos, etc.

PubMed

Base de datos de bibliografía que contiene más de 30 millones de entradas de literatura biomédica, revistas y libros de ciencias de la vida.

https://pubmed.ncbi.nlm.nih.gov

Puerto

Los puertos son los medios a través de los cuales se transportan los datos y pueden ser de entrada o de salida.

Pureza del nodo

Indica el ratio de ejemplos de cada clase que se encuentran en un nodo determinado del árbol de decisión

R

R-Studio

Es un entorno de desarrollo integrado o interfaz visual para el lenguaje de programación R, dedicado a la computación estadística y gráficos

Random Forest

Modelo de Machine Learning que consiste en un Ensemble tipo “Bagging” de árboles de decisión

Regla de asociación (RA)

Se definen como expresiones del tipo A → C, donde A y C son itemsets cuya intersección es vacía. Estas reglas representan que cuando en una instancia del conjunto de datos aparecen los elementos de A, con una alta probabilidad también aparecen los elementos de C en esa instancia.

Regresión

Tarea por la cual se realizan predicciones de valores numéricos sobre nuevas muestras

Regresor Logístico

Modelo de clasificación lineal que aproxima la salida a una curva logística

RNASeq

Tecnologías que permiten identificar secuencias de ARN en una muestra celular y cuantificar su abundancia, es decir, identificar qué genes se expresan en la muestra en ese instante y cuál es su grado de expresión. Además de cuantificar la expresión de genes, el análisis de estos datos permite identificar nuevas secuencias transcritas a partir de ADN, identificar mecanismos de splicing alternativo o detectar expresión específica de alelo, entre otros. Además, estas tecnologías permiten caracterizar no sólo RNA mensajero (mRNA), sino también otros tipos de RNAs como los RNAs que no codifican proteínas (los llamados RNAs no codificantes o non-coding RNAs, ncRNAs) que incluyen los lncRNAs y los miRNAs, entre otros.

S

Scatter plot

También llamado diagrama de dispersión. Es un tipo de gráfico que utiliza las coordenadas cartesianas para representar los valores de dos variables para un conjunto de datos.

Secuenciación de alto rendimiento

También llamada “de nueva generación” o secuenciación masiva, es un método usado para secuenciar de miles a millones de fragmentos de ADN diferentes al mismo tiempo.

Sensibilidad

Ratio de aciertos sobre la clase positiva.

Servidor

Un servidor es un ordenador o programa diseñado para procesar peticiones de clientes y devolverle una respuesta acorde a la petición.

Sesgo de datos

Situación no deseada por la que los datos recopilados presentan algunas propiedades que dificultan el correcto aprendizaje, por ejemplo, una distribución desigual de ejemplos en clases.

Sesión

Una sesión es un intercambio de información interactiva semipermanente entre dos o más entidades, por ejemplo, Spark y Python.

Sobreaprendizaje

Situación no deseada en la que el modelo se ha ajustado demasiado a los datos de entrenamiento y no permite alcanzar un buen rendimiento en test.

Soporte de un itemset o de una RA

Frecuencia con la que aparece en el conjunto de datos el itemset o la RA.

SQL

Del inglés Structured Query Language, Lenguaje de Consulta Estructurado. Es un lenguaje estándar que se usa para trabajar con datos que se encuentra almacenados en forma de tabla.

Support Vector Machine (SVM)

Tipo de modelo de aprendizaje supervisado basado en encontrar el hiperplano de separación de máximo margen entre los ejemplos

T

Tolerancia a fallos

Significa que si uno o varios ordenadores/programas dejan de hacer su trabajo, el resto de ordenadores/programas lo llevan a cabo sin problema.

Transacción

Instancia de un conjunto de datos.

Tubería (pipeline)

Es un esquema que trata un flujo de trabajo de forma secuencial, donde la entrada de cada paso es la salida del anterior.

U

URL

Una URL (del inglés Uniform Resource Locator) es una cadena de texto que especifica dónde puede encontrarse un recurso en Internet.

V

Validación o test

Fase de comprobación de resultados, es decir, contrastar si el modelo aprendido generaliza o se comporta bien con respecto a nuevos datos.

Página: 1 2 3 4 5 6 7 8 9 10 ... 14 (Siguiente)
TODAS

MOOC Machine Learning y Big Data para la Bioinformática. 4ª Edición

A

Accuracy o porcentaje de acierto

Alta dimensionalidad

Análisis por grupos

Antecedente de la RA

Aprendizaje Supervisado

Apriori

Á

Árbol de decisión

Árbol de regresión

A

AUC o Área bajo la curva ROC

B

Bagging o Bootstrap Aggregating

Bioinformática

Boosting

C

Centroide

Chip de proteínas

Chord diagram o rueda de dependencia

Ciencia de Datos

Ciencias Ómicas

Clase Negativa

Clase Positiva

Clasificación

Clasificación binaria

Clasificación multiclase

Clasificador lineal

Cluster

Cluster de ordenadores

Clustering

Coeficientes lineales

Colinealidad

Computación en la nube (Cloud computing)

Confianza de una RA

Confounding o variable espuria

Conjunto de entrenamiento

Conjunto de test

Consecuente de la RA

Control de Calidad

Conviction

Coste (parámetro SVM)

CSV

D

Datos no estructurados

Dendrograma

Desviación estándar

Diagrama o gráfico de categorías paralelas

Dimensionalidad

Distribuido

E

Ensemble

Entrenamiento o ajuste

Epistasis

Error

Escalable

Especificidad o recall

Espectofotometría de masas

Estimador

F

Fenotipo

Flujo de datos

FP-growth

Frontera de decisión

Función

Función discriminante

Función Kernel

G

Ganancia de Información o Entropía

Gene Ontology (GO)

Grid Search

H

Heatmap

Hiperplano

Hold-out o retención

I

Impureza o Índice de Gini

Í