BIOESTADÍSTICA 
Roberto Pastor-Barriuso
Científico Titular
Centro Nacional de Epidemiología, 
Instituto de Salud Carlos III, 
Madrid

A la memoria de Carmen
A Marta, Pablo, Miguel y Antonio

vii
ÍNDICE
1 Estadística descriptiva  1
1.1 Introducción  1
1.2 Medidas de tendencia central  3
1.2.1 Media aritmética  3
1.2.2 Mediana  4
1.2.3 Media geométrica  5
1.3 Medidas de posición: cuantiles  5
1.4 Medidas de dispersión  6
1.4.1 Varianza y desviación típica  6
1.4.2 Rango intercuartílico  7
1.4.3 Coeficiente de variación  7
1.5 Representaciones gráficas  8
1.5.1 Diagrama de barras  8
1.5.2 Histograma y polígono de frecuencias  9
1.5.3 Gráfico de tallo y hojas  10
1.5.4 Diagrama de caja  11
1.6 Referencias  12
2 Probabilidad  13
2.1 Introducción  13
2.2 Concepto y definiciones de probabilidad  14
2.3 Probabilidad condicional e independencia de sucesos  16
2.4 Regla de la probabilidad total  18
2.5 Teorema de Bayes  18
2.6 Referencias  20
3 Variables aleatorias y distribuciones de probabilidad  21
3.1 Introducción  21
3.2 Distribuciones de probabilidad discretas  22
3.2.1 Distribución binomial  24
3.2.2 Distribución de Poisson  26
3.2.3 Aproximación de Poisson a la distribución binomial  29
3.3 Distribuciones de probabilidad continuas  29
3.3.1 Distribución normal  31
3.3.2 Aproximación normal a la distribución binomial  34
3.3.3 Aproximación normal a la distribución de Poisson  36
3.4 Combinación lineal de variables aleatorias  37
3.5 Referencias  39
viii
Índice
4 Principios de muestreo y estimación  41
4.1 Introducción  41
4.2 Principales tipos de muestreo probabilístico  42
4.2.1 Muestreo aleatorio simple  43
4.2.2 Muestreo sistemático  43
4.2.3 Muestreo estratificado  44
4.2.4 Muestreo por conglomerados  46
4.2.5 Muestreo polietápico  47
4.3 Estimación en el muestreo aleatorio simple  49
4.3.1 Estimación puntual de una media poblacional  49
4.3.2 Error estándar de la media muestral  51
4.3.3 Teorema central del límite  53
4.3.4 Estimación de una proporción poblacional  55
4.4 Referencias  58
5 Inferencia estadística  59
5.1 Introducción  59
5.2 Estimación puntual  60
5.3 Estimación por intervalo  62
5.3.1 Distribución t de Student  62
5.3.2 Intervalo de confianza para una media poblacional  63
5.4 Contraste de hipótesis  67
5.4.1 Formulación de hipótesis  67
5.4.2 Contraste estadístico para la media de una población  69
5.4.3 Errores y potencia de un contraste de hipótesis  72
5.5 Referencias  76
6 Inferencia sobre medias  79
6.1 Introducción 79
6.2 Inferencia sobre una media y varianza poblacional  80
6.2.1 Inferencia sobre la media de una población  80
6.2.2 Inferencia sobre la varianza de una población  81
6.3 Comparación de medias en dos muestras independientes  83
6.3.1 Comparación de medias en distribuciones con igual varianza  85
6.3.2 Contraste para la igualdad de varianzas  88
6.3.3 Comparación de medias en distribuciones con distinta varianza 90
6.4 Comparación de medias en dos muestras dependientes  92
6.5 Referencias  95
ix
 
7 Inferencia sobre proporciones  97
7.1 Introducción  97
7.2 Inferencia sobre una proporción poblacional  97
7.3 Comparación de proporciones en dos muestras independientes  99
7.4 Asociación estadística en una tabla de contingencia  102
7.5 Test de tendencia en una tabla r×2  106
7.6 Medidas de efecto en una tabla de contingencia  107
7.6.1 Riesgo relativo  108
7.6.2 Odds ratio  111
7.7 Comparación de proporciones en dos muestras dependientes  114
7.8 Apéndice: corrección por continuidad  117
7.9 Referencias  120
8 Métodos no paramétricos  121
8.1 Introducción  121
8.2 Test de la suma de rangos de Wilcoxon  122
8.3 Test de los rangos con signo de Wilcoxon  129
8.4 Test exacto de Fisher  134
8.5 Referencias  138
9 Determinación del tamaño muestral  139
9.1 Introducción  139
9.2 Tamaño muestral para la estimación de un parámetro poblacional  140
9.2.1 Tamaño muestral para la estimación de una media  140
9.2.2 Tamaño muestral para la estimación de una proporción  141
9.3 Tamaño muestral para la comparación de medias  142
9.3.1 Tamaño muestral para la comparación de medias en dos muestras
 independientes  143
9.3.2 Tamaño muestral para la comparación de medias en dos muestras
 dependientes  146
9.4 Tamaño muestral para la comparación de proporciones  148
9.4.1 Tamaño muestral para la comparación de proporciones en dos muestras
 independientes  148
9.4.2 Tamaño muestral para la comparación de proporciones en dos muestras 
 dependientes  152
9.5 Referencias  154
10 Correlación y regresión lineal simple  155
10.1 Introducción  155
10.2 Coeficiente de correlación  155
Índice
xÍndice
10.2.1 Coeficiente de correlación muestral de Pearson  158
10.2.2 Coeficiente de correlación de los rangos de Spearman  161
10.3 Regresión lineal simple  164
10.3.1 Estimación de la recta de regresión  166
10.3.2 Contraste del modelo de regresión lineal simple  169
10.3.3 Inferencia sobre los parámetros de la recta de regresión  173
10.3.4 Bandas de confianza y predicción para la recta de regresión  175
10.3.5 Evaluación de las asunciones del modelo de regresión lineal simple  178
10.3.6 Observaciones atípicas e influyentes  184
10.3.7 Variable explicativa dicotómica  190
10.4 Referencias  191
11 Regresión lineal múltiple  193
11.1 Introducción  193
11.2 Estructura de la regresión lineal múltiple  194
11.3 Estimación e inferencia de la ecuación de regresión  196
11.3.1 Estimación de los coeficientes de regresión  197
11.3.2 Inferencia sobre los coeficientes de regresión  200
11.3.3 Inferencia sobre la ecuación de regresión  201
11.4 Contrastes de hipótesis en regresión lineal múltiple  203
11.4.1 Contraste global del modelo de regresión lineal múltiple  203
11.4.2 Contrastes parciales  206
11.5 Variables explicativas politómicas  210
11.6 Regresión polinomial  215
11.7 Confusión e interacción en regresión lineal  218
11.7.1 Control de la confusión en regresión lineal  218
11.7.2 Evaluación de la interacción en regresión lineal  221
11.8 Apéndice: formulación matricial de la regresión lineal múltiple  228
11.9 Referencias  232
Apéndice: tablas estadísticas  233
1Pastor-Barriuso R.
TEMA 1
ESTADÍSTICA DESCRIPTIVA
1.1 INTRODUCCIÓN
La estadística es la rama de las matemáticas aplicadas que permite estudiar fenómenos cuyos 
resultados son en parte inciertos. Al estudiar sistemas biológicos, esta incertidumbre se debe al 
desconocimiento de muchos de los mecanismos fisiológicos y fisiopatológicos, a la incapacidad 
de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente 
se producen. Así, al realizar observaciones en clínica o en salud pública, los resultados obtenidos 
contienen una parte sistemática o estructural, que aporta información sobre las relaciones entre 
las variables estudiadas, y una parte de “ruido” aleatorio. El objeto de la estadística consiste en 
extraer la máxima información sobre estas relaciones estructurales a partir de los datos recogidos.
En estadística se distinguen dos grandes grupos de técnicas:
 y La estadística descriptiva, en la que se estudian las técnicas necesarias para la organización, 
presentación y resumen de los datos obtenidos.
 y La estadística inferencial, en la que se estudian las bases lógicas y las técnicas mediante 
las cuales pueden establecerse conclusiones sobre la población a estudio a partir de los 
resultados obtenidos en una muestra. 
El análisis de una base de datos siempre partirá de técnicas simples de resumen de los datos y 
presentación de los resultados. A partir de estos resultados iniciales, y en función del diseño del 
estudio y de las hipótesis preestablecidas, se aplicarán las técnicas de inferencia estadística que 
permitirán obtener conclusiones acerca de las relaciones estructurales entre las variables 
estudiadas. Las técnicas de estadística descriptiva no precisan de asunciones para su 
interpretación, pero en contrapartida la información que proporcionan no es fácilmente 
generalizable. La estadística inferencial permite esta generalización, pero requiere ciertas 
asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias.
A continuación se definen algunos conceptos generales que aparecen repetidamente a lo 
largo de la exposición:
 y Población es el conjunto de todos los elementos que cumplen ciertas propiedades y entre 
los cuales se desea estudiar un determinado fenómeno.
 y Muestra es un subconjunto de la población seleccionado mediante un mecanismo más o 
menos explícito. En general, rara vez se dispone de los recursos necesarios para estudiar a 
toda la población y, en consecuencia, suelen emplearse muestras obtenidas a partir de 
estas poblaciones.
Ejemplo 1.1 Algunos ejemplos de poblaciones son:
 — Las personas residentes en Washington D.C. a 1 de enero de 2010.
 — Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a día de 
hoy.
2Estadística descriptiva
Pastor-Barriuso R.
Para estas poblaciones, algunas muestras podrían ser:
— 500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante 
llamadas telefónicas aleatorias.
— Todas las personas que acuden a un hospital de Río de Janeiro durante el presente año 
para realizarse un test del virus de inmunodeficiencia humana y que resultan ser 
positivas.
 y Variables son propiedades o cualidades que presentan los elementos de una población. 
Las variables pueden clasificarse en:
  Variables cualitativas o atributos son aquellas que no pueden medirse numéricamente 
y que, a su vez, pueden ser:
 — Nominales, en las que no pueden ordenarse las diferentes categorías.
 — Ordinales, en las que pueden ordenarse las categorías, pero no puede establecerse 
la distancia relativa entre las mismas.
  Variables cuantitativas son aquellas que tienen una interpretación numérica y que se 
subdividen en:
 — Discretas, sólo pueden tomar unos valores concretos dentro de un intervalo.
 — Continuas, pueden tomar cualquier valor dentro de un intervalo.
En la práctica, todas las variables continuas que medimos son discretas en el sentido de 
que, debido a las limitaciones de los sistemas de medida, las variables continuas no 
pueden adoptar todos los valores dentro de un intervalo. De cara a los análisis posteriores, 
la principal distinción se establece, por tanto, entre variables con relativamente pocas 
categorías (como número de hijos) frente a variables con muchas categorías (como 
niveles de colesterol en sangre).
Ejemplo 1.2 Algunos ejemplos de variables son:
 — Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo, 
separado, divorciado), religión (católico, protestante, otros), nacionalidad.
 — Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad 
de la enfermedad (leve, moderada, grave). Por ejemplo, para esta última variable 
ordinal, podemos establecer un orden de severidad, pero no podemos decir que la 
diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre 
uno grave y uno moderado.
 — Variables cuantitativas discretas: número de hijos, número de dientes cariados.
 — Variables cuantitativas continuas: edad, peso, altura, presión arterial, niveles de 
colesterol en sangre.
 y Estadístico es cualquier operación realizada sobre los valores de una variable.
 y Parámetro es un valor de la población sobre el que se desea realizar inferencias a partir 
de estadísticos obtenidos de la muestra, que en este caso se denominan estimadores. Por 
convención, los parámetros poblacionales se denotan con letras del alfabeto griego, 
mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.
3Medidas de tendencia central
Pastor-Barriuso R.
Ejemplo 1.3 Algunos ejemplos de estadísticos incluyen:
 — La media de los valores de colesterol de una muestra.
 — El valor más alto de colesterol de una muestra.
 — La suma de los valores de colesterol de una muestra elevados al cuadrado.
Así, por ejemplo, la media del colesterol en una población, que se denotaría por μ, es un 
parámetro que se estima a partir de la media de los valores de colesterol en una muestra 
obtenida de esa población, que se representaría por 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, deno da r x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
.
En el presente tema, se revisan las herramientas fundamentales para la realización de un análisis 
descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia 
central, posición y dispersión como mediante la utilización de representaciones gráficas.
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cuál es el valor más representativo de una 
determinada variable o, dicho de forma equivalente, estos estimadores indican alrededor de qué 
valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven 
tanto para resumir los resultados observados como para realizar inferencias acerca de los 
parámetros poblacionales correspondientes. A continuación se describen los principales 
estimadores de la tendencia central de una variable.
1.2.1 Media aritmética
La media aritmética, denotada por 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia centr l infor an acerca e cuál es el v lor más representativo 
de una determina a variable , dicho de forma equivalent , stos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acer a de los parámetros poblacio ales correspondientes. A 
continu ción se describ n los principales estimadores de la tendencia central de una 
vari ble. 
1.2.1 edia arit ética 
La media aritmética, denotada x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, fi  como la suma de c da uno de los valores 
muestrales dividida por el número de observaciones realizadas. Si denotamos por n el tamaño 
muest al y por xi el valor observado para l suj t  i-ésimo, i = 1, ..., n, la media vendría dada por
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de l  muestr irven tanto par  resumi  los result dos obse v dos como para 
r alizar infere cias ace ca de los parámetros poblacionales corr spondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, u de no ser un fiel r flejo de la t ndenci  central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
La media es la medida de tendencia central más utilizada y de más fácil interpretación. 
Corresponde al “centro de gravedad” de los datos de la muestra. Su principal limitación es que 
está muy influenciada por los valores extremos y, en este caso, puede no ser un fiel reflejo de la 
tendencia central de la distribución.
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio 
“European Study on Antioxidants, Myocardial Infarction and Cancer of the Breast” 
(EURAMIC), un estudio multicéntrico de casos y controles realizado entre 1991 y 1992 
en ocho países Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo 
de desarrollar un primer infarto agudo de miocardio en hombres adultos. Los valores 
obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La 
media de los niveles del colesterol HDL en estos 10 participantes es
 
 6
antioxid ntes en el riesgo de desarro lar un prime  infarto agudo de i cardio n 
hombr s adultos. L s valores obtenidos fu ron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colester l HDL n 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las sigu entes propiedades: 
• Cambio de origen (traslación). Si se su a una constante  cada uno de los datos 
de una muestra, la media de la muestra resultante es igual a la media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
4Estadística descriptiva
Pastor-Barriuso R.
La media aritmética presenta las siguientes propiedades:
 y Cambio de origen (traslación). Si se suma una constante a cada uno de los datos de una 
muestra, la media de la muestra resultante es igual a la media inicial más la constante 
utilizada; si yi = xi + c, entonces 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la media de l  muestra resultante es igual a l  m dia inicial más a 
constante utiliz da; si yi = xi + , y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M aritmética 
La media aritméti a, denotada por , se define com la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corr ponde al “centro de gr vedad”  l  t   la muestra. Su 
rincipal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendenc a central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
   cambio de origen que se realiza con 
frecuencia es el centrado de la variable, que consiste en restar a cada valor de la muestra 
su media. La m dia de una variable centrada será, por tanto, igual a 0.
 y Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por 
una constante, la media de la muestra resultante es igual a la media inicial por la constante 
utilizada; si yi = cxi, entonces 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la me ia de la m estra resultante es igual  la media inicial más la 
constante utilizada; si yi = xi + c, e t ces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
  c
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación s  describen los p incipa es estimadores de la t ndenc a central de una 
variable. 
1.2.1 M i  aritmética 
La me ia aritméti a, denotada por , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “cen ro de gr vedad” de los datos de la muestra. Su 
rincipal limitación es que está muy influenci da por los valor s extremos y, en este 
caso, puede no ser un fiel reflejo de a tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
.
 y Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de una 
muestra por una constante y al resultado se le suma otra constante, la media de la muestra 
resultante es igual a la media inicial por la primera constante, más la segunda constante; si 
yi = c1xi + c2, entonces 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valo es obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la media de la m estra resultante es ig al a la m dia inicial más la 
constante utilizada; si yi = i  , e t ces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el ce trado de l  variable, que c siste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
  c1
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerc  de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
cen ral de la muestra sirven ta to para r sumir los resultados observados como para 
realizar inferenci s acerca de los p rámetros poblacionales correspondientes. A 
continu ción s  desc iben los principale  stimadores de la tendencia centr l de una 
variab e. 
1.2.1 Media arit ética 
L  med a aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales divi ida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es q e está muy influenciada por los v lor s extremos y, en este 
ca o, pued  no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 + c2. 
Ejemplo 1.5 Par  transformar los valores d l colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del cambio de 
escala, la m di  del colesterol HDL n mg/dl se calcularía directamente a partir de su 
media en mmol/l como 1,223·38,8 = 47,45 mg/dl.
1.2.2 Mediana
La mediana es el valor de un variable que deja por encima el 50% de los datos de la muestra 
y por debajo el otro 50%. Para calcular la mediana, es necesario ordenar los valores de la 
muestra de menor a mayor. Si el tamaño muestral n es impar, la mediana viene dada por el 
valor (n + 1)/2-ésimo. Si n es par, la mediana viene dada por la media aritmética de los 
valores (n/2) y (n/2 + 1)-ésimos. La principal ventaja de la mediana es que no está influenciada 
por los valores extremos. No obstante, se utiliza menos que la media como medida de 
tendencia central porque su tratamiento estadístico es más complejo.
Ejemplo 1.6 Para obtener la mediana del colesterol HDL en la muestra del estudio 
EURAMIC, se rden  en primer lugar s valores de menor a mayo ; est  e , 0,79, 0,84, 
0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamaño muestral es par 
(n = 10), la mediana será la media de l s os v lo es centr s (en este caso, el 5º y el 6º), 
que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l.
Comparación de la media aritmética y la mediana. En las distribuciones simétricas 
(ambas colas de la distribución son semejantes), la media es aproximadamente igual a la 
mediana. En distribuciones sesgadas positivamente (la cola superior de la distribución es mayor 
que la inferior), la media tiende a ser mayor que la mediana; mientras que en distribuciones 
sesgadas negativamente (la cola inferior de la distribución es mayor que la superior), la media 
tiende a ser menor que la mediana. La comparación de la media y la mediana permite evaluar, 
por tanto, la asimetría de una distribución.
Ejemplo 1.7 En la muestra del estudio EURAMIC la media del colesterol HDL es 
ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En 
consecuencia, la distribución de estos 10 valores del colesterol HDL es aproximadamente 
simétrica con un leve sesgo positivo.
5Medidas de posición: cuantiles
Pastor-Barriuso R.
1.2.3 Media geométrica
La media geométrica, denotada por 
 
 8
consecuencia, la distribución de estos 10 valores del colesterol HDL es 
aproximadamente simétrica con un leve sesgo positivo. 
1.2.3 edia geo étrica 
La media geo étrica, t  Gx , se define como la raíz n-ésima del producto de 
los valores de una muestra de tamaño n, 
n n
nn
i
iG xxxxx ⋅⋅=



= ∏
=
...21
/1
1
. 
En la práctica, la forma más sencilla de calcular la media geométrica consiste en 
calcular primero el logaritmo de cada valor muestral, hallar a continuación la media de 
los logaritmos y deshacer finalmente la transformación logarítmica. Para calcular los 
logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el 
antilogaritmo estén en la misma base. Notar que la media geométrica sólo puede 
emplearse como medida de tendencia central en variables que toman valores positivos. 
Ejemplo 1.8 Para calcular la media geométrica del colesterol HDL en la muestra 
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los 
valores y a continuación se calcula su media aritmética, 
.155,0
10
425,0...117,0
10
)53,1log(...)89,0log(log
10
1log
10
1
=
++−
=
++
== 
=i
iG xx
 
La media geométrica es, por tanto, Gx  = exp(0,155) = 1,168 mmol/l. 
Al igual que la mediana, la media geométrica es útil como medida de tendencia 
central para variables muy asimétricas, en las que un pequeño grupo de observaciones 
extremas tienen una excesiva influencia sobre la media aritmética. La media geométrica 
, i  co o la raíz n-ésima del producto de los 
valores de una muestra de tamaño n,
 
 8
consecuencia, la distribución de estos 10 valores del colesterol HDL es 
aproximadamente simétrica con un leve sesgo positivo. 
1.2.3 Media geométrica 
La media geométrica, denotada por Gx , se define como la raíz n-ésima del producto de 
los valores d  una muestra de tamaño n, 
n
n
nn
i
iG xxxxx ⋅⋅=



= ∏
=
...21
/1
1
. 
En la práctica, la forma más sencilla de calcular la media geométrica consiste en 
calcular primero el log ritmo de cada valor muestral, hallar a continuación la media de 
los ogaritmos y d shace  finalmente la transformación ogarítmica. Para calcular los 
logaritmos se pue  usar cualqui r base, siempre y cuando el log ritmo y el 
antilogaritmo estén en la misma base. Notar que la media geométrica sólo puede 
emplearse como medida de tendencia central en variables que toman valores positivos. 
Ejemplo 1.8 Para calcular la media geométrica del colesterol HDL en la muestra 
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los 
valores y a continuación se calcula su media aritmética, 
.155,0
10
425,0...117,0
10
)53,1log(...)89,0log(log
10
1log
10
1
=
++−
=
++
== 
=i
iG xx
 
La media geométrica es, por tanto, Gx  = exp(0,155) = 1,168 mmol/l. 
Al igual que la mediana, la media geométrica es útil como medida de tendencia 
central para variables muy asimétricas, en las que un pequeño grupo de observaciones 
extremas tienen una excesiva influencia sobre la media aritmética. La media geométrica 
En la práctica, la forma más sencilla de calcular la media geométrica consiste en calcular 
primero el logaritmo de cada valor muestr l, hallar a continuación la media de los logaritmos y 
deshacer finalmente la transformación logarítmica. Para calcular los logaritmos se puede usar 
cualquier base, siempre y cuando el logaritmo y el antilogaritmo estén en la misma base. Notar 
que la media geométrica sólo puede emplearse como medida de tendencia central en variables 
que toman valores positivos.
Ejempl  1.8 P ra calcular la medi  ge métrica del colesterol HDL en  muestra del 
estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los valores y a 
continuación s  calcula su medi  aritmética,
 
 8
consecuencia, la distribución de estos 10 valores del colesterol HDL es 
aproximadamente simétrica con un leve sesgo positivo. 
1.2.3 Media geométrica 
La media geométrica, denotada por Gx , se define como la raíz n-ésima del producto de 
los valores de una muestra de tamaño n, 
n
n
nn
i
iG xxxxx ⋅⋅=



= ∏
=
...21
/1
1
. 
En la práctica, la forma más sencilla de calcular la media geométrica consiste en 
calcular primero el logaritmo de cada valor muestral, hallar a continuación la media de 
los logaritmos y deshacer finalmente la transformación logarítmica. Para calcular los 
logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el 
antilogaritmo estén en la misma base. Notar que la media geométrica sólo puede 
emplea se como medi a de tendencia central en variables que tom n valores p sitivos. 
Ejemplo 1.8 Para calcular la m dia geométrica del colesterol HDL en la muestr  
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los 
valores y a continuación se calcula su media aritmética, 
.155,0
10
425,0...117,0
10
)53,1log(...)89,0log(log
10
1log
10
1
=
++−
=
++
== 
=i
iG xx
 
La media geométrica es, por tanto, Gx  = exp(0,155) = 1,168 mmol/l. 
Al igu  que la media a, la media geométrica es út l como medida de tendencia 
central para variables muy asimétricas, en las que un pequeño grupo de observaciones 
extremas tienen una excesiva influencia sobre la media aritmética. La media geométrica 
La media geométrica es, por tanto, 
 
 8
consecuencia, la distribución de estos 10 valores del colesterol HDL es 
aproximadamente simétrica con un leve sesgo positivo. 
1.2.3 Media geométrica 
La media geométrica, denotada por Gx , se define como la raíz n-ésima del producto de 
los valores de una muestra de t maño n, 
n n
nn
i
iG xxxxx ⋅⋅=



= ∏
=
...21
/1
1
. 
En la práctica, la forma más sencilla de calcular la media geométrica consiste en 
calcular primero el logaritmo de cada valor muestral, hallar a continuación la media de 
los logaritmos y deshacer finalmente la transformación logarítmica. Para calcular los 
o aritmos se puede usar cualquier base, s empre y cuando el log ritmo y el 
ntilogaritmo estén en la isma bas . Notar que la media geométrica sólo puede 
emplears  como medida de tendencia central en vari bles que toman valores posi ivos. 
Ejemplo 1.8 Para calcular la media geométrica del colesterol HDL en la muestra 
del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los 
valores y a continuación se calcula su media aritmética, 
.155,0
10
425,0...117,0
10
)53,1log(...)89,0log(log
10
1log
10
1
=
++−
=
++
== 
=i
iG xx
 
La media geométrica es, por tanto, Gx  = exp(0,155) = 1,168 mmol/l. 
Al igual que la mediana, la media geométrica es útil como medida de tendencia 
central para variables muy asimétricas, en las que un pequeño grupo de observaciones 
extremas tienen una excesiva influencia sobre la media aritmética. La media geométrica 
 = xp(0,155) = 1,168 mmol/l.
Al igual que la mediana, la media geométrica es útil como medida de tendencia central para 
variables muy asimétricas, en las que un pequeño grupo de observaciones extremas tienen una 
excesiva influencia sobre la media aritmética. La media geo étrica tiene la ventaja adicional de 
presentar un tratamiento estadístico más sencillo que la mediana.
1.3 MEDIDAS DE POSICIÓN: CUANTILES
Los cuantiles indican la posición relativa de una observación con respecto al resto de la muestra. 
A contin ación se describen los cuantiles más utilizados:
 y Percentiles son los valores de una variable que dejan un determinado porcentaje de los 
datos por debajo de ellos. Así, por ejemplo, el percentil 10 es el valor superior al 10% de 
las observaciones, pero inferior al 90% restante. La mediana corresponde, por tanto, al 
percentil 50. En una muestra de tamaño n, previamente ordenada de menor a mayor, el 
percentil p-ésimo se define como:
  Si np/100 es un número entero, l  m dia de las observaciones (n /100) y (np/100 + 1)-ésimas.
  Si np/100 no es un número entero, el valor k-ésimo de la muestra, siendo k el menor 
entero superior a np/100.
y Deciles, corresponden a los pe centiles 10, 20, ..., 90. Los deciles se utilizan para dividir 
la muestra en 10 grupos de igual tamaño.
 y Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos 
de igual tamaño.
6Estadística descriptiva
Pastor-Barriuso R.
 y Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de 
igual tamaño.
 y Terciles, corresponden a los percentiles 33,3 y 66,7, y dividen la muestra en 3 grupos de 
igual tamaño.
Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79, 
0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un 
número entero para p = 10, el percentil 10 es la media de la primera y segunda observación, 
que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5 
no es un número entero para p = 25, el percentil 25 es el tercer valor de la muestra, que 
corresponde a 0,87 mmol/l.
Es importante recordar que, para calcular cuantiles, los valores de la muestra deben estar 
previamente ordenados. Si el tamaño muestral es grande, la forma más rápida de obtener los 
cuantiles manualmente es realizando un gráfico de tallo y hojas (ver más adelante).
1.4 MEDIDAS DE DISPERSIÓN
Las medidas de dispersión indican el grado de variabilidad de los datos y se complementan con 
las medidas de tendencia central en la descripción de una muestra. En este apartado se presentan 
las principales medidas de dispersión.
1.4.1 Varianza y desviación típica
La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las diferencias 
entre cada valor de la muestra y su media, dividida por el tamaño muestral menos 1,
 
 10
10p/100 = 1 es un número entero para p = 10, el percentil 10 es la media de la 
primera y segunda observación, que corresponde a (0,79 + 0,84)/2 = 0,815 
mmol/l. De igual forma, como 10p/100 = 2,5 no es un número entero para p = 25, 
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l. 
Es importante recordar que, para calcular cuantiles, los valores de la muestra deben 
estar previamente ordenados. Si el tamaño muestral es grande, la forma más rápida de 
obtener los cuantiles manualmente es realizando un gráfico de tallo y hojas (ver más 
adelante). 
1.4 MEDIDAS DE DISPERSIÓN 
Las medidas de dispersión indican el grado de variabilidad de los datos y se 
complementan con las medidas de tendencia central en la descripción de una muestra. 
En este apartado se presentan las principales medidas de dispersión. 
1.4.1 Varianza y desviación típica 
La varianza muestral, denotada por s2, se define como la suma de los cuadrados de las 
diferencias entre cada valor de la muestra y su media, dividida por el tamaño muestral 
menos 1, 





−
−
=−
−
= 
==
n
i
i
n
i
i xnxn
xx
n
s
1
22
1
22
1
1)(
1
1 . 
Como puede apreciarse, cuanto más dispersos estén los datos, mayores serán los 
cuadrados de las desviaciones (xi - x )2 y mayor será la varianza s2. Notar que las 
desviaciones de cada valor respecto de la media se elevan al cuadrado para evitar que se 
compensen las desviaciones positivas (valores superiores a la media) con las negativas 
(valores inferiores a la media). Cabe destacar también que, en la fórmula de la varianza 
muestral, el denominador es n - 1 en lugar de n. Esto se debe a que, una vez calculada la 
Como puede apreciarse, cuanto más dispersos estén los datos, mayores serán los cuadrados de 
las desviaciones (xi – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de t ndencia 
central de la muestra sirven tanto p ra resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los p incipales estimadores de la tendencia central de un  
variable. 
1.2.1 Media aritmética 
La media aritmética, den tada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
)2 y m yor será la varianza 2. Notar qu  las desviaciones de cada valor 
respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones 
positivas (valores superiores a la media) c  las negativas (valores inferiores a la media). Cabe 
destacar también que, en la fórmula de la varianza muestral, el denominador es n – 1 en lugar de n. 
Esto se debe a que, un  vez calculada la media, el número de valores independientes de la 
muestra (denominado “grados de libertad”) para el cálculo de la varianza es n – 1 (conocida la 
medi  y n – 1 valores, el valor restante se deduciría automáticamente). Una justificación más 
formal para esta definición de la varianza se aporta en el Tema 5.
La varia za mu stral es difícil de interpretar como medida de dispersión, ya que sus unidades 
son las de la variable original al cuadrado. La medida de dispersión más utilizada es la desviación 
típica o desviación están a  s, que se define como la raíz cuadrada de la varian a
 
 11
media, el número de valores independientes de la muestra (denominado “grados de 
libertad”) para el cálculo de la varianza es n - 1 (conocida la media y n - 1 valores, el 
valor restante se deduciría automáticamente). Una justificación más formal para esta 
definición de la varianza se aporta en el Tema 5. 
La varianza muestral es difícil de interpretar como medida de dispersión, ya que sus 
unidades son las de la variable original al cuadrado. La medida de dispersión más 
utilizada es la desviación típica o desviación estándar s, que se define como la raíz 
cuadrada de la varianza 

=
−
−
=
n
i
i xxn
s
1
2)(
1
1  
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que 
la media, la desviación típica está influenciada por valores muy extremos (gran 
desviación respecto de la media), que inflarían la estimación resultante, no siendo un 
buen reflejo de la dispersión global de los datos. 
Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros 
participantes del estudio EURAMIC, x  = 1,223 mmol/l, la varianza vendría dada 
por 
2
2210
1
22
(mmol/l) 156,0
9
094,0...111,0
9
)223,153,1(...)223,189,0()(
9
1
=
++
=
−++−
=−= 
=i
i xxs
 
y la desviación típica por s = 156,0  = 0,395 mmol/l. 
Algunas propiedades de la varianza y la desviación típica son: 
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media, 
l  desviación típi a está influenciada por valores muy extremos (gran desviación respecto de la 
7Medidas de dispersión
Pastor-Barriuso R.
media), que inflarían la estimación resultante, no siendo un buen reflejo de la dispersión global 
de los datos.
Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros participantes 
del estudio EURAMIC, 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,223 mm l/l, vari nza vendría dada por
 
 11
media, el número de valores independientes de la muestra (denominado “grados de 
libertad”) para el cálculo de la varianza es n - 1 (conocida la media y n - 1 valores, el 
valor restante se deduciría automáticamente). Una justificación más formal para esta 
definición de la varianza se aporta en el Tema 5. 
La varianza muestral es difícil de interpretar como medida de dispersión, ya que sus 
unidades son las de la variable original al cuadrado. La medida de dispersión más 
utilizada es la desviación típica o desviación estándar s, que se define como la raíz 
cuadrada de la varianza 

=
−
−
=
n
i
i xxn
s
1
2)(
1
1  
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que 
la media, la desviación típica está influenciada por valores muy extremos (gran 
desviación respecto de la media), que inflarían la estimación resultante, no siendo un 
buen reflejo de la dispersión global de los datos. 
Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros 
participantes del estudio EURAMIC, x  = 1,223 mmol/l, la varianza vendría dada 
por 
2
2210
1
22
(mmol/l) 156,0
9
094,0...111,0
9
)223,153,1(...)223,189,0()(
9
1
=
++
=
−++−
=−= 
=i
i xxs
 
y la desviación típica por s = 156,0  = 0,395 mmol/l. 
Algunas propiedades de la varianza y la desviación típica son: 
y la desviación típica por 
 
 11
media, el número de valores independientes de la muestra (denominado “grados de 
libertad”) para el cálculo de la varianza es n - 1 (conocida la media y n - 1 valores, el 
valor restante se deduciría automáticamente). Una justificación más formal para esta 
definición de la varianza se aporta en el Tema 5. 
La varianza muestral es difícil de interpretar como medida de dispersión, ya que sus 
unidades son las de la variable original al cuadrado. La medida de dispersión más 
utilizada es la desviación típica o desviación estándar s, que se define como la raíz 
cuadrada de la varianza 

=
−
−
=
n
i
i xxn
s
1
2)(
1
1  
y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que 
la media, la desviación típica está influenciada por valores muy extremos (gran 
desviación respecto de la media), que inflarían la estimación resultante, no siendo un 
buen reflejo de la dispersión global de los datos. 
Ejemplo 1.10 Conocida la media del c lesterol HDL en los 10 primeros 
participantes del estudio EURAMIC, x  = 1,223 mmol/l, la varianza vendría dada 
por 
2
2210
1
22
(mmol/l) 156,0
9
094,0...111,0
9
)223,153,1(...)223,189,0()(
9
1
=
++
=
−++−
=−= 
=i
i xxs
 
y la des i i s = 156,0  = 0,395 mmol/l. 
Algunas propiedades de la varianza y la desviación típica son: 
Algunas propiedades de la varianza y la desviació  típica son:
 y Cambio de origen (traslación). Si se suma una constante a cada uno de los datos de una muestra, 
la v rianza y la viación típica no cambian; si yi = xi + c, entonces sy2 = sx2 y sy = sx.
 y Cambio de escala (unidades). Si se multiplica cada uno de los datos de una muestra por 
una constante, la varianza resultante es igual a la varianza inicial por la constante al 
cuadrado y la desviación típica es igual a la desviación típica inicial por dicha constante; 
si yi = cxi, entonces sy2 = c2 sx2  y  sy = csx. Un cambio de escala que se realiza con frecuencia 
es la división de todos los valores de una muestra por su desviación típica. La desviación 
típica de la variable resultante será, por tanto, igual a 1.
Las propiedades del cambio de origen y escala se emplean para la estandarización de variables, 
que consiste en restarle a los valores de una variable su media y dividirlos por su desviación 
típica. La variabl  estandarizada resultante tiene media 0 y desviación típic  1; e  decir, si zi = 
(xi – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los d tos bs rvados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondient . A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
)/ x, ento ces 
 
 12
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la varianza y la desviación típica no cambian; si yi = xi + c, 
entonces 2ys  = 2xs  y sy = sx. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la varianza resultante es igual a la varianza inicial por 
la constante al uadr do y la desviación típica es igual a la de viación típica 
inicial por dicha c nstante; si yi = cxi, entonces 2ys  = c2 2xs  y sy = csx. Un cambio 
de escala que se realiza con frecu ncia s la división de todos los val res de una 
muestra por su desviación típica. La desviación típica de la variable resultante 
será, por tanto, igual a 1. 
Las propiedades del cambio de origen y escala se emplean para la estandarización de 
variables, que consiste en restarle a los valores de una variable su media y dividirlos por 
su desvi c ón típica. La variable estandarizada r su tante tiene media 0 y desviación 
típic  1; es decir, si zi = (xi - x )/sx, t  z  = 0 y sz = 1.
1.4.2 Rango intercuartílico 
El rango intercuartílico se define como la diferencia entre el tercer y el primer cuartil 
(percentiles 75 y 25, respectivamente). El rango intercuartílico indica la amplitud del 
50% central de la muestra y se usa como medida de dispersión cuando la variable 
presenta valores extremos. En tal caso, suele ir acompañado de la mediana como 
medida de tendencia central. 
Ejemplo 1.11 A partir de los 10 valores del colesterol HDL ordenados de menor a 
mayor, los percentiles 25 y 75 vienen determinados por la tercera (0,87 mmol/l) y 
octava observación (1,53 mmol/l), respectivamente. El rango intercuartílico se 
  0 y sz = 1.
1.4.2 Rango intercuartílico
El rango intercuartílico se define como la diferencia entre el tercer y el primer cuartil (percentiles 
75 y 25, respectivamente). El rango intercuartílico indica la amplitud del 50% central de la 
muestra y se usa como medida de dispersión cuando la variable presenta valores extremos. En 
tal caso, suele ir acompañado de la mediana como medida de tendencia central.
Ejemplo 1.11 A partir de los 10 valores del colesterol HDL ordenados de menor a 
mayor, los p rcentiles 25 y 75 vienen eterminados por la tercera (0,87 mmol/l) y octava 
observación (1,53 mmol/l), respectivamente. El rango intercuartílico se calcula entonces 
como la diferencia entre ambos percentiles, 1,53 – 0,87 = 0,66 mmol/l.
1.4.3 Coeficiente de variación
El coeficiente de variación se define como el cociente entre la desviación típica y la media aritmética, 
expresado como porcentaje, 100s/
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor s  agrupan los datos obse vad s. Las medidas de tendencia 
central de la muestr  sirven tanto para resumir los resultados obs rvados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
. Este stimador no e tá afectado por cambios de escala ya que, 
al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviación 
típica cambi n por dicho factor y su c ciente p manec  inalterable. El coeficiente de variación 
relaciona la desviación típica con la media y es útil para comparar la variabilidad de diferentes 
variables con distin as medias. Así, por ejemplo, una desviación típica de 10 kg en una muestra de 
adultos con un peso medio de 70 kg indicaría un mismo grado de dispersión que una desviación 
8Estadística descriptiva
Pastor-Barriuso R.
típica de 0,5 kg en una muestra de recién nacidos con un peso medio de 3,5 kg (ambos coeficientes 
de variación son 100·10/70 = 100·0,5/3,5 = 14,3%).
Ejemplo 1.12 El coeficiente de variación de los 10 primeros valores del colesterol HDL 
en el estudio EURAMIC sería 100s/
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 100·0,395/1,223 = 32,3%; es decir, la desviación 
típica es aproximadamente un tercio de la media.
1.5 REPRESENTACIONES GRÁFICAS 
En el análisis e interpretación de los datos de un estudio, es importante no limitarse a realizar medidas 
de resumen numéricas. Las medidas de tendencia central y dispersión deben completarse con gráficos 
que permitan observar directamente las características y relaciones de las variables estudiadas. En 
esta sección se revisan los principales métodos gráficos para presentar y resumir una variable.
1.5.1 Diagrama de barras 
Los diagramas de barras son adecuados para representar variables cualitativas y cuantitativas 
discretas. En estos diagramas se representan las categorías de la variable en el eje horizontal y sus 
frecuencias (absolutas o relativas) en el eje vertical. Para cada categoría de la variable se construye 
un rectángulo de anchura constante y altura proporcional a la frecuencia. Los rectángulos están 
separados unos de otros por la misma distancia para reflejar la discontinuidad de la variable.
Ejemplo 1.13 La representación del diagrama de barras del hábito tabáquico en el grupo 
control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que 
no habían padecido un infarto agudo de miocardio, todos salvo uno presentaban información 
sobre el consumo de tabaco. De éstos, un 27,2% (190/699) eran nunca fumadores, un 35,3% 
(247/699) eran ex fumadores, y el restante 37,5% (262/699) eran fumadores actuales.
 
  Figura 1.1
 
Nunca
fumador
Ex fumador Fumador
actual
0
10
20
30
40
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
Figura 1.1 Diagrama de barras del hábito tabáquico en el grupo control del estudio EURAMIC. 
9Representaciones gráficas 
Pastor-Barriuso R.
1.5.2 Histograma y polígono de frecuencias
El histograma es el principal método gráfico para la representación de variables cuantitativas 
continuas. En primer lugar, los valores de la variable continua se agrupan en categorías 
exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En 
el eje horizontal del histograma se representan las categorías o intervalos y en el eje vertical las 
frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectángulo 
para cada categoría, cuya anchura es igual a la longitud del intervalo y cuyo área es proporcional 
a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectángulos del 
histograma no serán proporcionales a las frecuencias).
El polígono de frecuencias se construye uniendo con líneas rectas los puntos medios de las bases 
superiores de los rectángulos que conforman un histograma. Tanto el histograma como el polígono 
de frecuencias sirven para representar gráficamente la distribución de una variable continua.
Ejemplo 1.14 El histograma de la distribución del colesterol HDL en el grupo control 
del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la 
frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal. 
Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectángulos es igual a 
la frecuencia; así, por ejemplo, la altura del rectángulo en el intervalo 1,2-1,4 mmol/l es 
igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo, 
para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida 
por el incremento relativo de la longitud del intervalo; así, por ejemplo, para el intervalo 
1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mínima, la 
altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polígono de frecuencias, 
que muestra una distribución del colesterol HDL aproximadamente simétrica con la cola 
superior ligeramente mayor que la inferior. 
  Figura 1.2
 
0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5
0
25
50
75
100
125
150
Colesterol HDL (mmol/l)
Fr
ec
ue
nc
ia
 a
bs
ol
ut
a
Figura 1.2 Histograma y polígono de frecuencias del colesterol HDL en el grupo control del estudio 
EURAMIC. 
10
Estadística descriptiva
Pastor-Barriuso R.
1.5.3 Gráfico de tallo y hojas
Este gráfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite 
visualizar la distribución de frecuencias. En primer lugar, para cada observación de la variable, 
se separa el último dígito significativo (hoja) de los restantes dígitos del valor de la variable 
(tallo). A continuación, todos los posibles tallos se colocan ordenados en una misma columna. 
Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente. 
Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el 
nombre de gráfico de tallo y hojas.
Ejemplo 1.15 La Figura 1.3 muestra el gráfico de tallo y hojas del colesterol HDL en los 
100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores 
más bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo común es 0,2 y sus 
respectivas hojas son 1 y 6, que aparecen a la derecha de la primera línea del gráfico. El 
siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39 
mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que 
corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a 
los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y 
0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este gráfico 
resulta sencillo calcular los cuantiles; así, por ejemplo, la mediana se obtendría como la 
media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
 
  Figura 1.3
 Frecuencia Tallo Hoja 
 
 2 0,2 16 
 0 0,3 
 0 0,4 
 1 0,5 7 
 5 0,6 35558 
 3 0,7 467 
 12 0,8 002344455579 
 13 0,9 0013334566779 
 13 1,0 0111123455559 
 9 1,1 023456789 
 15 1,2 000023356689999 
 7 1,3 1223778 
 6 1,4 345789 
 6 1,5 133689 
 2 1,6 44 
 2 1,7 34 
 2 1,8 36 
 1 1,9 0 
 1 2,0 9 
 
Figura 1.3 Gráfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC. 
11
Representaciones gráficas 
Pastor-Barriuso R.
1.5.4  Diagrama de caja
El diagrama de caja permite evaluar la tendencia central, la dispersión y la simetría de la 
distribución de una variable, así como identificar valores extremos. Los límites inferior y 
superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa 
el rango intercuartílico e indica la dispersión de la muestra. La línea horizontal dentro de la caja 
corresponde a la mediana y representa la tendencia central de la muestra. El gráfico se completa 
con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartílico. Los 
valores extremos, aquellos distanciados de los límites de la caja entre 1,5 y 3 veces el rango 
intercuartílico, se representan con un círculo y los valores muy extremos, aquellos alejados de 
la caja más de 3 veces el rango intercuartílico, se denotan mediante un asterisco.
En este gráfico, si la distribución es simétrica, los límites superior e inferior de la caja estarán 
aproximadamente a la misma distancia de la mediana, mientras que si la distribución está sesgada 
positivamente, el límite superior estará más alejado de la mediana que el inferior y si la distribución 
está sesgada negativamente, el límite inferior estará más alejado de la mediana que el superior.
Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo 
control del estudio EURAMIC. Como puede observarse, esta distribución presenta un 
leve sesgo positivo ya que el límite superior de la caja está ligeramente más alejado de la 
mediana que el límite inferior.
 
  Figura 1.4
 
0
0,5
1
1,5
2
2,5
C
ol
es
te
ro
l H
D
L 
(m
m
ol
/l)
Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC.
12
Estadística descriptiva
Pastor-Barriuso R.
1.6 REFERENCIAS
1. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
2. Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton & 
Lange, 2001.
3. Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury 
Press, 2000.
4. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 
2006.
13Pastor-Barriuso R.
TEMA 2
PROBABILIDAD
2.1 INTRODUCCIÓN
Se denominan experimentos estocásticos, aleatorios o no determinísticos a aquellos en los 
que pueden obtenerse resultados distintos cuando se repiten en idénticas circunstancias. Los 
fenómenos biológicos tienen en este sentido una componente aleatoria importante. La 
herramienta matemática que constituye la base para el estudio de fenómenos con una componente 
aleatoria es la teoría de la probabilidad, que proporciona modelos teóricos aplicables a la 
frecuencia de los distintos resultados de un experimento.
A continuación, se revisan algunos conceptos previos que van a ser necesarios para 
sistematizar la noción de probabilidad.
 y Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un 
experimento aleatorio.
 y Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden 
ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el 
suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso 
imposible o conjunto vacío ∅, que no contiene ningún elemento.
Ejemplo 2.1 Si el experimento consiste en observar el número de supervivientes a 
los 6 meses de 4 pacientes con cáncer sometidos a tratamiento, el espacio muestral 
será W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL 
de una persona, el espacio muestral será W = (0, ∞).
En el primer experimento, algunos sucesos podrían ser: no observar ningún superviviente 
A = {0}, observar 1 ó 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes 
C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluirían: 
tener un colesterol HDL ≤ 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l 
B = (1,5, ∞).
 y El suceso unión A∪B es el evento constituido por los elementos que pertenecen a A o B, o 
a ambos a la vez.
 y El suceso intersección A∩B es el evento formado por los elementos que pertenecen 
simultáneamente a A y B.
 y Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden 
ocurrir simultáneamente; es decir, su intersección es el conjunto vacío, A∩B = ∅.
 y El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando 
no se realiza A.
Estos sucesos están representados en los diagramas de la Figura 2.1. En general, las 
operaciones entre sucesos se rigen por la teoría de conjuntos, de la cual pueden derivarse algunas 
propiedades importantes como A∪(B∩C) = (A∪B)∩(A∪C), A∩(B∪C) = (A∩B)∪(A∩C), 
(A∪B)c = Ac∩Bc y (A∩B)c = Ac∪Bc.
14
Probabilidad
Pastor-Barriuso R.
 
 Figura 2.1
 
A
B
A
B
A
(a) A∪B (b) A∩B
(c) A∩B = ∅ (d) Ac
A
B
Figura 2.1 Diagramas de los sucesos unión (a), intersección (b), sucesos mutuamente excluyentes (c) y 
suceso complementario (d).
Ejemplo 2.2 En el experimento de supervivencia a los 6 meses de 4 pacientes con 
cáncer, la unión de los sucesos B = {1, 2} y C = {2, 3, 4} es B∪C = {1, 2, 3, 4} y su 
intersección es B∩C = {2}. Al medir los niveles de colesterol HDL de una persona, los 
sucesos A = (0, 1] y B = (1,5, ∞) son mutuamente excluyentes ya que A∩B = ∅. Asimismo, 
en este experimento el complementario de A es el suceso Ac = (1, ∞).
En este tema se define el concepto de probabilidad y se introducen las reglas básicas para 
operar con probabilidades. Estas reglas constituyen la base para el cálculo e interpretación de 
los procedimientos de inferencia estadística (por ejemplo, el valor P de un contraste de hipótesis 
–véase Tema 5–) y permiten también evaluar la sensibilidad, la especificidad y los valores 
predictivos de las pruebas diagnósticas.
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la 
probabilidad de un suceso refleja la verosimilitud de que éste ocurra, de forma que los sucesos 
más probables se darán con mayor frecuencia que los menos probables. Sin embargo, para 
abordar la probabilidad de forma sistemática, es necesaria una definición rigurosa, a la vez que 
compatible con nuestra intuición. Dos definiciones de probabilidad de uso común son:
 y Definición frecuentista (von Mises). Al repetir un experimento indefinidamente, la 
probabilidad de un suceso es el límite del cociente entre el número de veces que ocurre 
dicho suceso y el número de experimentos realizados,
 
 3
su intersección es B∩C = {2}. Al medir los niveles de colesterol HDL de una 
persona, los sucesos A = (0, 1] y B = (1,5, ∞) son mutuamente excluyentes ya que 
A∩B = ∅. Asimismo, en este experimento el complementario de A es el suceso Ac 
= (1, ∞). 
En este tema se define el concepto de probabilidad y se introducen las reglas básicas 
para operar con probabilidades. Estas reglas constituyen la base para el cálculo e 
interpretación de los procedimientos de inferencia estadística (por ejemplo, el valor P 
de un ntrast  de hipótesis –véase Tema 5–) y permiten también evaluar la 
sensibilidad, la especificidad y los valores predictivos de las pruebas diagnósticas. 
2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD 
El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: 
la p obabilidad de un suceso refleja la verosimilitud de qu éste ocurra, de forma qu  
los sucesos más probables se d rán con m yor frecuencia que los menos prob bles. Sin 
embargo, para abordar la probabilidad de forma sistemática, es necesaria una definición 
rigurosa, a la vez que compatible con nuestra intuición. Dos definiciones de 
probabilidad de uso común son: 
• Definición frecuentista (von Mises). Al repetir un experimento indefinidamente, 
la probabilidad de un suceso es el límite del cociente entre el número de veces que 
ocurre dicho suceso y el número de experimentos realizados, 
P(A) = 
n
A
n
#lim
∞→
, 
donde #A es el número de veces que se realiza A en los n experimentos. 
donde #A es el número de veces que se realiza A en los n experimentos.
15
Concepto y definiciones de probabilidad
Pastor-Barriuso R.
Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos 
los recién nacidos vivos en España. Según los datos del Instituto Nacional de Estadística, 
se registraron 226.170 niñas de 466.371 nacimientos en 2005, 233.773 de 482.957 en 
2006 y 238.632 de 492.527 en 2007. La proporción acumulada de niñas es 226.170/466.371 
= 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845 
en 2005-2007. Aumentando indefinidamente los registros anuales, el límite de estos 
cocientes 0,4850, 0,4845, 0,4845, ... determinaría la probabilidad de ser mujer. En la 
práctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades 
teóricas se estiman mediante probabilidades empíricas obtenidas a partir de un número 
finito de experimentos. Así, utilizando los datos disponibles de nacimientos en 2005-2007, 
se estimaría una probabilidad de ser mujer de 0,4845.
 y Definición axiomática (Kolmogorov). La probabilidad es una función que asigna a cada 
posible suceso de un experimento un valor numérico, de tal forma que se cumplan los 
siguientes axiomas:
(i) No negatividad: P(A) ≥ 0,
(ii) Normatividad: P(W) = 1,
(iii) Aditividad: Si A1, A2, ... son sucesos mutuamente excluyentes, entonces
 
 4
Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre 
todos los recién nacidos vivos en España. Según los datos del Instituto Nacional 
de Estadística, se registraron 226.170 niñas de 466.371 nacimientos en 2005, 
233.773 de 482.957 en 2006 y 238.632 de 492.527 en 2007. La proporción 
acumulada de niñas es 226.170/466.371 = 0,4850 en 2005, 459.943/949.328 = 
0,4845 en 2005–2006 y 698.575/1.441.855 = 0,4845 en 2005–2007. Aumentando 
indefinidamente los registros anuales, el límite de estos cocientes 0,4850, 0,4845, 
0,4845, ... determinaría la probabilidad de ser mujer. En la práctica, sin embargo, 
no es posible realizar infinitos experimentos y las probabilidades teóricas se 
estiman mediante probabilidades empíricas btenidas a partir de un número finito 
de experimentos. Así, utilizando los datos dispo ibles de nacimientos en 005–
2007, se estimaría una probabili ad de ser mujer de 0,4845. 
• Definición axiomática (Kolmogorov). La probabilidad es una función que asigna 
a cada posible suceso de un experimento un valor numérico, de tal forma que se 
cumplan los siguientes axiomas: 
(i) No negatividad: P(A) ≥ 0, 
(ii) Normatividad: P(Ω) = 1, 
(iii) Aditividad: Si A1, A2, ... son sucesos mutuamente excluyentes, entonces 
∞
=
∞
=
=++=∪∪=



1
2121
1
)(...)()(...)(
i
i
i
i APAPAPAAPAP  . 
Notar que esta definición de probabilidad tan sólo especifica las propiedades 
generales que debe tener una función de probabilidad, pero no permite la 
asignación de probabilidades a un suceso concreto. No obstante, de la definición 
Notar que esta definición de probabilidad tan sólo especifica las propiedades generales 
que debe tener una funci   ili , pero n  permite la asignación e probabilidades 
a un suceso concreto. No obstante, de la definición axiomática se derivan algunas 
propiedades importantes de la función de probabilidad:
(iv) P(∅) = 0,
(v) P(Ac) = 1 – P(A),
(vi) Si A está incluido en B, A ⊂ B, entonces P(A) ≤ P(B),
(vii) 0 ≤ P(A) ≤ 1,
(viii) Sub-aditividad: Para cualquier colección de sucesos A1, A2, ...,
 
 5
axiomática se derivan algunas propiedades importantes de la función de 
probabilidad: 
- P(∅) = 0, 
- P(Ac) = 1 - P(A), 
- Si A está incluido en B, A ⊂ B, entonces P(A) ≤ P(B), 
- 0 ≤ P(A) ≤ 1, 
- Sub-aditividad: Para cualquier colección de sucesos A1, A2, ..., 
∞
=
∞
=
≤



11
)(
i
i
i
i APAP  , 
- Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera, 
)....()1(
...)()(
21
1
111
k
k
kji
ji
k
i
i
k
i
i
AAAP
AAPAPAP
∩∩∩−+
+∩−=



+
≤<≤==
  
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente 
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado. 
El principio de inclusión-exclusión generaliza este resultado para sucesos no 
necesariamente excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es 
la suma de sus probabilidades por separado, menos la probabilidad de la intersección, 
P(A∪B) = P(A) + P(B) - P(A∩B). 
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, 
para tres sucesos cualesquiera, se cumple que 
 P(A∪B∪C) = P(A) + P(B) + P(C) 
  - P(A∩B) - P(A∩C) - P(B∩C) 
  + P(A∩B∩C). 
(ix) Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera,
 
 5
axiomática se derivan algunas propiedades importantes de la función de 
probabilidad: 
- P(∅) = 0, 
- P(Ac) = 1 - P(A), 
- Si A está incluido en B, A ⊂ B, entonces P(A) ≤ P(B), 
- 0 ≤ P(A) ≤ 1, 
- Sub-aditividad: Para cualquier colección de sucesos A1, A2, ..., 
∞
=
∞
=
≤



11
)(
i
i
i
i APAP  , 
- Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera, 
)....()1(
...)()(
21
1
111
k
k
kji
ji
k
i
i
k
i
i
AAAP
AAPAPAP
∩∩∩−+
+∩−=



+
≤<≤==
  
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente 
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado. 
El principio de inclusión-exclusión generaliza este resultado para sucesos no 
necesariamente excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es 
la suma de sus probabilidades por separado, menos la probabilidad de la intersección, 
P(A∪B) = P(A) + P(B) - P(A∩B). 
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, 
para tres sucesos cualesquiera, se cumple que 
 P(A∪B∪C) = P(A) + P(B) + P(C) 
  - P(A∩B) - P(A∩C) - P(B∩C) 
  + P(A∩B∩C). 
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente 
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado. El 
principio de inclusión-exclusión gen raliza ste resultado para sucesos no nec sariamente 
16
Probabilidad
Pastor-Barriuso R.
excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es la suma de sus 
probabilidades por separado, menos la probabilidad de la intersección,
 
 5
axiomática se derivan algunas propiedades importantes de la función de 
probabilidad: 
- P(∅) = 0, 
- P(Ac) = 1 - P(A), 
- Si A está incluido en B, A ⊂ B, entonces P(A) ≤ P(B), 
- 0 ≤ P(A) ≤ 1, 
- Sub-aditividad: Para cualquier colección de sucesos A1, A2, ..., 
∞
=
∞
=
≤



11
)(
i
i
i
i APAP  , 
- Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera, 
)....()1(
...)()(
21
1
111
k
k
kji
ji
k
i
i
k
i
i
AAAP
AAPAPAP
∩∩∩−+
+∩−=



+
≤<≤==
  
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente 
excluyentes, la probabilidad de la unión es la suma de sus probabilidades por separado. 
El principio de inclusión-exclusión generaliza este resultado para sucesos no 
necesariamente excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es 
la suma de sus probabilidades por separado, menos la probabilidad de la intersección, 
P(A∪B) = P(A) + P(B) - P(A∩B). 
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, 
para tres sucesos cualesquiera, se cumple que 
 P(A∪B∪C) = P(A) + P(B) + P(C) 
  - P(A∩B) - P(A∩C) - P(B∩C) 
  + P(A∩B∩C). 
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, para tres 
sucesos cualesquiera, se cumple que
 
 5
axiomática se derivan algunas propiedades importantes de la función de 
probabilidad: 
- P(∅) = 0, 
 Ac)  1 - P(A), 
 Si  está incluido en B, A ⊂ B, entonces P(A) ≤ P(B), 
0 ≤ P(A) ≤ 1, 
 Sub-aditividad: Para cualquier colección de sucesos A1, A2, ..., 
∞
=
∞
=
≤



11
)(
i
i
i
i APAP  , 
- Principio de inclusión-exclusión: Sean A1, A2, ..., Ak sucesos cualesquiera, 
)....()1(
...)()(
21
1
111
k
k
kji
ji
k
i
i
k
i
i
AAAP
AAPAPAP
∩∩∩−+
+∩−=



+
≤<≤==
  
Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente 
excluyentes, la probabilidad de la unión es la s ma de sus probabilidades por separado. 
El principio de inclusión-exclusión ge eraliza este resultado para sucesos no 
necesariamente excluyentes: la probabilidad de la unión de dos sucesos cualesquiera es 
la suma de sus probabilidades por separa o, menos la probabilidad de la intersección, 
P(A∪B) = P(A) + P(B) - P(A∩B). 
Este principio puede aplicarse a colecciones con más de dos sucesos. Así, por ejemplo, 
para tres sucesos cualesquiera, se cumple que 
 P(A∪B∪C) = P(A) + P(B) + P(C) 
 
-  P(A∩B) -    P(A∩C) - P(B∩C) 
  + P(A∩B∩C). 
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada 
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la probabilidad de 
ser simultáneamente bebedor y diabético es 0,01. Si se denota por B al suceso ser bebedor 
y por D al suceso ser diabético, la probabilidad de que un individuo de esta población sea 
bebedor, diabético o ambos a la vez viene determinada por
 
 6
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada 
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la 
probabilidad de ser simultáneamente bebedor y diabético es 0,01. Si se denota por 
B al suceso ser bebedor y por D al suceso ser diabético, la probabilidad de que un 
individuo de esta población sea bebedor, diabético o ambos a la vez viene 
determinada por 
P(B∪D) = P(B) + P(D) - P(B∩D) = 0,20 + 0,03  - 0,01 = 0,22. 
2.3 PROBABILIDAD CONDICIONAL E INDEPENDENCIA DE SUCESOS 
La probabilidad de un suceso puede depender de la realización de otro suceso. Así, por 
ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres 
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio 
depende del suceso ser hombre o ser mujer. El concepto matemático que permite 
formalizar cómo se modifica la probabilidad de un suceso en función de otro es la 
probabilidad condicional. En general, la probabilidad del suceso B condicionada al 
suceso A se define como 
P(B|A) = 
)(
)(
AP
BAP ∩ . 
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este 
suceso. Así, P(infarto|hombre) es equivalente a seleccionar en primer lugar a los 
hombres y posteriormente determinar su probabilidad de tener un infarto de miocardio. 
El concepto de probabilidad condicional tiene numerosas aplicaciones en 
epidemiología y salud pública. Por ejemplo, si D es el suceso tener una enfermedad y E 
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la 
enfermedad entre los expuestos, P(D|Ec) es la probabilidad de la enfermedad entre los 
2.3 PROBABILIDAD CONDICIONA   I CIA DE SUCESOS
La probabilidad de un suceso puede depender de la realización de otro suceso. Así, por ejemplo, 
la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres; 
es decir, la probabilidad del suceso tener un infarto de miocardio depende del suceso ser hombre 
o ser mujer. El concepto matemático que permite formalizar cómo se modifica la probabilidad 
de un suceso en función de otro es la probabilidad condicional. En general, la probabilidad del 
suceso B condicionada al suceso A se define como
 
 6
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada 
población de adultos es 0,20, la probabilidad de ser diabético es 0,03 y la 
probabilidad de ser simultáneamente bebedor y diabético es 0,01. Si se denota por 
B al suceso ser bebedor y p r D al suces  ser diabético, la probabilidad de que un 
individu  de esta población sea bebedor, diabético o ambos a la vez viene 
determinada por 
P(B∪D) = P(B) + P(D) - P(B∩D) = 0,20 + 0,03 - 0,01 = 0,22. 
2.3 PROBABILIDAD CONDICIONAL E INDEPENDENCIA DE SUCESOS 
La probabilidad de un suceso puede depender de la realización de otro suceso. Así, por 
ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres 
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio 
depende del suceso ser hombre o ser mujer. El concepto matemático que permite 
formalizar cómo se modifica la probabilidad de un suceso en función de otro es la 
probabilidad condicional. En general, la probabilidad del suceso B condicionada al 
suceso A se define como 
P(B|A) = 
)(
)(
AP
BAP ∩ . 
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este 
suceso. Así, P(infarto|hombre) es equivalente a seleccionar en primer lugar a los 
hombres y posteriormente determinar su probabilidad de tener un infarto de miocardio. 
El concepto de probabilidad condicional tiene numerosas aplicaciones en 
epidemiología y salud pública. Por ejemplo, si D es el suceso tener una enfermedad y E 
es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la 
enfermedad entre los expuestos, P(D|Ec) es la probabilidad de la enfermedad entre los 
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso. 
Así, P(infarto|hombre) es equivalent  a seleccionar en primer lugar a los hombres y 
posteriormente determinar su probabilidad de tener un infarto de miocardio.
El concepto de probabilidad condicional tiene numerosas aplicaciones en epidemiología y 
salud pública. Por ejemplo, si D es el suceso tener una enfermedad y E es el suceso estar 
expuesto a un factor de riesgo, P(D|E) es la probabilidad de la enfermedad entre los expuestos, 
P(D|Ec) es la probabilidad de la enfermedad entre los no expuestos y ψ = P(D|E)/P(D|Ec) es el 
riesgo relativo de la enfermedad entre los expuestos y los no expuestos.
Ejemplo 2.5 Continuando con el ejemplo anterior, la probabilidad de que un bebedor 
sea diabético se calcula como
 
 7
no expuestos y RR = P(D|E)/P(D|Ec) es el ri sgo relativo de la fe edad entre los 
expuestos y los no expuestos. 
Ejemplo 2.5 Continuando con el ejemplo anterior, la probabilidad de que un 
bebedor sea diabético se calcula como 
P(D|B) = 
20,0
01,0
)(
)(
=
∩
BP
DBP  = 0,05 
y la probabilidad de que un no bebedor sea diabético como 
P(D|Bc) = 
20,01
01,003,0
)(1
)()(
)(
)(
−
−
=
−
∩−
=
∩
BP
DBPDP
BP
DBP
c
c
 = 0,025. 
Así, el riesgo de diabetes es el doble en los bebedores que en los no bebedores, 
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2. 
Se dice que dos sucesos son independientes si la ocurrencia de uno no afecta a la 
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, 
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son 
independientes, puede probarse que 
P(A∩B) = P(A)P(B|A) = P(A)P(B). 
Por tanto, dos sucesos también pueden definirse como independientes si la probabilidad 
de su intersección es igual al producto de la probabilidad de cada suceso por separado. 
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que 
los sucesos padecer diabetes y ser bebedor no son independientes dado que la 
probabilidad de ser diabético es diferente en bebedores que en no bebedores, 
P(D|B) = 0,05 ≠ 0,025 = P(D|Bc); 
17
Probabilidad condicional e independencia de sucesos
Pastor-Barriuso R.
y la probabilidad de que un no bebedor sea diabético como
 
 7
no expuestos y RR = P(D|E)/P(D|Ec) es el riesgo relativo de la enfermedad entre los 
expuestos y los no expuestos. 
Ejemplo 2.5 Continuando con el ejemplo anterior, la probabilidad de que un 
bebedor sea diabético se calcula como 
P(D|B) = 
20,0
01,0
)(
)(
=
∩
BP
DBP  = 0,05 
y la probabilidad de que un no bebedor sea diabético como 
P(D|Bc) = 
20,01
01,003,0
)(1
)()(
)(
)(
−
−
=
−
∩−
=
∩
BP
DBPDP
BP
DBP
c
c
 = 0,025. 
Así, el riesgo de diabetes es el doble en los bebedores que en los no bebedores, 
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2. 
Se dice que dos sucesos son independientes si la ocurrencia de uno no afecta a la 
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, 
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son 
independientes, puede probarse que 
P(A∩B) = P(A)P(B|A) = P(A)P(B). 
Por tanto, dos sucesos también pueden definirse como independientes si la probabilidad 
de su intersección es igual al producto de la probabilidad de cada suceso por separado. 
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que 
los sucesos padecer diabetes y ser bebedor no son independientes dado que la 
probabilidad de ser diabético es diferente en bebedores que en no bebedores, 
P(D|B) = 0,05 ≠ 0,025 = P(D|Bc); 
Así, el riesgo de diabetes es el doble en los sujetos bebedores que en los no bebedores, 
ψ = P(D|B)/P(D|Bc) = 0,05/0,025 = 2.
Se dice que dos sucesos son independientes si la ocurrencia de uno no afecta a la probabilidad 
del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente, 
si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son independientes, puede probarse 
que
 
 7
no expuestos y RR = P(D|E)/P(D|Ec) es el riesgo relativo de la enfermedad entre los 
expuestos y los no expuestos. 
Ejemplo 2.5 Continuando con el ejemplo anterior, la probabilidad de que un 
bebedor sea diabético se calcula como 
P(D|B) = 
20,0
01,0
)(
)(
=
∩
BP
DBP  = 0,05 
y la probabilidad de que un no bebedor sea diabético como 
P(D|Bc) = 
20,01
01,003,0
)(1
)()(
)(
)(
−
−
=
−
∩−
=
∩
BP
DBPDP
BP
DBP
c
c
 = 0,025. 
Así, el riesgo de diabetes es el doble en los bebedores que en los no bebedores, 
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2. 
Se dice que dos sucesos son in ependientes si la ocurr ncia de no o afecta a la 
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, 
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son 
indep ndi nte , puede pr barse qu  
P(A∩B) = P(A)P(B|A) = P(A)P(B). 
Por tanto, dos sucesos también pueden definirse como independientes si la probabilidad 
de su intersección es igual al producto de la probabilidad de cada suceso por separado. 
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que 
los sucesos padecer diabetes y ser bebedor no son independientes dado que la 
probabilidad de ser diabético es diferente en bebedores que en no bebedores, 
P(D|B) = 0,05 ≠ 0,025 = P(D|Bc); 
Por tanto, dos sucesos también pueden definirse como independientes si la probabilidad de su 
intersección es igual al producto de la probabilidad de cada suceso por separado.
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que los 
sucesos padecer diabetes y ser bebedor no son independientes dado que la probabilidad 
de ser diabético es diferente en bebedores que en no bebedores,
 
 7
no expuestos y RR = P(D|E)/P(D|Ec) es el riesgo relativo de la enfermedad entre los 
expuestos y los no expuestos. 
Ejemplo 2.5 Continuando con el ejemplo anterior, la probabilidad de que un 
bebedor sea diabético se calcula como 
P(D|B) = 
20,0
01,0
)(
)(
=
∩
BP
DBP  = 0,05 
y la probabilidad de que un no bebedor sea diabético como 
P(D|Bc) = 
20,01
01,003,0
)(1
)()(
)(
)(
−
−
=
−
∩−
=
∩
BP
DBPDP
BP
DBP
c
c
 = 0,025. 
Así, el riesgo de diabetes es el doble en los bebedores que en los no bebedores, 
RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2. 
Se dice que dos sucesos son indep n ientes si la ocurrencia de u o no afecta a la 
probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, 
de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, si dos sucesos son 
independientes, pue  probarse que 
P(A∩B) = P(A)P(B|A) = P(A)P(B). 
Por tanto, dos suce os tambié  pu den defi irse com  ind pendientes si la prob bi idad 
de su intersección es igual al producto de la probabilidad de cada suceso por separad . 
Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que 
los sucesos padecer diabetes y ser bebedor no son independientes dado que la 
probabilidad de ser diabético es diferente en bebedores que en no bebedores, 
P(D|B) = 0,05 ≠ 0,025 = P(D|Bc); 
es decir, el riesgo relativo es distinto de la unidad, ψ = 2 ≠ 1. Esta dependencia se refleja 
también en el hecho de que la probabilidad de ser simultáneamente bebedor y diabético 
no es el producto de sus probabilidades,
 
 8
es decir, el riesgo relativo es distinto de la unidad, RR = 2 ≠ 1. Esta dependencia 
se refleja también en el hecho de que la probabilidad de ser simultáneamente 
bebedor y diabético no es el producto de sus probabilidades, 
P(B∩D) = 0,01 ≠ 0,20⋅0,03 = P(B)P(D). 
Notar que la probabilidad de la intersección de dos sucesos cualesquiera 
P(A∩B) = P(A)P(B|A) 
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean 
independientes. En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la 
probabilidad de su intersección es 
 P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1) 
  = P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A2) = ... 
  = P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak-1). 
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades 
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en 
consecuencia, la probabilidad de la intersección es igual al producto de sus 
probabilidades, 




=
k
i
iAP
1
 = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏
=
k
i
iAP
1
)( . 
2.4 REGLA DE LA PROBABILIDAD TOTAL 
La probabilidad no condicional de un suceso B se relaciona con su probabilidad 
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula 
P(B) = P(A∩B) + P(Ac∩B) = P(A)P(B|A) + P(Ac)P(B|Ac). 
Notar que la probabilidad de la intersección de dos sucesos cualesquiera
 
 8
es decir, el riesgo r lativo es distinto de la unidad, RR = 2 ≠ 1. Esta dependencia 
se refleja también en el hecho de que la probabilidad de ser simultáneamente 
bebedor y diabético no es el producto de sus probabilidades, 
P(B∩D) = 0,01 ≠ 0,20⋅0,03 = P(B)P(D). 
Notar que la probabilidad de la intersección de dos sucesos cualesquiera 
P(A∩B) = P(A)P(B|A) 
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean 
independientes. En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la 
probabilidad de su intersección es 
 P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1) 
  = P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A2) = ... 
  = P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak-1). 
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades 
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en 
consecuencia, la probabilidad de la intersección es igual al producto de sus 
probabilidades, 




=
k
i
iAP
1
 = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏
=
k
i
iAP
1
)( . 
2.4 REGLA DE LA PROBABILIDAD TOTAL 
La probabilidad no condicional de un suceso B se relaciona con su probabilidad 
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula 
P(B) = P(A∩B) + P(Ac∩B) = P(A)P(B|A) + P(Ac)P(B|Ac). 
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. En 
general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la probabilidad de su intersección es
 
 8
es dec r, el riesg  relativo es distinto de la unidad, RR = 2 ≠ 1. Esta ependencia 
se refleja también en l hecho de que la probabilidad de ser simultáneament
beb dor y d abético no s l producto de s s pr babili ad , 
P(B∩D) = 0,01 ≠ 0,20⋅0,03 = P(B)P(D). 
Notar que la probabilidad de la intersección de dos suceso  cualesquiera 
P(A∩B) = P(A)P(B|A) 
no equivale al producto de sus probabilidades, salvo qu  ambos sucesos sean 
independientes. En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la 
probabilidad de su in ers cción es 
 P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1) 
  = P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A2) = ... 
  = P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak 1). 
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades 
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en 
conse uencia, la probabilidad de l  intersección es igual al producto de sus 
probabilidades, 




=
k
i
iAP
1
 = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏
=
k
i
iAP
1
)( . 
2.4 REGLA DE LA PROBABILIDAD TOTAL 
La probabilidad no condicional de un suceso B se relaciona con su probabilidad 
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula 
P(B) = P(A∩B) + P(Ac∩B) = P(A)P(B|A) + P(Ac)P(B|Ac). 
–
–
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades 
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en 
consecuencia, la probabilidad de la intersección es igual al producto de sus probabilidades,
 
 8
es decir, el riesgo relativo s distinto de la unidad, RR = 2 ≠ 1. Esta dependencia 
se refleja también en el hecho de que la probabilidad de ser simultáneamente 
bebedor y diabético no es el producto de sus probabilidades, 
P(B∩D) = 0,01 ≠ 0,20⋅0,03 = P(B)P(D). 
Notar que la probabil dad de la inters cción de dos sucesos cualesquiera 
P(A∩B) = P(A)P(B|A) 
no equivale al pro ucto de sus probabilidad s, salvo que ambos sucesos s an 
independientes. En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la 
probabilidad de su intersección es 
 P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1) 
  = P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A2) = ... 
  = P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak-1). 
En el caso de que estos sucesos sean mutuame te independientes, las probabilidades 
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en 
consecuencia, la probabilidad de la intersección es igual al producto de sus 
probabilidades, 




=
k
i
iAP
1
 = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏
=
k
i
iAP
1
)( . 
2.4 REGLA DE LA PROBABILIDAD TOTAL 
La probabilidad no condicional de un suceso B se relaciona con su probabilidad 
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula 
P(B) = P(A∩B) + P( c∩B) = P(A)P(B|A) + P(Ac)P(B|Ac). 
18
Probabilidad
Pastor-Barriuso R.
2.4 REGLA DE LA PROBABILIDAD TOTAL
La probabilidad no condicional de un suceso B se relaciona con su probabilidad condicionada 
en la ocurrencia o no de otro suceso A mediante la fórmula
 
 8
es decir, el riesgo relativo es distinto de la unidad, RR = 2 ≠ 1. Esta dependencia 
se refleja también en el hecho de que la probabilidad de ser simultáneamente 
bebedor y diabético no es el producto de sus probabilidades, 
P(B∩D) = 0,01 ≠ 0,20⋅0,03 = P(B)P(D). 
Notar que la probabilidad de la intersección de dos sucesos cualesquiera 
P(A∩B) = P(A)P(B|A) 
no equivale al producto de sus probabilidades, salvo que ambos sucesos sean 
independientes. En general, para cualquier conjunto de sucesos A1, A2, ..., Ak, la 
probabilidad de su intersección es 
 P(A1∩A2∩...∩Ak) = P(A1)P(A2∩...∩Ak|A1) 
  = P(A1)P(A2|A1)P(A3∩...∩Ak|A1∩A2) = ... 
  = P(A1)P(A2|A1)P(A3|A1∩A2)⋅…⋅P(Ak|A1∩A2∩...∩Ak-1). 
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades 
condicionales de la fórmula anterior se reducen a probabilidades no condicionales y, en 
consecuencia, la probabilidad de la intersección es igual al producto de sus 
probabilidades, 




=
k
i
iAP
1
 = P(A1∩A2∩...∩Ak) = P(A1)P(A2)⋅…⋅P(Ak) = ∏
=
k
i
iAP
1
)( . 
2.4 REGLA DE LA PROBABILIDAD TOTAL 
La probabilidad no condicional de un suceso B se relaciona con su probabilidad 
condicionada en la ocurrencia o no de otro suceso A mediante la fórmula 
P(B) = P(A∩B) + P(Ac∩B) = P(A)P(B|A) + P(Ac)P(B|Ac). 
Así, la probabilidad no condicional de B es la media ponderada de las probabilidades 
condicionales de B dado A y Ac. Esta descomposición de la probabilidad del suceso B en términos 
de A y Ac es aplicable porque estos sucesos constituyen una partición del espacio muestral; es 
decir, A y Ac son sucesos exhaustivos A∪Ac = W y mutuamente excluyentes A∩Ac = ∅.
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente 
excluyentes que formen una partición del espacio muestral, se verifica que
 
 9
Así, la probabilidad no condicional de B es la media ponderada de las probabilidades 
condicionales de B dado A y Ac. Esta descomposición de la probabilidad del suceso B en 
términos de A y Ac es aplicable porque estos sucesos constituyen una partición del 
espacio muestral; es decir, A y Ac son sucesos exhaustivos A∪Ac = Ω y mutuamente 
ex luyentes A∩Ac = ∅. 
En general, para un conj nto de sucesos A1, A2, ..., Ak globalmente xhaustivos y 
mutuamente excluyentes que formen una partición del espacio muestral, se verifica que 
P(B) = 
==
=∩
k
i
ii
k
i
i ABPAPBAP
11
)|()()( , 
conocida como regla de la probabilidad total. Esta fórmula es particularmente útil en 
epidemiología, donde se emplean con frecuencia las particiones. Por ejemplo, al dividir 
la población en grupos de edad y sexo se están empleando categorías globalmente 
exhaustivas y mutuamente excluyentes. En general, siempre que se divide la población 
en estratos se aplica una partición a esa población. 
Ejemplo 2.7 En una población de mayores de 65 años, los individuos con edades 
entre 65–74, 75–84 y ≥ 85 años constituyen el 60, 30 y 10% de la población. La 
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es 
respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la 
enfermedad de Alzheimer en esta población de mayores de 65 años se calcularía 
 P(A) = 
=
3
1
)|()(
i
ii EAPEP  
  = 0,60⋅0,020 + 0,30⋅0,075 + 0,10⋅0,300 = 0,0645, 
resultando 64,5 casos por 1000 personas. 
conocida como regla de la probabilidad total. Esta fórmula es particularmente útil en 
epidemiología, donde se emplean con frecuencia las particiones. Por eje plo, al dividir la 
población en grupos de edad y sexo se están empleando categorías globalmente exhaustivas y 
mutuamente excluyentes. En general, siempre que se divide la población en estratos se aplica 
una partición a esa población.
Ejemplo 2.7 En una población de mayores de 65 años, los individuos con edades entre 
65-74, 75-84 y ≥ 85 años constituyen el 60, 30 y 10% de la población. La prevalencia de 
la enfermedad de Alzheimer en estos grupos de edad es respectivamente de 20, 75 y 300 
casos por 1000. La prevalencia global de la enfermedad de Alzheimer en esta población 
de mayores de 65 años se calcularía
 
 9
Así, la probabilidad no condicional de B es la media ponderada de las probabilidades 
condicionales de B dado A y Ac. Esta descomposición de la probabilidad del suceso B en 
términos de A y Ac es aplicable porque estos sucesos constituyen una partición del 
espacio muestral; es decir, A y Ac son sucesos exhaustivos A∪Ac = Ω y mutuamente 
excluyentes A∩Ac = ∅. 
En general, para un conjunto de sucesos A1, A2, ..., Ak glob lmente exhaustivos y 
mutuamente xcluyentes que formen una partición del espacio muestral, se verifica que 
P(B) = 
==
=∩
k
i
ii
k
i
i ABPAPBAP
11
)|()()( , 
conocida como regla de la probabilidad total. Esta fórmula es particularmente útil en 
epidemiología, donde se emplean con frecuencia las particiones. Por ejemplo, al dividir 
la población en grupos de edad y sexo se están empleando categorías globalmente 
exhaustivas y mutuamente excluyentes. En general, siempre que se divide la población 
en estratos se aplica una partición a esa población. 
Ejemplo 2.7 En una población de mayores de 65 años, los individuos con edades 
entre 65–74, 75–84 y ≥ 85 años constituyen el 60, 30 y 10% de la población. La 
prevalencia de la enfermedad de Alzheimer en estos grupos de edad es 
respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la 
enfermedad de Alzheimer en esta población de mayores de 65 años se calcularía 
 P(A) = 
=
3
1
)|()(
i
ii EAPEP  
  = 0,60⋅0,020 + 0,30⋅0,075 + 0,10⋅0,300 = 0,0645, 
resultando 64,5 casos por 1000 personas. 
resultando 64,5 casos por 1000 personas.
2.5 TEOREMA DE BAYES
El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir de la 
probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac. Aplicando 
la definición de probabilidad condicional y la regla de la probabilidad total, se obtiene que
 
 10
2.5 TEOREMA DE BAYES 
El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir 
de la probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac. 
Aplicando la definición de probabilidad condicional y la regla de la probabilidad total, 
se obtiene que 
P(A|B) = 
)|()()|()(
)|()(
)(
)(
cc ABPAPABPAP
ABPAP
BP
BAP
+
=
∩ . 
El teorema de Bayes se usa con frecuencia en la evaluación de pruebas diagnósticas. 
Cuando se desarrolla una prueba diagnóstica y se comparan sus resultados con los de un 
patrón oro (método de referencia en el diagnóstico de la enfermedad), suelen 
determinarse los siguientes parámetros o características propias de la prueba 
diagnóstica: 
• Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba 
diagnóstica entre los sujetos realmente enfermos, S = P(+|D). 
• Especificidad es la probabilidad de obtener un resultado negativo entre los 
sujetos realmente sanos, E = P(-|Dc). 
En la aplicación clínica de una prueba diagnóstica a una determinada población interesa 
conocer, sin embargo, los siguientes parámetros: 
• Valor predictivo positivo es la probabilidad de tener la enfermedad entre las 
personas que tienen un resultado positivo, VP+ = P(D|+). 
• Valor predictivo negativo es la probabilidad de no tener la enfermedad entre las 
personas que tienen un resultado negativo, VP- = P(Dc|-). 
Aplicando el teorema de Bayes, pueden calcularse los valores predictivos en función de 
la prevalencia de la enfermedad en la población y de la sensibilidad y especificidad de 
la prueba diagnóstica, 
El teorema de Bayes se usa con frecuencia en la evaluación de pruebas diagnósticas. Cuando 
se desarrolla una prueba diagnóstica y se comparan sus resultados con los de un patrón oro 
(método de referencia en el diagnóstico de la enfermedad), suelen determinarse los siguientes 
parámetros o características propias de la prueba diagnóstica:
19Pastor-Barriuso R.
Teorema de Bayes
 y Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba diagnóstica 
entre los sujetos realmente enfermos, S = P(+|D).
 y Especificidad es la probabilidad de obtener un resultado negativo entre los sujetos 
realmente sanos, E = P(–|Dc).
En la aplicación clínica de una prueba diagnóstica a una determinada población interesa conocer, 
sin embargo, los siguientes parámetros:
 y Valor predictivo positivo es la probabilidad de tener la enfermedad entre las personas que 
tienen un resultado positivo, VP+ = P(D|+).
 y Valor predictivo negativo es la probabilidad de no tener la enfermedad entre las personas 
que tienen un resultado negativo, VP– = P(Dc|–).
Aplicando el teorema de Bayes, pueden calcularse los valores predictivos en función de la 
prevalencia de la enfermedad en la población y de la sensibilidad y especificidad de la prueba 
diagnóstica,
 
 11
)1)(1()|()()|()(
)|()()|(
EPPS
PS
DPDPDPDP
DPDPDPVP cc
−−+
=
+++
+
=+=+ , 
EPSP
EP
DPDPDPDP
DPDPDPVP cc
cc
c
)1()1(
)1(
)|()()|()(
)|()()|(
−+−
−
=
−+−
−
=−=− . 
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad 
frente al virus de inmunodeficiencia humana es del 99% y su especificidad es del 
96%. En una población con una prevalencia de infección por el virus de 
inmunodeficiencia humana del 0,3%, únicamente el 6,9% de las personas con un 
resultado positivo del test ELISA estarán realmente infectadas, 
VP+ = 
04,0997,099,0003,0
99,0003,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,069, 
mientras que prácticamente todas las personas con resultado negativo estarán 
libres de la infección, 
VP- = 
96,0997,001,0003,0
96,0997,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 1,000. 
Sin embargo, en una población de alto riesgo con una prevalencia del virus de 
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado 
positivo estarán realmente infectados, 
VP+ = 
04,090,099,010,0
99,010,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,733, 
siendo muy improbable la infección entre aquellos sujetos con resultado negativo, 
VP- = 
96,090,001,010,0
96,090,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 0,999. 
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad frente al 
virus de inmunodeficiencia humana es del 99% y su especificidad es del 96%. En una 
población con una prevalencia de infección por el virus de inmunodeficiencia humana del 
0,3%, únicamente el 6,9% de las personas con un resultado positivo del test ELISA estarán 
realmente infectadas,
 
 11
)1)(1()|()()|()(
)|()()|(
EPPS
PS
DPDPDPDP
DPDPDPVP cc
−−+
=
+++
+
=+=+ , 
EPSP
EP
DPDPDPDP
DPDPDPVP cc
cc
c
)1()1(
)1(
)|()()|()(
)|()()|(
−+−
−
=
−+−
−
=−=− . 
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad 
frente al virus de inmunodeficiencia humana es del 99% y su especificidad es del 
96%. En una población con una prevalencia de infección por el virus de 
inmunodeficiencia humana del 0,3%, únicamente el 6,9% de las personas con un 
resultado positivo del test ELISA estarán realmente infectadas, 
VP+ = 
04,0997,099,0003,0
99,0003,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,069, 
mientras que prácticamente todas las personas con resultado negativo estarán 
libres de la infección, 
VP- = 
96,0997,001,0003,0
96,0997,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 1,000. 
Sin embargo, en una población de alto riesgo con una prevalencia del virus de 
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado 
positivo estarán realmente infectados, 
VP+ = 
04,090,099,010,0
99,010,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,733, 
siendo muy improbable la infección entre aquellos sujetos con resultado negativo, 
VP- = 
96,090,001,010,0
96,090,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 0,999. 
mientras que prácticamente todas las personas con resultado negativo estarán libres de la 
inf cción,
 
 11
)1)(1()|()()|()(
)|()()|(
EPPS
PS
DPDPDPDP
DPDPDPVP cc
−−+
=
+++
+
=+=+ , 
EPSP
EP
DPDPDPDP
DPDPDPVP cc
cc
c
)1()1(
)1(
)|()()|()(
)|()()|(
−+−
−
=
−+−
−
=−=− . 
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad 
frente al virus de inmunodeficiencia humana es del 99% y su especificidad es del 
96%. En una población con una prevalencia de infección por el virus de 
inmunodeficiencia humana del 0,3%, únicamente el 6,9% de las personas con un 
resultado positivo del test ELISA estarán realmente infectadas, 
VP+ = 
04,0997,099,0003,0
99,0003,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,069, 
mientras que prácticamente todas las personas con resultado negativo estarán 
libres de la infección, 
VP  = 
96,0997,001,0003,0
96,0997,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 1,000. 
Sin embargo, en una población de alto riesgo con una prevalencia del virus de 
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado 
positivo estarán realmente infectados, 
VP+ = 
04,090,099,010,0
9,010,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,733, 
siendo muy improbable la infección entre aquellos sujetos con resultado negativo, 
VP- = 
96,090,001,010,0
96,090,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 0,999. 
−
Sin embargo, en una población de alto riesgo con una prevalencia del virus de 
inmunodeficiencia human  del 10%, el 73,3% de los sujetos co  resultado positivo estarán 
realmente inf ctados,
 
 11
)1)(1()|()()|()(
)|()()|(
EPPS
PS
DPDPDPDP
DPDPDPVP cc
−−+
=
+++
+
=+=+ , 
EPSP
EP
DPDPDPDP
DPDPDPVP cc
cc
c
)1()1(
)1(
)|()()|()(
)|()()|(
−+−
−
=
−+−
−
=−=− . 
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad 
frente al virus de inmunodeficiencia humana es del 99% y su especificidad es del 
96%. En una población con una prevalencia de infección por el virus de 
inmunodeficiencia humana del 0,3%, únicam nte el 6,9% de la  personas con un 
resultado positivo del test ELISA estará  realme t  infectadas, 
VP+ = 
04,0997,099,0003,0
99,0003,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,069, 
mientras que prácticamente todas las personas con resultado negativo estarán 
libres de la infección, 
VP- = 
96,0997,001,0003,0
96,0997,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 1,000. 
Sin embargo, en una población de alto riesgo con una prevalencia del virus de 
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado 
positiv  stará  realmente infectados, 
VP+ = 
04,090,099,010,0
99,010,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,733, 
siendo muy improbable la infección entre aquellos sujetos con resultado negativo, 
VP- = 
96,090,001,010,0
96,090,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 0,999. 
siendo muy improbable la infección entre aquellos sujetos con resultado negativo,
 
 11
)1)(1()|()()|()(
)|()()|(
EPPS
PS
DPDPDPDP
DPDPDPVP cc
−−+
=
+++
+
=+=+ , 
EPSP
EP
DPDPDPDP
DPDPDPVP cc
cc
c
)1()1(
)1(
)|()()|()(
)|()()|(
−+−
−
=
−+−
−
=−=− . 
Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad 
frente al virus de inmunodeficiencia humana es del 99% y su especificidad es del 
96%. En una población con una prevalencia de infección por el virus de 
inmunodeficiencia humana del 0,3%, únicamente el 6,9% de las personas con un 
resultado positivo del test ELISA estarán realmente infectadas, 
VP+ = 
04,097,099,0003,0
99,0003,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,069, 
mientras que práctica ente todas las personas con resultado negativo estarán 
libres de la infección, 
VP- = 
96,0997,001,0003,0
96,0997,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 1,000. 
Sin embargo, en una población de alto riesgo con una prevalencia del virus de 
inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado 
positivo estarán realmente infectados, 
VP+ = 
04,090,099,010,0
99,010,0
)1)(1( ⋅+⋅
⋅
=
−−+ EPPS
PS  = 0,733, 
siendo muy improbable la infección entre aquellos sujetos con resultado negativo, 
VP  = 
96,090,001,010,0
96,090,0
)1()1(
)1(
⋅+⋅
⋅
=
−+−
−
EPSP
EP  = 0,999. 
−
20
Probabilidad
Pastor-Barriuso R.
Como puede apreciarse, el valor predictivo positivo de esta prueba varía enormemente en 
función de la prevalencia poblacional de la infección.
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente excluyentes, 
el teorema de Bayes puede generalizarse como
 
 12
Como puede apreciarse, el valor predictivo positivo de esta prueba varía 
enormemente en función de la prevalencia poblacional de la infección. 
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente 
excluyentes, el teorema de Bayes puede generalizarse como 
P(Ai|B) = 

=
=
∩
k
j
jj
iii
ABPAP
ABPAP
BP
BAP
1
)|()(
)|()(
)(
)(
. 
Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribución de los casos de la 
enfermedad de Alzheimer por grupo de edad viene dada por 
P(E1|A) = 
0645,0
020,060,0
)|()(
)|()(
3
1
11 ⋅
=

=i
ii EAPEP
EAPEP
 = 0,186, 
P(E2|A) = 
0645,0
075,030,0
)|()(
)|()(
3
1
22 ⋅
=

=i
ii EAPEP
EAPEP  = 0,349, 
P(E3|A) = 
0645,0
300,010,0
)|()(
)|()(
3
1
33 ⋅
=

=i
ii EAPEP
EAPEP  = 0,465. 
Esto es, el 18,6, 34,9 y 46,5% de los casos de la enfermedad de Alzheimer tienen 
edades entre 65–74, 75–84 y ≥ 85 años, respectivamente. 
2.6 REFERENCIAS 
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & 
Sons, 1995. 
Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribución de los casos de la 
enfer edad de Alzheimer por grupo de edad viene dada por
 
 12
Como puede apreciarse, el valor predictivo positivo de esta prueba varía 
enormemente en función de la prevalencia poblacional de la infección. 
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente 
excluyentes, el teorema de Bayes puede generalizarse como 
P(Ai|B) = 

=
=
∩
k
j
jj
iii
ABPAP
ABPAP
BP
BAP
1
)|()(
)|()(
)(
)(
. 
Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribución de los casos de la 
enfermedad de Alzheimer por grupo de edad viene dada por 
P(E1|A) = 
0645,0
020,060,0
)|()(
)|()(
3
1
11 ⋅
=

=i
ii EAPEP
EAPEP
 = 0,186, 
P(E2|A) = 
0645,0
075,030,0
)|()(
)|()(
3
1
22 ⋅
=

=i
ii EAPEP
EAPEP  = 0,349, 
P(E3|A) = 
0645,0
300,010,0
)|()(
)|()(
3
1
33 ⋅
=

=i
ii EAPEP
EAPEP  = 0,465. 
Esto es, el 18,6, 34,9 y 46,5% de los casos de la enfermedad de Alzheimer tienen 
edades entre 65–74, 75–84 y ≥ 85 años, respectivamente. 
2.6 REFERENCIAS 
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & 
Sons, 1995. 
Esto es, el 18,6, 34,9 y 46,5% de los casos de la enfermedad de Alzheimer tienen edades 
entre 65-74, 75-84 y ≥ 85 años, respectivamente.
2.6 REFERENCIAS
1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002.
3. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third 
Edition. New York: John Wiley & Sons, 1968.
4. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006.
21Pastor-Barriuso R.
TEMA 3
VARIABLES ALEATORIAS Y  
DISTRIBUCIONES DE PROBABILIDAD
3.1 INTRODUCCIÓN
En el tema de estadística descriptiva se revisaron las técnicas necesarias para la realización de un 
análisis descriptivo de las variables recogidas en una muestra. El presente tema se centra en describir 
algunos modelos teóricos de probabilidad que permiten caracterizar la distribución poblacional de 
determinadas variables y que, a su vez, son aplicables a múltiples situaciones prácticas.
Cuando se realiza un estudio o un experimento aleatorio, es frecuente asignar a los resultados 
del mismo una cantidad numérica. A la función que asocia un número real a cada resultado de un 
experimento se le denomina variable aleatoria. Aunque el concepto de variable se ha introducido 
con anterioridad, una definición más formal de variable aleatoria es, por tanto, la de una función 
definida sobre el espacio muestral W que asigna a cada posible resultado de un experimento un 
valor numérico. Aunque en general pueden definirse múltiples variables aleatorias para un mismo 
experimento, es aconsejable seleccionar en cada caso aquellas variables que recojan las 
características fundamentales del experimento. Las variables aleatorias suelen denotarse por 
letras mayúsculas del final del alfabeto, tales como X, Y o Z, mientras que los valores que pueden 
tomar se representan por sus correspondientes letras minúsculas, x, y o z.
Ejemplo 3.1 A continuación se definen algunas variables aleatorias para los experimentos 
del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la 
supervivencia a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento, una 
variable aleatoria X podría ser el número de supervivientes, que tomaría los valores X = 
0, 1, 2, 3 ó 4 en función del número de pacientes que hayan sobrevivido a los 6 meses. 
Alternativamente, podría definirse otra variable aleatoria Y como el número de muertes, 
cuyos valores serían Y = 0, 1, 2, 3 ó 4 en función del número de muertes observadas. Para 
el experimento de medir el colesterol HDL de una persona, la variable aleatoria X más 
natural sería el nivel de colesterol HDL en mmol/l, que podría tomar cualquier valor 
positivo. Si el interés se centra en saber si los niveles de colesterol HDL son superiores o 
inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podría definirse como Y = 0 
si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La elección de los 
valores 0 y 1 es arbitraria, bastaría con asignar dos valores distintos para diferenciar 
ambos tipos de resultados.
Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles 
valores tendrán asociada una probabilidad, que corresponderá a la probabilidad del suceso 
constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes 
valores de una variable aleatoria y las probabilidades asociadas constituyen la distribución de 
probabilidad de la variable.
Ejemplo 3.2 En el primer experimento del ejemplo anterior, el número de supervivientes 
es una variable aleatoria que toma los valores X = 0, 1, 2, 3 ó 4.  La probabilidad asociada 
al valor 0 P(X = 0) sería la probabilidad del suceso “ninguno de los 4 pacientes sobrevive 
22
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
a los 6 meses”, la probabilidad asociada al valor 1 P(X = 1) sería la probabilidad del 
suceso “sólo 1 de los 4 pacientes sobrevive a los 6 meses”, y así sucesivamente. En el 
segundo experimento, el nivel de colesterol HDL es una variable aleatoria X que puede 
tomar cualquier valor en el intervalo (0, ∞). En este caso no tiene sentido preguntarse, por 
ejemplo, cuál es la probabilidad de tener exactamente un nivel de colesterol HDL de 1 
mmol/l, ya que si esta variable se pudiera determinar con una precisión infinita, la 
probabilidad P(X = 1) = 0. En tal caso, deberíamos preguntarnos por la probabilidad de 
un determinado intervalo de valores. Así, por ejemplo, la probabilidad P(X ≤ 1) sería la 
probabilidad del suceso “tener niveles de colesterol HDL menores o iguales a 1 mmol/l”.
En general, se distinguen dos grandes grupos de variables aleatorias:
 y Variables aleatorias discretas son aquellas que tan sólo puede tomar un número discreto 
(finito o infinito) de valores. Cada uno de estos valores lleva asociada una probabilidad 
positiva, mientras que la probabilidad de los restantes valores es 0. 
 y Variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de 
un intervalo. En este caso, la probabilidad de obtener un valor concreto es 0, por lo que las 
probabilidades se asignan a intervalos de valores.
A continuación se describen las principales características de las variables aleatorias discretas 
y continuas, así como algunas distribuciones teóricas de probabilidad que serán aplicables a 
muchas de las variables aleatorias utilizadas en la práctica.
3.2 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
Las variables aleatorias discretas toman un número discreto de valores con probabilidad no nula 
y, en consecuencia, estarán completamente caracterizadas si se conoce la probabilidad asociada 
a cada uno de estos valores. La función que asigna a cada posible valor xi, i = 1, 2, ..., de la 
variable discreta X su probabilidad P(X = xi) se conoce como función de masa de probabilidad. 
Esta función debe cumplir las siguientes propiedades: la probabilidad de cada valor ha de estar 
entre 0 y 1, 0 < P(X = xi) ≤ 1, y la suma de las probabilidades para todos los valores debe ser 
igual a 1,
 4
valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como 
función de masa de probabilidad. Esta función debe cumplir las siguientes 
propiedades: la probabilidad de cada valor ha de estar entre 0 y 1, 0 < P(X = xi) ≤ 1, y la 
suma de las probabilidades para todos los valores debe ser igual a 1, 

≥
=
1
)(
i
ixXP  = 1. 
Una vez conocida la función de masa de probabilidad, la probabilidad de que una 
variable aleatoria discreta X esté comprendida en cualquier subconjunto A se calcula 
como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese 
subconjunto, 
P(X ∈A) =
∈
=
Ax
i
i
xXP )( . 
En particular, la función de distribución F(x) de una variable aleatoria X se define 
como la probabilidad de observar un valor menor o igual a x, 
F(x) = P(X ≤ x) = 
≤
=
xx
i
i
xXP )( . 
La función de distribución de una variable discreta será una función escalonada 
creciente con saltos en los valores xi con probabilidad no nula. 
Ejemplo 3.3 Supongamos que por estudios previos se estima que, después de 6 
meses de tratamiento en 4 pacientes con cáncer, la probabilidad de que sobrevivan 
0, 1, 2, 3 ó 4 pacientes viene determinada por la segunda columna de la Tabla 3.1. 
Estos valores y sus probabilidades constituyen la función de masa de probabilidad 
de la variable número de supervivientes, que se muestra en la Figura 3.1(a). Los 
valores de la función de distribución en 0, 1, 2, 3 y 4 aparecen en la tercera 
columna de la Tabla 3.1; así, por ejemplo, la función de distribución en 1 es F(1) 
Una vez conocida la función de masa de probabilidad, la probabilidad de que una variable 
aleatoria discreta X esté comprendi a en cualquier subconjunto A se calcula como la suma de 
las probabilidades de aquellos valores xi incluidos dentro de ese subconjunto,
 4
val r xi, i = 1, 2, ..., de la variable discreta X su probabili ad P(X = xi) se con ce como 
función de masa de probabilidad. Esta función debe cumplir las siguientes 
propiedades: la probabilidad de cada valor ha de estar entre 0 y 1, 0 < P(X = xi) ≤ 1, y la 
suma de las probabilidades para todos los valores debe ser igual a 1, 

≥
=
1
)(
i
ixXP  = 1. 
Una vez conocida la función de masa de probabilidad, la robabilidad de que una 
variable aleatoria discreta X esté comprendida en cualquier subconjunto A se calcula 
como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese 
subconjunto, 
P(X ∈A) =
∈
=
Ax
i
i
xXP )( . 
En particular, la función de distribución F(x) de una variable aleatoria X se define 
como la probabilidad de observar un valor menor o igual a x, 
F(x) = P(X ≤ x) = 
≤
=
xx
i
i
xXP )( . 
La función de distribución de una variable discreta será una función escalonada 
creciente con saltos en los valores xi con probabilidad no nula. 
Ejemplo 3.3 Supongamos que por estudios previos se estima que, después de 6 
meses de tratamiento en 4 pacientes con cáncer, la probabilidad de que sobrevivan 
0, 1, 2, 3 ó 4 pacientes viene determinada por la segunda columna de la Tabla 3.1. 
Estos valores y sus probabilidades constituyen la función de masa de probabilidad 
de la variable número de supervivientes, que se muestra en la Figura 3.1(a). Los 
valores de la función de distribución en 0, 1, 2, 3 y 4 aparecen en la tercera 
columna de la Tabla 3.1; así, por ejemplo, la función de distribución en 1 es F(1) 
En particular, la función de distribución F(x) de una variable aleatoria X se define como la 
probabilidad de observar u  valor menor o igual a x,
 4
valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como 
función de masa de probabilidad. Esta función debe cumplir las siguientes 
propieda es: la probabilidad de cada valor ha de estar entre 0 y 1, 0 < P(X = xi) ≤ 1, y la 
suma de las probabilidades para to os los valores debe ser igual a 1, 

≥
=
1
)(
i
ixXP  = 1. 
Una vez conocida la función de masa de probabilidad, la probabilidad de que una 
vari bl aleatoria d screta X esté co prendida en cualquier s bconjunto A se calcula 
como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese 
subconjunto, 
P(X ∈A) =
∈
=
Ax
i
i
xXP )( . 
En particular, la función de distribución F(x) de una variable aleatoria X se define 
como la proba ilidad de observar un valor menor o igual a x, 
F(x) = P(X ≤ x) = 
≤
=
xx
i
i
xXP )( . 
La función de distribución de una variable discreta será una función escalonada 
creciente con saltos en los valores xi con probabilidad no nula. 
Ejemplo 3.3 Supongamos que por estudios previos se estima que, después de 6 
meses de tratamiento en 4 pacientes con cáncer, la probabilidad de que sobrevivan 
0, 1, 2, 3 ó 4 pacientes viene determinada por la segunda columna de la Tabla 3.1. 
Estos valores y sus probabilidades constituyen la función de masa de probabilidad 
de la variable número de supervivientes, que se muestra en la Figura 3.1(a). Los 
valores de la función de distribución en 0, 1, 2, 3 y 4 aparecen en la tercera 
columna de la Tabla 3.1; así, por ejemplo, la función de distribución en 1 es F(1) 
La función de distribución de una variable discreta será una función escalonada creciente con 
saltos en los valores xi con probabilidad no nula.
23
Distribuciones de probabilidad discretas
Pastor-Barriuso R.
Ejemplo 3.3 Supongamos que por estudios previos se estima que, después de 6 meses 
de tratamiento en 4 pacientes con cáncer, la probabilidad de que sobrevivan 0, 1, 2, 3 ó 4 
pacientes viene determinada por la segunda columna de la Tabla 3.1. Estos valores y sus 
probabilidades constituyen la función de masa de probabilidad de la variable número de 
supervivientes, que se muestra en la Figura 3.1(a). Los valores de la función de distribución 
en 0, 1, 2, 3 y 4 aparecen en la tercera columna de la Tabla 3.1; así, por ejemplo, la función 
de distribución en 1 es F(1) = P(X ≤ 1) = P(X = 0) + P(X = 1) = 0,1296 + 0,3456 = 0,4752. 
La función de distribución de esta variable se representa en la Figura 3.1(b). Notar que 
F(x) está definida sobre cualquier número real, aun cuando la variable tome sólo los 
valores 0, 1, 2, 3 y 4 con probabilidad no nula.
En el primer tema de estadística descriptiva, se definieron la media y la varianza muestral 
como medidas de tendencia central y dispersión de una variable en una muestra. A continuación, 
se definen medidas análogas para la distribución poblacional de una variable aleatoria. La 
esperanza o media poblacional de una variable aleatoria discreta X, denotada por μ o E(X), se 
define como la suma de los productos de cada valor xi por su probabilidad P(X = xi),
 5
= P(X ≤ 1) = P(X = 0) + P(X = 1) = 0,1296 + 0,3456 = 0,4752. La función de 
distribución de esta variable se representa en la Figura 3.1(b). Notar que F(x) está 
definida sobre cualquier número real, aun cuando la variable tome sólo los valores 
0, 1, 2, 3 y 4 con probabilidad no nula. 
[Tabla 3.1 aproximadamente aquí] 
[Figura 3.1 aproximadamente aquí] 
En el primer tema de estadística descriptiva, se definieron la media y la varianza 
muestral como medidas de tendencia central y dispersión de una variable en una 
muestra. A continuación, se definen medidas análogas para la distribución poblacional 
de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria 
discreta X, denotada por μ o E(X), se define como la suma de los productos de cada 
valor xi por su probabilidad P(X = xi), 
μ = E(X) = 
≥
=
1
)(
i
ii xXPx . 
La esperanza es la media de los valores xi ponderados por su probabilidad y representa 
así el valor promedio de la variable aleatoria. Notar que la media muestral se puede 
calcular de forma similar, multiplicando cada valor observado de la variable por su 
frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X, 
abreviada por σ 2 o var(X), se define como la esperanza del cuadrado de la desviación de 
la variable respecto de su media, 
 σ 2 = var(X) = E(X - μ)2 = 
≥
=−
1
2 )()(
i
ii xXPx μ  
  = 2
1
2 )( μ−=
≥i
ii xXPx  = E(X
2) - μ2. 
Tabla 3.1 Función de masa de probabilidad y 
función de distribución del número de supervivientes 
a los 6 meses de 4 pacientes con cáncer sometidos a 
tratamiento.
Nú ero  
de supervivientes 
(x)
Función  
de masa  
P(X = x)
Función  
de distribución 
F(x) = P(X ≤ x)
0 0,1296 0,1296
1 0,3456 0,4752
2 0,3456 0,8208
3 0,1536 0,9744
4 0,0256 1,0000
 Figura 3.1
0 1 2 3 4
0
0,1
0,2
0,3
0,4
0 1 2 3 4
0
0,2
0,4
0,6
0,8
1
P(X = x) F(x)
x x
(a) (b)
Figura 3.1 Función de masa de probabilidad (a) y función de distribución (b) del número de supervivientes 
a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento.
24
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
La esperanza es la media de los valores xi ponderados por su probabilidad y representa así el 
valor promedio de la variable aleatoria. Notar que la media muestral se puede calcular de forma 
similar, multiplicando cada valor observado de la variable por su frecuencia relativa. La 
varianza poblacional de una variable aleatoria discreta X, abreviada por σ 2 o var(X), se define 
como la esperanza del cuadrado de la desviación de la variable respecto de su media,
 5
= P(X ≤ 1) = P(X = 0) + P(X = 1) = 0,1296 + 0,3456 = 0,4752. La función de 
distribución de esta variable se representa en la Figura 3.1(b). Notar que F(x) está 
definida sobre cualquier número real, aun cuando la variable tome sólo los valores 
0, 1, 2, 3 y 4 con probabilidad no nula. 
[Tabla 3.1 aproximadamente aquí] 
[Figura 3.1 aproximadamente aquí] 
En el primer tema de estadística descriptiva, se definieron la media y la varianza 
muestral como medidas de tendencia central y dispersión de una variable en una 
muestra. A continuación, se definen medidas análogas para la distribución poblacional 
de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria 
discreta X, denotada por μ o E(X), se define como la suma de los productos de cada 
valor xi por su probabilidad P(X = xi), 
μ = E(X) = 
≥
=
1
)(
i
ii xXPx . 
La esperanza es la media de los valores xi ponderados por su probabilidad y representa 
así el valor promedio de la variable aleatoria. Notar que la media muestral se puede 
calcular de forma similar, multiplicando cada valor observado de la variable por su 
frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X, 
abreviada por σ 2 o var(X), se define como la esperanza del cuadrado de la desviación de 
la variable respecto de su media, 
 σ 2 = var(X) = E(X μ)2 = 
≥
=−
1
2 )()(
i
ii xXPx μ  
  = 2
1
2 )( μ−=
≥i
ii xXPx  = E(X
2)  μ2. 
−
−
Así, la varianza resulta ser la media ponderada del cuadrado de las desviaciones en los valores 
xi. La raíz cuadrada de la varianza es la desviación típica poblacional σ, que representa la 
dispersión de la variable aleatoria respecto de su media poblacional.
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del número de 
supervivientes a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento sería
 6
Así, la varianza resulta ser la media ponderada del cuadrado de las desviaciones en los 
valores xi. La raíz cuadrada de la varianza es la desviación típica poblacional σ, que 
representa la dispersión de la variable aleatoria respecto de su media poblacional. 
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del 
número de supervivientes a los 6 meses de 4 pacientes con cáncer sometidos a 
tratamiento sería 
μ = 
=
=
4
0
)(
k
kXkP  = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60, 
y la varianza 
 σ 2 = 
=
=−
4
0
2 )()(
k
kXPk μ  
  = (0 - 1,60)20,1296 + ... + (4 - 1,60)20,0256 = 0,96. 
Es decir, el número esperado de supervivientes a los 6 meses es 1,60 y la 
desviación típica σ = 96,0  = 0,98. 
3.2.1 Distribución binomial 
La distribución binomial es un modelo teórico de distribución de probabilidad discreta 
aplicable a aquellos experimentos en los que se realizan n pruebas independientes, cada 
una de ellas con sólo dos resultados posibles (éxito o fracaso) y la misma probabilidad 
de éxito π. En tal caso, se dice que la variable aleatoria X “número de éxitos en las n 
pruebas” sigue una distribución binomial con parámetros n y π. A partir de los 
resultados del tema de probabilidad (véase Ejemplo 3.5), puede probarse que la 
distribución binomial toma valores en k = 0, 1, ..., n con probabilidad 
y la varianza
 6
Así, la varianza resulta ser la media ponderada del cuadrado de las desviaciones en los 
valores xi. La raíz cuadrada de la varianza es la desviación típica poblacional σ, que 
representa la dispersión de la variable aleatoria respecto de su media poblacional. 
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del 
número de supervivientes a los 6 meses de 4 pacientes con cáncer sometidos a 
tratamiento sería 
μ = 
=
=
4
0
)(
k
kXkP  = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60, 
y la varianza 
 σ 2 = 
=
=−
4
0
2 )()(
k
kXPk μ  
  
= (0  1,60)20,1296 + ... + (4  1,60)20,0256 = 0,96. 
Es decir, el número esperado de supervivientes a los 6 meses es 1,60 y la 
desviación típica σ = 96,0  = 0,98. 
3.2.1 Distribución binomial 
La distribución binomial es un modelo teórico de distribución de probabilidad discreta 
aplicable a aquellos experimentos en los que se realizan n pruebas independientes, cada 
una de ellas con sólo dos resultados posibles (éxito o fracaso) y la misma probabilidad 
de éxito π. En tal caso, se dice que la variable aleatoria X “número de éxitos en las n 
pruebas” sigue una distribución binomial con parámetros n y π. A partir de los 
resultados del tema de probabilidad (véase Ejemplo 3.5), puede probarse que la 
distribución binomial toma valores en k = 0, 1, ..., n con probabilidad 
− −
Es decir, el número esperado de supervivientes a los 6 meses es 1,60 y la desviación típica 
 6
Así, la varianza resulta ser la media ponderada del cuadrado de las desviaciones en los 
valores xi. La raíz cuadrada de la varianza es la desviación típica poblacional σ, que 
representa la dispersión de la variable aleatoria respecto de su media poblacional. 
Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del 
número de supervivientes a los 6 meses de 4 pacientes con cáncer sometidos a 
tratamiento sería 
μ = 
=
=
4
0
)(
k
kXkP  = 0⋅0,1296 + 1⋅0,3456 + ... + 4⋅0,0256 = 1,60, 
y la varianza 
 σ 2 = 
=
=−
4
0
2 )()(
k
kXPk μ  
  = (0 - 1,60)20,1296 + ... + (4 - 1,60)20,0256 = 0,96. 
Es decir, el número esperado de supervivientes a los 6 meses es 1,60 y la 
desviación típica σ = 96,0  = 0,98. 
3.2.1 Distribución binomial 
La distribución binomial es un modelo teórico de distribución de probabilidad discreta 
aplicable a aquellos experimentos en los que se realizan n pruebas independientes, cada 
una de ellas con sólo dos resultados posibles (éxito o fracaso) y la misma probabilidad 
de éxito π. En tal caso, se dice que la variable aleatoria X “número de éxitos en las n 
pruebas” sigue una distribución binomial con parámetros n y π. A partir de los 
resultados del tema de probabilidad (véase Ejemplo 3.5), puede probarse que la 
distribución binomial toma valores en k = 0, 1, ..., n con probabilidad 
3.2.1 Distribución binomial
La distribución binomi l es un modelo teórico de distribución de probabilidad discreta aplicable 
a aquellos experimentos en los que se realizan n pruebas independientes, cada una de ellas con 
sólo dos resultados posibles (éxito o fracaso) y la misma probabilidad de éxito π. En tal caso, se 
dice que la variable aleatoria X “número de éxitos en las n pruebas” sigue una distribución 
binomial con parámetros n y π. A partir de los resulta o  del tema  probabilidad (véase Ejemplo 
3.5), puede probarse que la distribución binomial toma valores en k = 0, 1, ..., n con probabilidad
 7
P(X = k) = knk
k
n
−
−



)1( ππ , 
donde 
)!(!
!
knk
n
k
n
−
=



 es el número de combinaciones de n elementos tomados de k en 
k, con n! = n(n - 1)⋅…⋅1 y 0! = 1. Por supuesto, estas probabilidades constituyen una 
función de masa de prob bilidad ya que, para cualquier n y π, su suma es exactamente 
igual a 1. En la práctica, resulta tedioso calcular las probabilidades de una distribución 
binomial mediante la fórmula anterior. Por ello, en la Tabla 1 del Apéndice se facilitan 
las probabilidades binomiales para n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50. 
En general, la distribución binomial se aplica al estudio de observaciones repetidas e 
independientes de una misma variable dicotómica (con sólo dos resultados posibles), tal 
como el resultado de un tratamiento (éxito o fracaso) en pacientes de similares 
características sometidos a una misma terapia. 
Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de 
observar la supervivencia (o muerte) en pacientes con un determinado cáncer 
sometidos al mismo tratamiento. Si por estudios previos se sabe que la 
supervivencia a los 6 meses en dichos pacientes es del 40%, el número de 
supervivientes a los 6 meses en una muestra de 4 pacientes seguirá una 
distribución binomial X de parámetros n = 4 y π = 0,4. 
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que 
sobreviva el i-ésimo paciente, la probabilidad de que sobrevivan únicamente los 
dos primeros pacientes vendría dada por 
P(S1∩S2∩ cS3 ∩
cS4 ) = P(S1)P(S2)P(
cS3 )P(
cS4 ) = 0,4
2(1 - 0,4)2, 
donde 
 7
P(X = k) = knk
k
n
−
−



)1( ππ ,
)!(!
!
knk
n
k
n
−
=



 es el número de combinaciones de n elementos tomados de k en 
k, con n! = n(n - 1)⋅…⋅1 y 0! = 1. Por supuesto, estas p babilidades constituyen una 
función de masa de probabilidad ya que, para cualquier n y π, su sum  es exact mente 
igual a 1. En la práctica, resulta tedioso calcular las probabilidades de una distribución 
binomial mediante la fórmula anterior. Por ello, en la Tabla 1 del Apéndice se facilitan 
las probabilidades binomiales para n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50. 
En general, la distribución binomial se aplica al estudio de observaciones repetidas e 
independientes de una misma variable dicotómica (con sólo dos resultados posibles), tal 
como el resultado de un tratamiento (éxito o fracaso) en pacientes de similares 
características sometidos a una misma terapia. 
Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de 
observar la supervivencia (o muerte) en pacientes con un determinado cáncer 
sometidos al mismo tratamiento. Si por estudios previos se sabe que la 
supervivencia a los 6 meses en dichos pacientes es del 40%, el número de 
supervivientes a los 6 meses en una muestra de 4 pacientes seguirá una 
distribución binomial X de parámetros n = 4 y π = 0,4. 
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que 
sobreviva el i-ésimo paciente, la probabilidad de que sobrevivan únicamente los 
dos primeros pacientes vendría dada por 
P(S1∩S2∩ cS3 ∩
cS4 ) = P(S1)P(S2)P(
cS3 )P(
cS4 ) = 0,4
2(1 - 0,4)2, 
  l r   c i l k, con 
n! = n(n – 1)∙…∙1 y 0! = 1. Por supuesto, estas probabilidades constituyen una función de 
masa de probabilidad ya que, para cualquier n y π, su suma es exa tamente ig al a 1. En la 
práctica, resulta tedioso calcular las probabilidades de una distribución binomial mediante la 
25
Distribuciones de probabilidad discretas
Pastor-Barriuso R.
fórmula anterior. Por ello, en la Tabla 1 del Apéndice se facilitan las probabilidades binomiales 
para n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.
En general, la distribución binomial se aplica al estudio de observaciones repetidas e 
independientes de una misma variable dicotómica (con sólo dos resultados posibles), tal como 
el resultado de un tratamiento (éxito o fracaso) en pacientes de similares características 
sometidos a una misma terapia.
Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de observar 
la supervivencia (o muerte) en pacientes con un determinado cáncer sometidos al mismo 
tratamiento. Si por estudios previos se sabe que la supervivencia a los 6 meses en dichos 
pacientes es del 40%, el número de supervivientes a los 6 meses en una muestra de 4 
pacientes seguirá una distribución binomial X de parámetros n = 4 y π = 0,4.
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el 
i-ésimo paciente, la probabilidad de que sobrevivan únicamente los dos primeros pacientes 
vendría dada por
 7
P(X = k) = knk
k
n
−
−



)1( ππ , 
donde 
)!(!
!
knk
n
k
n
−
=



 es el número de combinaciones de n elementos tomados de k en 
k, con n! = n(n - 1)⋅…⋅1 y 0! = 1. Por supuesto, estas probabilidades constituyen una 
función de masa de probabilidad ya que, para cualquier n y π, su suma es exactamente 
igual a 1. En la práctica, resulta tedioso calcular las probabilidades de una distribución 
binomial mediante la fórmula anterior. Por ello, en la Tabla 1 del Apéndice se facilitan 
las probabilidades binomiales para n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50. 
En general, la distribución binomial se aplica al estudio de observaciones repetidas e 
independientes de una misma variable dicotómica (con sólo dos resultados posibles), tal 
como el resultado de un tratamiento (éxito o fracaso) en pacientes de similares 
características sometidos a una misma terapia. 
Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de 
observar la superviv ci  (o muert ) en pacientes con un determin do cáncer 
sometidos al mismo tratamiento. Si por estudios previos se sabe que la 
supervivencia a los 6 meses en dichos pacientes es del 40%, el número de 
supervivientes a los 6 meses en una muestra de 4 pacientes seguirá una 
distribución binomial X de parámetros n = 4 y π = 0,4. 
Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que 
sobreviva el i-ésimo paciente, la probabilidad de que sobrevivan únicamente los 
do  primeros pacientes vendrí  dada por 
P(S1∩S2∩ cS3 ∩
cS4 ) = P(S1)P(S2)P(
cS3 )P(
cS4 ) = 0,4
2(1   0,4)2, −
dado que el resultado en cada paciente es independiente y todos tienen una misma probabilidad 
de supervivencia del 0,4. En general, la probabilidad de que sobrevivan 2 pacientes 
cualesquiera puede descomponerse, en función de qué pacientes sobrevivan, como
 8
dado que el resultado en cada paciente es independiente y todos tienen una misma 
probabilidad de supervivencia del 0,4. En general, la probabilidad de que 
sobrevivan 2 pacientes cualesquiera puede descomponerse, en función de qué 
pacientes sobrevivan, como 
 P(X = 2) = P{(S1∩S2∩ cS3 ∩
cS4 )∪(S1∩
cS2 ∩S3∩
cS4 ) 
  
∪(S1∩ cS2 ∩
cS3 ∩S4)∪(
cS1 ∩S2∩S3∩
cS4 ) 
  
∪( cS1 ∩S2∩
cS3 ∩S4)∪(
cS1 ∩
cS2 ∩S3∩S4)}. 
Esta probabilidad está constituida por la unión de tantos sucesos como posibles 
combinaciones de 4 pacientes tomados de 2 en 2; es decir, 
4
24
)!24(!2
!4
2
4
=
−
=



 
= 6 sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos 
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la 
probabilidad de que sobrevivan 2 pacientes cualesquiera es 
P(X = 2) = 22 )4,01(0,4
2
4
−



 = 0,3456, 
que corresponde a la probabilidad de la distribución binomial de parámetros n = 4 
y π = 0,4 para k = 2. Aplicando esta fórmula, las probabilidades para k = 0, 1, 2, 3 
ó 4 supervivientes aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas 
probabilidades también pueden obtenerse directamente de la Tabla 1 del 
Apéndice. 
A partir de las fórmulas generales para la esperanza y la varianza de una variable 
aleatoria discreta, puede probarse que la esperanza de una distribución binomial de 
parámetros n y π es 
Esta probabilidad está constituida por la unión de tantos sucesos como posibles 
combinaciones de 4 pacientes tomados de 2 en 2; es decir, 
 8
dado que el resultado en cada paciente es independiente y todos tienen una misma 
probabilidad de supervivencia del 0,4. En general, la probabilidad de que 
sobrevivan 2 pacientes cualesquiera puede descomponerse, en función de qué 
pacientes sobrevivan, como 
 P(X = 2) = P{(S1∩S2∩ cS3 ∩
cS4 )∪(S1∩
cS2 ∩S3∩
cS4 ) 
  ∪(S1∩ cS2 ∩
cS3 ∩S4)∪(
cS1 ∩S2∩S3∩
cS4 ) 
  ∪( cS1 S2∩
cS3 ∩S4)∪(
cS1
cS2 ∩S3∩S4)}. 
Esta probabilidad está constituida por la unión de tantos sucesos como posibles 
combinaciones de 4 paci ntes tomados de 2 en 2; es decir, 
4
24
)!24(!2
!4
2
4
=
−
=



 
= 6 sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos 
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la 
probabilidad de que sobrevivan 2 pacientes cualesquiera es 
P(X = 2) = 22 )4,01(0,4
2
4
−



 = 0,3456, 
que corresponde a la probabilidad de la distribución binomial de parámetros n = 4 
y π = 0,4 para k = 2. Aplicando esta fórmula, las probabilidades para k = 0, 1, 2, 3 
ó 4 supervivientes aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas 
probabilidades también pueden obtenerse directamente de la Tabla 1 del 
Apéndice. 
A partir de las fórmulas generales para la esperanza y la varianza de una variable 
aleatoria discreta, puede probarse que la esperanza de una distribución binomial de 
parámetros n y π es 
= 6 
sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos tienen una 
misma probabilida  de ocurrir de 0,42(1 – 0,4)2. En consecuencia, la probabilidad de que 
sobrevivan 2 pacientes cualesquiera es
 8
dado que el resultado en cada paciente es independiente y todos tienen una misma 
probabilidad de supervivencia del 0,4. En general, la probabilidad de que 
sobrevivan 2 pacientes cualesquier  puede descomponerse, en función de qué 
pacientes sobrevivan, como 
 P(X = 2) = P{(S1∩S2∩ cS3 ∩
cS4 )∪(S1∩
cS2 ∩S3∩
cS4 ) 
  ∪(S1∩ cS2 ∩
cS3 ∩S4)∪(
cS1 ∩S2∩S3∩
cS4 ) 
  ∪( cS1 ∩S2∩
cS3 ∩S4)∪(
cS1 ∩
cS2 ∩S3∩S4)}. 
Esta probabilidad está constituida por la unión de tantos sucesos como posibles 
combinaciones de 4 pacientes tomados de 2 en 2; es decir, 
4
24
)!24(!2
!4
2
4
=
−
=



 
= 6 sucesos. Además, estos sucesos son mutuamente excluyentes y todos ellos 
tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la 
probabilidad de que sobrevivan 2 pacientes cualesquiera s 
P(X = 2) = 22 )4,01(0,4
2
4
−



 = 0,3456, 
que corresponde a la probabilidad de la distribución binomial de parámetros n = 4 
y π = 0,4 para k = 2. Aplicando esta fórmula, las probabilidades para k = 0, 1, 2, 3 
ó 4 s pervivientes aparecen en la T bla 3.  y en la Figura 3.1(a). Estas 
probabilidades también pueden obtenerse directamente de la T bla 1 del
Apéndice. 
A partir de las fórmulas generales para la esperanza y la varianza de una variable 
aleatoria discreta, puede probarse que la esperanza de una distribución binomial de 
parámetros n y π es 
que corresponde a la probabilidad de la distribución binomial de parámetros n = 4 y π = 0,4 
para k = 2. Aplicando esta fórmula, las probabilidades para k = 0, 1, 2, 3 ó 4 supervivientes 
aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas probabilidades también pueden 
obtenerse directamente de la Tabla 1 del Apéndice.
A partir de las fórmulas generales para la esperanza y la varianza de una variable aleatoria 
discreta, puede probarse que la esperanza de una distribución binomial de parámetros n y π es
 9
E(X) = 
=
−
=
−



==
n
k
knk
n
k k
n
kkXkP
00
)1()( ππ  = nπ 
y su varianza es 
 var(X) = 
=
=−
n
k
kXPnk
0
2 )()( π  
  = 
=
−
−



−
n
k
knk
k
n
nk
0
2 )1()( πππ  = nπ(1 - π). 
Así, el número esperado de éxitos es igual al número de pruebas realizadas por la 
probabilidad individual de éxito. La varianza nπ(1 - π) disminuye cuanto menor sea el 
número de pruebas y más extrema sea la probabilidad de éxito. En el caso particular de 
que π = 0 ó 1, la varianza será 0 ya que todas las pruebas serán respectivamente fracasos 
o éxitos. 
Ejemplo 3.6 Continuando con el ejemplo anterior, el número esperado de 
supervivientes a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento es 
nπ = 4⋅0,4 = 1,60, la varianza nπ(1 - π) = 4⋅0,4⋅0,6 = 0,96 y la desviación típica 
)1( ππ −n  = 0,98. Estos resultados coinciden con los obtenidos en el Ejemplo 
3.4, donde la media y la varianza se calculaban a partir de las fórmulas generales 
para variables discretas. 
3.2.2 Distribución de Poisson 
La distribución de Poisson es otro modelo teórico de distribución discreta 
particularmente útil para el estudio epidemiológico de la ocurrencia de determinadas 
enfermedades. Se dice que la variable aleatoria X “número de casos de una determinada 
enfermedad a lo largo de un periodo de tiempo t”, donde t es un intervalo de tiempo 
arbitrariamente largo, tal como 1 ó 10 años, sigue una distribución de Poisson si se 
26
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
y su varianza es
 9
E(X) = 
=
−
=
−



==
n
k
knk
n
k k
n
kkXkP
00
)1()( ππ  = nπ 
y su varianza es 
 var(X) = 
=
=−
n
k
kXPnk
0
2 )()( π  
  = 
=
−
−



−
n
k
knk
k
n
nk
0
2 )1()( πππ  = nπ(1  π). 
Así, el número esperado de éxitos es igual al número de pruebas realizadas por la 
probabilidad individual de éxito. La varianza nπ(1 - π) disminuye cuanto menor sea el 
número de pruebas y más extrema sea la probabilidad de éxito. En el caso particular de 
que π = 0 ó 1, la varianza será 0 ya que todas las pruebas serán respectivamente fracasos 
o éxitos. 
Ejemplo 3.6 Continuando con el ejemplo anterior, el número esperado de 
supervivientes a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento es 
nπ = 4⋅0,4 = 1,60, la varianza nπ(1 - π) = 4⋅0,4⋅0,6 = 0,96 y la desviación típica 
)1( ππ −n  = 0,98. Estos resultados coinciden con los obtenidos en el Ejemplo 
3.4, donde la media y la varianza se calculaban a partir de las fórmulas generales 
para variables discretas. 
3.2.2 Distribución de Poisson 
La distribución de Poisson es otro modelo teórico de distribución discreta 
particularmente útil para el estudio epidemiológico de la ocurrencia de determinadas 
enfermedades. Se dice que la variable aleatoria X “número de casos de una determinada 
enfermedad a lo largo de un periodo de tiempo t”, donde t es un intervalo de tiempo 
arbitrariamente largo, tal como 1 ó 10 años, sigue una distribución de Poisson si se 
−
Así, el número esperado de éxitos es igual al número de pruebas realizadas por la probabilidad 
individual de éxito. La varianza nπ(1 – π) disminuye cuanto menor sea el número de pruebas 
y más extrema sea la probabilidad de éxito. En el caso particular de que π = 0 ó 1, la varianza 
será 0 ya que todas las pruebas serán respectivamente fracasos o éxitos.
Ejemplo 3.6 Continuando con el ejemplo anterior, el número esperado de supervivientes 
a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento es nπ = 4∙0,4 = 1,60, la 
varianza nπ(1 – π) = 4∙0,4∙0,6 = 0,96 y la desviación típica 
 9
E(X) = 
=
−
=
−



==
n
k
knk
n
k k
n
kkXkP
00
)1()( ππ  = nπ 
y su varianza es 
 var(X) = 
=
=−
n
k
kXPnk
0
2 )()( π  
  = 
=
−
−



−
n
k
knk
k
n
nk
0
2 )1()( πππ  = nπ(1 - π). 
Así, el número esperado de éxitos es igual al número de pruebas realizadas por la 
probabilidad individual de éxito. La varianza nπ(1 - π) disminuye cuanto menor sea el 
número de pruebas y más extrema sea la probabilidad de éxito. En el caso particular de 
que π = 0 ó 1, la varianza será 0 ya que todas las pruebas serán respectivamente fracasos 
o éxitos. 
Ejemplo 3.6 Continuando con el ejemplo anterior, el número esperado de 
supervivientes a los 6 meses de 4 pacientes con cáncer sometidos a tratamiento es 
nπ = 4⋅0,4 = 1,60, la varianza nπ(1 - π) = 4⋅0,4⋅0,6 = 0,96 y la desviación típica 
)1( ππ −n  = 0,98. Estos resultados coinciden con los obtenidos en el Ejemplo 
3.4, donde la media y la varianza se calculaban a partir de las fórmulas generales 
para variables discretas. 
3.2.2 Distribución de Poisson 
La distribución de Poisson es otro modelo teórico de distribución discreta 
particularmente útil para el estudio epidemiológico de la ocurrencia de determinadas 
enfermedades. Se dice que la variable aleatoria X “número de casos de una determinada 
enfermedad a lo largo de un periodo de tiempo t”, donde t es un intervalo de tiempo 
arbitrariamente largo, tal como 1 ó 10 años, sigue una distribución de Poisson si se 
resultados coinciden con los obtenidos en el Ejemplo 3.4, donde la media y la varianza se 
calculaban a partir de las fórmulas generales para variables discretas.
3.2.2 Distribución de Poisson
La distribución de Poisson es otro modelo teórico de distribución discreta particularmente útil 
para el estudio epidemiológico de la ocurrencia de determinadas enfermedades. Se dice que la 
variable aleatoria X “número de casos de una determinada enfermedad a lo largo de un periodo 
de tiempo t”, donde t es un intervalo de tiempo arbitrariamente largo, tal como 1 ó 10 años, 
sigue una distribución de Poisson si se cumplen las siguientes hipótesis respecto a la incidencia 
acumulada IA de la enfermedad (esto es, la probabilidad de desarrollar un nuevo caso en un 
periodo de tiempo determinado):
 y Proporcionalidad: La probabilidad de observar un caso es aproximadamente proporcional 
al tiempo transcurrido, de tal forma que en un intervalo de tiempo arbitrariamente corto, 
la probabilidad de observar un caso es muy pequeña y la probabilidad de observar más de 
un caso es esencialmente nula.
 y Estacionaridad: El número de casos por unidad de tiempo permanece aproximadamente 
constante a lo largo de todo el periodo de tiempo t. Notar que, si se produjera un cambio 
substancial de la incidencia de la enfermedad en el tiempo, esta asunción no sería aplicable. 
 y Independencia: La ocurrencia de un caso en un determinado instante no afecta a la 
probabilidad de observar nuevos casos en periodos posteriores. Así, por ejemplo, esta 
hipótesis de independencia no se cumplirá en brotes epidémicos.
Aunque la distribución de Poisson se emplea habitualmente en el estudio de la morbi-mortalidad 
debida a determinadas enfermedades, esta distribución es en general aplicable a la ocurrencia 
en el tiempo de aquellos sucesos aleatorios que satisfagan las hipótesis anteriores (por ejemplo, 
los accidentes de tráfico).
B jo estas asu ciones, se establece que la probabilidad de que ocurra  k sucesos, k = 0, 1, 2, ..., 
en un periodo de tiempo t para una variable aleatoria X que sigue una distribución de Poisson es
 10
cumplen las siguientes hipótesis respecto a la incidencia acumulada IA de la enfermedad 
(esto es, la probabilidad de desarrollar un nuevo caso en un periodo de tiempo 
determinado): 
• Proporcionalidad: La probabilidad de observar un caso es aproximadamente 
proporcional al tiempo transcurrido, de tal forma que en un intervalo de tiempo 
arbitrariamente corto, la probabilidad de observar un caso es muy pequeña y la 
probabilidad de observar más de un caso es esencialmente nula. 
• Estacionaridad: El número de casos por unidad de tiempo permanece 
aproximadamente constante a lo largo de todo el periodo d  tiem o t. Notar que, 
si se produjera un cambio ubstancial d  la incide cia de la enf rmedad en el 
tiempo, esta asunció  no sería aplicable.  
• Independencia: La ocurrencia de un caso en un et rminad  insta te no afect a la 
probabilidad de observar nuevos casos en periodos posterior s. Así, por ejemplo, 
esta hipótesis de independencia no se cumplirá en brotes epidémicos. 
Aunque la distribución de Poisson se emplea habitualmente en el estudio de la morbi-
mortalidad debida a eterminadas enfermedades, esta distribución es en general 
aplicable a la ocurrencia en el tiempo de aqu llos suceso  aleatorios que s tisfagan las 
hipótesis ant riores (por ej mplo, l s accidentes de tráfico). 
Bajo stas asuncion s, s  establece que la probabilidad de que ocurran k sucesos, k = 
0, 1, 2, ..., en un período de tiemp  t para una variable al atoria X que sigue una 
distribución de Pois n es 
P(X = k) = 
!k
e kμμ− , 
donde el parámetro μ es el número esperado de sucesos en el período de tiempo t. A 
diferencia de la distribución binomial, donde el número de éxitos k no puede exceder el 
27
Distribuciones de probabilidad discretas
Pastor-Barriuso R.
donde el parámetro μ es el número esperado de sucesos en el periodo de tiempo t. A diferencia 
de la distribución binomial, donde el número de éxitos k no puede exceder el número finito de 
pruebas realizadas, en la distribución de Poisson el número de pruebas se considera infinito y el 
número de sucesos k puede ser arbitrariamente grande, aunque la probabilidad P(X = k) decrecerá 
al aumentar k hasta hacerse esencialmente nula. Para cualquier parámetro μ > 0, estas 
probabilidades son positivas y suman 1, constituyendo una función de masa de probabilidad. En 
la Tabla 2 del Apéndice se presentan las probabilidades de Poisson para μ de 0,5 a 20 en 
intervalos de 0,5.
Una característica importante de la distribución de Poisson es que tanto su media como su 
varianza son iguales al parámetro μ,
 11
número finito de pruebas realizadas, en la distribución de Poisson el número de pruebas 
se considera infinito y el número de sucesos k puede ser arbitrariamente grande, aunque 
la probabilidad P(X = k) decrecerá al aumentar k hasta hacerse esencialmente nula. Para 
cualquier parámetro μ > 0, estas probabilidades son positivas y suman 1, constituyendo 
una función de masa de probabilidad. En la Tabla 2 del Apéndice se presentan las 
probabilidades de Poisson para μ de 0,5 a 20 en intervalos de 0,5. 
Una característica importante de la distribución de Poisson es que tanto su media 
como su varianz  son igu les al p rámetro μ, 
E(X) = 
≥
−
≥
==
00 !
)(
k
k
k k
ekkXkP μ
μ
 = μ, 
var(X) = 
≥
−
≥
−==−
0
2
0
2
!
)()()(
k
k
k k
ekkXPk μμμ
μ
 = μ. 
Ejemplo 3.7 Según el último Atlas de Mortalidad por Cáncer en España, la tasa de 
mortalidad por cáncer de vesícula en hombres es de I = 1,80 casos por 100.000 
personas-año. Partiendo de esta información, se pretende determinar la 
distribución del número de muertes por cáncer de vesícula en un periodo de 1 ó 2 
años en una población de 140.000 hombres. Las asunciones de estacionaridad e 
independencia parecen razonables por tratarse de casos de mortalidad por cáncer 
en periodos cortos de tiempo. Además, como la tasa de mortalidad I es baja y se 
asume constante en el tiempo, puede probarse que la incidencia acumulada en un 
periodo de tiempo t es 
IAt = 1 - exp(-It) ≈ It; 
es decir, la probabilidad de que un individuo de esta población muera por cáncer 
de vesícula es aproximadamente proporcional al tiempo transcurrido, 
Ejemplo 3.7 Según el último Atlas de Mortalidad por Cáncer en España, la tasa de 
mortalidad por cáncer de vesícula en hombres es de I = 1,80 casos por 100.000 personas-
año. Partiendo de esta información, se pretende determinar la distribución del número de 
muertes por cáncer de vesícula en un periodo de 1 ó 2 años en una población de 140.000 
hombres. Las asunciones de estacionaridad e independencia parecen razonables por 
tratarse de casos de mortalidad por cáncer en periodos cortos de tiempo. Además, como 
la tasa de mortalidad I es baja y se asume constante en el tiempo, puede probarse que la 
incidencia acumulada en un periodo de tiempo t es
 11
número finito de pruebas realizadas, en la distribución de Poisson el número de pruebas 
se considera infinito y el número de sucesos k puede ser arbitrariamente grande, aunque 
la probabilidad P(X = k) decrecerá al aumentar k hasta hacerse esencialmente nula. Para 
cualquier parámetro μ > 0, estas probabilidades son positivas y suman 1, constituyendo 
una función de masa de probabilidad. En la Tabla 2 del Apéndice se presentan las 
probabilidades de Poisson para μ de 0,5 a 20 en intervalos de 0,5. 
Una característica importante de la distribución de Poisson es que tanto su media 
como su varianza son iguales al parámetro μ, 
E(X) = 
≥
−
≥
==
00 !
)(
k
k
k k
ekkXkP μ
μ
 = μ, 
var(X) = 
≥
−
≥
−==−
0
2
0
2
!
)()()(
k
k
k k
ekkXPk μμμ
μ
 = μ. 
Ejemplo 3.7 Según el último Atlas de Mortalidad por Cáncer en España, la tasa de 
mortalidad por cáncer de vesícula en hombres es de I = 1,80 casos por 100.000 
personas-año. Partiendo de esta información, se pretende determinar la 
distribución del número de muertes por cáncer de vesícula en un periodo de 1 ó 2 
años en una población de 140.000 hombres. Las asunciones de estacionaridad e 
independencia parecen razonables por tratarse de casos de mortalidad por cáncer 
en periodos cortos de tiempo. Además, como la tasa de mortalidad I es baja y se 
asume constante en el tiempo, puede probarse que la incidencia acumulada en un 
periodo de tiempo t es 
IAt = 1  exp( It ) ≈ It; 
es decir, la probabilidad de que un individuo de esta población muera por cáncer 
de vesícula es aproximadamente proporcional al tiempo transcurrido, 
− −
es decir, la probabilidad de que un individuo de esta población muera por cáncer de 
vesícula s aproximadamente proporci nal al ti mpo transcurrido, cumpliéndose así la 
hipótesis de proporcionalidad. La incidencia acumulada en 1 año es IA1 = 0,000018 y en 
2 años IA2 = 0,000018∙2 = 0,000036. En consecuencia, el número e muertes por cáncer 
de vesícula en un periodo de tiempo t seguirá una distribución de Poisson con un número 
esperado de casos igual al producto d l tamaño poblacional por la probabilidad individual 
de muerte en dicho periodo, μ = 140.000∙0,000018 = 2,52 muertes esperadas en 1 año y 
140.000∙0,000036 = 5,04 en 2 años.
Estas distribuciones de probabilidad se muestran en la Tabla 3.2 y en la Figura 3.2. Por 
ejemplo, la probabilidad de que no se produzca ninguna muerte por cáncer de vesícula 
durante 1 año en esta población se calcula a partir de la distribución de Poisson de 
parámetro μ = 2,52 como P(X = 0) = e–μμ 0/0! = e–2,52 = 0,0805. Estas distribuciones también 
pueden aproximarse mediante las probabilidades de Poisson de la Tabla 2 del Apéndice 
para μ = 2,5 y 5. En la Figura 3.2 puede observarse como, al aumentar el número esperado 
de muertes, la distribución tiende a ser más simétrica alrededor del valor esperado y su 
varianza aumenta.
28
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
Tabla 3.2 Distribución de probabilidad del 
número de muertes por cáncer de vesícula en 
periodos de 1 y 2 años en una población de 
140.000 hombres.
Número  
de muertes (k)
P(X = k)
1 año 2 años
0 0,0805 0,0065
1 0,2028 0,0326
2 0,2555 0,0822
3 0,2146 0,1381
4 0,1352 0,1740
5 0,0681 0,1754
6 0,0286 0,1474
7 0,0103 0,1061
8 0,0032 0,0668
9 0,0009 0,0374
10 0,0002 0,0189
11 0,0001 0,0086
12 0,0000 0,0036
13 0,0000 0,0014
14 0,0000 0,0005
15 0,0000 0,0002
16 0,0000 0,0001
17 0,0000 0,0000
 Figura 3.2
 
0 5 10 15 20
0
0,05
0,1
0,15
0,2
0,25
0 5 10 15 20
0
0,05
0,1
0,15
0,2
0,25
P(X = k)
k k
(a) (b)
Figura 3.2 Distribución de probabilidad del número de muertes por cáncer de vesícula en un periodo de 1 
año (a) y de 2 años (b) en una población de 140.000 hombres.
29
Distribuciones de probabilidad continuas
Pastor-Barriuso R.
3.2.3 Aproximación de Poisson a la distribución binomial
Bajo determinadas circunstancias, la distribución de Poisson puede utilizarse como aproximación 
a la distribución binomial. Supongamos que, en una distribución binomial, el número de pruebas 
n es grande y la probabilidad individual de éxito π es pequeña. En tal caso, el número de éxitos 
de la distribución binomial puede ser muy grande y su varianza será aproximadamente igual al 
valor esperado, nπ(1 – π) ≈ nπ. Como se vio en el apartado anterior, estas dos características son 
propias de una distribución de Poisson, lo que sugiere la validez del siguiente resultado: si el 
número de pruebas n es grande y la probabilidad de éxito π es pequeña, la distribución binomial 
se aproxima a una distribución de Poisson con parámetro μ = nπ. Por regla general, esta 
aproximación se considera suficientemente precisa cuando n ≥ 100 y π ≤ 0,01.
Este resultado es particularmente útil en la práctica, ya que el cálculo de las probabilidades 
binomiales para n grande y π pequeña es muy laborioso, en cuyo caso las probabilidades de 
Poisson son más fáciles de manejar y facilitan resultados virtualmente idénticos.
Ejemplo 3.8 Retomemos del ejemplo anterior la variable aleatoria X correspondiente 
al número de muertes por cáncer de vesícula en un periodo de 2 años en una población 
de 140.000 hombres. El experimento subyacente consistiría en observar, para cada uno 
de los n = 140.000 hombres, la ocurrencia o no de una muerte por cáncer de vesícula 
durante un periodo de 2 años. El resultado en cada sujeto es independiente y la 
probabilidad de que un individuo promedio de esta población muera por cáncer de 
vesícula en 2 años es π = IA2 = 0,000036. Por tanto, el número de muertes por cáncer 
de vesícula en esta población a lo largo de 2 años seguirá una distribución binomial con 
parámetros n = 140.000 y π = 0,000036. Así, por ejemplo, la probabilidad de que ocurran 
exactamente 2 muertes es
 13
grande y su varianza será aproximadamente igual al valor esperado, nπ(1 - π) ≈ nπ. 
Como se vio en el apartado anterior, estas dos características son propias de una 
distribución de Poisson, lo que sugiere la validez del siguiente resultado: si el número 
de pruebas n es grande y la probabilidad de éxito π es pequeña, la distribución binomial 
se aproxima a una distribución de Poisson con parámetro μ = nπ. Por regla general, esta 
aproximación se considera suficientemente precisa cuando n ≥ 100 y π ≤ 0,01. 
Este resultado es particularmente útil en la práctica, ya que el cálculo de las 
probabilidades binomiales para n grande y π pequeña es muy laborioso, en cuyo caso 
las probabilidades de Poisson son más fáciles de manejar y facilitan resultados 
virtualmente idénticos. 
Ejemplo 3.8 Retomemos del ejemplo anterior la variable aleatoria X 
correspondiente al número de muertes por cáncer de vesícula en un periodo de 2 
años en una población de 140.000 hombres. El experimento subyacente consistiría 
en observar, para cada uno de los n = 140.000 hombres, la ocurrencia o no de una 
muerte por cáncer de vesícula durante un periodo de 2 años. El resultado en cada 
sujeto es independiente y la probabilidad de que un individuo promedio de esta 
población muera p r cáncer de vesícu a e  2 años es π = IA2 = 0,000036. Por 
tanto, el número de muertes por cá cer de vesícula e  e a población a lo largo de 
2 años seguirá una distribución binomial con parámetros n = 140.000 y π = 
0,000036. Así, por ejemplo, la probabilidad de que ocurran exactamente 2 
muertes es 
P(X = 2) = 998.1392 999964,0000036,0
2
000.140




 = 0,082220. 
Utilizando la aproximación de Poisson a la distribución binomial, el número de muertes 
por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente una distribución 
de Poisson con parámetro μ = nπ = 140.000∙0,000036 = 5,04. En consecuencia, la 
probabilidad de observar 2 muertes puede aproximarse por
 14
Utilizando la aproximación de Poisson a la distribución binomial, el número de 
muertes por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente 
una distribución de Poisson con parámetro μ = nπ = 140.000⋅0,000036 = 5,04. En 
consecuencia, la robabilidad de observar 2 muertes puede aproximarse por 
P(X = 2) ≈ 
!2
04,5 204,5−e  = 0,082222, 
que coincide casi perfectamente con la probabilidad binomial exacta. 
3.3 DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro 
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor 
determinado es 0 y, en consecuencia, carece de sentido definir una función de masa de 
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a 
intervalos de valores mediante una función de densidad de probabilidad, denotada 
por f(x). Esta función ha de ser no negativa para cualquier valor x, f(x) ≥ 0, y el área 
total bajo la curva definida por esta función de densidad debe ser igual a 1, 
 ∞
∞−
 
 )( dxxf  = 1. 
A partir de la función de densidad, la probabilidad de que una variable aleatoria 
continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el 
área bajo la función de densidad entre los puntos a y b, 
P(a < X < b) =  ba dxxf   )( . 
Así, aun cuando la probabilidad de obtener un valor concreto es 0, la función de 
densidad tomará valores elevados en regiones de alta probabilidad y valores pequeños 
que coincide casi perfectamente con la probabilidad binomial exacta.
3.3 DISTRIBUCIONES DE PROBABILIDAD CONTINUAS
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un 
intervalo. La probabilidad de que estas variables tomen exactamente un valor determinado es 0 
y, en consecuencia, carece de sentido definir una función de masa de probabilidad. Para las 
variables aleatorias continuas, las probabilidades se asignan a intervalos de valores mediante 
una función de densidad de probabilidad, denotada por f(x). Esta función ha de ser no negativa 
para cualquier valor x, f(x) ≥ 0, y el área total bajo la curva definida por esta función de densidad 
debe ser igual a 1,
 14
Utilizando la aproximación de Poisson a la distribución binomial, el número de 
muertes por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente 
una distribución de Poisson con parámetro μ = nπ = 140.000⋅0,000036 = 5,04. En 
consecuencia, la probabilidad de observar 2 muertes puede aproximarse por 
P(X = 2) ≈ 
!2
04,5 204,5−e  = 0,082222, 
que coincide casi perfectamente con la probabilidad binomial exacta. 
3.3 DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro 
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor 
determinado es 0 y, en consecu cia, carece de sentido definir una función de masa de 
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a 
intervalos de valores mediante una función de densidad de probabilidad, denotada 
por f(x). Esta func ón ha de ser n  negativ  para cualquier valor x, f(x) ≥ 0, y el área 
total bajo la curva defin da por sta función de den ida  debe ser igual a 1, 
 ∞
∞−
 
 )( dxxf  = 1. 
A partir de la función de densidad, la probabilidad de que una variable aleatoria 
continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el 
área bajo la función de densidad entre los puntos a y b, 
P(a < X < b) =  ba dxxf   )( . 
Así, aun cuando la probabilidad de obtener un valor concreto es 0, la función de 
densidad tomará valores elevados en regiones de alta probabilidad y valores pequeños 
30
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
A partir de la función de densidad, la probabilidad de que una variable aleatoria continua X 
tome valores dentro de cualquier intervalo (a, b) puede calcularse como el área bajo la función 
de densidad entre los puntos a y b,
 14
Utilizando la aproximación de Poisson a la distribución binomial, el número de 
muertes por cáncer de vesícula en un periodo de 2 años seguirá aproximadamente 
una distribución de Poisson con parámetro μ = nπ = 140.000⋅0,000036 = 5,04. En 
consecuencia, la probabilidad de observar 2 muertes puede aproximarse por 
P(X = 2) ≈ 
!2
04,5 204,5−e  = 0,082222, 
que coincide casi perfectamente con la probabilidad binomial exacta. 
3.3 DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 
Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro 
de un intervalo. La probabilidad de que estas variables tomen exactamente un valor 
determinado es 0 y, en consecuencia, carece de sentido definir una función de masa de 
probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a 
intervalos de valores mediante una función de densidad de probabilidad, denotada 
por f(x). Esta función ha de ser no negativa para cualquier valor x, f(x) ≥ 0, y el área 
total bajo la curva definida por esta función de densidad debe ser igual a 1, 
 ∞
∞−
 
 )( dxxf  = 1. 
A partir de la función de densi ad, la probabilidad de que una variable aleatoria 
continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el 
área bajo la función de densidad entre los puntos a y b, 
P(a < X < b) =  ba dxxf   )( . 
Así, aun cuando la probabilidad de obtener un valor concreto es 0, la función de 
densidad tomará valores elevados en regiones de alta probabilidad y valores pequeños 
Así, aun cuando la probabilidad de obtener un valor concreto es 0, la función de densidad 
tomará valores elevados en regiones de alta probabilidad y valores peq eños en regiones de 
baja probabilidad. La función de distribución F(x) corresponde a la probabilidad de que la 
variable tome un valor igual o inferior a x y, en el c so de una variable eatoria continua, se 
calcula como el área bajo de la curva de la función de densidad a la izquierda de x,
 15
en regiones de baja probabilidad. La función de distribución F(x) corresponde a la 
probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una 
v riable ale toria continua, se calcula como el área b jo de la curva de la fu ción de 
i  a la izquierda d  x, 
F(x) = P(X ≤ x) = 
∞−
x
dttf
 
 )( . 
La función de distribución de una variable aleatoria continua es una función que, 
partiendo de 0, crece de forma continua hasta alcanzar el valor 1. 
 Ejemplo 3.9 La función de densidad para el colesterol HDL en hombres adultos 
se representa en la Figura 3.3(a). Notar que, aunque el área bajo la curva ha de ser 
igual a 1, la función de densidad puede tomar valores superiores a 1. Los niveles 
de colesterol HDL próximos a 1 mmol/l son los que tienen mayor probabilidad de 
ocurrir, mientras que para niveles inferiores y superiores esta probabilidad 
decrece. Así, por ejemplo, la probabilidad de que un hombre adulto tenga un nivel 
de colesterol HDL inferior a 0,90 mmol/l (niveles bajos según las 
recomendaciones del “National Cholesterol Education Program”) corresponde al 
área sombreada bajo la curva a la izquierda de 0,90 mmol/l y es igual a P(X ≤ 
0,90) = 0,3274. Esta probabilidad también puede obtenerse a partir de la función 
de distribución del colesterol HDL, que se representa en la Figura 3.3(b). Esta 
función presenta el aspecto característico de las funciones de distribución para 
variables continuas aproximadamente simétricas. 
[Figura 3.3 aproximadamente aquí] 
La función de distribución de una variable aleatoria continua es una función que, partiendo de 0, 
crece de forma continua hasta alcanzar el valor 1.
Ejemplo 3.9 La función de de sidad para el col sterol HDL en hombres adultos se 
representa en la Figura 3.3(a). Notar que, aunque el área bajo la curva ha de ser igual a 1, la 
función de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL 
próximos a 1 mmol/l son los que tienen mayor probabilidad de ocurrir, mientras que para 
niveles inferiores y superiores esta probabilidad decrece. Así, por ejemplo, la probabilidad de 
que un hombre adulto tenga un nivel de colesterol HDL inferior a 0,90 mmol/l (niveles bajos 
según las recomendaciones del “National Cholesterol Education Program”) corresponde al 
área sombreada bajo la curva a la izquierda de 0,90 mmol/l y es igual a P(X ≤ 0,90) = 0,3274. 
Esta probabilidad también puede obtenerse a partir de la función de distribución del colesterol 
HDL, que se representa en la Figura 3.3(b). Esta función presenta el aspecto característico de 
las funciones de distribución para variables continuas aproximadamente simétricas.
Al igual que para variables discretas, la esperanza o media poblacional de una variable 
aleatoria continua representa el valor promedio de esa variable, y se define como
 16
Al igual que para variables discretas, la esperanza o media poblacional de una 
variable aleatoria continua representa el valor promedio de esa variable, y se define 
como 
μ = E(X) =  ∞
∞−
 
 )( dxxfx . 
La varianza poblacional de una variable aleatoria continua es la esperanza de las 
desviaciones al cuadrado de los valores de la variable respecto de su media, y se calcula 
como 
 σ 2 = var(X) = E(X - μ)2 =  ∞
∞−
−
 2  )()( dxxfx μ  
  = 2
 2  )( μ− ∞
∞−
dxxfx  = E(X2) - μ2. 
La raíz cuadrada de la varianza es la desviación típica poblacional σ, que representa la 
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones 
para la media y la varianza poblacional de una variable continua son similares a las 
facilitadas para variables discretas, salvo que la suma sobre el número discreto de 
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles 
valores de la variable continua. 
Ejemplo 3.10 Utilizando la función de densidad del ejemplo anterior, el valor 
esperado del colesterol HDL en una población de hombres adultos sería 
μ =  ∞ 0  )( dxxfx  = 1,10 mmol/l, 
y la desviación típica 
σ = 
2/1 
0 
2  )()10,1( 


− ∞ dxxfx  = 0,30 mmol/l. 
 Figura 3.3
0 0,5 1 1,5 2 2,5
0
0,5
1
1,5
Colesterol HDL (mmol/l)
0 0,5 1 1,5 2 2,5
0
0,25
0,5
0,75
1
Colesterol HDL (mmol/l)
f(x) F(x)
(a) (b)
Figura 3.3 Función de densidad de probabilidad (a) y función de distribución (b) del colesterol HDL en 
hombres adultos.
31
Distribuciones de probabilidad continuas
Pastor-Barriuso R.
La varianza poblacional de una variable aleatoria continua es la esperanza de las desviaciones 
al cuadrado de los valores de la variable respecto de su media, y se calcula como
 16
Al igual que para variables discretas, la esperanza o media poblacional de una 
variable aleatoria continua representa el valor promedio de esa variable, y se define 
como 
μ = E(X) =  ∞
∞−
 
 )( dxxfx . 
La varianza poblacional de una variable aleatoria continua es la esperanza de las 
desviaciones al cuadrado de los valores de la variable respecto de su media, y se calcula 
como 
 σ  2 = var(X ) = E(X μ)2 =  ∞
∞−
−
 2  )()( dxxfx μ  
  = 2
 2  )( μ− ∞
∞−
dxxfx  = E(X 2)  μ 2. 
La raíz cuadrada de la varianza es la desviación típica poblacional σ, que representa la 
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones 
para la media y la varianza poblacional de una variable continua son similares a las 
facilitadas para variables discretas, salvo que la suma sobre el número discreto de 
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles 
valores de la variable continua. 
Ejemplo 3.10 Utilizando la función de densidad del ejemplo anterior, el valor 
esperado del colesterol HDL en una población de hombres adultos sería 
μ =  ∞ 0  )( dxxfx  = 1,10 mmol/l, 
y la desviación típica 
σ = 
2/1 
0 
2  )()10,1( 


− ∞ dxxfx  = 0,30 mmol/l. 
−
−
La raíz cuadrada de la varianza es la desviación típica poblacional σ, que representa la dispersión 
de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la 
vari nza poblacional de una variable continua son similares a las facilitadas para variables 
discretas, salvo que la suma sobre el número discreto de valores con probabilidad no nula se 
reem laza por la integral sobre todos los posible  valores de la variable continua.
Eje plo 3.10 Utili ndo l  función de densid d del ejemplo a terior, el v lor esperado 
del colesterol HDL en una población de hombres adultos sería
 16
Al igual que para variables discretas, la esperanza o media poblacional de una 
variable aleatoria continua representa el valor promedio de esa variable, y se define 
como 
μ = E(X) =  ∞
∞−
 
 )( dxxfx . 
La varianza poblacional de una variable aleatoria continua es la esperanza de las 
desviaciones al cuadrado de los valores de la variable respecto de su media, y se calcula 
como 
 σ 2 = var(X) = E(X - μ)2 =  ∞
∞−
−
 2  )()( dxxfx μ  
  = 2
 2  )( μ− ∞
∞−
dxxfx  = E(X2) - μ2. 
La raíz cuadrada de la varianza es la desviación típica poblacional σ, que representa la 
dispersió  de la variable aleatoria respecto de su media poblacional. Estas expre iones 
para la media y la varianza poblacional de una variable continua son similares a las 
facilitadas para variables discretas, salvo que la suma sobre el número discreto de 
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles 
valores de la variable continua. 
Ejemplo 3.10 Utilizando la función de densidad del ejemplo anterior, el valor 
esperado del colesterol HDL en una población de hombres adultos sería 
μ =  ∞ 0  )( dxxfx  = 1,10 mmol/l, 
y la sviación típica 
σ = 
2/1 
0 
2  )()10,1( 


− ∞ dxxfx  = 0,30 mmol/l. 
y la desviación típica
 16
Al igual que para variables discretas, la esperanza o media poblacional de una 
variable aleatoria continua representa el valor promedio de esa variable, y se define 
como 
μ = E(X) =  ∞
∞−
 
 )( dxxfx . 
La varianza poblacional de una variable aleatoria continua es la esperanza de las 
desviaciones al cuadrado de los valores de la variable respecto de su media, y se calcula 
como 
 σ 2 = var(X) = E(X - μ)2 =  ∞
∞−
−
 2  )()( dxxfx μ  
  = 2
 2  )( μ− ∞
∞−
dxxfx  = E(X2) - μ2. 
La raíz cuadrada de la varianza es la desviación típica poblacional σ, que representa l  
dispersión de la variable aleatoria respecto de su media poblacional. Estas expresiones 
para la media y la varianza poblacional de una variable continua son similares a las 
facilitadas para variables discretas, salvo que la suma sobre el número discreto de 
valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles 
v lores de la variab e continua. 
Ejemplo 3.10 Utilizando la función de densidad del ejemplo anterior, el valor 
esperado del colesterol HDL en una población de hombres adultos sería 
μ =  ∞ 0  )( dxxfx  = 1,10 mmol/l, 
y la desviación típica 
σ  = 
2/1 
0 
2  )()10,1( 


− ∞ dxxfx  = 0,30 mmol/l. 
Existen muchos modelos teóricos de distribuciones continuas, cada una de ellas caracterizada 
por una fórmula o expresión concreta para la función de densidad. A continuación se revisa en 
detalle la distribución normal, que es la utilizada con mayor frecuencia en estadística. Otras 
distribuciones continuas, como la t de Student, chi-cuadrado o F de Fisher, se discutirán según 
vayan surgiendo a lo largo del texto.
3.3.1 Distribución normal
La distribución normal, también denominada distribución Gaussiana, es el modelo teórico de 
distribución continua más utilizado en la práctica. Muchas mediciones epidemiológicas y clínicas 
presentan distribuciones similares al modelo teórico normal (presión arterial, colesterol sérico, índice 
de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente 
normales (típicamente mediante transformaciones logarítmicas de los datos originales). No obstante, 
como se verá en los temas posteriores, la utilidad fundamental de la distribución normal surge dentro 
de las técnicas de inferencia estadística: incluso cuando la distribución poblacional de una variable 
diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribución de los 
valores medios de dicha variable seguirá un modelo aproximadamente normal.
Una variable aleatoria continua X sigue una distribución normal si su función de densidad es
 17
Existen muchos modelos teóricos de distribuciones continuas, cada una de ellas 
caracterizada por una fórmula o expresión concreta para la función de densidad. A 
continuación se revisa en detalle la distribución normal, que es la utilizada con mayor 
frecuencia en estadística. Otras distribuciones continuas, como la t de Student, chi-
cuadrado o F de Fisher, se discutirán según vayan surgiendo a lo largo del texto. 
3.3.1 Distribución normal 
La distribución normal, también denominada distribución Gaussiana, es el modelo 
teórico de distribución continua más utilizado en la práctica. Muchas mediciones 
epidemiológicas y clínicas presentan distribuciones similares al modelo teórico normal 
(presión arterial, colesterol sérico, índice de masa corporal) o bien pueden transf rmarse 
para conseguir distribuciones aproximadamente normales (típic mente mediante 
transformaciones logarítmicas de los datos originales). No obstante, como se verá en los 
temas posteriores, la utilidad fundamental de la distribución normal surge dentro de las 
técnicas de inferencia estadística: incluso cuando la distribución poblacional de una 
variable diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la 
distribución de los valores medios de dicha variable seguirá un modelo 
aproximadamente normal. 
 Una variable aleatoria continua X sigue una distribución normal si su función de 
densidad es 
f(x) = 


 −
− 2
2
2
)(exp
2
1
σ
μ
σπ
x , 
para cualquier valor x en la recta real, -∞ < x < ∞. Esta función de densidad depende de 
los parámetros μ y σ, donde 
• μ representa la esperanza o media poblacional de la distribución y 
para cualquier valor x en la recta real, – ∞ < x < ∞. Esta función de densidad depende de los 
parámetros μ y σ, donde
 y μ representa la esperanza o media poblacional de la distribución y
 y σ corresponde a su desviación típica poblacional.
32
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
 Figura 3.4
0
μ μ + σμ - σμ - 2σμ - 3σ μ + 2σ μ + 3σ
σπ  2
1
f(x)
x
Figura 3.4 Función de densidad de una distribución normal con media μ y desviación típica σ.
La distribución normal o Gaussiana con media μ y varianza σ 2 se denota abreviadamente 
por N(μ, σ 2). Para cualquier μ y σ > 0, la función de densidad normal es positiva y el área 
total bajo la curva es igual a 1. Esta función de densidad, que aparece representada en la 
Figura 3.4, tiene forma de campana, es simétrica alrededor de la media μ y tiene dos puntos 
de inflexión en μ + σ y μ – σ. Al tratarse de una distribución simétrica, la media y la mediana 
coinciden. El valor más frecuente 
 18
• σ corresponde a su desviación típica poblacional. 
La distribución normal o Gaussiana con media μ y varianza σ 2 se denota 
abreviadamente por N(μ, σ 2). Para cualquier μ y σ > 0, la función de densidad normal 
es positiva y el área total bajo la curva es igual a 1. Esta función de densidad, que 
aparece representada en la Figura 3.4, tiene forma de campana, es simétrica alrededor 
de la media μ y tiene dos puntos de inflexión en μ + σ y μ - σ. Al tratarse de una 
distribución simétrica, la media y l  media a c inciden. El valor más frecuente 
1/( π2 σ) se alcanza en la media μ y su dispersión alrededor del valor medio aumenta 
al aumentar la desviación típica σ. Así, puede probarse que el 68,27% del área bajo una 
función de densidad normal está comprendido entre μ ± σ, el 95,45% entre μ ± 2σ y el 
99,73% entre μ ± 3σ. 
[Figura 3.4 aproximadamente aquí] 
La distribución normal con media 0 y desviación típica 1 se denomina distribución 
normal estandarizada, y suele denotarse por Z o N(0, 1). La función de densidad de 
una distribución normal estandarizada se reduce a 
f(z) = 


−
2
2
1exp
2
1 z
π
, 
para cualquier -∞ < z < ∞, que se representa en la Figura 3.5(a). Como puede 
observarse, se trata de una función simétrica alrededor de 0. Para obtener las 
probabilidades bajo la función de densidad normal estandarizada, no se recurre al 
cálculo integral, ya que estas probabilidades están tabuladas y son fácilmente 
accesibles. En general, estas tablas facilitan la función de distribución; es decir, la 
probabilidad de que la variable normal estandarizada tome un valor igual o inferior a z. 
se alcanza en la media μ y su dispersión 
alrededor del valor medio aumenta al aumentar la desviación típica σ. Así, puede probarse 
que el 68,27% del área bajo una función de densidad normal está comprendido ntre μ ± σ, 
el 95,45% entre μ ± 2σ y el 99,73% entre μ ± 3σ.
La distribución normal con media 0 y desviación típica 1 se denomina distribución normal 
estandarizada, y suele denotarse por Z o N(0, 1). La función de densidad de una distribución 
normal estandarizada se reduce a
 18
• σ corresponde a su desviación típica poblacional. 
La distribución normal o Gaussiana con media μ y varianza σ 2 se denota 
abreviadamente por N(μ, σ 2). Para cualquier μ y σ > 0, la función de densidad normal 
es positiva y el área total bajo la curva es igual a 1. Esta función de densidad, que 
aparece representada en la Figura 3.4, tiene forma de campana, es simétrica alrededor 
de la media μ y tiene dos puntos de inflexión en μ + σ y μ - σ. Al tratarse de una 
distribución simétrica, la media y la mediana oi ciden. El valor más frecuente 
1/( π2 σ) se alcanza en la media μ y su dispersión alrededor del valor medio aumenta 
al aumentar la desviación típica σ. Así, puede probarse que el 68,27% del área bajo una 
función de densidad normal está comprendido entre μ ± σ, el 95,45% entre μ ± 2σ y el 
99,73% entre μ ± 3σ. 
[Figura 3.4 aproximadamente aquí] 
La distribución normal con media 0 y desviación típica 1 se deno ina distribución 
normal estandarizada, y suele denotarse por Z o N(0, 1). La función de densidad de 
una distribución normal estandarizada se reduce a 
f(z) = 


−
2
2
1exp
2
1 z
π
, 
para cualquier -∞ < z < ∞, que se representa en la Figura 3.5(a). Como puede 
observarse, se trata de una función simétrica alrededor de 0. Para obtener las 
probabilidades bajo la función de densidad normal estandarizada, no se recurre al 
cálculo integral, ya que estas probabilidades están tabuladas y son fácilmente 
accesibles. En general, estas tablas facilitan la función de distribución; es decir, la 
probabilidad de que la variable normal estandarizada tome un valor igual o inferior a z. 
para cualquier – ∞ < z < ∞, que se representa en la Figura 3.5(a). Como puede observarse, 
se tr t  de una función simétrica alred dor d  0. Para obtener las probabilidades bajo la 
función de densidad normal estandarizada, no se recurre al cálculo integral, ya que estas 
probabilidades están tabuladas y so  fácilmente acces bles. En g n ral, esta  tablas facilitan 
la función de distribución; es decir, la probabilidad de que la variable normal estandarizada 
tome un valor igual o inferior a z. L  función de distribució  normal estandarizada se 
denota por F(z) = P(Z ≤ z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apéndice se 
facilita la función de distribución F(z) para valores de z no negativos.
33
Distribuciones de probabilidad continuas
Pastor-Barriuso R.
 Figura 3.5
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
0,5
1
f(z)
z z
Φ(z)
(a) (b)
Figura 3.5 Función de densidad (a) y función de distribución (b) de una variable aleatoria normal 
estandarizada.
Ejemplo 3.11 La probabilidad de obtener un valor inferior a 0,50 en una distribución 
normal estandarizada se obtiene directamente de la Tabla 3 del Apéndice como el valor 
de la función de distribución en 0,50; es decir, P(Z ≤ 0,50) = F(0,50) = 0,6915. 
Asimismo, aunque en la Tabla 3 del Apéndice no aparecen las probabilidades acumuladas 
para valores negativos, la probabilidad de obtener un valor inferior a – 0,25 en una 
distribución normal estandarizada puede calcularse fácilmente a partir de dicha tabla. 
Como la distribución normal estandarizada es simétrica alrededor de 0, la probabilidad 
a la izquierda de – 0,25 es igual a la probabilidad a la derecha de 0,25 y, en consecuencia, 
P(Z ≤ – 0,25) = P(Z ≥ 0,25) = 1 – P(Z ≤ 0,25) = 1 – F(0,25) = 1 – 0,5987 = 0,4013. A 
partir de los resultados anteriores, la probabilidad de que un valor de la distribución normal 
estandarizada se encuentre entre – 0,25 y 0,50 viene dada por P(– 0,25 ≤ Z ≤ 0,50) = P(Z ≤ 
0,50) – P(Z ≤ – 0,25) = 0,6915 – 0,4013 = 0,2902.
El percentil 97,5 de una distribución normal estandarizada se denota por z0,975 y corresponde 
al valor z que deja por debajo una probabilidad del 0,975. De la Tabla 3 del Apéndice, se 
tiene que F(1,96) = 0,9750 y, por tanto, z0,975 = 1,96. Por tratarse de una distribución 
simétrica en 0, el percentil 2,5 corresponde al percentil 97,5 con signo opuesto; es decir, 
el percentil 2,5 es z0,025 = – z0,975 = – 1,96. Así, los valores ± 1,96 abarcan el 95% central de 
la distribución normal estandarizada. Este resultado será particularmente útil en los temas 
de inferencia estadística.
El cálculo de probabilidades para cualquier distribución normal con media μ y varianza σ 2 
no requiere de tablas específicas, sino que puede realizarse a partir de las tablas de la distribución 
normal estandarizada. Para ello, se hace uso del siguiente resultado sobre la estandarización de 
una distribución normal: si una variable aleatoria X sigue una distribución normal con media μ 
y varianza σ 2, X ~ N(μ, σ 2), entonces la variable aleatoria Z = (X – μ)/σ sigue una distribución 
normal estandarizada,
 20
estandarizada. Este resultado será particularmente útil en los temas de inferencia 
estadística. 
El calc lo de probabilidades para cualquier distribución n m l con m dia μ y 
varianza σ 2 no requiere de tablas específicas, sino que puede realizarse a partir de las 
tablas de la distribución normal estandarizada. Para ello, se hace uso del siguiente 
resultado sobre la estan rización de una distribución normal: si una variable aleatoria 
X sigue una distribución normal con media μ y varianza σ 2, X ~ N(μ, σ 2), entonces la 
variable aleatoria Z = (X - μ)/σ sigue una distribución normal estandarizada, 
Z = 
σ
μ−X  ~ N(0, 1), 
donde el símbolo ~ significa “estar distribuido como”. Como ya se comentó en el Tema 
1, al restar a los valores de una variable su media y dividirlos por su desviación típica, 
la variable resultante tiene media 0 y desviación típica 1. El resultado anterior garantiza 
además que la variable estandarizada conserva la distribución normal. Este 
procedimiento de estandarización de variables normales permite utilizar las tablas 
correspondientes a la distribución normal estandarizada. 
Ejemplo 3.12 Supongamos que el colesterol HDL en una población de hombres 
adultos sigue una distribución normal X con media μ = 1,10 mmol/l y desviación 
típica σ = 0,30 mmol/l. Utilizando la estandarización de variables normales, el 
porcentaje de hombres de esta población que tienen niveles de colesterol HDL 
entre 0,90 y 1,20 mmol/l corresponde a 
 P(0,90 ≤ X ≤ 1,20) = 



 −≤−≤−
30,0
10,120,1
30,0
10,1
30,0
10,190,0 XP  
  = P(-0,67 ≤ Z ≤ 0,33) = P(Z ≤ 0,33) - P(Z ≤ -0,67). 
34
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
donde el símbolo ~ significa “estar distribuido como”. Como ya se comentó en el Tema 1, al restar 
a los valores de una variable su media y dividirlos por su desviación típica, la variable resultante 
tiene media 0 y desviación típica 1. El resultado anterior garantiza además que la variable 
estandarizada conserva la distribución normal. Este procedimiento de estandarización de variables 
normales permite utilizar las tablas correspondientes a la distribución normal estandarizada.
Ejemplo 3.12 Supongamos que el colesterol HDL en una población de hombres adultos 
sigue una distribución normal X con media μ = 1,10 mmol/l y desviación típica σ = 0,30 
mmol/l. Utilizando la estandarización de variables normales, el porcentaje de hombres de 
esta población que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a
 20
estandarizada. Este resultado será particularmente útil en los temas de inferencia 
estadística. 
El calculo de probabilidades para cualquier distribución normal con media μ y 
varianza σ 2 no requiere de tablas específicas, sino que puede realizarse a partir de las 
tablas de la distribución normal estandarizada. Para ello, se hace uso del siguiente 
resultado sobre la estandarización de una distribución normal: si una variable aleatoria 
X sigue una distribución normal con media μ y varianza σ 2, X ~ N(μ, σ 2), entonces la 
variable aleatoria Z = (X - μ)/σ sigue una distribución normal estandarizada, 
Z = 
σ
μ−X  ~ N(0, 1), 
donde el símbolo ~ significa “estar distribuido como”. Como ya se comentó en el Tema 
1, al restar a los valores de una variable su media y dividirlos por su desviación típica, 
la variable resultante tiene media 0 y desviación típica 1. El resultado anterior garantiza 
además que la variable estandarizada conserva la distribución normal. Este 
procedimiento de estandarización de variables normales permite utilizar las tablas 
correspondientes a la distribución normal estandarizada. 
Ejemplo 3.12 Supongamos que el colesterol HDL en una población de hombres 
adultos sigue una distribución normal X con media μ = 1,10 mmol/l y desviación 
típica σ = 0,30 mmol/l. Utilizando la estandarización de variables normales, el 
porcentaje de hombres de esta población que tienen niveles de colesterol HDL 
entre 0,90 y 1,20 mmol/l corresponde a 
 P(0,90 ≤ X ≤ 1,20) = 



 −≤−≤−
30,0
10,120,1
30,0
10,1
30,0
10,190,0 XP  
  = P( 0,67 ≤ Z ≤ 0,33) = P(Z ≤ 0,33)  P(Z ≤ 0,67). − − −
Utilizando la Tabla 3 del Apéndice, se obtiene que P(Z ≤ 0,33) = F(0,33) = 0,6293 y P(Z 
≤ – 0,67) = F(– 0,67) = 1 – F(0,67) = 1 – 0,7486 = 0,2514. Así, resulta que P(0,90 ≤ X ≤ 
1,20) = 0,6293 – 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta población 
tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l.
Para obtener el percentil 90 de la distribución del colesterol HDL en esta población, se 
calcula primero el percentil 90 en la distribución normal estandarizada, que corresponde 
a z0,90 = 1,28, ya que F(1,28) ≈ 0,90. Para pasar este percentil estandarizado al 
correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 – μ)/σ. Por tanto, 
el percentil 90 del colesterol HDL es x0,90 = μ + z0,90σ = 1,10 + 1,28∙0,30 = 1,484 mmol/l.
3.3.2 Aproximación normal a la distribución binomial
El cálculo de las probabilidades binomiales es muy laborioso cuando el número de pruebas n en 
muy elevado. Como se vio anteriormente, si n es grande y la probabilidad de éxito π es muy 
pequeña, la distribución binomial puede aproximarse mediante una distribución de Poisson. En 
este apartado, se revisa el comportamiento de una distribución binomial para un número de 
pruebas n grande y una probabilidad individual de éxito π no excesivamente extrema. En la 
Figura 3.6 se muestran las distribuciones binomiales para los parámetros π = 0,10 y n = 10, 25, 
50 y 100. Al aumentar el número de pruebas, la distribución binomial tiende a ser más simétrica 
y se aproxima progresivamente a una distribución normal con la misma media nπ y varianza 
nπ(1 – π) que la distribución binomial (Figura 3.6(d)). En general, puede probarse que si el 
número de pruebas n es elevado y la probabilidad de éxito π no es excesivamente extrema, de 
forma que nπ(1 – π) ≥ 5, la distribución binomial con parámetros n y π se aproxima a una 
distribución normal con media nπ y varianza nπ(1 – π).
Este resultado es un caso particular del llamado teorema central del límite, que se presentará 
más adelante (véase Tema 4), y se utiliza para aproximar las probabilidades binomiales mediante 
la distribución normal. Así, para una variable binomial X con parámetros n y π que cumpla las 
condiciones anteriores, la probabilidad P(k1 ≤ X ≤ k2) se aproxima mediante el área bajo la curva 
de la distribución normal N(nπ, nπ(1 – π)) entre k1 – 1/2 y k2 + 1/2, donde k1 ≤ k2 son números 
enteros cualesquiera. Notar que, al utilizar la aproximación normal, los límites del intervalo se 
amplían en 1/2 para incluir las probabilidades de obtener exactamente k1 o k2 éxitos. Este ajuste 
se conoce como corrección por continuidad y se deriva del hecho de aproximar una distribución 
binomial discreta mediante una distribución normal continua.
35
Distribuciones de probabilidad continuas
Pastor-Barriuso R.
 
0 5 10 15 20
0
0,1
0,2
0,3
0,4
0 5 10 15 20
0
0,1
0,2
0,3
0,4
0 5 10 15 20
0
0,1
0,2
0,3
0,4
0 5 10 15 20
0
0,1
0,2
0,3
0,4
P(X = k)
P(X = k)
k k
(a) (b)
(c) (d)
Figura 3.6 Distribuciones binomiales con parámetros π = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d, 
se representa además la función de densidad de una distribución normal con media nπ = 100∙0,10 = 10 
y varianza nπ(1 – π) = 100∙0,10∙0,90 = 9.
Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 éxitos sobre un total de 100 
pruebas con una probabilidad individual de éxito del 0,10 se obtiene a partir de la 
distribución binomial X con parámetros n = 100 y π = 0,10 como
 22
extrema, de forma que nπ(1 - π) ≥ 5, la distribución binomial con parámetros n y π se 
aproxima a una distribución normal con media nπ y varianza nπ(1 - π). 
[Figura 3.6 aproximadamente aquí] 
Este resultado es un caso particular del llamado teorema central del límite, que se 
presentará más adelante (véase Tema 4), y se utiliza para aproximar las probabilidades 
binomiales mediante la distribución normal. Así, para una variable binomial X con 
parámetros n y π que cumpla las condiciones anteriores, la probabilidad P(k1 ≤ X ≤ k2) 
se aproxima mediante el área bajo la curva de la distribución normal N(nπ, nπ(1 - π)) 
entre k1 - 1/2 y k2 + 1/2, donde k1 ≤ k2 son números enteros cualesquiera. Notar que, al 
utilizar la aproximación normal, los límites del intervalo se amplían en 1/2 para incluir 
las probabilidades de obtener exactamente k1 o k2 éxitos. Este ajuste se conoce como 
corrección por continuidad y se deriva del hecho de aproximar una distribución 
binomial discreta mediante una distribución normal continua. 
Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 éxitos sobre un total de 
100 pruebas con una probabilidad individual de éxito del 0,10 se obtiene a partir 
de la distribución binomial X con parámetros n = 100 y π = 0,10 como 
 P(12 ≤ X ≤ 14) = 
=
−
−


14
12
100)10,01(10,0
100
k
kk
k
 
  = 0,0988 + 0,0743 + 0,0513 = 0,2244, 
cuyo cálculo es bastante laborioso. Sin embargo, como nπ(1 - π) = 100⋅0,10⋅0,90 
= 9 ≥ 5, una aproximación razonable a esta probabilidad puede obtenerse a partir 
de la distribución normal Y con media nπ = 100⋅0,10 = 10 y varianza nπ(1 - π) = 9 
mediante 
cuyo cálculo es bastante laborioso. Sin embargo, como nπ(1 – π) = 100∙0,10∙0,90 = 9 ≥ 5, 
una aproximación razonable a e ta probabilidad puede obtenerse a partir de la distribución 
normal Y con media nπ = 100∙0,10 = 10 y varianza nπ(1 – π) = 9 mediante
 23
 P(11,5 < Y < 14,5) = 

 −
<
−
<
−
3
105,14
3
10
3
105,11 YP  
  = P(0,5 < Z < 1,5) = Φ(1,5)  Φ(0,5) 
  = 0,9332  0,6915 = 0,2417. 
Esta probabilidad corresponde al área sombreada en la Figura 3.6(d). 
3.3.3 Aproximación normal a la distribución de Poisson 
La distribución normal también puede emplearse como aproximación a la distribución 
de Poisson cuando el número esperado de casos μ es moderadamente grande. En la 
Figura 3.7 se representan las distribuciones de Poisson con parámetros μ = 1, 2,5, 5 y 
10, donde puede apreciarse que, al aumentar el número esperado de casos, las 
probabilidades de Poisson tienden a distribuirse de forma normal. En términos 
generales, una distribución de Poisson con parámetro μ se aproxima a una distribución 
normal con media y varianza iguales a μ, cuando el número esperado de casos es 
moderadamente elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga 
a una distribución de Poisson con parámetro μ moderadamente grande, la probabilidad 
P(k1 ≤ X ≤ k2) puede aproximarse mediante el área bajo la curva de la distribución 
normal N(μ, μ) entre k1 - 1/2 y k2 + 1/2. 
[Figura 3.7 aproximadamente aquí] 
Ejemplo 3.14 Si el número de casos de una enfermedad a lo largo de un año en 
una determinada población sigue una distribución de Poisson X de parámetro μ = 
10, la probabilidad de tener 15 o más casos en un mismo año es exactamente 
P(X ≥ 15) = 
≥
−
15
10
!
10
k
k
k
e  = 0,0835, 
−
−
Esta probabilidad corresponde al área sombreada en la Figura 3.6(d).
36
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
3.3.3 Aproximación normal a la distribución de Poisson
La distribución normal también puede emplearse como aproximación a la distribución de Poisson 
cuando el número esperado de casos μ es moderadamente grande. En la Figura 3.7 se representan las 
distribuciones de Poisson con parámetros μ = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar 
el número esperado de casos, las probabilidades de Poisson tienden a distribuirse de forma normal. En 
términos generales, una distribución de Poisson con parámetro μ se aproxima a una distribución 
normal con media y varianza iguales a μ, cuando el número esperado de casos es moderadamente 
elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga a una distribución de Poisson 
con parámetro μ moderadamente grande, la probabilidad P(k1 ≤ X ≤ k2) puede aproximarse mediante 
el área bajo la curva de la distribución normal N(μ, μ) entre k1 – 1/2 y k2 + 1/2.
Ejemplo 3.14 Si el número de casos de una enfermedad a lo largo de un año en una 
determinada población sigue una distribución de Poisson X de parámetro μ = 10, la 
probabilidad de tener 15 o más casos en un mismo año es exactamente
 23
 P(11,5 < Y < 14,5) = 

 −
<
−
<
−
3
105,14
3
10
3
105,11 YP  
  = P(0,5 < Z < 1,5) = Φ(1,5) - Φ(0,5) 
  = 0,9332 - 0,6915 = 0,2417. 
Esta probabilidad corresponde al área sombreada en la Figura 3.6(d). 
3.3.3 Aproximación normal a la distribución de Poisson 
La distribución normal también puede emplearse como aproximación a la distribución 
de Poisson cuando el número esperado de casos μ es moderadamente grande. En la 
Figura 3.7 se representan las distribuciones de Poisson con parámetros μ = 1, 2,5, 5 y 
10, donde puede apreciarse que, al aumentar el número esperado de casos, las 
probabilidades de Poisson tienden a distribuirse de forma normal. En términos 
generales, una distribución de Poisson con parámetro μ se aproxima a una distribución 
normal con media y varianza iguales a μ, cuando el número esperado de casos es 
moderadamente elevado, típicamente μ ≥ 10. Así, para una variable aleatoria X que siga 
a una distribución de Poisson con parámetro μ moderadamente grande, la probabilidad 
P(k1 ≤ X ≤ k2) puede aproxi rse mediante el área baj  la curva de la distribución 
normal N(μ, μ) entre k1 - 1/2 y k2 + 1/2. 
[Figura 3.7 aproximadamente aquí] 
Ejemplo 3.14 Si el número de casos de una enfermedad a lo largo de un año en 
una determinada población sigue una distribución de Poisson X de parámetro μ = 
10, la probabilidad de tener 15 o más casos en un mismo año es xacta ente
P(X ≥ 15) = 
≥
−
15
10
!
10
k
k
k
e  = 0,0835, 
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como
 24
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como 
 P(X ≥ 15) ≈ P(Y > 14,5) = 


 −
>
−
10
105,14
10
10YP  
  = P(Z > 1,42) = 1  Φ(1,42) = 1  0,9222 = 0,0778. 
Esta aproximación corresponde al área sombreada bajo la curva normal en la 
Figura 3.7(d). 
3.4 COMBINACIÓN LINEAL DE VARIABLES ALEATORIAS  
En este apartado se introducen algunas propiedades de la combinación lineal de 
variables aleatorias (discretas o continuas) que serán útiles para la estimación e 
inferencia estadística. En particular, se pretende derivar el valor esperado y la varianza 
de la combinación lineal c1X1 + ... + ckXk, donde c1, ..., ck son constantes arbitrarias y X1, 
..., Xk son variables aleatorias con esperanzas μ1, ..., μk y varianzas 21σ , ..., 2kσ . Como el 
valor esperado de la suma de variables aleatorias es igual a la suma de sus respectivas 
esperanzas, se tiene que 

====
===



 k
i
ii
k
i
ii
k
i
ii
k
i
ii cXEcXcEXcE
1111
)()( μ , 
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables 
aleatorias es la combinación lineal de sus esperanzas. 
A partir de este resultado, y recordando que var(X) = E(X2) - μ2, puede calcularse la 
varianza de una combinación lineal de variables aleatorias como 
−−
Esta aproximación corresponde al área sombreada bajo la curva normal en la Figura 3.7(d).
 
 
0 5 10 15 20
0
0,1
0,2
0,3
0,4
0 5 10 15 20
0
0,1
0,2
0,3
0,4
0 5 10 15 20
0
0,1
0,2
0,3
0,4
0 5 10 15 20
0
0,1
0,2
0,3
0,4
P(X = k)
P(X = k)
k k
(a) (b)
(c) (d)
Figura 3.7 Distribuciones de Poisson con parámetros μ = 1 (a), 2,5 (b), 5 (c) y 10 (d). En el panel d, se re-
presenta además la función de densidad de una distribución normal con media y varianza iguales a μ = 10.
37
Combinación lineal de variables aleatorias 
Pastor-Barriuso R.
3.4 COMBINACIÓN LINEAL DE VARIABLES ALEATORIAS 
En este apartado se introducen algunas propiedades de la combinación lineal de variables 
aleatorias (discretas o continuas) que serán útiles para la estimación e inferencia estadística. En 
particular, se pretende derivar el valor esperado y la varianza de la combinación lineal c1X1 + ... 
+ ckXk, donde c1, ..., ck son constantes arbitrarias y X1, ..., Xk son variables aleatorias con 
esperanzas μ1, ..., μk y varianzas 
 25
.})({2
})({2})({
2)(2)(
var
11
22
11
222
1
2
1
2
11
22
2
1
2
11




≤<≤=
≤<≤=
≤<≤=≤<≤=
===
−+=
−+−=




+−+=





−




=




kji
jijiji
k
i
ii
kji
jijiji
k
i
iii
kji
jijii
k
i
i
kji
jiji
k
i
ii
k
i
ii
k
i
ii
k
i
ii
XXEccc
XXEccXEc
cccXXEccXEc
cXcEXc
μμσ
μμμ
μμμ
μ
 
Así, la rianz  de una combin ción lineal no depende sólo de la varianza específica de 
cada variable 2σ , sino también de los términos E(XiXj) - μiμj, que se conocen como 
covarianzas entre las variables Xi y Xj. En general, la covarianza poblacional entre dos 
variables aleatorias X e Y con esperanzas μx y μy se define como 
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy, 
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de 
X tienden a asociarse con valores altos (o bajos) de Y, la covarianza será positiva; 
mientras que si valores altos de una variable se relacionan con valores bajos de la otra 
variable, la covarianza será negativa. No obstante, resulta complicado determinar el 
grado de relación lineal entre dos variables a partir de la magnitud de la covarianza, ya 
que ésta depende de las unidades de medida de las variables. Una medida alternativa del 
grado de asociación lineal entre dos variables aleatorias X e Y es el coeficiente de 
correlación poblacional ρxy, que se define como 
ρxy = 
yx
YX
σσ
),cov( , 
donde σx y σy son las desviaciones típicas de X e Y. El coeficiente de correlación carece 
de unidades y toma valores entre -1 y 1; de tal forma que si ρxy = 1, las variables 
presentan una relación lineal positiva perfecta, y si ρxy = -1, las variables presentan una 
1 ..., 
 24
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como 
 P(X ≥ 15) ≈ P(Y > 14,5) = 


 −
>
−
10
105,14
10
10YP  
  = P(Z > 1,42) = 1 - Φ(1,42) = 1 - 0,9222 = 0,0778. 
Esta aproximación corresponde al área sombreada bajo la curva normal en la 
Figura 3.7(d). 
3.4 COMBINACIÓN LINEAL DE VARIABLES ALEATORIAS  
En este apartado se introducen algunas propiedades de la combinación lineal de 
variables aleatorias (discretas o continuas) que serán útiles para la estimación e 
inferencia estadística. En particular, se pretende erivar el valor esperado y la varianza 
de la combinación lineal c1X1 + ... + ckXk, donde c1, ..., ck son constantes arbitrarias y X1, 
..., Xk son variables aleatorias con 1, k  ..., 2kσ . Como el
valor esperado de la suma de variables aleatorias es igual a la suma de su respectivas 
esperanzas, se tiene que 

====
===



 k
i
ii
k
i
ii
k
i
ii
k
i
ii cXEcXcEXcE
1111
)()( μ , 
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables 
aleatorias es la combinación lineal de sus esperanzas. 
A partir de este resultado, y recordando que var(X) = E(X2) - μ2, puede calcularse la 
varianza de una combinación lineal de variables aleatorias como 
. valor esperado de la suma de variables 
aleatorias es igual a la suma de sus respectivas esperanzas, se tiene que
 24
que puede aproximarse mediante la distribución normal Y ~ N(10, 10) como 
 P(X ≥ 15) ≈ P(Y > 14,5) = 


 −
>
−
10
105,14
10
10YP  
  = P(Z > 1,42) = 1 - Φ(1,42) = 1 - 0,9222 = 0,0778. 
Esta aproximación corresponde al área sombreada bajo la curva normal en la 
Figura 3.7(d). 
3.4 COMBINACIÓN LINEAL DE VARIABLES ALEATORIAS  
En este apartado se introducen algunas propiedades de la combinación lineal de 
variables aleatorias (discretas o continuas) que serán útiles para la estimac ón e 
inferencia estadística. En particular, se pretende derivar el valor esperado y la varianza 
de la combinación lineal c1X1 + ... + ckXk, donde c1, ..., ck son constantes arbitrarias y X1, 
..., Xk son variables aleatorias con esperanzas μ1, ..., μk y varianzas 21σ , ..., 2kσ . Como el 
valor esperado de la suma de variables aleatorias es igual a la suma de sus respectivas 
esperanzas, se tiene que 

====
===



 k
i
ii
k
i
ii
k
i
ii
k
i
ii cXEcXcEXcE
1111
)()( μ , 
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables 
aleatorias es la combinación lineal de sus esperanzas. 
A partir de este resultado, y recordando que var(X) = E(X2) - μ2, puede calcularse la 
varianza de una combinación lineal de variables aleatorias como 
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinación lineal de variables aleatorias 
es la combinación lineal de sus speranzas.
A partir de este resultado, y recordando que var(X) = E(X2) – μ2, puede calcularse la varianza 
de una combinación lineal de variables leator as como
 25
.})({2
})({2})({
2)(2)(
var
11
22
11
222
1
2
1
2
11
22
2
1
2
11




≤<≤=
≤<≤=
≤<≤=≤<≤=
===
−+=
−+−=




+−+=





−




=




kji
jijiji
k
i
ii
kji
jijiji
k
i
iii
kji
jijii
k
i
i
kji
jiji
k
i
ii
k
i
ii
k
i
ii
k
i
ii
XXEccc
XXEccXEc
cccXXEccXEc
cXcEXc
μμσ
μμμ
μμμ
μ
 
Así, la varianza de un  combinación lineal no d p n  sólo de la varianza específica de 
cada variable 2iσ , sino también de los términos E(XiXj) - μiμj, que se conocen como 
covarianzas entre las variables Xi y Xj. En general, la covarianza poblacional entre dos 
variables aleatorias X e Y con esperanzas μx y μy e define como
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy, 
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de 
X tienden a asociarse con valores altos (o bajos) de Y, la covarianza será positiva; 
mientras que si valores altos de una variable se relacionan con valores bajos de la otra 
variable, la covarianza será negativa. No obstante, resulta complicado determinar el 
grado de relación lineal entre dos variables a partir de la magnitud de la covarianza, ya 
que ésta depende de las unidades de medida de las variables. Una medida alternativa del 
grado de asociación lineal entre dos variables aleatorias X e Y es el coeficiente de 
correlación poblacional ρxy, que se define como 
ρxy = 
yx
YX
σσ
),cov( , 
donde σx y σy son las desviaciones típicas de X e Y. El coeficiente de correlación carece 
de unidades y toma valores entre -1 y 1; de tal forma que si ρxy = 1, las variables 
presentan una relación lineal positiva perfecta, y si ρxy = -1, las variables presentan una 
Así, la varianza de una combinación lineal no depende sólo de la varianza específica de cada 
variable
 25
.})({2
})({2})({
2)(2)(
var
11
22
11
222
1
2
1
2
11
22
2
1
2
11




≤<≤=
≤<≤=
≤<≤=≤<≤=
===
−+=
−+−=




+−+=





−




=




kji
jijiji
k
i
ii
kji
jijiji
k
i
iii
kji
jijii
k
i
i
kji
jiji
k
i
i
k
i
ii
k
i
ii
k
i
ii
XXEccc
XXEccXEc
cccXXEccXEc
cXcEXc
μμσ
μμμ
μμμ
μ
 
Así, la varianza de una combinación lineal o d pende sól  de la varianza específica de 
cada  2iσ , s no t mbié  de los términ s E(XiXj) - μiμj, que se con cen como 
covarianzas entre las variables Xi y Xj. En general, la covarianza poblacional entre dos 
variables aleatorias X  Y con esperanzas μx y μy se d fine como 
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy, 
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de 
X tienden a asociars  con valores altos (o bajos) de Y, la co i nza será positiva; 
mientras que si valores altos de u a variable se relacionan con v lores bajos de la otra 
variable, la covarianza erá negativa. No obstante, resulta complicado determinar el 
grado de relación lineal entre dos variables a partir de l  magnit d de la cov rianza, ya 
que ésta depende de s u idades de me ida de las variables. Un  edida altern tiva del 
grado de asociación lineal entre dos variables al atorias X e Y es el coeficient  de 
correlación p blacional ρxy, que se define como 
ρxy = 
yx
YX
σσ
),cov( , 
donde σx y σy son las desviaciones típicas de X e Y. El coeficiente de correlación carece 
de unidades y toma valores entre -1 y 1; d  tal forma que si ρxy = 1, las variables 
presentan una rel ción lineal positiva pe fecta, y si ρxy = -1, l s variables presentan una 
i  t ié  de los térm nos E(XiXj) – μiμj, que e conocen como covarianzas entre 
las variables Xi y Xj. En general, la covarianza poblacional entre dos variables aleatorias X e Y 
con esperanz s μx y μy e define como
 25
.})({2
})({2})({
2)(2)(
var
11
22
11
222
1
2
1
2
11
22
2
1
2
11




≤<≤=
≤<≤=
≤<≤=≤<≤=
===
−+=
−+−=




+−+=





−




=




kji
jijiji
k
i
ii
kji
jijiji
k
i
iii
kji
jijii
k
i
i
kji
jiji
k
i
ii
k
i
ii
k
i
ii
k
i
ii
XEccc
XXEccXEc
cccXXEccXEc
cXcEXc
μμσ
μμμ
μμμ
μ
 
Así, la varianza de una combinación lineal no depende sólo de la varianza específica de 
cada variable 2iσ , sino también de los términos E(XiXj) - μiμj, que se conocen como 
covarianzas entre las variables Xi y Xj. En general, la covarianza poblacional entre dos 
variables aleatorias X e Y con esperanzas μx y μy se define como 
cov(X, Y ) = E{(X   μx)(Y  μy)} = E(XY )  μxμy, 
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de 
X tienden a asociarse con valores altos (o bajos) de Y, la covarianza será positiva; 
mientras que si valores altos de una variable se relacionan con valores bajos de la otra 
variable, la covarianza será negativa. No obstante, resulta complicado determinar el 
grado de relación lineal entre dos variables a partir de la magnitud de la covarianza, ya 
que ésta depende de las unidades de medida de las variables. Una medida alternativa del 
grado de asociación lineal entre dos variables aleatorias X e Y es el oefici nte de 
correlación poblacional ρxy, que se defin  como 
ρxy = 
yx
YX
σσ
),cov( , 
donde σx y σy son las desviaciones típicas de X e Y. El coeficiente de correlación carece 
de unidades y toma valores entre -1 y 1; de tal forma que si ρxy = 1, las variables 
presentan una relación lineal positiva perfecta, y si ρxy = -1, las variables presentan una 
− − −
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de X 
tienden  asociarse c  valores alto  (o bajo ) de Y, la covarianza será positiva; mientras que si 
valores altos de una variable se relacionan con valores bajos de la otra variable, la covarianza 
será negativa. No obsta te, resulta complicado de erminar el grado de relación lineal entre dos 
variables  parti  de la magnitud de la covarianza, ya que ésta depende de las unidades de 
medida de las variables. Una medida alternativa del grado de asociación lineal entre dos 
variables aleatorias X  Y  el coefici nt  de correlación poblac onal ρxy, que se define como
 25
.})({2
})({2})({
2)(2)(
var
11
22
11
222
1
2
1
2
11
22
2
1
2
11




≤<≤=
≤<≤=
≤<≤=≤<≤=
===
−+=
−+−=




+−+=





−




=




kj
jijiji
k
i
i
kji
jijiji
k
i
iii
kji
jijii
k
i
i
kji
jiji
k
i
ii
k
i
ii
k
i
ii
k
i
ii
XXEccc
XXEccXEc
cccXXEcXEc
cXcEXc
μμσ
μμμ
μμμ
μ
 
Así, la varianza de una combinación lineal no depende sólo de la varianza específica de 
cada varia le 2iσ , s o también de los términos E(XiXj) - μiμj, que se conocen como 
covarianzas entre las variables Xi y Xj. En general, la covarianza poblacional entre dos 
variables aleatorias X e Y con esperanzas μx y μy se define como 
cov(X, Y) = E{(X - μx)(Y - μy)} = E(XY) - μxμy, 
y es una medida de la relación lineal entre ambas variables. Si valores altos (o bajos) de 
X tienden a asociarse con valores altos (o bajos) de Y, la covarianza será positiva; 
mientras que si valores altos de una variable se relacionan con valores bajos de la otra 
variable, la covarianza será negativa. No obstante, resulta complicado determinar el 
grado de relación lineal entre dos variables a partir de la magnitud de la covarianza, ya 
que ésta depen e de las unidades d  medid  de las variables. Una medida alternativa del 
grado de asociación lineal entre dos variables aleatorias X e Y es el coeficiente de 
correlación poblacional ρxy, que se define como 
ρxy = 
yx
YX
σσ
),cov( , 
donde σx y σy son las desviaciones típicas de X e Y. El coeficiente de correlación carece 
de unida es y toma valores entre -1 y 1; de tal forma que si ρxy = 1, las variables 
presentan una r l ción ineal positiva perfecta, y si ρxy = -1, las v riables prese tan una 
donde σx y σy son las desviac ones típicas de X e Y. El coeficie te de correlación car ce de 
unidades y toma valores entre – 1 y 1; de tal forma que si ρxy = 1, las variables presentan una 
relación lineal p sitiva perf cta, y si ρxy = – 1, las v ri bles presentan una relación lineal negativa 
perfecta. Cuando ρxy = 0, se dice que las variables están incorrelacionadas. Notar que si dos 
variables son i dependie tes, en el sentido de que el conocimiento del valor que toma una 
38
Variables aleatorias y distribuciones de probabilidad 
Pastor-Barriuso R.
variable no aporta ninguna información sobre el valor de la otra variable, entonces están 
incorrelacionadas; pero que la incorrelación no implica necesariamente independencia, ya que 
las variables podrían presentar una dependencia no lineal aun cuando ρxy = 0. Este y otros 
aspectos sobre el coeficiente de correlación se discutirán en mayor detalle en el Tema 10.
La varianza de una combinación lineal de variables aleatorias queda entonces determinada por
 26
relación lineal negativa perfecta. Cuando ρxy = 0, se dice que las variables están 
incorrelacionadas. Notar que si dos variables son independientes, en el sentido de que el 
conocimiento del valor que toma una variable no aporta ninguna información sobre el 
valor de la otra variable, entonces están incorrelacionadas; pero que la incorrelación no 
implica necesariamente independencia, ya que las variables podrían presentar una 
dependencia no lineal aun cuando ρxy = 0. Este y otros aspectos sobre el coeficiente de 
correlación se discutirán en mayor detalle en el Tema 10. 
La varianza de una combinación lineal de variables aleatorias queda entonces 
determinada por 
,2
),cov(2var
11
22
11
22
1


≤<≤=
≤<≤==
+=
+=




kji
ijjiji
k
i
ii
kji
jiji
k
i
ii
k
i
ii
ccc
XXcccXc
ρσσσ
σ
 
donde ρij es el coeficiente de correlación entre Xi y Xj. En el caso de que las variables 
sean mutuamente independientes (bastaría la condición menos restrictiva de que 
estuvieran incorrelacionadas), la varianza de la combinación lineal es 

==
=



 k
i
ii
k
i
ii cXc
1
22
1
var σ . 
Ejemplo 3.15 Supongamos que la media y la desviación típica de la presión 
arterial sistólica X1 en una determinada población son μ1 = 130 mm Hg y σ1 = 20 
mm Hg, y la media y la desviación típica de la presión arterial diastólica X2 son μ2 
= 80 mm Hg y σ2 = 10 mm Hg. Supongamos además que el coeficiente de 
correlación entre la presión arterial sistólica y diastólica de los sujetos de esta 
población es ρ12 = 0,60. El valor esperado de la presión del pulso, definida como 
la diferencia entre la presión arterial sistólica y diastólica, sería 
donde ρij es el coeficiente de correlación entre Xi y Xj. En el caso de que las variables sean 
mutuamente independientes (bastaría la condición menos restrictiva de que estuvieran 
incorrelacionadas), la varianza de la combinación lineal es
 26
relación lineal negativa perfecta. Cuando ρxy = 0, se dice que las variables están 
incorrelacionadas. Notar que si dos variables son independientes, en el sentido de que el 
conocimiento del valor que toma una variable no aporta ninguna información sobre el 
valor de la otra variable, entonces están incorrelacionadas; pero que la incorrelación no 
implica necesariamente independencia, ya que las variables podrían presentar una 
dependencia no lineal aun cuando ρxy = 0. Este y otros aspectos sobre el coeficiente de 
correlación se discutirán en mayor detalle en el Tema 10. 
La varianza de una combinación lineal de variables aleatorias queda entonces 
determinada por 
,2
),cov(2var
11
22
11
22
1


≤<≤=
≤<≤==
+=
+=




kji
ijjiji
k
i
ii
kji
jiji
k
i
ii
k
i
ii
ccc
XXcccXc
ρσσσ
σ
 
donde ρij es el coeficiente de correlación entre Xi y Xj. En el caso de que las variables 
sean mutuamente independientes (bastaría la condición menos restrictiva de que 
estuvieran corr lacionadas), la varianza de la combinación lineal es 

==
=



 k
i
ii
k
i
ii cXc
1
22
1
var σ . 
Ejemplo 3.15 Supongamos que la media y la desviación típica de la presión 
arterial sistólica X1 en una determinada población son μ1 = 130 mm Hg y σ1 = 20 
mm Hg, y la media y la desviación típica de la presión arterial diastólica X2 son μ2 
= 80 mm Hg y σ2 = 10 mm Hg. Supongamos además que el coeficiente de 
correlación entre la presión arterial sistólica y diastólica de los sujetos de esta 
población es ρ12 = 0,60. El valor esperado de la presión del pulso, definida como 
la diferencia entre la presión arterial sistólica y diastólica, sería 
Ejemplo 3.15 Supongamos que la media y la desviación típica de la presión arterial 
sistólica X1 en una determinada pobla ión son μ1 = 130 mm Hg y σ1 = 20 mm Hg, y la media 
y la desviación típica de la presión arterial diastólica X2 son μ2 = 80 mm Hg y σ2 = 10 mm 
Hg. Supongamos además que el coeficiente de correlación entre la presión arterial sistólica 
y diastólica de los sujetos de esta población es ρ12 = 0,60. El valor esperado de la presión del 
pulso, definida como la diferencia entre la presión arterial sistólica y diastólica, sería
 27
E(X1  X2) = μ 1  μ 2 = 130  80 = 50 mm Hg 
y, teniendo en cuenta la correlación entre ambas variables, la varianza de la 
presión del pulso vendría dada por 
 var(X1 - X2) = 21σ  + 
2
2σ  - 2σ1σ2ρ12 
 = 202 + 102 - 2⋅20⋅10⋅0,60 = 260 (mm Hg)2, 
para una desviación típica 260  = 16,1 mm Hg. 
Los resultados anteriores son válidos para cualquier variable aleatoria. No obstante, 
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la 
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la 
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de 
inferencia. 
Ejemplo 3.16 El colesterol HDL en las mujeres adultas de una población sigue 
una distribución normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 = 
0,35 mmol/l, y en los hombres adultos de dicha población sigue una distribución 
normal X2 con media μ2 = 1,10 mmol/l y desviación típica σ2 = 0,30 mmol/l. Así, 
la diferencia del colesterol HDL entre las mujeres y los hombres de esta población 
se distribuirá según una normal con media 
E(X1 - X2) = μ1 - μ2 = 1,25 - 1,10 = 0,15 mmol/l 
y varianza 
var(X1 - X2) = 21σ  + 
2
2σ  = 0,35
2 + 0,302 = 0,213 (mmol/l)2, 
o desviación típica 213,0  = 0,46 mmol/l, ya que los valores para distintos 
sujetos son independientes y, en consecuencia, ρ12 = 0. 
− − −
y, teniendo en cuenta la correlación entre a bas variables, la varianza de la presión del 
pulso vendría dada por
 27
E(X1 - X2) = μ1 - μ2 = 130 - 80 = 50 mm Hg 
y, teniendo en cuenta la correlación entre ambas variables, la varianza de la 
presión del pulso vendrí  dada por 
 var(X1 X2) = 21σ  + 
2
2σ   2σ 1σ 2ρ12  
  = 202 + 102  2⋅20⋅10⋅0,60 = 260 (mm Hg)2, 
para una desviación típica 260  = 16,1 mm Hg. 
Los resultados anter ores son válidos para cualquier variable aleatoria. No obstante, 
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la 
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la 
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de 
inferencia. 
Ejemplo 3.16 El colesterol HDL en las mujeres adultas de una población sigue 
una distribución normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 = 
0,35 mmol/l, y en los hombres adultos de dicha población sigue una distribución 
normal X2 con media μ2 = 1,10 mmol/l y desviación típica σ2 = 0,30 mmol/l. Así, 
la diferencia del colesterol HDL entre las mujeres y los hombres de esta población 
se distribuirá según una normal con media 
E(X1 - X2) = μ1 - μ2 = 1,25 - 1,10 = 0,15 mmol/l 
y varianza 
var(X1 - X2) = 21σ  + 
2
2σ  = 0,35
2 + 0,302 = 0,213 (mmol/l)2, 
o desviación típica 213,0  = 0,46 mmol/l, ya que los valores para distintos 
sujetos son independientes y, en consecuencia, ρ12 = 0. 
− −
−
par  una desvi ción típica 
 27
E(X1 - X2) = μ1 - μ2 = 130 - 80 = 50 mm Hg
y, teniendo en cuenta la correlación entre ambas variables, la varianza de la 
presión del pulso vendría dada por 
 var(X1 - X2) = 21σ  + 
2
2σ  - 2σ1σ2ρ12 
  = 202 + 102 - 2⋅20⋅10⋅0,60 = 260 (mm Hg)2, 
ra  i  tí i  260  = 16,1 mm Hg. 
Los resultados anteriores son válidos para cualquier variable aleatoria. No obstante, 
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la 
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la 
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de 
inferencia. 
Ejemplo 3.16 El colesterol HDL en las mujeres adultas de una población sigue 
una distribución normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 = 
0,35 mmol/l, y en los hombres adultos de dicha población sigue una distribución 
normal X2 con media μ2 = 1,10 mol/l y desviación típica σ2 = 0,30 mmol/l. Así, 
la diferencia del colesterol HDL entre las mujeres y los hombres de esta población 
se distribuirá según una normal con media 
E(X1 - X2) = μ1 - μ2 = 1,25 - 1,10 = 0,15 mol/l 
y varianza 
var(X1 - X2) = 21σ  + 
2
2σ  = 0,35
2 + 0,302 = 0,213 (mmol/l)2, 
o desviación típica 213,0  = 0,46 mmol/l, ya que los valores para distintos 
sujetos son independientes y, en consecuencia, ρ12 = 0. 
  ,   .
Los resultados anteriores son válidos para cualquier variable aleatoria. No obstante, si las 
variables X1, ..., Xk siguen una distr bución normal, puede probarse que la combinación lineal 
c1X1 + ... + ckXk también seguirá una distribución normal con la media y varianza descritas 
anteriorment . Este resultado se utilizará en los temas de infer ncia.
Ejemplo 3.16 El colesterol HDL en las mujeres adultas de una p blació  sigue una 
distribución normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 = 0,35 mmol/l, 
y en los hombres adultos de dicha población sigue una distri ución nor al X2 con media 
μ2 = 1,10 mmol/l y desviación típica σ2 = 0,30 mmol/l. Así, la diferencia del colesterol HDL 
entre las mujeres y los hombres de esta población se istri irá según una normal con media
 27
E(X1 - X2) = μ1 - μ2 = 130 - 80 = 50 mm Hg 
y, teniendo en cuenta la correlación entre ambas variables, la varianza de la 
presión del pulso vendría dada por 
 var(X1 - X2) = 21σ  + 
2
2σ  - 2σ1σ2ρ12 
  = 202 + 102 - 2⋅20⋅10⋅0,60 = 260 (mm Hg)2, 
para una desviación típica 260  = 16,1 mm Hg. 
Los resultad s anteriores son válidos para cualquier variable aleatoria. No obstante, 
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la 
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la 
media y varianza desc it s anteriormente. Este resultado se utilizará en los temas de 
inferencia. 
Ejemplo 3.16 El colesterol HDL en las mujeres dult  de una población sigue 
una distribució  normal X1 con media μ1 = 1,25 mmol/l y desvi ción típica σ1 = 
0,35 mmol/l, y en los hombres adultos de dicha pobl ción sigue una distribución 
normal X2 con media μ2 = 1,10 mmol/l y desviación típica σ2 = 0,30 mmol/l. Así, 
la diferencia del colesterol HDL entre las mujeres y los hombres de esta población 
se distribuirá según una normal con media 
E(X1   X2) = μ 1  μ 2 = 1,25  1,10 = 0,15 mmol/l 
y varianza 
var(X1 - X2) = 21σ  + 
2
2σ  = 0,35
2 + 0,302 = 0,213 (mmol/l)2, 
o desviación típica 213,0  = 0,46 mmol/l, ya que los valores para distintos 
sujetos son independientes y, en consecuencia, ρ12 = 0. 
− − −
y varianza
 27
E(X1 - X2) = μ1 - μ2 = 130 - 80 = 50 mm Hg 
y, teniendo en cuenta la correlación entre ambas variables, la varianza de la 
presión del pulso vendría dada por 
 var(X1 - X2) = 21σ  + 
2
2σ  - 2σ1σ2ρ12 
 202 10   ⋅20⋅10⋅0,60 = 260 (mm Hg)2, 
para una desviación típica 260  = 16,1 mm Hg. 
Los resultados anteriores son válidos para cualquier variable aleatoria. No obstante, 
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la 
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la 
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de 
inferencia. 
Ejemplo 3.16 El colesterol HDL en las mujeres adultas de na població  sigue 
una distribución normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 = 
0,35 mmol/l, y en los hombres adultos de dicha población sigue na distribución 
normal X2 con media μ2 = 1,10 mmol/l y desviación típica σ2 = 0,30 mmol/l. Así, 
la diferencia del colesterol HDL entre las mujeres y los hombres de esta población 
se distribuirá según una normal con media 
E(X1 - X2) = μ1 - μ2 = 1,25 - 1,10 = 0,15 mmol/l 
y varianza 
var(X1   X2) = 21σ  + 
2
2σ  = 0,35
2 + 0,302 = 0,213 (mmol/l)2, 
o desviación típica 213,0  = 0,46 mmol/l, ya que los valores para disti tos 
suj tos son independientes y, en consecuenci , ρ12 = 0. 
−
39Pastor-Barriuso R.
Referencias
o desviación típica 
 27
E(X1 - X2) = μ1 - μ2 = 130 - 80 = 50 mm Hg 
y, teniendo en cuenta la correlación entre ambas variables, la varianza de la 
presión del pulso vendría dada por 
 var(X1 - X2) = 21σ  + 
2
2σ  - 2σ1σ2ρ12 
  = 202 + 102 - 2⋅20⋅10⋅0,60 = 260 (mm Hg)2, 
para una desviación típica 260  = 16,1 mm Hg. 
Los resultados anteriores son válidos para cualquier variable aleatoria. No obstante, 
si las variables X1, ..., Xk siguen una distribución normal, puede probarse que la 
combinación lineal c1X1 + ... + ckXk también seguirá una distribución normal con la 
media y varianza descritas anteriormente. Este resultado se utilizará en los temas de 
inferencia. 
Ejemplo 3.16 El colesterol HDL en las mujeres adultas de una población sigue 
una distribución normal X1 con media μ1 = 1,25 mmol/l y desviación típica σ1 = 
0,35 mmol/l, y en los hombres adultos de dicha población sigue una distribución 
normal X2 con media μ2 = 1,10 mmol/l y desviación típica σ2 = 0,30 mmol/l. Así, 
la diferencia del colesterol HDL entre las mujeres y los hombres de esta población 
se distribuirá según una normal con media 
E(X1 - X2) = μ1 - μ2 = 1,25 - 1,10 = 0,15 mmol/l 
y varianza 
var(X1 - X2) = 21σ  + 
2
2σ  = 0,35
2 + 0,302 = 0,213 (mmol/l)2, 
 i i  tí i  213,0  = 0,46 mmol/l, ya que los valores para distintos 
sujetos son independientes y, en consecuencia, ρ12 = 0. 
 l/l,  e los valores para distintos sujetos son 
independientes y, en consecuencia, ρ12 = 0.
3.5 REFERENCIAS 
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics, Volume 
1, Second Edition. Upper Saddle River, NJ: Prentice Hall, 2001.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 
2002.
3. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
4. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third 
Edition. New York: John Wiley & Sons, 1968.
5. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 
2006.
6. Stuart A, Ord JK. Kendall’s Advanced Theory of Statistics, Volume 1, Distribution Theory, 
Sixth Edition. London: Edward Arnold, 1994.

41Pastor-Barriuso R.
TEMA 4
PRINCIPIOS DE MUESTREO  
Y ESTIMACIÓN
4.1 INTRODUCCIÓN
Un primer paso en la realización de un estudio o proyecto de investigación es definir la población 
de la cual se desea conocer una determinada característica o parámetro. Ocasionalmente, resulta 
factible obtener información para todos los elementos de la población mediante registros o 
censos. Sin embargo, en la mayoría de los estudios no es posible obtener información de toda 
la población, por lo que debemos limitarnos a la recogida de datos en una pequeña fracción del 
total o muestra.
La utilización de muestras presenta varias ventajas con respecto a la enumeración completa 
de la población:
 y Coste reducido. Si los datos se obtienen de una pequeña fracción del total, los gastos se 
reducen. Incluso si la obtención de información en toda la población es factible, suele ser 
mucho más eficiente la utilización de técnicas de muestreo.
 y Mayor rapidez. Los datos pueden ser más fácilmente recolectados y estudiados si se utiliza 
una muestra que si se emplean todos los elementos de la población. Por tanto, el uso de 
técnicas de muestreo es especialmente importante cuando se necesita la información con 
carácter urgente.
 y Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros 
completos es limitada. Muy a menudo, la única alternativa posible para la realización de 
un estudio es la obtención de datos por muestreo.
 y Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un número 
menor de efectivos, resulta más fácil recoger un número mayor de variables por individuo, 
así como tener un mejor control de la calidad del proceso de recogida de datos.
Si se dispone de información para todas las unidades de la población, el parámetro poblacional 
de interés quedará determinado con total precisión. Sin embargo, si se emplea únicamente una 
fracción del total, el parámetro poblacional desconocido ha de estimarse a partir de la muestra, 
con el consiguiente error derivado tanto por el carácter parcial de la muestra como por su 
posible falta de representatividad poblacional. La teoría de muestreo persigue un doble 
objetivo. Por un lado, estudia las técnicas que permiten obtener muestras representativas de la 
población de forma eficiente. Por otro lado, la teoría de muestreo indica cómo utilizar los 
resultados del muestreo para estimar los parámetros poblacionales, conociendo a la vez el grado 
de incertidumbre de las estimaciones. Así, la teoría de muestreo pretende dar respuesta a varias 
preguntas de interés:
 y ¿Cómo se eligen a los individuos que componen la muestra?
 y ¿Cuántos individuos formarán parte de la muestra?
 y ¿Cómo se cuantifican las diferencias existentes entre los resultados obtenidos en la muestra 
y los que hubiéramos obtenido si el estudio se hubiera llevado a cabo en toda la población?
42
Principios de muestreo y estimación 
Pastor-Barriuso R.
Estas cuestiones están estrechamente relacionadas entre sí. Así, por ejemplo, al aumentar el 
tamaño muestral aumenta la exactitud en las estimaciones. La determinación del tamaño 
muestral se tratará más adelante (véase Tema 9). En el presente tema, se discuten los principales 
tipos de muestreo probabilístico, así como la estimación en el muestreo aleatorio simple. Antes 
de ello, es conveniente revisar la definición de algunos conceptos que se utilizan de forma 
repetida a lo largo del capítulo:
 y Población o universo muestral es la colección de elementos o unidades de análisis 
acerca de los cuales se desea información. Con frecuencia, no se puede obtener información 
de toda la población, sino tan sólo de unidades que cumplen una serie de características 
(criterios de inclusión/exclusión). La población marco es aquella sobre la que es posible 
obtener información. La muestra se obtiene de la población marco, por lo que debe 
recordarse que las conclusiones extraídas de la muestra son generalizables a la población 
marco y no necesariamente a la población de inicio o universo.
 y Dentro del proceso de selección de una muestra, la población suele dividirse en unidades 
de muestreo, que deben constituir una partición de toda la población. Estas unidades de 
muestreo pueden coincidir con las unidades de análisis, pero también pueden estar 
constituidas por un conjunto de distintas unidades de análisis.
Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una población 
de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas 
de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se 
eligen a su vez algunos ancianos que formarán parte de la muestra definitiva. En tal caso, 
la selección de la muestra se habría realizado en dos etapas: las residencias constituirían 
las unidades de muestreo de primera etapa y los ancianos (unidades de análisis) serían las 
unidades de muestreo de segunda etapa.
 y Muestreo probabilístico es aquel en que todas las unidades de la población tienen una 
probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo 
probabilístico minimiza la probabilidad de sesgos (si el tamaño muestral no es muy 
limitado, la muestra será muy probablemente representativa de la población) y permite 
cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad 
aleatoria. La teoría del muestreo se basa fundamentalmente en el muestreo probabilístico, 
ya que otros tipos de muestreo (de conveniencia, por cuotas) están sujetos a una mayor 
probabilidad de sesgos y es más difícil extrapolar los resultados a la población.
 y En el muestreo con reposición, cada vez que se elige un nuevo elemento muestral se 
dispone de toda la población para realizar la selección, mientras que en el muestreo sin 
reposición los elementos que ya han aparecido en la muestra no están disponibles para ser 
elegidos de nuevo. En el muestreo con reposición, por tanto, una unidad poblacional puede 
aparecer más de una vez en la muestra. En la práctica, el muestreo suele realizarse sin 
reposición. No obstante, si el tamaño de la población es muy grande con respecto al tamaño 
muestral, la probabilidad de que un elemento de la población sea elegido más de una vez 
en la muestra es tan pequeña que ambos tipos de muestreo son similares.
4.2 PRINCIPALES TIPOS DE MUESTREO PROBABILÍSTICO
En este apartado se describen brevemente los principales procedimientos probabilísticos de 
selección de muestras, tales como los muestreos aleatorio simple, sistemático, estratificado, por 
43
Principales tipos de muestreo probabilístico
Pastor-Barriuso R.
conglomerados y polietápico. Un tratamiento más extenso de estos procedimientos puede 
encontrarse en los libros de muestreo referenciados al final del tema.
4.2.1 Muestreo aleatorio simple
El muestreo aleatorio simple es el más sencillo y conocido de los distintos tipos de muestreo 
probabilístico. Supongamos que se pretende seleccionar una muestra de tamaño n a partir de 
una población de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier 
subconjunto de tamaño n tiene la misma probabilidad de ser seleccionado. Puede probarse que 
el muestreo aleatorio simple es un procedimiento equiprobabilístico; es decir, todas las unidades 
de la población tienen la misma probabilidad n/N de ser elegidas en la muestra.
Para la selección de una muestra aleatoria simple, se enumeran previamente las unidades del 
universo o población de 1 a N y a continuación se seleccionan n números distintos entre 1 y N 
utilizando algún procedimiento aleatorio, típicamente mediante una tabla de números aleatorios 
o un generador de números aleatorios por ordenador.
 y Las tablas de números aleatorios son tablas con los dígitos 0, 1, 2, ..., 9, donde cada dígito 
tiene la misma probabilidad de ocurrir y el valor de un dígito concreto es independiente 
del valor de cualquier otro dígito de la tabla. En la Tabla 4 del Apéndice se facilitan 1000 
dígitos aleatorios.
 y La mayoría de los programas de análisis estadístico contienen generadores de números 
aleatorios. Estos generadores producen grandes secuencias de dígitos pseudoaleatorios, 
que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas 
anteriormente.
Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa 
de los N = 875 ancianos institucionalizados en dicha población, de los cuales se desean 
seleccionar n = 10. La selección de una muestra aleatoria simple de este tamaño puede 
realizarse a partir de la Tabla 4 del Apéndice como sigue. Comenzando en cualquier lugar 
de esta tabla y leyendo grupos de 3 dígitos en cualquier dirección, seleccionar los 10 
primeros números distintos entre 1 y 875. Por ejemplo, empezando en el primer dígito de 
la tercera fila y de izquierda a derecha, estos números son: 339, 117, 619, 68, 440, 788, 
696, 716, 183 y 546. Notar que los números 897 y 898 han sido descartados por ser 
superiores a N = 875. La muestra aleatoria simple estaría así constituida por aquellos 
ancianos de la población numerados previamente por estos 10 valores.
Puede probarse que, como el muestreo aleatorio simple es un procedimiento 
equiprobabilístico, una media o una proporción poblacional se estiman simplemente mediante 
la media o proporción muestral. La estimación de parámetros poblacionales a partir de una 
muestra aleatoria simple, así como la varianza o error de las estimaciones, se discutirá en detalle 
al final de este tema.
4.2.2 Muestreo sistemático
En ocasiones, la numeración consecutiva de las unidades de la población y la posterior selección 
de una muestra aleatoria simple resultan muy laboriosas. En tales circunstancias, un 
procedimiento alternativo más sencillo es el llamado muestreo sistemático. Bajo este 
procedimiento, no siempre es necesario numerar previamente los elementos de la población, 
sino que basta con disponer de alguna ordenación explícita (por ejemplo, orden de archivo de 
historias clínicas o visitas sucesivas de pacientes a una consulta médica).
44
Principios de muestreo y estimación 
Pastor-Barriuso R.
Para la selección de una muestra sistemática de tamaño n de una población de N unidades, 
se elige aleatoriamente un número de arranque r entre 1 y k, donde k es la parte entera de N/n, 
y a partir del elemento que ocupa el lugar r, se toman los restantes elementos en intervalos de 
amplitud k hasta completar la muestra deseada. Así, la muestra estará constituida por los 
elementos ordenados en los lugares r, r + k, r + 2k, ..., r + (n – 1)k. Como en general N no es 
múltiplo de n, este método de selección no es necesariamente equiprobabilístico (si N/n no es 
un número entero, las unidades comprendidas entre los lugares nk + 1 y N nunca podrán formar 
parte de la muestra). Una modificación a este procedimiento, que garantiza la obtención de una 
muestra equiprobabilística, consiste en seleccionar el número aleatorio de arranque r entre 1 y 
N, y tomar cada k-ésima unidad a partir de ahí, continuando en el primer elemento al alcanzar 
el final de la lista.
Ejemplo 4.3 Para seleccionar una muestra sistemática de tamaño n = 10 de la población 
de N = 875 ancianos institucionalizados, se calcula primero la amplitud del intervalo de 
selección como la parte entera de N/n = 875/10 = 87,5; es decir, k = 87. Si se seleccionara 
el número de arranque r entre 1 y 87, el último anciano seleccionado ocuparía en el lugar 
r + (n – 1)k = r + (10 – 1)87 = r + 783, que sería siempre inferior o igual a 870 (dado que 
r ≤ 87). En consecuencia, los ancianos en los lugares 871 a 875 nunca podrían formar 
parte de la muestra. Para asegurar un muestreo equiprobabilístico, el número de arranque 
se selecciona aleatoriamente entre 1 y 875. Suponiendo que este número de arranque fue 
r = 427 y tomando intervalos de amplitud k = 87, la muestra sistemática quedaría integrada 
por aquellos ancianos en los lugares 427, 514, 601, 688, 775, 862, 74, 161, 248 y 335.
En el muestreo sistemático, la ordenación de los elementos de la población determinará las 
posibles muestras. En consecuencia, este orden ha de estar exento de cualquier periodicidad 
relacionada con las variables a estudio. Así, por ejemplo, si para estimar el nivel de contaminación 
atmosférica en una ciudad se toma una muestra sistemática de días con k = 7, la muestra estará 
formada por los mismos días de la semana y presentará un claro sesgo por falta de 
representatividad. No obstante, estas periodicidades son muy infrecuentes en la práctica y 
pueden solventarse con facilidad (en el ejemplo anterior, bastaría con utilizar un intervalo de 
selección distinto de 7). En general, si la ordenación de las unidades de la población es 
esencialmente aleatoria, la estimación de parámetros y sus correspondientes errores en un 
muestreo sistemático se realiza igual que en un muestreo aleatorio simple. 
4.2.3 Muestreo estratificado
En los muestreos anteriores, las muestras se seleccionan por procedimientos puramente 
aleatorios. Así, si el tamaño muestral es suficientemente grande, la muestra será muy 
probablemente representativa de la población. Sin embargo, no existe una garantía absoluta de 
que la muestra finalmente seleccionada sea representativa para cualquier variable de interés. 
Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la 
población, la alternativa más sencilla es seleccionar por separado distintas submuestras dentro 
de cada estrato. Este procedimiento de selección se conoce como muestreo estratificado. Los 
estratos han de definir subgrupos de población que sean internamente homogéneos con respecto 
a la característica o parámetro de interés y, por tanto, heterogéneos entre sí. En la práctica, los 
estratos se definen en función de variables fáciles de medir previamente y relevantes para el 
tema objeto de estudio (por ejemplo, edad, sexo, raza o área geográfica de residencia). En 
general, el número de estratos ha de ser reducido (rara vez resulta eficiente utilizar más de 5 
estratos) y el tamaño por estrato no debe ser muy pequeño.
45
Principales tipos de muestreo probabilístico
Pastor-Barriuso R.
Para la selección de una muestra estratificada de tamaño n, la población de N unidades se 
divide en K estratos de tamaños N1, N2, ..., NK, cuya suma es igual a N. Los estratos son 
mutuamente excluyentes y exhaustivos, de tal forma que cada elemento de la población 
pertenece a uno y sólo a uno de los estratos. Una vez determinados estos estratos, se selecciona 
por separado una muestra de cada estrato de tamaño n1, n2, ..., nK, respectivamente, cuya suma 
será igual al tamaño total n de la muestra. La selección dentro de cada estrato suele realizarse 
por muestreo aleatorio simple o sistemático, y el procedimiento se denomina entonces muestreo 
aleatorio estratificado. 
En el muestreo estratificado, es necesario determinar cómo se distribuye el tamaño muestral 
total n entre los distintos estratos; es decir, la asignación de los tamaños muestrales n1, n2, ..., nK. 
Aunque existen distintos tipos de asignación en función del tamaño y varianza por estrato 
(véase referencias al final del tema), nos limitaremos aquí a la asignación proporcional, que es 
el procedimiento utilizado con mayor frecuencia. En la asignación proporcional, la muestra 
total se reparte entre los estratos de forma proporcional al tamaño de cada estrato en la población. 
Así, como la proporción poblacional en cada estrato es Nk/N, el tamaño muestral del estrato 
k-ésimo será
 9
estratos son mutuamente excluyentes y exhaustivos, de tal forma que cada elemento de 
la población pertenece a uno y sólo a uno de los estratos. Una vez determinados estos 
estratos, se selecciona por separado una muestra de cada estrato de tamaño n1, n2, ..., nK, 
respectivamente, cuya suma será igual al tamaño total n de la muestra. La selección 
dentro de cada estrato suele realizarse por muestreo aleatorio simple o sistemático, y el 
procedimiento se denomina entonces muestreo aleatorio estratificado.  
En el muestreo estratificado, es necesario determinar cómo se distribuye el tamaño 
muestral total n entre los distintos estratos; es decir, la asignación de los tamaños 
muestrales n1, n2, ..., nK. Aunque existen distintos tipos de asignación en función del 
tamaño y varianza por estrato (véase referencias al final del tema), nos limitaremos aquí 
a la asignación proporcional, que  el proc dimiento utiliza o con mayor frecuencia. 
En la asignación proporcional, la muestra total se reparte ntre los estratos de forma
r porcional al am ñ  de cad  estrato en la población. Así, omo la r porción 
poblacional en cada estrato es Nk/N, el t maño muestral del estrato k-ési o erá 
nk = n N
N k . 
Resulta inmediato probar que esta asignación da lugar a una muestra equiprobabilística. 
Ejemplo 4.4 La capacidad funcional de los ancianos disminuye en gran medida 
con la edad. Supongamos que, de los N = 875 ancianos institucionalizados, se 
sabe que el 60% tienen menos de 75 años (N1 = 525) y el restante 40% tienen 75 o 
más años (N2 = 350). Para simplificar la exposición, supongamos además que los 
ancianos menores de 75 años corresponden a los primeros 525 números de la lista. 
Así, de los n = 10 ancianos seleccionados por muestreo aleatorio simple en el 
Ejemplo 4.2, la mitad resultaron ser mayores de 75 años. Esto es, por simple 
variabilidad aleatoria, los mayores de 75 años están ligeramente 
Resulta inmediato probar que esta asignación da lugar a una muestra equiprobabilística.
Ejemplo 4.4 La capacidad funcional de los ancianos disminuye en gran medida con la 
edad. Supongamos que, de los N = 875 ancianos institucionalizados, se sabe que el 60% 
tienen enos de 75 años (N1 = 525) y el restante 40% tienen 75 o más años (N2 = 350). 
Para simplificar la exposición, supongamos además que los ancianos menores de 75 años 
corresponden a los pri eros 525 números de la lista. Así, de los n = 10 ancianos 
seleccionados por muestreo aleatorio simple en el Ejemplo 4.2, la mitad resultaron ser 
mayores de 75 años. Esto es, por simple variabilidad aleatoria, los mayores de 75 años 
están ligeramente sobrerrepresentados en la muestra y, en consecuencia, la capacidad 
funcional media obtenida de esta muestra podría infraestimar la verdadera capacidad 
funcional de los ancianos institucionalizados. Para asegurar una mejor representatividad 
muestral por edad, podría realizarse un muestreo estratificado con asignación proporcional 
a ambos estratos de edad. Es decir, de la muestra de tamaño n = 10, seleccionaríamos 6 
ancianos menores de 75 años (n1 = nN1/N = 10·0,6 = 6) y 4 mayores de 75 años (n2 = 
nN2/N = 10·0,4 = 4). Utilizando un muestreo aleatorio simple dentro de cada estrato, los 
6 números seleccionados entre 1 y 525 fueron 505, 493, 24, 402, 371 y 265, y los 4 
números seleccionados entre 526 y 875 fueron 851, 820, 717 y 696. La muestra estratificada 
proporcional estaría formada por los 10 ancianos correspondientes a dichos números. 
Cabe reseñar aquí dos características importantes del muestreo estratificado. Por un lado, la 
asignación proporcional es la única que produce muestras equiprobabilísticas y, en consecuencia, 
la media y proporción poblacional se estiman mediante la media y la proporción muestral. Para 
cualquier otra asignación, la estimación de parámetros poblacionales requiere de la inclusión de 
pesos para cada observación muestral (típicamente, el inverso de la probabilidad de selección). 
Por otra parte, para un mismo tamaño muestral, el muestreo estratificado facilita estimaciones 
ligeramente más precisas (con menor error) que el muestreo aleatorio simple. Este resultado es 
debido a que, cuanto más homogéneos sean los estratos, más precisas serán las estimaciones en 
dichos estratos y esto redundará en una mayor precisión de las estimaciones para toda la 
población.
46
Principios de muestreo y estimación 
Pastor-Barriuso R.
4.2.4 Muestreo por conglomerados
La aplicación de los diseños muestrales anteriores requiere de la enumeración u ordenación de 
todos los elementos de la población. Sin embargo, a menudo no se dispone de una lista completa 
o, aun disponiendo de tal lista, resulta muy costoso obtener información de las unidades 
muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria simple de 1000 individuos 
de una gran ciudad, los individuos seleccionados estarían muy dispersos y la recogida de 
información sería extraordinariamente laboriosa. En tales circunstancias, una alternativa 
consiste en clasificar a la población en grupos o conglomerados, para así seleccionar una 
muestra de estos conglomerados y después tomar a todas o a una parte de las unidades incluidas 
dentro de los conglomerados seleccionados. Este método de selección se denomina muestreo 
por conglomerados y presenta dos ventajas fundamentales:
 y Este muestreo es la única alternativa posible cuando no se dispone de una lista con todas 
las unidades de la población. En el muestreo por conglomerados, únicamente es necesario 
contar con listas de las unidades que integran los conglomerados seleccionados.
 y Aun cuando otras técnicas de muestreo sean posibles, con frecuencia el muestreo por 
conglomerados resulta más económico, ya que las unidades muestrales están concentradas 
en los conglomerados seleccionados.
Notar que, a diferencia de la estratificación, donde interesa que los estratos sean lo más 
homogéneos posible, los conglomerados deben ser heterogéneos: en cada conglomerado debe 
haber unidades representativas de toda la población, de lo contrario se perdería información al 
seleccionar únicamente algunos de ellos. El número de conglomerados es típicamente elevado, 
de los cuales suele seleccionarse un número relativamente pequeño para resolver el problema 
de la dispersión muestral.
Supongamos que se pretende extraer una muestra de tamaño n a partir de una población de 
N unidades agrupadas en M conglomerados de tamaños N1, N2, ..., NM. Entre los distintos 
métodos de selección por conglomerados, el muestreo por conglomerados con probabilidad 
proporcional a su tamaño resulta particularmente útil en la práctica. Para llevar a cabo este 
muestreo, se procede como sigue:
1. Ordenar arbitrariamente los conglomerados y calcular los tamaños acumulados. Estos 
tamaños acumulados delimitarán, para cada conglomerado, un rango de valores de 
amplitud igual a su tamaño poblacional.
2. Si se pretende seleccionar m conglomerados, extraer una muestra sistemática de tamaño m 
entre 1 y N. Los conglomerados seleccionados serán aquellos cuyo rango incluya alguno 
de los valores muestreados.
3. Dentro de cada conglomerado seleccionado, obtener una muestra aleatoria simple o 
sistemática de tamaño n/m. 
Ejemplo 4.5 Con cualquiera de las técnicas de muestreo utilizadas en los ejemplos 
anteriores, la muestra incluiría muy probablemente ancianos institucionalizados en 
múltiples residencias, con el consiguiente inconveniente en la recogida de información. 
Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en 
M = 15 residencias con los tamaños especificados en la Tabla 4.1. Para optimizar el 
trabajo de campo, se decide extraer la muestra de tamaño n = 10 a partir de m = 2 
residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus 
tamaños.
47
Principales tipos de muestreo probabilístico
Pastor-Barriuso R.
Tabla 4.1 Distribución del número de ancianos institucionalizados por 
residencia.
Residencia (i) Tamaño (Ni) Tamaño acumulado Rango asignado
1 50 50   1 – 50
2 30 80 51 – 80
3 35 115  81 – 115
4 70 185 116 – 185
5 55 240 186 – 240
6 45 285 241 – 285
7 125 410 286 – 410
8 80 490 411 – 490
9 20 510 491 – 510
10 100 610 511 – 610
11 65 675 611 – 675
12 35 710 676 – 710
13 40 750 711 – 750
14 75 825 751 – 825
15 50 875 826 – 875
En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamaño 
(Tabla 4.1). A continuación, se extrae una muestra sistemática de tamaño 2 entre 1 y 875: si el 
número de arranque resultó ser 316, los valores muestreados son 316 y 753 (ver apartado de 
muestreo sistemático). Así, como el valor 316 está incluido dentro del rango asignado a la residencia 
7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14.
Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias 
simples de tamaño n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados 
en la residencia 7, se seleccionaron los números 74, 23, 104, 111 y 57; y de los 75 ancianos de 
la residencia 14, los números 38, 51, 25, 34 y 41. En conclusión, la muestra total estará 
formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia número 7, 
más aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia número 14.
El muestreo por conglomerados con probabilidades proporcionales a sus tamaños facilita 
muestras equiprobabilísticas, así la media y la proporción poblacional pueden estimarse 
mediante sus correspondientes funciones muestrales. En general, para un tamaño muestral 
constante, la precisión de las estimaciones en un muestreo por conglomerados es menor que en 
un muestreo aleatorio simple. Las unidades de un mismo conglomerado suelen estar 
correlacionadas y, en consecuencia, aportan menos información que los elementos seleccionados 
de forma más dispersa mediante un muestreo aleatorio simple.
4.2.5 Muestreo polietápico
Los diseños muestrales empleados en la práctica se realizan combinando las técnicas descritas 
anteriormente. En muchas situaciones, resulta más apropiado obtener la muestra final en 
diferentes etapas o pasos. En un muestreo polietápico, la población se divide en grupos 
exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de primera 
etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de segunda etapa, y así 
sucesivamente, hasta llegar en una última etapa a los elementos o unidades de análisis. La 
selección de unidades en cada una de las etapas se realiza mediante una técnica de muestreo 
diferente y la muestra final será la resultante de aplicar sucesivamente cada una de estas técnicas. 
48
Principios de muestreo y estimación 
Pastor-Barriuso R.
Ejemplo 4.6 En el ejemplo anterior se seleccionaron 2 de las 15 residencias y, dentro de 
cada residencia seleccionada, se eligieron a su vez 5 ancianos para formar la muestra 
definitiva. Este procedimiento de selección es, de hecho, un muestreo bietápico: las 
residencias constituirían las unidades de muestreo de primera etapa y los ancianos serían 
las unidades de muestreo de segunda etapa.
Una técnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo 
estratificado polietápico. Bajo esta técnica, las unidades de primera etapa se clasifican en 
distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de 
primera etapa. La muestra final resultará de aplicar sucesivas etapas de muestreo dentro de las 
unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una 
mayor representatividad muestral al seleccionar unidades dentro de todos los estratos.
Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las 
residencias 4, 7, 8, 10 y 14 son públicas, con un total de 450 ancianos (51,4%), y las 
restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo 
4.5, las 2 residencias seleccionadas (7 y 14) fueron públicas; es decir, la muestra final no 
incluyó a ningún anciano institucionalizado en residencias privadas. Para garantizar la 
representatividad de los ancianos institucionalizados tanto en residencias públicas como 
privadas, bastaría con seleccionar una residencia de cada uno de estos estratos. En la 
Tabla 4.2, se muestran las 15 residencias reorganizadas según su carácter público o 
privado. Para las residencias públicas, se escogió aleatoriamente el número 20 entre 1 y 
450, resultando así seleccionada la residencia 4, cuyo rango incluye dicho número. Para 
las residencias privadas, se extrajo aleatoriamente el número 326 entre 1 y 425, resultando 
seleccionada la residencia 12. A continuación, se procedería a escoger aleatoriamente 5 
ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente 
el mismo tamaño, la muestra resultante sería equiprobabilística.
Apuntar, por último, que en la mayoría de los muestreos polietápicos el error muestral es 
sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlación 
entre los elementos que integran las unidades de primera etapa.
Tabla 4.2 Distribución del número de ancianos institucionalizados en 
residencias públicas y privadas.
Residencia (i) Tamaño (Ni) Tamaño acumulado Rango asignado
Pública
4 70 70   1 – 70
7 125 195   71 – 195
8 80 275 196 – 275
10 100 375 276 – 375
14 75 450 376 – 450
Privada
1 50 50   1 – 50
2 30 80 51 – 80
3 35 115   81 – 115
5 55 170 116 – 170
6 45 215 171 – 215
9 20 235 216 – 235
11 65 300 236 – 300
12 35 335 301 – 335
13 40 375 336 – 375
15 50 425 376 – 425
49
Estimación en el muestreo aleatorio simple 
Pastor-Barriuso R.
4.3 ESTIMACIÓN EN EL MUESTREO ALEATORIO SIMPLE 
Una vez descritas las principales técnicas de muestreo probabilístico, nos ocuparemos a 
continuación de la estimación de parámetros poblacionales. En adelante, se asume que la 
muestra se ha obtenido mediante un muestreo aleatorio simple a partir de una población de 
tamaño esencialmente infinito.
El cálculo del valor exacto de un parámetro poblacional requiere del conocimiento del 
valor de la variable objeto de estudio para todos y cada uno de los elementos de la población. 
Como se ha comentado anteriormente, en la mayoría de las ocasiones no se dispone de esta 
información, sino que se cuenta tan sólo con una muestra. A la función de los valores de una 
muestra que permite hacerse una idea acerca del valor del parámetro poblacional se le denomina 
estimador, y al resultado de aplicar dicha función a una determinada muestra se le llama 
estimación. Aún cuando el muestreo puede realizarse con múltiples propósitos, nos centraremos 
aquí en la estimación de una media y de una proporción poblacional.
4.3.1 Estimación puntual de una media poblacional
Supongamos que x1, x2, ..., xn son los valores obtenidos en una muestra de tamaño n para una 
variable con media poblacional μ y varianza σ 2 desconocidas. Un estimador natural de la media 
poblacional μ es la media muestral
 16
parámetro poblacional se le denomina estimador, y al resultado de aplicar dicha 
función a una determinada muestra se le llama estimación. Aún cuando el muestreo 
puede realizarse con múltiples propósitos, nos centraremos aquí en la estimación de una 
media y de una proporción poblacional. 
4.3.1 Estimación puntual de una media poblacional 
Supongamos que x1, x2, ..., xn son los valores obtenidos en una muestra de tamaño n 
para una variable con media poblacional μ y varianza σ 2 desconocidas. Un estimador 
natural de la media poblacional μ es la media muestral 

=
=
n
i
ix
n
x
1
1 . 
Esta media muestral quedará completamente determinada una vez obtenida la muestra, 
pero el valor de la estimación variará en función de la muestra seleccionada. Así, la 
media muestral puede considerarse como una variable aleatoria, cuyo valor dependerá 
de la muestra finalmente seleccionada sobre todas las posibles muestras de tamaño n de 
la población de referencia. A la distribución de los valores de x  sobre todas las posibles 
muestras del mismo tamaño se le denomina distribución muestral de x . Las razones 
teóricas que justifican la utilización de la media muestral como estimador de la media 
poblacional, frente a otros posibles estimadores, se basan en esta distribución muestral. 
A partir de los resultados del Apartado 3.4, el valor esperado de la distribución 
muestral de x  es 
E( x ) = 
==
=



 n
i
i
n
i
i xEn
x
n
E
11
)(11  = μ ; 
es decir, las medias muestrales de cualquier variable aleatoria están centradas alrededor 
de su verdadera media poblacional o, dicho de forma equivalente, las medias muestrales 
Esta media muestral quedará completamente determinada una vez obtenida la muestra, pero el 
valor de la estimación variará en función de la muestra seleccionada. Así, l media muestral 
puede considerarse como una variable aleatoria, cuyo valor dependerá de la muestra finalmente 
seleccionad  de entre todas las posibles muestras de tamaño n de la población de referencia. A 
la distribución de los valores de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritméti a 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 sobre todas las posibles muestr s del mismo tamaño se le 
denomina distribución mue tral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tende cia central inform n acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de f rma equivalente, estos estima ores indican 
alrededor de qué valor se agrupan los d tos observados. Las medidas de te dencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmétic  
La edia ari mética, denotad  por x , se define como la suma de ada uno de los 
valores muestrales dividida por el número d  bservaciones realizadas. Si denot mos
por n e  tamaño mu stral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la medi  vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
. Las razones teóricas que justifica  la utilización de la 
media uestral como estimador de la me ia poblacional, frente a otros posibles estimadores, se 
bas n en esta distribuc ó  muestral.
A partir de los resultados del Apartado 3.4, el valor esperado de la distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realiz r inferencias acerca de los parámetros poblacionales correspondientes. A 
c ntinuación se describ n los principales estimadores de la tendencia central de una 
vari bl . 
1.2.1 Media aritmética 
La me ia ritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 e
 16
parámetro poblacional se le denomina estimador, y al resultado de aplicar dicha 
función a una determinada muestra se le llama estimación. Aún cuando el muestreo 
puede realizarse con múltiples propósitos, nos centraremos aquí en la estimación de una 
media y de una proporción poblacional. 
4.3.1 Estimación puntual de una media poblacional 
Supongamos que x1, x2, ..., xn son los valores obtenidos en una muestra de tamaño n 
para una variable con media poblacional μ y varianza σ 2 desconocidas. Un estimador 
natural de la media pobl cional μ es la media muestral 

=
=
n
i
ix
n
x
1
1 . 
Esta media muestral quedará completamente determinada una vez obtenida la muestra, 
pero el valor de la estimación variará en función de la muestra seleccionada. Así, la 
media muestral puede considerarse como una variable aleatoria, cuyo valor dependerá 
de la muestra finalmente seleccionada sobre todas las posibles muestras de tamaño n de 
la población de referencia. A la distribución de los valores de x  sobre todas las posibles 
muestras del mismo tamaño se le denomina distribución muestral de x . Las razones 
teóricas que justifican la utilización de la media muestral como estimador de la media 
poblacional, frente a otros posibles estimadores, se basan en esta distribución muestral. 
A partir de los resultados del Apartado 3.4, el valor esperado de la distribución 
muestral de x  es 
E( x ) = 
==
=



 n
i
i
n
i
i xEn
x
n
E
11
)(11  = μ ; 
es decir, las medias muestrales de cualquier variable aleatoria están centradas alrededor 
de su verdadera media poblacional o, dicho de forma equivalente, las medias muestrales 
es decir, las medias muestrales de cualquier variable aleatoria están centradas alrededor de su 
verda ra media poblacional o, dicho de forma equivalente, las m dias muestrales no 
sobreestiman ni infraestiman sistemáticamente la media poblacional. En términos estadísticos, 
se dice entonces que 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTR L 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritméti  
La media aritmética, den tada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de te denci  central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extrem s y, en e te 
caso, puede no ser un fiel reflejo de la tenden ia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 e  un estimador centrado o insesgado de μ. La conveniencia de utilizar 
estimadores insesgados parece clara ya que, en caso contrario, las estimaciones del parámetro 
poblacional estarían sist máticamente sesgadas respecto a su verdadero valor. Otras medidas 
muestrales de tendencia central, como la mediana o la media geométrica, son en general 
estimadores sesgados de la media poblacional. 
Ejemplo 4.8 Supongamos que el grupo control del estudio EURAMIC constituye toda la 
población o universo a estudio, cuya media poblacional del colesterol HDL es μ = 1,09 mmol/l. 
50
Principios de muestreo y estimación 
Pastor-Barriuso R.
A partir de esta población, se obtienen 1000 muestras aleatorias simples de tamaño n = 10 
y, en cada una de ellas, se calcula la media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media ritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 del colester l HDL. El histograma 
de estas medias muestrales se representa en la Figura 4.1(a), que constituye una 
aproximación a la distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia cent al inf rman acerca de cuál es el valor más representativo 
de una det rminada variable o, dicho de forma equivalente, estos esti adores indican 
alrededor de qué valor s  agrupan los datos obs rvados. Las medidas de tendencia 
central d  la muestra sirven tanto para resumir los resultados obs rvados como para 
realizar inferencias acerca de los parámetros poblacion les corr spondientes. A 
continuación s  describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Medi  ar tmétic
La medi aritméti a, denotad  por x , se define c mo la suma de cada uno e los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el t año muest al y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es l  medida de tendencia central más utiliz a y de más fácil 
interpretación. Corresponde al “c ntro de gravedad” de los dat de la muestra. Su 
principal limitación es que está muy influenciada por los valores xtremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en lo sucesivos ejemplos sobre estimad res muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidan s, Myocardial Infarction and Ca cer of 
the Breast“ (EURAMIC), u estudio multicéntric  de casos y controles r alizad
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
. Como puede apreciarse, los valores 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medid s de tendencia central inform n acerca de cuál es el valor más representativo 
de una determina a variable o, dicho e forma equivalente, estos estimadores indican 
lrededor de qué va or se agrupan l  datos observados. Las medidas de tendencia 
central d  la mue tr  si en tant  para umir los resultados observados como para 
re lizar inferencias acerca e los parámetros poblacionales correspondientes. A 
continuación se d scriben los p incipales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media a itmética, d notada por x , se define como la suma de cada uno de los 
val res muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño m estral y por x  el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La med a es l  medida de tendencia central más utilizada y de más fácil 
interpr tación. Corre ponde al “centr  de gravedad” de los datos de la muestra. Su 
pr ncipal limitación es que está muy i fluenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejempl  1.4 En este y en los ucesivos ejemplos sobre estimadores muestrales, se 
utilizarán l s valores del olest r l HDL obtenidos en los 10 primeros sujetos del 
estudio “Eu opean Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), n estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 
difieren entre las distintas muestras, pero su distribución conjunta está centrada alrededor 
de la verd de a media poblac onal μ = 1,09 m ol/l (línea vertical n tr zo discontinuo). 
En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la 
media geométrica par  estas mismas muest as. Ambas distribuciones r les resentan 
un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero 
valor de 1,09 mmol/l.
Notar que el interés de este ejemplo es meramente académico ya que, en la práctica, se 
desconoce la verdadera media poblacional y se dispone de una única muestra.
 
Figura 4.1
 
0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5
0
5
10
15
20
25
Media muestral del colesterol HDL (mmol/l)
0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5
0
5
10
15
20
25
Mediana del colesterol HDL (mmol/l)
0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5
0
5
10
15
20
25
Media geométrica del colesterol HDL (mmol/l)
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
) e
n 
m
ue
st
ra
s 
de
 ta
m
añ
o 
10
(a)
(b)
(c)
Figura 4.1 Distribución muestral de la media aritmética (a), la mediana (b) y la media geométrica (c) del 
colesterol HDL en 1000 muestras aleatorias simples de tamaño n = 10 obtenidas a partir del grupo control 
del estudio EURAMIC.  La línea vertical en trazo discontinuo corresponde a la media poblacional μ = 1,09 
mmol/l de colesterol HDL.
51
Estimación en el muestreo aleatorio simple 
Pastor-Barriuso R.
4.3.2 Error estándar de la media muestral
Dado que la media muestral es un estimador insesgado de la media poblacional, todas las 
posibles medias muestrales estarán distribuidas alrededor de la media poblacional. No obstante, 
queda por determinar el grado de variabilidad o dispersión de estas medias muestrales alrededor 
de μ. La dispersión de las medias muestrales 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmé ica 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 de tamaño n vendrá determin  por la varianza 
de su distribución muestral, que es igual a
 18
4.3.2 Error estándar de la media muestral 
Dado que la media muestral es un estimador insesgado de la media poblacional, todas 
las posibles medias muestrales estarán distribuidas alrededor de la media poblacional. 
No obstante, queda por determinar el grado de variabilidad o dispersión de estas medias 
mu strales lrededor de μ. La dispersión de las m ias muestrales x  de tam ño n 
vendrá determ da por la v rianza de su distribución mu str l, qu  es igual a 
var( x ) = nxn
x
n
n
i
i
n
i
i
2
1
2
1
)var(11var σ==



 
==
 , 
dado que los distintos valores de la muestra son independientes (véase Apartado 3.4). 
Puede observarse que la variabilidad de las medias muestrales será tanto mayor cuanto 
mayor sea la varianza poblacional σ 2 de la variable a estudio. Por otra parte, esta 
variabilidad disminuye conforme aumenta el tamaño n de la muestra; es decir, al 
aumentar el tamaño muestral, las medias de las distintas muestras estarán más próximas 
a la verdadera media poblacional.  
Ejemplo 4.9 En las Figuras 4.2(a), (b) y (c) se presentan las medias del colesterol 
HDL en 1000 muestras aleatorias simples de tamaño n = 10, 25 y 100, 
respectivamente, obtenidas a partir de los controles del estudio EURAMIC. En 
estas gráficas se puede apreciar que, independientemente del tamaño muestral, las 
medias muestrales están centradas alrededor de la media poblacional de 1,09 
mmol/l. Sin embargo, al aumentar el tamaño muestral, se observa una 
disminución substancial de la variabilidad de las medias muestrales. Así, por 
ejemplo, la proporción de muestras con un nivel medio de colesterol HDL entre 
1,03 y 1,15 mmol/l es del 48,7% para n = 10, 69,1% para n = 25 y 95,4% para n = 
100. 
dado que los distintos valores de la muestra son independientes (véase Apartado 3.4). Puede 
observarse que la variabilidad de las medias muestral s será tanto mayor cu nto mayor sea la 
varianza poblacional σ 2 de la variable a estudio. Por otra parte, esta variabilidad disminuye 
conforme aumenta el tamaño n de l  muestra; s decir, al aumentar el amaño muestral, las 
medias de las distintas muestras estarán más próximas a la verdadera media poblacional. 
Ejemplo 4.9 En las Figuras 4.2(a), (b) y (c) se presentan las medias del colesterol HDL 
en 1000 uestras aleatorias simples de ta año n = 10, 25 y 100, respectivamente, 
obtenidas a partir de los controles del estudio EURAMIC. En estas gráficas se puede 
apreciar que, indep ndientemente del tamaño muestral, las medias muestrales están 
centradas alrededor de la media poblacional de 1,09 mmol/l. Sin embargo, al aumentar el 
tamaño muestral, se observa una dis inución substancial de la variabilidad de las medias 
muestrales. Así, por ejemplo, la proporción de muestras con un nivel medio de colesterol 
HDL entre 1,03 y 1,15 mmol/l es del 48,7% para n = 10, 69,1% para n = 25 y 95,4% para 
n = 100.
Aun cuando en la práctica carece de sentido tomar repetidas muestras, las propiedades de la 
distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas d  tend ncia central informan acerca de cuál es el valor más representativo 
de una determina a v riable o, dicho de forma equivalente, estos estimador s indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto par  resumir los resultados observados como para 
realizar inferencias acerca de los parámetros pobl cionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 pue n utilizarse para cuantificar el error cometido en la estimación a 
partir de una única muestra de tamaño n. La desviación estándar de la distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central i forman acerca de cuál es el valor más representativo 
de una et rmina a variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media a itmética 
La me ia ritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 e
 19
[Figura 4.2 aproximadamente aquí] 
Aun cuando en rácti a c rece de sentido tomar repetidas muestras, las 
propiedades de la distribución mu tra de x  puede  utilizarse para cua tificar el error 
co etido en la estimación a partir de una única muestra de tamaño n. La desviación 
estándar de la distribución muestral de x  es 
SE( x ) = 
n
x σ=)var( , 
que facilita un valor promedio de la distancia de las distintas medias muestrales de 
tamaño n respecto de la medida poblacional. Esta cantidad SE( x ) se conoce como 
error estándar de la media muestral y permite cuantificar el grado de incertidumbre en 
la estimación de una media a partir de una muestra de tamaño n. 
En la práctica, para poder calcular el error estándar, es necesario obtener 
previamente una estimación de la varianza poblacional σ 2 de la variable a estudio, dado 
qu  este parámetro es típicamente d sconocido. La varianza poblacional σ 2 puede 
estimarse a partir de la propia muestra mediante la varianza muestral 

=
−
−
=
n
i
i xxn
s
1
22 )(
1
1 . 
Puede probarse que la varianza muestral es un estimador insesgado de la varianza 
poblacional; es decir, el valor esperado de s2 sobre todas sobre todas las posibles 
muestras es E(s2) = σ 2. El error estándar de la media muestral se estima entonces como 
s/ n . Así, una vez seleccionada una muestra concreta, la media muestral x  facilitará 
una estimación insesgada de la media poblacional y el error de dicha estimación vendrá 
determinado por s/ n . 
que facilita un valor promedio de la distancia de las distintas medias muestrales de tamaño n 
respecto de l  medida poblacional. Esta cantidad SE(
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medida  de tendencia central informan acerca de cuál e  el valor ás representativo 
de u  det rmina a variabl  o, dicho de forma equivalent , estos estimadores indican 
al ededor d  qué val e agrupan los tos observados. Las medidas de tendencia 
central de la uestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, eno ad  por x , se define como la sum  de cada uno de los 
valor s mu strales dividida por el número de observaci es realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observ para el sujeto i-ésimo, i = 1, ..., n, 
la media vendrí  dada por  
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La medi  es la medid  de ten enc  ce tral más utilizada y d  más fácil 
interpretación. Corresponde l “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los ucesivos ejemp os s bre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
)  conoce como erro  estándar de la 
media muestral y permite cuantificar el grado de incertidu bre en la estimación de una media 
a partir de una muestra de tamaño n.
En la práctica, para poder calcular el error estándar, es necesario obtener previamente una 
estimación de la varianza poblacional σ 2 de la variable a estudio, dado que este parámetro es 
típicamente desconocido. La varianza poblacional σ 2 puede estimarse a partir de la propia 
muestra mediante la varianza muestral
 19
[Figura 4.2 aproximadamente aquí] 
Aun cuand  en la práctica carec  de sentido tomar epetidas muestras, las 
propiedades de la distribución muestral de x  pueden utilizarse p ra cuantificar el error 
cometido en la estimación a p rtir de una única muestra de tamaño n. La desviación 
estándar e la dist ibución muest al de x  es 
SE( x ) = 
n
x σ=)var( , 
que facilita un valor promedio de la distancia de las distintas medias muestrales de 
tamaño  respecto de la medida poblacional. Est  cantidad SE( x ) se cono e como 
e ror está dar de la medi  uestral y p rmite cuantific  el grado de incertidumbre en 
la estimación de una media a partir de una muestra de tamaño n. 
En l práctica, ara poder calcular el error están ar, es nec sari  obt ner 
previamente una estimació  de l  varianza poblacion l σ 2 de la variable  estudio, dado 
que este parámetro es típicamente desconocido. La varianza poblacional σ 2 puede 
estimarse a partir de la propia muestra mediante la varianza muestral 

=
−
−
=
n
i
i xxn
s
1
22 )(
1
1 .
Puede probarse que la varianza muestral es un estimador insesgado de la varianza 
poblacional; es decir, el valor esperado de s2 sobre todas sobre todas las posibles 
muestras es E(s2) = σ 2. El error estándar de la media muestral se estima entonces como 
s/ n . Así, una vez seleccionada una muestra concreta, la media muestral x  facilitará 
una estimación insesgada de la media poblacional y el error de dicha estimación vendrá 
determinado por s/ n . 
Puede probarse que la varianza muestral es un estimador insesgado de la varianza poblacional; 
es decir, el valo  esperado de s2 sobre todas la  posibles muestras es E(s2) = σ 2. El error estándar 
de la media muestral se estima entonces como 
 19
[Figura 4.2 aproximadamente aquí] 
Aun cuan o en la práctica carec  de sentido tomar repetidas muestras, las 
propiedades de la distribución muestral de x  pueden utilizarse para cuantificar el error 
cometido en la estimación a partir de una única muestra de tamaño n. La desviación 
estándar de la distribución muestral de x  es 
SE( x ) = 
n
x σ=)var( , 
que facilita un valor promedio de la distancia de las distintas medias muestrales de 
tamaño n respecto de la medida poblacional. Esta cantidad SE( x ) se conoce como 
error estándar de la media muestral y permite cuantificar el grado de incertidumbre en 
la estimación de una media a partir de una muestra de tamaño n. 
En la práctica, para poder calcular el error estándar, es necesario obtener 
previamente una estimación de la varianza poblacional σ 2 de la variable a estudio, dado 
que te parámetro es típicamente desconocido. La varianza poblacional σ 2 puede 
estimarse a partir de la propia muestra mediante la varianza muestral 

=
−
−
=
n
i
i xxn
s
1
22 )(
1
1 . 
Puede probarse que la varianza muestral es un sti ador insesgado de la varianza 
poblacional; es decir, el valor esperado de s2 sobre todas sobre todas las posibles 
muestras es E(s2) = σ 2. El error estándar de la media muestral se estima entonces como 
s/ n . Así, una vez seleccionada una muestra concreta, la media muestral x  facilitará 
una estimación insesgada de la media poblacional y el error de dicha estimación vendrá 
d ter inado por s/ n . . Así, una vez seleccionada una muestra 
concret , la media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medid s de tende cia central inform n acerca de c ál es el v lor más representativo 
de una determ nada variable o, dicho de form  equivalente, estos sti do es indican
alrededor e qué valor se agrupan los datos observados. Las medidas d  tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Me ia aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno e los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 facilitará una stimación insesg da de la media poblacional y el 
error de dicha estimación vendrá determinado por 
 19
[Figura 4.2 aproximadamente aquí] 
Aun c ando en la práctica carece de sentido tomar repetidas muestras, las 
propiedades de la distribución mu stral de x pueden utilizarse para cuantificar el error 
cometi o en la estimación a pa tir de una única muestra de tamaño n. La desviación 
estándar de la distribución muestral de x  es 
SE( x ) = 
n
x σ=)var( , 
que facilita un valor prome io de  dist ncia de las distintas medias muestrales de 
tamaño n respecto de la medida poblacional. Est  cantidad SE( x ) s  conoce como 
rror están r de la media muestral y permite cuan ificar el grado de incertidumbre en 
la estimación de un  media a parti de una muestra de tamaño n. 
En la práctica, para poder c lcular el error está dar, es neces o obtener 
previame te una tima ión de la varianza pobl cion l σ 2 de la vari ble a estudio, dado 
que e te parámetro es típic ente desconocido. La v rianza pobl cional σ 2 puede 
estimarse a partir de la propia muestra mediante la varianza muestral 

=
−
−
=
n
i
i xxn
s
1
22 )(
1
1 . 
Puede probarse que la rianza muestral es un es im dor insesgado de la varianza 
pobl cional; es decir, el val perado de s2 sobre toda  sobr todas las p sibles 
muestras s E(s2) = σ 2. El error estándar de la media muestral se estima entonces como 
s/ n . Así, un  vez s leccionada una mu stra concreta, la me ia muestral x  facilita  
un est m ción insesgada de la edia poblacional y el error de dicha estimación vendrá 
s/ n . .
52
Principios de muestreo y estimación 
Pastor-Barriuso R.
 
Figura 4.2
 
0,8 0,9 1 1,1 1,2 1,3 1,4
0
10
20
30
Media del colesterol HDL (mmol/l) en muestras de tamaño 10
0,8 0,9 1 1,1 1,2 1,3 1,4
0
10
20
30
Media del colesterol HDL (mmol/l) en muestras de tamaño 25
0,8 0,9 1 1,1 1,2 1,3 1,4
0
10
20
30
Media del colesterol HDL (mmol/l) en muestras de tamaño 100
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
(a)
(b)
(c)
Figura 4.2 Distribución muestral de la media del colesterol HDL en 1000 muestras aleatorias simples de 
tamaño n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La línea ver-
tical en trazo discontinuo corresponde a la media poblacional μ = 1,09 mmol/l de colesterol HDL.
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una 
muestra aleatoria simple de tamaño n = 10, cuyos valores de colesterol HDL son 1,45, 
1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media muestral es 
 20
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una 
muestra aleatoria simple de tamaño n = 10, cuyos valores de colesterol HDL son 
1,45, 1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media 
muestral es  
10
63,0...32,145,1
10
1 10
1
+++
== 
=i
ixx  = 1,13 mmol/l 
y la varianza muestral 
.(mmol/l) 12,0
9
)13,163,0(...)13,145,1(
)(
1
1
2
22
1
22
=
−++−
=
−
−
= 
=
n
i
i xxn
s
 
Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x  
= 1,13 mmol/l y su error estándar es 
SE( x ) = 
10
35,0
=
n
s  = 0,11 mmol/l. 
Notar que, en este ejemplo ilustrativo, el error de la estimación muestral es 
exactamente x  - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el 
error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, se 
emplea SE( x ) como estimación del error promedio que cabría esperar en 
similares circunstancias (esto es, en todas las posibles muestras del mismo tamaño 
obtenidas de la población de referencia). 
4.3.3 Teorema central del límite 
En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor 
esperado y la varianza de la distribución de las medias muestrales son μ y σ 2/n, 
respectivamente. No se ha analizado, sin embargo, el aspecto global de la distribución 
y la varianza muestral
 20
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una 
muestra aleatoria simple de tamaño n = 10, cuyos valores de colesterol HDL son 
1,45, 1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mol/l. La media 
muestral es  
10
63,0...32,145,1
10
1 10
1
+++
== 
=i
ixx  = 1,13 mmol/l 
y la varianza muestral 
.(mmol/l) 12,0
9
)13,163,0(...)13,145,1(
)(
1
1
2
22
1
22
=
−++−
=
−
−
= 
=
n
i
i xxn
s
 
Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x  
= 1,13 mmol/l y su error estándar es 
SE( x ) = 
10
35,0
=
n
s  = 0,11 mmol/l. 
Notar que, en este ejemplo ilustrativo, el error de la estimación muestral es 
exactamente x  - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el 
error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, se 
emplea SE( x ) como estimación del error promedio que cabría esperar en 
similares circunstancias (esto es, en todas las posibles muestras del mismo tamaño 
obtenidas de la población de referencia). 
4.3.3 Teorema central del límite 
En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor 
esperado y la varianza de la distribución de las medias muestrales son μ y σ 2/n, 
respectivamente. No se ha analizado, sin embargo, el aspecto global de la distribución 
53
Estimación en el muestreo aleatorio simple 
Pastor-Barriuso R.
Por tanto, la estimación puntual de la media poblacional del colesterol HDL es 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media ritmética, d notada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,13 
mmol/l y su error estándar es
 20
Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una 
muestra aleatoria simple de tamaño n = 10, cuyos valores de colesterol HDL son 
1,45, 1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media 
muestral es  
10
63,0...32,145,1
10
1 10
1
+++
== 
=i
ixx  = 1,13 mmol/l 
y la varianza muestral 
.(mmol/l) 12,0
9
)13,163,0(...)13,145,1(
)(
1
1
2
22
1
22
=
−++−
=
−
−
= 
=
n
i
i xxn
s
 
Por tanto, la estimación puntual de la media poblacional del colesterol HDL es x  
= 1,13 mmol/l y su error estándar s 
SE( x ) = 
10
35,0
=
n
s  = 0,11 mmol/l. 
Notar que, en este ejemplo ilustrativo, el error de la estimación muestral es 
exactamente x  - μ = 1,13 - 1,09 = 0,04 mmol/l. En la práctica, sin embargo, el 
error exacto no puede calcularse ya que μ es desconocido y, en consecuencia, se 
emplea SE( x ) como estimación del error promedio que cabría esperar en 
similares circunstancias (esto es, en todas las posibles muestras del mismo tamaño 
obtenidas de la población de referencia). 
4.3.3 Teorema central del límite 
En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor 
esperado y la varianza de la distribución de las medias muestrales son μ y σ 2/n, 
respectivamente. No se ha analizado, sin embargo, el aspecto global de la distribución 
Notar que, en este ejemplo ilustrativo, el error de la estimación muestral es exactamente 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 – μ = 1,13 – 1,09 = 0,04 mmol/l. En la p áctica, sin e bargo, el rror exacto no puede 
calcularse ya que μ es desconocido y, en consecuencia, se emplea SE(
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven t nto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M dia aritmética 
La media aritmétic d notada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
) como estimación 
del ror promedio qu  cabría esperar en similares circunstancias (esto es, en todas las 
posibles muestras del mismo tamaño obtenida  de la población de referencia).
4.3.3 Teorema central del límite
En los apartados anteriores se ha probado que, para cualquier variable aleatoria, el valor esperado y 
la varianza de la distribución de las medias muestrales son μ y σ2/n, respectivamente. N  se ha 
analizado, sin embargo, el aspecto global de la distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar infere cias acerca de los p rámetro  poblac onales correspondientes. A 
continuación se describen los pri cipal s estim dores de la te dencia central de u a 
variable. 
1.2.1 M di  ritmét ca 
La me ia aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media v ndrí  dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
. R tomando el ejemplo 
de la distribución muestral de las medias de colesterol HDL (Figura 4.2), puede observarse que la 
forma de esta distribución tiende a apr ximars  a una stribución normal conforme aumenta el
tamaño muestral. Esta característica puede resultar intuitivamente lógica, ya que la distribución 
subyacente del colesterol HDL en la población presenta un spect  aproximadamente nor l (ver 
Figura 1.2 del Tema 1). Dado que muchas de las variables utilizadas en la práctica no presentan una 
distribución poblacional normal, c bría pregu tarse si esta tendencia a la normalidad de la 
distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central infor an ac r  de cuál s el valor más rep esentativ  
de una etermina a variable , dicho de fo ma equivalent , estos e timadores i dican 
alrededor de qué valor se ag upan los dato  observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tende ia central de una 
variable. 
1.2.1 Media aritmética 
La media arit ética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” d  los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en st  
caso, puede no ser un fiel reflejo de la tendencia central e la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 se mantiene para cualquier tipo e variable aleatoria.
Ejemplo 4.11 E  la Figura 4.3 se muestra la distribución de los niveles de b-caroteno en
tejido adiposo en el grupo control d l estudio EURAMIC, que presenta una distribución 
marcadamente asimétrica con una media de μ = 0,37 mg/g. Las Figuras 4.4(a), (b) y (c) 
 Figura 4.3
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2
0
50
100
150
200
250
Fr
ec
ue
nc
ia
 a
bs
ol
ut
a
β-caroteno (μg/g)
Figura 4.3 Distribución de frecuencias del nivel de β-caroteno en el grupo control del estudio EURAMIC.
54
Principios de muestreo y estimación 
Pastor-Barriuso R.
 
Figura 4.4
 
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0
10
20
30
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0
10
20
30
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0
10
20
30
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
(a)
(b)
(c)
Media de β-caroteno (μg/g) en muestras de tamaño 10
Media de β-caroteno (μg/g) en muestras de tamaño 25
Media de β-caroteno (μg/g) en muestras de tamaño 100
Figura 4.4 Distribución muestral de la media de β-caroteno en 1000 muestras aleatorias simples de tamaño 
n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La línea vertical en 
trazo discontinuo corresponde a la media poblacional μ = 0,37 μg/g de β-caroteno.
representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamaño n = 
10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC. 
En estas gráficas puede observarse, de forma empírica, las siguientes propiedades:
 — Ausencia de sesgo: para cualquier tamaño muestral, el promedio de las medias 
muestrales es similar a la media poblacional.
 — Disminución del error estándar: al aumentar el tamaño muestral, disminuye la 
variabilidad en la distribución de las medias.
 — Aproximación a la distribución normal: al aumentar el tamaño muestral, la distribución 
de las medias se aproxima a una distribución normal centrada en la media poblacional.
En los ejemplos anteriores, se ha comprobado de forma empírica que, independientemente de 
la forma de la variable aleatoria en la población, la distribución de las medias muestrales tiende a 
55
Estimación en el muestreo aleatorio simple 
Pastor-Barriuso R.
seguir una distribución normal, particularmente cuando aumenta el tamaño de la muestra. Uno de 
los principales resultados en estadística, conocido como teorema central del límite, formaliza 
esta intuición: para cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las 
medias en muestras aleatorias simples de tamaño n se aproxima, al aumentar el tamaño muestral, 
a una distribución normal con media μ y varianza σ 2/n; es decir, al aumentar n,
 22
[Figura 4.4 aproximadamente aquí] 
En los ejemplos anteriores, se ha comprobado de forma empírica que, 
independientemente de la forma de la variable aleatoria en la población, la distribución 
de las medias muestrales tiende a seguir una distribución normal, particularmente 
cuando aumenta el tamaño de la muestra. Uno de los principales resultados en 
estadística, conocido como teorema central del límite, formaliza esta intuición: para 
cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias 
en muestras aleatorias simples de tamaño n se aproxima, al aumentar el tamaño 
muestral, a una distribución normal con media μ y varianza σ 2/n; es decir, al aumentar 
n, 




→
n
Nx
2
,~ σμ , 
donde el símbolo →~  significa “distribuirse aproximadamente como”. Así, aun cuando 
la distribución de una variable en la población diste mucho de ser normal, el teorema 
central del límite permite utilizar la distribución normal como aproximación a la 
distribución de x  si el tamaño muestral es suficientemente grande. Aunque el tamaño 
muestral necesario variará en función de la variable objeto de estudio, esta 
aproximación será razonablemente precisa siempre que n sea superior a 50. 
Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del 
estudio EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema 
central del límite, la distribución de las medias en muestras de tamaño n = 100 
será aproximadamente normal con media μ = 1,09 mmol/l y varianza σ 2/n = 
0,086/100 = 0,00086 (mmol/l)2, 
donde el símbolo 
 22
[Figura 4.4 aproximadamente aquí] 
En los ejemplos anteriores, se ha comprobado de forma empírica que, 
independientemente de la forma de la variable aleatoria en la población, la distribución 
de las medias muestrales tiende a seguir una distribución normal, particularmente 
cuando aumenta el tamaño de la muestra. Uno de los principales resultados en 
estadística, conocido como teorema central del límite, formaliza esta intuición: para 
cualquier variable aleatoria X con media μ y varianza σ 2, la distribución de las medias 
en muestras aleatorias simples de tamaño n se aproxima, al aumentar el tamaño 
muestral, a una distribución normal con media μ y varianza σ 2/n; es decir, al aumentar 
n, 




→
n
Nx
2
,~ σμ , 
donde el sí l  →~  significa “distribuirse aproximadamente como”. Así, aun cuando 
la distribución de una variable en la población diste mucho de ser normal, el teorema 
central del límite permite utilizar la distribución normal como aproximación a la 
distribución de x  si el tamaño muestral es suficientemente grande. Aunque el tamaño 
muestral necesario variará en función de la variable objeto de estudio, esta 
aproximación será razonablemente precisa siempre que n sea superior a 50. 
Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del 
estudio EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema 
central del límite, la distribución de las medias en muestras de tamaño n = 100 
será aproximadamente normal con media μ = 1,09 mmol/l y varianza σ 2/n = 
0,086/100 = 0,00086 (mmol/l)2, 
 si ifi  “distribuirse aproximadamente como”. Así, aun cuando la 
distribución de una variable en la población diste mucho de ser n r al, el teorema central del 
límite permite utilizar la d stribución normal como aproximación a la distribución de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable , dich de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M dia aritmética 
La medi  aritmética, deno ada por x , se define como la suma de cada uno de los 
valores uest ales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño m estral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la m dia vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 si el 
tamaño muestral es suficientemente grande. Aunque el tamaño muestral necesario variará en 
función de la variabl  objeto de estudio, esta aproximación será r zonablemente precisa sie p e
que n sea superior a 50.
Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del estudio 
EURAMIC son μ = 1,09 mmol/l y σ 2 = 0,086 (mmol/l)2. Por el teorema central del límite, 
la distribución de las medias en muestras de tamaño n = 100 será aproximadamente 
normal con media μ = 1,09 mmol/l y varianza σ 2/n = 0,086/100 = 0,00086 (mmol/l)2,
 23
x  →~  N(1,09, 0,00086). 
Así, por ejemplo, la probabilidad de que la media de colestero  HDL en una 
muestra de tamaño n = 100 esté comprendida e re 1,03 y 1,15 mmol/l puede 
calcularse como 
 P(1,03 ≤ x  ≤ 1,15) = 



 −≤−≤−
029,0
09,115,1
029,0
09,1
029,0
09,103,1 xP  
  = P(-2,05 ≤ Z ≤ 2,05) 
  = 2 Φ(2,05) - 1 = 0,9596. 
En el Ejemplo 4.9 se comprobó empíricamente que la proporción de muestras de 
tamaño n = 100 con un nivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es 
del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la 
aproximación normal.  
Como se mostrará en los siguientes temas, el teorema central del límite constituye la 
base fundamental del proceso de inferencia estadística, dado que posibilita tanto la 
construcción de intervalos de confianza como el contraste de hipótesis acerca de la 
media poblacional μ. 
4.3.4 Estimación de una proporción poblacional 
Supongamos que el interés del estudio se centra en estimar la proporción π de 
individuos o elementos de la población que cumplen una determinada característica. En 
tal caso, resulta conveniente definir una variable aleatoria X que toma el valor 1 en los 
individuos que presentan dicha característica y 0 en quienes no la presentan. La media 
poblacional de esta variable aleatoria discreta es 
μ = 
=
=
1
0
)( 
k
kXPk  = π 
Así, por ejemplo, la probabilidad de que la media de colesterol HDL en una muestra de 
tamañ  n = 100 esté compren ida entre 1,03 y 1,15 mmol/l puede calcularse como
 23
x  →~ N(1,09, 0,00086). 
Así, por ejemplo, la probabilidad de que la media de colesterol HDL en una 
muestra de tamaño n = 100 esté comprendida entre 1,03 y 1,15 mmol/l puede 
calcularse com  
 P(1,03 ≤ x  ≤ 1,15) = 



 −≤−≤−
029,0
09,115,1
029,0
09,1
029,0
09,103,1 xP  
  = P( 2,05 ≤ Z ≤ 2,05) 
  = 2 Φ(2,05)  1 = 0,9596. 
En el Ejemplo 4.9 se comprobó empíricamente que la proporción de muestras de 
tamaño n = 100 con un nivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es 
del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la 
aproximación normal.  
Como se mostrará en los siguientes temas, el te rema central del límite constituye la 
base fundamental del proceso de inferencia estadística, dado que posibilita tanto la 
construcción de intervalos de confianza como el contraste de hipótesis acerca de la 
media poblacional μ. 
4.3.4 Estimación de una proporción poblacional 
Supongamos que el interés del estudio se centra en estimar la proporción π de 
individuos o elementos de la población que cumplen una determinada característica. En 
tal caso, resulta conveniente definir una variable aleatoria X que toma el valor 1 en los 
individuos que presentan dicha característica y 0 en quienes no la presentan. La media 
poblacional de esta variable aleatoria discreta es 
μ = 
=
=
1
0
)( 
k
kXPk  = π 
−
−
En el Ejemplo 4.9 se comprobó empíricamente que la proporción de muestras de tamaño 
n = 100 con un nivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es del 95,4%, que 
coincide casi perfectamente con el resultado obtenido bajo la aproximación normal. 
Como se mostrará en los sigui ntes temas, el teo ema central del límite constituye la base 
fundamental del proceso de inferencia estadística, dado que posibilita tanto la construcción de 
intervalos de confianza como l contrast  de hipótesis acerca de la media p bl cional μ.
4.3.4 Estimación de una proporción poblacional
Supongamos que el interés del estudio se centra en estimar la proporción π de individuos o 
elementos de la población que cumplen una determinada característica. En tal caso, resulta 
conveniente definir una variable aleatoria X que toma el valor 1 en los individuos que presentan 
dicha característica y 0 en quienes no la presentan. La media poblacional de esta variable 
aleatoria discreta es
 23
x  →~  N(1,09, 0,00086). 
Así, por ejemplo, la probabilidad de que la media de colesterol HDL en una 
muestra de tamaño n = 100 esté comprendida entre 1,03 y 1,15 mmol/l puede 
calcularse como 
 P(1,03 ≤ x  ≤ 1,15) = 



 −≤−≤−
0290
09,115,1
029,0
09,1
029,0
09,103,1 xP  
  = P(-2,05 ≤ Z ≤ 2,05) 
  = 2 Φ(2,05) - 1 = 0,9596. 
En el Ejemplo 4.9 se comprobó empíricamente que la proporción de muestras de 
tamaño n = 100 con un nivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es 
del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la 
aproximación nor al.  
Como se mostrará en los siguientes temas, el teorema central del límite constituye la 
base fundamental del proceso de inferencia estadística, dado que posibilita tanto la 
construcción de intervalos de confianza como el contraste de hipótesis acerca de la 
media poblacional μ. 
4.3.4 Estimación de una proporción poblacional 
Supongamos que el interés del estudio se centra en estimar la proporción π de 
individuos o elementos de la población que cumplen una determinada característica. En 
tal caso, resulta conveniente definir una variable aleatoria X que toma el valor 1 en los 
individuos que presentan dicha característica y 0 en quienes no la presentan. La media 
pobl cional de esta variable aleatoria disc ta es 
μ  = 
=
=
1
0
)( 
k
kXPk  = π  
56
Principios de muestreo y estimación 
Pastor-Barriuso R.
y su varianza
 24
y su varianza 
 σ 2 = 
=
=−
1
0
2 )()(
k
kXPk π  
  = π2(1  π) + (1  π)2π  = π (1  π). 
Si se selecciona una muestra aleatoria simple de tamaño n, en la cual k individuos 
presentan la característica de interés (xi = 1) y los restantes n - k individuos no la 
presentan (xi = 0), el estimador natural de la proporción poblacional es la proporción 
muestral  
xx
nn
kp
n
i
i === 
=1
1 . 
A partir de esta notación, es evidente que una proporción muestral es un caso 
particular de una media muestral para una variable dicotómica con la codificación arriba 
indicada. Así, el teorema central del límite puede aplicarse a la forma particular de esta 
variable X para obtener el siguiente resultado: la distribución muestral de una 
proporción p se aproxima, al aumentar el tamaño muestral, a una distribución normal 
con media π y varianza π(1 - π)/n, 


 −
→
n
Np )1(,~ πππ . 
En consecuencia, pueden extraerse las siguientes propiedades de una proporción 
muestral: 
• La proporción muestral p es un estimador insesgado de la proporción poblacional 
π; es decir,  E(p) = π. 
− − −
Si se selecciona una muestra aleatoria simple de tamaño n, en la cual k individuos presentan 
la característica de interés (xi = 1) y los restantes n – k individuos no la presentan (xi = 0), el 
estimador natural de la proporción poblacional es la proporción muestral 
 24
y su varianza 
 σ 2 = 
=
=−
1
0
2 )()(
k
kXPk π  
  = π2(1 - π) + (1 - π)2π = π(1 - π). 
Si se selecciona una muestra aleatoria simple de tamaño n, en la cual k individuos 
presentan la característica de interés (xi = 1) y los restantes n - k individuos no la 
presentan (xi = 0), el estimador natural de la proporción poblacional es la proporción 
muestral  
xx
nn
kp
n
i
i === 
=1
1 . 
A partir de esta notación, es evidente que una proporción muestral es un caso 
particular de una media muestral para una variable dicotómica con la codificación arriba 
indicada. Así, el teorema central del límite puede aplicarse a la forma particular de esta 
variable X para obtener el siguiente resultado: la distribución muestral de una 
proporción p se aproxima, al aumentar el tamaño muestral, a una distribución normal 
con media π y varianza π(1 - π)/n, 


 −
→
n
Np )1(,~ πππ . 
En consecuencia, pueden extraerse las siguientes propiedades de una proporción 
muestral: 
• La proporción muestral p es un estimador insesgado de la proporción poblacional 
π; es decir,  E(p) = π. 
A partir de esta notación, es evidente que una proporción muestral es un caso particular de una 
media muestral para una variable dicotómica con la codificación arriba indicada. Así, el teorema 
central del límite puede aplicarse a la forma particular de esta variable X para obtener el siguiente 
resultado: la distribución muestral de una proporción p se aproxima, al aumentar el tamaño 
muestral, a una distribución normal con media π y varianza π(1 – π)/n,
 24
y su varianza 
 σ 2 = 
=
=−
1
0
2 )()(
k
kXPk π  
  = π2(1 - π) + (1 - π)2π = π(1 - π). 
Si se selecciona una muestra aleatoria simple de tamaño n, en la cual k individuos 
presentan la característica de interés (xi = 1) y los restantes n - k individuos no la 
presentan (xi = 0), el estimador natural de la proporción poblacional es la proporción 
muestral  
xx
nn
kp
n
i
i === 
=1
1 . 
A partir de esta notación, es evidente que una proporción muestral es un caso 
particular de una media muestral para una variable dicotómica con la codificación arriba 
indicada. Así, el teorema central del límite puede aplicarse a la forma particular de esta 
variable X para obtener el siguiente resultado: la distribución muestral de una 
proporción p se aproxima, al aumentar el tamaño muestral, a una distribución normal 
con media π y varianza π(1 - π)/n, 


 −
→
n
Np )1(,~ πππ . 
En consecuencia, pueden extraerse las siguientes propiedades de una proporción 
muestral: 
• La proporción muestral p es un estimador insesgado de la proporción poblacional 
π; es decir,  E(p) = π. 
En consecue cia, pueden extr erse las siguientes propiedades de una propor muestral:
 y La proporción muestral p es un estimador insesgado de la proporción poblacional π; es 
decir,  E(p) = π.
 y La varianza muestral de p viene determinada por π(1 – π)/n; así, al aumentar el tamaño 
muestral, las proporciones muestrales estarán más próximas a la verdadera proporción 
p blacio al. 
 y Al aumentar el tamaño muestral, la distribución de las proporciones muestrales tiende a 
aproximarse a una distribución normal. Esta aproximación es suficientemente precisa si 
nπ(1 – π) ≥ 5. 
Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de fumadores 
actuales en 1000 muestras aleatorias imples de tamaño n = 10, 25 y 100, respectivamente, 
obtenidas a partir del grupo control del estudio EURAMIC, donde la proporción de fumadores 
actuales es π = 0,37. Para cualquier tamaño n de la muestra, las proporciones muestrales están 
distribuidas alrededor de la proporción poblacional (ausencia de sesgo). Al aumentar n, la 
distribución muestral de la proporción de fumadores actuales presenta una menor variabilidad 
y se aproxima a una distribución normal centrada en la proporción poblacional π = 0,37.
A partir de las propiedades anteriores se deduce que, para una muestra aleatoria de tamaño n, 
la proporción muestral p es un estimador insesgado de la proporción poblacional π y su error 
estándar viene determinado por la raíz cuadrada de la varianza muestral de p,
 25
• La varianza muestral de p viene determinada por π(1 - π)/n; así, al aumentar el 
tamaño muestral, las proporciones muestrales estarán más próximas a la verdadera 
proporción poblacional.  
• Al aumentar el tamaño muestral, la distribución de las proporciones muestrales 
tiende a aproximarse a una distribución normal. Esta aproximación es 
suficientemente precisa si nπ(1 - π) ≥ 5.  
Ej mplo 4.13 En las Figuras 4.5(a), (b) y (c) se pres nt n las proporciones de 
fumadores actuales en 1000 muestr s aleatorias imples de tam ño n = 10, 25 y 
100, respectivamente, obtenidas a partir del grupo control del estudio EURAMIC, 
donde la proporción de fumadores actuales es π = 0,37. Para cualquier tamaño n 
de la muestra, las proporciones muestrales están distribuidas alrededor de la 
poblacional (a sencia de sesgo). Al aum ntar n, la distribución 
muestral de la proporción de fumadores actuales presenta una menor variabilidad 
y se aproxima a una distribución normal centrada en la proporción poblaci nal π 
= 0,37. 
[Figura 4.5 aproximadamente aquí] 
A p rtir d  las propied des anteriores se d uce q , p ra una muestra aleatoria de 
ta año n, la proporción muestral p es un estimador insesgado de la proporción 
poblacional π y su error estándar viene determinado por la raíz cuadrada de la varianza 
muestral de p, 
SE(p) = 
n
p )1()var( ππ −= , 
que puede estimarse a partir de la propia muestra mediante npp /)1( − . 
que puede estimarse a partir de la propia muestra mediante 
 25
• La varianza muestral de p viene determinada por π(1 - π)/n; así, al aumentar el 
tamaño muestral, las proporciones muestrales estarán más próximas a la verdadera 
proporción poblacional.  
• Al aumentar el tamaño muestral, la distribución de las proporciones muestrales 
tiende a aprox ma se a una distribución ormal. Esta aproximación es 
suficientemente precisa si nπ(1 - π) ≥ 5.  
Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de 
fumadores actuales en 1000 muestras aleatorias simples de tamaño n = 10, 25 y 
100, respectiva ente, obtenidas a partir del grupo control del estudio EURAMIC, 
donde la proporción de fumadores actuales es π = 0,37. Para cualquier tamaño n 
de la muestra, las proporciones muestrales están distribuidas alrededor de la 
proporción poblacional (ausencia de sesgo). Al aumentar n, la distribución 
muestral de la proporción de fumadores actuales presenta una menor variabilidad 
y se aproxima a una distribución normal centrada en la proporción poblacional π 
= 0,37. 
[Figura 4.5 aproximadamente aquí] 
A partir de las propiedades anteriores se deduce que, para una muestra aleatoria de 
tamaño n, la proporción muestral p es un estimador insesgado de la proporción 
poblacional π y su error estándar viene determinado por la raíz cuadrada de la varianza 
muestral de p, 
SE(p) = 
n
p )1()var( ππ −= , 
  ti r   ti   l     npp /)1( − . .
57
Estimación en el muestreo aleatorio simple 
Pastor-Barriuso R.
 
Figura 4.5
 
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
0
10
20
30
Proporción de fumadores actuales en muestras de tamaño 10
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
0
10
20
30
Proporción de fumadores actuales en muestras de tamaño 25
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
0
10
20
30
Proporción de fumadores actuales en muestras de tamaño 100
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
(a)
(b)
(c)
Figura 4.5 Distribución muestral de la proporción de fumadores actuales en 1000 muestras aleatorias 
simples de tamaño n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La 
línea vertical en trazo discontinuo corresponde a la proporción poblacional de fumadores actuales π = 0,37.
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio 
EURAMIC, se obtuvieron k = 35 fumadores actuales. La estimación puntual de la 
proporción de fumadores actuales es 
 26
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del 
estudio EURAMIC, se obtuvieron k = 35 fumadores actuales. La estimación 
puntual de la proporción de fumadores actuales es  
100
35
==
n
kp  = 0,35, 
y su error estándar es 
SE(p) = 
100
)35,01(35,0)1( −
=
−
n
pp  = 0,05, 
que corresponde al error promedio que cabría esperar entre todas las posibles 
muestras de tamaño 100 de la población a estudio. 
En este apartado se ha discutido la estimación puntual de una proporción poblacional 
π y su correspondiente error estándar. No obstante, no se ha hecho un uso práctico de la 
aproximación normal a la distribución muestral de p. Esta aproximación se retomará 
más adelante para obtener intervalos de confianza y pruebas de hipótesis sobre la 
proporción poblacional π (véase Tema 7). 
4.4 REFERENCIAS 
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Englewood Cliffs, NJ: Prentice Hall, 1977. 
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: 
Brooks/Cole, 2001. 
3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & 
Sons, 1977. 
4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995. 
y su error estándar es
 26
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del 
estudio EURAMIC, se obtuvieron k = 35 fum dores actuales. La estimación 
puntual de la proporción de fumadores act ales es  
100
35
==
n
kp  = 0,35, 
y su error estándar es 
SE(p) = 
100
)35,01(35,0)1( −
=
−
n
pp  = 0,05, 
que corresponde al error promedio que cabría esperar entre todas las posibles 
muestras de tamaño 100 de la población  estudio. 
En este apartado se ha discutido la estimación puntual de una proporción poblacional 
π y su correspondiente error estándar. No obstante, no se ha hecho un uso práctico de la 
aproximación normal a la distribución muestral de p. Esta aproximación se retomará 
más adelante para obtener intervalos de confi nza y prueb s de hipótesis sobre la 
proporción poblacional π (véase Tema 7). 
4.4 REFERENCIAS 
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Engl wood Cliffs, NJ: Prentice Hall, 1977. 
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: 
Brooks/Cole, 2001. 
3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & 
S ns, 1977. 
4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995. 
que corresponde al error promedio que cabría esperar entre todas las posibles muestras de 
tamaño 100 de la población a studio.
58
Principios de muestreo y estimación 
Pastor-Barriuso R.
En este apartado se ha discutido la estimación puntual de una proporción poblacional π y su 
correspondiente error estándar. No obstante, no se ha hecho un uso práctico de la aproximación 
normal a la distribución muestral de p. Esta aproximación se retomará más adelante para obtener 
intervalos de confianza y pruebas de hipótesis sobre la proporción poblacional π (véase Tema 7).
4.4 REFERENCIAS
 1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Englewood Cliffs, NJ: Prentice Hall, 1977.
 2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001.
 3.  Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
 4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995.
 5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer 
Verlag, 1998.
 6. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third 
Edition. New York: John Wiley & Sons, 1999.
 7. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
 8. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley 
& Sons, 1980.
 9. Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación 
Sanitaria. Madrid: Díaz de Santos, 2000.
10. Stuart A, Ord JK. Kendall’s Advanced Theory of Statistics, Volume 1, Distribution Theory, 
Sixth Edition. London: Edward Arnold, 1994.
59Pastor-Barriuso R.
TEMA 5
INFERENCIA ESTADÍSTICA
5.1 INTRODUCCIÓN
La teoría del muestreo aporta diversos métodos formales para seleccionar muestras a partir de 
una determinada población. La información obtenida de dichas muestras puede resumirse 
utilizando técnicas de estadística descriptiva. Sin embargo, cuando se trabaja con una muestra, 
rara vez nos interesa la muestra como tal, sino que ésta interesa por su capacidad para aportar 
información con respecto a otros sujetos o a otras situaciones.
En los estudios descriptivos, el interés radica en seleccionar una muestra representativa de la 
población de referencia, o dicho más concretamente, la muestra ha de presentar el mismo grado 
de diversidad que la población respecto al parámetro o característica objeto de estudio. Las 
técnicas de muestreo probabilístico descritas en el tema anterior facilitan muestras que serán 
muy probablemente representativas de la población si el tamaño muestral es suficientemente 
grande. De esta forma, los resultados de la muestra podrán inferirse a toda población con un 
grado razonable de certidumbre. 
Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene información de una muestra 
representativa a nivel provincial o nacional. Esta muestra interesa por la información que 
aporta sobre toda la población. En este caso, la representatividad de la muestra es determinante 
para la validez de las conclusiones derivadas del proceso inferencial.
En los estudios epidemiológicos analíticos, los resultados son interesantes porque pueden 
aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseño es asegurar 
la comparabilidad o semejanza de los grupos de estudio, más que la representatividad poblacional 
de la muestra. En los ensayos clínicos randomizados, los sujetos se asignan a los distintos grupos 
de tratamiento mediante algún mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio 
simple). Así, si el tamaño muestral es grande, las características basales de los sujetos asignados a 
los distintos grupos serán muy similares. En consecuencia, las diferencias observadas entre estos 
grupos a lo largo del seguimiento podrán atribuirse al tratamiento objeto de estudio.
Ejemplo 5.2 El primer ensayo clínico publicado sobre el papel de la aspirina en la 
prevención primaria de enfermedades cardiovasculares se realizó en médicos americanos 
participantes en el “Physicians’ Health Study”, seleccionados además por otras 
características de salud. En este caso, los sujetos a estudio no son representativos de la 
población a la que se aplicarán posteriormente los resultados (población general de 
hombres adultos a riesgo de padecer un primer evento cardiovascular), pero en cambio se 
garantizó la comparabilidad de las personas que tomaban aspirina y quienes no la tomaban 
mediante la asignación aleatoria del tratamiento y el uso de la técnica del doble ciego 
(tanto el investigador como el paciente desconocían el tratamiento asignado).
La estadística inferencial aporta las técnicas necesarias para extraer conclusiones sobre el 
valor poblacional de un determinado parámetro a partir de la evaluación de una única muestra. 
60
Inferencia estadística
Pastor-Barriuso R.
Como se discutió en el tema anterior, las conclusiones derivadas de este proceso inferencial 
siempre estarán sujetas a error como consecuencia de la variabilidad aleatoria inherente al 
propio procedimiento de selección muestral. Por ello, resulta necesario disponer no sólo de una 
estimación puntual, sino también de un intervalo de confianza, que facilite un rango de valores 
verosímiles para el parámetro poblacional, así como de una prueba de significación estadística, 
que permita determinar el grado de compatibilidad de los datos muestrales con una hipótesis 
predeterminada. En este tema, se revisan los fundamentos y la interpretación de las técnicas 
estadísticas de  inferencia: la estimación puntual, el intervalo de confianza y el contraste de 
hipótesis. Para simplificar la exposición, se asume que la muestra se obtiene por muestreo 
aleatorio simple y que la población de referencia es de tamaño muy superior a la muestra.
5.2 ESTIMACIÓN PUNTUAL
Una forma natural de estimar muchos parámetros poblacionales consiste en utilizar el estadístico 
muestral correspondiente. Así, la media muestral es un estimador puntual de la media poblacional 
y la proporción de casos de una enfermedad en la muestra es un estimador puntual de la 
probabilidad de tener la enfermedad en la población. No obstante, para un determinado 
parámetro poblacional, pueden contemplarse distintos estimadores alternativos. Algunos 
estimadores de la media poblacional distintos de la media muestral podrían ser, por ejemplo, la 
mediana, la media del 50% central de la muestra o la media de los valores máximo y mínimo. 
En este apartado se presentan algunos criterios estadísticos que justifican la elección de un 
determinado estimador frente a otras posibles alternativas.
Los méritos de un estimador no se juzgan por la estimación resultante en una muestra 
concreta, sino por la distribución de todos los posibles valores o estimaciones a que pueda dar 
lugar; esto es, por las propiedades de su distribución muestral. Entre las principales propiedades 
estadísticas que ha de satisfacer un buen estimador muestral cabe destacar las siguientes:
 y Ausencia de sesgo. Un estimador es insesgado si su valor medio sobre todas las posibles 
muestras de tamaño n coincide con el parámetro poblacional. La insesgadez de un 
estimador es una propiedad deseable ya que sus estimaciones no diferirán sistemáticamente 
del parámetro poblacional.
Ejemplo 5.3 Como se probó en el tema anterior, la media y la proporción muestral son 
estimadores insesgados de la media y la proporción poblacional, respectivamente, E(
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
) = 
μ y E(p) = π. Sin embargo, la varianza muestral definida por S(xi – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
L  media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
)2/n es u  esti ador 
sesgado de la varianza poblacional, ya que
 4
principales propiedades estadísticas que ha de satisfacer un buen estimador muestral 
cabe destacar las siguientes: 
• Ausencia de sesgo. Un estimador es insesgado si su valor medio sobre todas las 
posibles muestras de tamaño n coincide con el parámetro poblacional. La 
insesgadez de un estimador es una propiedad deseable ya que sus estimaciones no 
diferirán sistemáticamente del parámetro poblacional. 
Ejemplo 5.3 Como se probó en el tema anterior, la media y la proporción muestral 
son estimadores insesgados de la media y la proporción poblacional, 
respectivamente, E( x ) = μ y E(p) = π. Sin embargo, la varianza muestral definida 
por Σ(xi - x )2/n es un estimador sesgado de la varianza poblacional, ya que 
;
11)(1
)()(2)(1
)()(2)(1)(1
1)(11)(1
2222
1
2
1
2
2
11
2
2
1
2
2
11
22
1
2
1
2
σμμσ
n
n
n
n
n
n
xExE
n
xE
n
n
xExExE
n
xE
n
x
n
ExE
n
xx
n
Exx
n
E
nji
ji
n
i
i
nji
ji
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
−
=
−
−+
−
=
−
−
=




+−=





−=




−=




−



≤<≤=
≤<≤==
====
 
es decir, este estadístico tiende a infraestimar la varianza poblacional σ 2 por un 
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el 
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral 
definida por s2 = Σ(xi - x )2/(n – 1) como estimador insesgado de la varianza 
poblacional, 
E(s2) = 




−
−

=
n
i
i xxn
E
1
2)(
1
1  = σ 2. 
61
Estimación puntual
Pastor-Barriuso R.
es decir, este estadístico tiende a infraestimar la varianza poblacional σ2 por un factor de 
(n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el tamaño muestral. En 
consecuencia, es preferible utilizar la varianza muestral definida por s2 = S(xi – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media ritmét ca 
L  edia aritmét c , denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
)2/(n – 1) 
como estimador insesgado de la varianza poblacional,
 4
principales propiedades estadísticas que ha de satisfacer un buen estimador muestral 
cabe destacar las siguientes: 
• Ausencia de sesgo. Un estimador es insesgado si su valor medio sobre todas las 
posibles muestras de tamaño n coincide con el parámetro poblacional. La 
insesgadez de un estimador es una propiedad deseable ya que sus estimaciones no 
diferirán sistemáticamente del parámetro poblacional. 
Ejemplo 5.3 Como se probó en el tema anterior, la media y la proporción muestral 
son estimadores insesgados de la media y la proporción poblacional, 
respectivamente, E( x ) = μ y E(p) = π. Sin embargo, la varianza muestral definida 
por Σ(xi - x )2/n es un estimador sesgado de la varianza poblacional, ya que 
;
11)(1
)()(2)(1
)()(2)(1)(1
1)(11)(1
2222
1
2
1
2
2
11
2
2
1
2
2
11
22
1
2
1
2
σμμσ
n
n
n
n
n
n
xExE
n
xE
n
n
xExExE
n
xE
n
x
n
ExE
n
xx
n
Exx
n
E
nji
ji
n
i
i
nji
ji
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
−
=
−
−+
−
=
−
−
=




+−=





−=




−=




−



≤<≤=
≤<≤==
====
 
es decir, este estadístico tiende a infraestimar la varianza poblacional σ 2 por un 
factor de (n – 1)/n. Notar que este sesgo será tanto mayor cuanto menor sea el 
tamaño muestral. En consecuencia, es preferible utilizar la varianza muestral 
definida por s2 = Σ(xi - x )2/(n – 1) como estimador insesgado de la varianza 
poblacional, 
E(s2) = 




−
−

=
n
i
i xxn
E
1
2)(
1
1  = σ  2. 
 y Mínima varianza. Además de la insesgadez e un estimador, que garantiza que las 
estimaciones estarán centradas alrededor del parámetro poblacional, interesa también que 
las distintas estimaciones difieran lo menos posible de dicho parámetro; es decir, que la 
varianza muestral del estimador sea mínima. De esta forma, se tendrá una mayor confianza 
en que la estimación resultante de la muestra finalmente seleccionada esté próxima al 
parámetro poblacional. Por ello, entre los distintos estimadores insesgados de un 
determinado parámetro, es conveniente seleccionar aquel que presente una menor varianza 
(o, de forma equivalente, un menor error estándar). En general, puede demostrarse que, si 
la distribución poblacional subyacente es normal, la media 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M d a aritmética 
La medi  ari mética, denot da por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 y la varianza uestral s2 son 
respectivamente los estimadores insesgados de μ y σ 2 con menor varianza. De la misma 
forma, la proporción muestral p es l estimador nsesgado de π c n menor error estánd r.
Ejemplo 5.4 Para cualquier distribución poblacional, la m dia muestra  es un estimador 
insesgado de la media poblacional y su error estándar es 
 5
• Mínima varianza. Además de la insesgadez de un estimador, que garantiza que 
las estimaciones estarán centradas alrededor del parámetro poblacional, interesa 
también que las distintas estimaciones difieran lo menos posible de dicho 
parámetro, es decir, que la varianza muestral del estimador sea mínima. De esta 
forma, se tendrá una mayor confianza en que la estimación resultante de la 
muestra finalmente seleccionada estará próxima al parámetro poblacional. Por 
ello, entre los distintos estimadores insesgados de un determinado parámetro, es 
conveniente seleccionar aquel que presente una menor varianza (o, de forma 
equivalente, un menor error estándar). En general, puede demostrase que, si la 
distribución poblacional subyacente es normal, la media x  y la varianza muestral 
s2 son respectivamente los estimadores insesgados de μ y σ 2 con menor varianza. 
De la misma forma, la proporción muestral p es el estimador insesgado de π con 
menor error estándar. 
Ejemplo 5.4 Para cualquier distribución poblacional, la media muestral es un 
esti ador insesgado de la media poblacional y su error estándar es  
SE( x ) = 
n
σ . 
En el caso de que la distribución subyacente sea normal, puede probarse que la 
mediana también es un estimador insesgado de la media poblacional y que su 
error estándar es aproximadamente 
SE(mediana) ≅ 1,25
n
σ . 
En el caso de que la distribución subyacente sea normal, puede probarse que la mediana 
también es un estimador insesgado de la media poblacional y que su error estándar es 
aproximadamente
 5
• Mínima varianza. Además de la insesgadez de un estimador, que garantiza que 
las estimaciones estarán centradas alrededor del parámetro poblacional, interesa 
también que las distintas e timacion  difi ran lo menos posible de dicho 
parámetro, es decir, que la varianz  mu stral del esti ad r sea mínima. De est  
forma, se t ndrá una mayor conf a za en que la estimación resultante de la 
muestra finalm nte sel ccionada estará próxima al parámetro poblacional. Por 
ello, entre los distintos estimadores insesgados de un determinado parámetro, es 
conveniente seleccionar aquel qu  presente un  menor varianza (o, de forma 
equivalente, un men r rror estándar). En general, puede demostrase que, si la 
distribución poblacional subyacente  normal, la media x y l  varianza uestral 
s2 son respectivamente los estima ores i sesgados de μ y σ 2 con m nor varianza. 
De la misma forma, la proporció  muestral p es el estimador insesg do de π con 
menor rror estándar. 
Ejemplo 5.4 Para cualquier distribución poblacional, l  media muestral es un 
estimador insesgado de la media poblacional y su error estándar es  
SE( x ) = 
n
σ . 
En el caso de que la distribución subyacente sea normal, puede probarse que la 
mediana también es un estimador insesgado de la media poblacional y que su 
error están ar es aproximadamente 
SE(mediana) ≅ 1,25
n
σ . 
Así, aunque ambos estimadores son insesgados, el error estándar de la mediana es un 25% 
mayor que el de la media muestral y, por tanto, la mediana tenderá a facilitar estimaciones 
menos precisas que la media muestral.
 y Consistencia. Las propiedades de insesgadez y mínima varianza se refieren a la 
distribución muestral del estimador para un tamaño n fijo de la muestra. La consistencia, 
sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice que 
un estimador es consistente si, al aumentar el tamaño de la muestra, la probabilidad de que 
el estimador difiera del verdadero parámetro poblacional se reduce progresivamente. La 
consistencia es, por tanto, un requerimiento básico para un buen estimador ya que bastará 
con aumentar el tamaño muestral para obtener estimaciones arbitrariamente próximas al 
verdadero parámetro. Por supuesto, la media, la varianza y la proporción muestral son 
estimadores consistentes de sus respectivos parámetros poblacionales.
Ejemplo 5.5 En el Ejemplo 4.9 se evaluó empíricamente el comportamiento de la media 
muestral de colesterol HDL en muestras de tamaño n = 10, 25 y 100 obtenidas a partir 
de los controles del estudio EURAMIC, donde la media poblacional del colesterol HDL 
62
Inferencia estadística
Pastor-Barriuso R.
es μ = 1,09 mmol/l. La proporción de muestras con niveles medios de colesterol HDL 
próximos a μ = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aumentó 
de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado 
corrobora empíricamente la consistencia de la media muestral como estimador de la 
media poblacional: la probabilidad de obtener estimaciones próximas al verdadero nivel 
medio aumenta progresivamente conforme aumenta el tamaño muestral.
En los problemas de estimación más simples, como es el caso de una media o una proporción 
poblacional, se dispone de un estimador natural que cumple las propiedades descritas 
anteriormente. En otros problemas más complejos, como por ejemplo en la estimación de 
parámetros en modelos de regresión, la elección de un estimador razonable no es tan directa. En 
general, existen diversos métodos formales para obtener estimadores con buenas propiedades 
estadísticas, entre los que destacan el método de máxima verosimilitud, el método de mínimos 
cuadrados y el método de los momentos. Los métodos de mínimos cuadrados y máxima 
verosimilitud se presentarán en el contexto particular de los modelos de regresión lineal (Temas 
10 y 11) y logística (Tema 12), respectivamente. No obstante, los principios generales de estos 
procesos de estimación y la evaluación de los estimadores resultantes pueden consultarse en los 
textos de estadística matemática referenciados al final del tema.
5.3 ESTIMACIÓN POR INTERVALO
Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra 
diferirán del parámetro poblacional y, en consecuencia, quedará un margen de incertidumbre que se 
expresa en términos del error estándar del estimador. Así, resulta natural la pretensión de disponer de 
una medida del parámetro poblacional que incorpore tanto la estimación puntual como su error 
estándar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se 
encontrará el verdadero valor del parámetro poblacional con un cierto grado de confianza. En este 
apartado se describe detenidamente el procedimiento para la construcción de un intervalo de 
confianza para la media poblacional. Los principios básicos del cálculo e interpretación de intervalos 
de confianza para otros parámetros son similares y se discutirán en los siguientes temas.
5.3.1 Distribución t de Student
El método más extendido para el cálculo de intervalos de confianza se basa en las propiedades 
de la distribución muestral del estimador. Por el teorema central del límite sabemos que, para 
cualquier variable aleatoria con media μ y varianza σ2, la distribución de las medias muestrales 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir os esultados bservados como par  
realizar inferencias acerca de los parámetros oblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 es aproximadamente normal con media μ y varianza σ2/n si el tamaño muestral es suficientemente 
grande; es decir, 
 8
5.3.1 Distribución t de Student 
El método más extendido para el cálculo de intervalos de confianza se basa en las 
propiedades de la distribución muestral del estimador. Por el teorema central del límite 
sabemos que, para cualquier variable aleatoria con media μ y varianza σ 2, la 
distribución de las medias muestr les x  es aproximadamente normal con m dia μ y 
v rianza σ 2/n si el ta año muestral es suficientemente gr nde; es d ci ,  




→
n
Nx
2
,~ σμ  
o, de forma equivalente, aplicando la estandarización de una distribución normal 
)1  ,0(~ N
n
x
→
−
σ
μ . 
Esta cantidad estandarizada depende de dos parámetros desconocidos: la media 
poblacional μ, que es el parámetro objeto de inferencia, y la desviación típica 
poblacional σ, que es un parámetro auxiliar necesario para conocer el error estándar en 
la estimación de μ. Parece entonces lógico sustituir en la expresión anterior el valor 
desconocido de σ por la desviación típica muestral s. Sin embargo, como s es un 
estimador de σ que conlleva a su vez un error de muestreo, el estadístico resultante ( x  - 
μ)/(s/ n ) presentará una mayor imprecisión. Puede probarse que la distribución de este 
estadístico ya no será normal, sino que seguirá aproximadamente una distribución 
conocida como t de Student con n - 1 grados de libertad y denotada por tn-1, 
1
~
−
→
−
nt
n
s
x μ . 
o, de forma equivalente, aplicando la estandarización de una distribución normal
 8
5.3.1 Distribución t de Student 
El método más exten ido para el cálculo de intervalos de confianza se basa en las 
propiedades de la distribución muestral del estimador. Por el teorema central del límite 
sabemos que, para cualquier variable aleatoria con media μ y varianza σ 2, la 
distribución de las medias muestrales x  es aproximadamente normal con media μ y 
varianza σ 2/n si el tamaño muestral es suficientemente grande; es decir,  




→
n
Nx
2
,~ σμ  
o, de forma equivalente, aplicando la estandarización de una distribución normal 
)1  ,0(~ N
n
x
→
−
σ
μ . 
Esta cantidad estandarizada depende de dos parámetros desconocidos: la media 
poblacional μ, que es el parámetro objeto de inferencia, y la desviación típica 
poblacional σ, que es un parámetro auxiliar necesario para conocer el error estándar en 
la estimación de μ. Parece entonces lógico sustituir en la expresión anterior el valor 
desconocido de σ por la desviación típica muestral s. Sin embargo, como s es un 
estimador de σ que conlleva a su vez un error de muestreo, el estadístico resultante ( x  - 
μ)/(s/ n ) presentará una mayor imprecisión. Puede probarse que la distribución de este 
estadístico ya no será normal, sino que seguirá aproximadamente una distribución 
conocida como t d  Student con n - 1 grados de libertad y denotada por tn-1, 
1
~
−
→
−
nt
n
s
x μ . 
63
Estimación por intervalo
Pastor-Barriuso R.
Esta cantidad estandarizada depende de dos parámetros desconocidos: la media poblacional μ, que 
es el parámetro objeto de inferencia, y la desviación típica poblacional σ, que es un parámetro 
auxiliar necesario para conocer el error estándar en la estimación de μ. Parece entonces lógico 
sustituir en la expresión anterior el valor desconocido de σ por la desviación típica muestral s. 
Sin embargo, como s es un estimador de σ que conlleva a su vez un error de muestreo, el 
estadístico resultante 
 9
La distribución t de Student es una distribución simétrica alrededor de 0 y de aspecto 
parecido al de una distribución normal estandarizada, aunque menos apuntada en el 
centro y con más probabilidad en los extremos (Figura 5.1). Los grados de libertad de 
una distribución t de Student determinan su dispersión: al aumentar los grados de 
libertad, disminuye la variabilidad y la distribución t de Student se aproxima a una 
distribución normal estandarizada. Cuanto menor sea el tamaño muestral n, mayor será 
t de 
Student otorgará una mayo (   )/(s/ n )
el tamaño muestral es grande, s facilitará un estimación precisa de σ
distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del 
Apéndice se presentan los percentiles de la distribución t de Student para distintos 
grados de libertad. 
[Figura 5.1 aproximadamente aquí] 
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una 
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente 
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de 
distribuciones simétricas en 0, el percentil 2,5 coincide con el correspondiente 
percentil 97,5 con signo opuesto; es decir, t2;0,025 = -4,303, t5;0,025 = -2,571, t10;0,025 
= -2,228 y t30;0,025 = -2,042. Por tanto, el 95% central de la distribución t de 
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre ± 4,303, ± 
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la 
dispersión de la distribución t de Student disminuye al aumentar los grados de 
  x −  presentará una mayor imprecisión. Puede probarse que la 
distribución de este estadístico ya no será normal, sino que seguirá aproximadamente una 
distribución conocida como t de Student con n – 1 grados de libertad y denotada por tn–1,
 8
5.3.1 Distribución t de Student 
El método más extendido para el cálculo de intervalos de confianza se basa en las 
propiedades de la distribución muestral del estimador. Por el teorema central del límite 
sabemos que, para cualquier variable aleatoria con media μ y varianza σ 2, la 
distribución de las medias muestrales x  es aproximadamente normal con media μ y 
varianza σ 2/n si el tamaño muestral es suficientemente grande; es decir,  




→
n
Nx
2
,~ σμ  
o, de forma equivalente, aplicando la estandarización de una distribución normal 
)1  ,0(~ N
n
x
→
−
σ
μ . 
Esta cantidad estandarizada depende de dos parámetros desconocidos: la media 
poblacional μ, que es el parámetro objeto de inferencia, y la desviación típica 
poblacional σ, que es un parámetro auxiliar necesario para conocer el error estándar en 
la estimación de μ. Parece entonces lógico sustituir en la expresión anterior el valor 
desconocido de σ por la desviación típica muestral s. Sin embargo, como s es un 
estima or de σ que conlleva a su vez un error de muestre , el estadístico resultante ( x  - 
μ)/(s/ n ) p esentará u a mayor imprecisión. Pued  probarse que la distribución d  este 
estadístico ya no será normal, sino que seguirá aproximadamente una distribución 
conocida como t de Student con n - 1 grados de libertad y denotada por tn-1, 
1
~
−
→
−
nt
n
s
x μ . 
La distribución t de Student es una distribución simétrica alrededor de 0 y de aspecto parecido 
al de una distribución normal estandarizada, aunque menos apuntada en el centro y con más 
probabilidad en los extremos (Figura 5.1). Los grados de libertad de una distribución t de Student 
determinan su dispersión: al aumentar los grados de libertad, disminuye la variabilidad y la 
distribución t de Student se aproxima a una distribución normal estandarizada. Cuanto menor sea 
el tamaño muestral n, mayor será el error de la desviación típica muestral s y, en consecuencia, 
la distribución t de Student otorgará una mayor dispersión al estadístico 
 9
La distribución t de Student es una distribución simétrica alrededor de 0 y de aspecto 
parecido al de u a distribución norm l esta darizada, aunque menos apuntada en el 
centro y con más probabilidad en los extremos (Figura 5.1). Los grados de libertad de 
una distribución t de Student determinan su dispersión: al aumentar los grados de 
liber a , disminuye la variabilidad y l distribuciónt de Student se aproxima a una 
distribución no mal estandarizada. Cuanto menor sea el tamaño muestral , mayor será 
t de 
St rá una mayo (   )/(s/ n )
el tamaño muestral es grande, s facilitará un estimación precisa de σ
distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del 
Apéndice se presentan los percentiles de la distribución t de Student para distintos 
grados de libertad. 
[Figura 5.1 aproximadamente aquí] 
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una 
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente 
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de 
distribuciones simétricas en 0, el percentil 2,5 coincide con el correspondiente 
percentil 97,5 con signo opuesto; es decir, t2;0,025 = -4,303, t5;0,025 = -2,571, t10;0,025 
= -2,228 y t30;0,025 = -2,042. Por tanto, el 95% central de la distribución t de 
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre ± 4,303, ± 
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la 
dispersión de la distribución t de Student disminuye al aumentar los grados de 
  x − . Por el 
contrario, si el tamaño muestral es grande, s facilitará una estimación precisa de σ, de tal forma 
que la distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del 
Apéndice se presentan los percentiles de la distribución t de Student para distintos grados de 
libertad.
Ejemplo 5.6 De la Tabla 5 del Apéndi  se obtiene que el percentil 97,5 en una 
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente t2;0,975 = 
4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones 
simétricas en 0, el percentil 2,5 coincide con el correspondiente percentil 97,5 con signo 
opuesto; es decir, t2;0,025 = – 4,303, t5;0,025 = – 2,571, t10;0,025 = – 2,228 y t30;0,025 = – 2,042. Por 
tanto, el 95% central de la distribución t de Student con 2, 5, 10 y 30 grados de libertad 
está comprendido entre ± 4,303, ± 2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede 
observarse que la dispersión de la distribución t de Student disminuye al aumentar los 
grados de libertad, aproximándose a una distribución normal estandarizada (95% de los 
valores entre ± 1,96, Ejemplo 3.11). 
5.3.2 Intervalo de confianza para una media poblacional
A partir de los resultados anteriores puede construirse un intervalo de confianza para la media 
poblacional. En general, la estimación por intervalo lleva asociada una pr babilidad o nivel de 
confianza, denotada en términos porcentuales por 100(1 – α)%, que indica la cobertura del 
parámetro poblacional. Aunque en la práctica se utilizan casi ex lusivamente los intervalos de 
confianza al 95% (α = 0,05), nos referiremos aquí de forma genérica al intervalo de confianza 
al 100(1 – α)% para la media poblacional. Utilizando la aproximación t de Student al estadístico 
 9
La distribución t de Student es una distribución simétrica alrededor de 0 y de aspecto 
parecido al de una distribución normal estandarizada, aunque menos apuntada en el 
centro y con más probabilidad en los extremos (Figura 5.1). Los grados de libertad de 
una distribución t de Student determinan su dispersión: al aumentar los grados de 
libertad, disminuye la variabilidad y la distribución t de Student se aproxima a una 
distribución normal estandarizada. Cuanto menor sea el t maño muestr l n, mayor será 
t de 
Student otorgará una mayo (   )/(s/ n )
el tamaño muestral es grande, s facilitará un estimación precisa de σ
distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del 
Apéndice se presentan los percentiles de la distribución t de Student para distintos 
grados de libertad. 
[Figura 5.1 aproximadamente aquí] 
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una 
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente 
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de 
distribuciones simétricas en 0, el percentil 2,5 coincide con el correspondiente 
percentil 97,5 con signo opuesto; es decir, t2;0,025 = -4,303, t5;0,025 = -2,571, t10;0,025 
= -2,228 y t30;0,025 = -2,042. Por tanto, el 95% central de la distribución t de 
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre ± 4,303, ± 
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la 
dispersión de la distribución t de Student disminuye al aumentar los grados de 
  x − , se sigue que hay una probabilidad 1 – α de que dicho estadístico esté 
64
Inferencia estadística
Pastor-Barriuso R.
Figura 5.1
-3 -2 -1 0 1 2 3
f(x)
x
N(0, 1)
t30
t10
t5
t2
Figura 5.1 Función de densidad de la distribución t de Student con 2, 5, 10 y 30 grados de libertad, y fun-
ción de densidad normal estandarizada.
comprendido entre los percentiles α/2 y 1 – α/2 de una distribución t de Student con n – 1 grados 
de libertad, denotados respectivamente por tn–1,α/2 y tn–1,1–α/2; esto es,
 10
libertad, aproximándose a una distribución normal estandarizada (95% de los 
valores entre ± 1,96, Ejemplo 3.11).  
5.3.2 Intervalo de confianza para una media poblacional 
A partir de los resultados anteriores puede construirse un intervalo de confianza para la 
media poblacional. En general, la estimación por intervalo lleva asociada una 
probabilidad o nivel de confianza, denotada en términos porcentuales por 100(1 - α)%, 
que indica la cobertura del parámetro poblacional. Aunque en la práctica se utilizan casi 
exclusivamente los intervalos de confianza al 95% (α = 0,05), nos referiremos aquí de 
forma genérica al intervalo de confianza al 100(1 - α)% para la media poblacional. 
Utilizando la aproximación t de Student al estadístico ( x  - μ)/(s/ n ), se sigue que hay 
una probabilidad 1 - α de que dicho estadístico esté comprendido entre los percentiles 
α/2 y 1 - α/2 de una distribución t de Student con n – 1 grados de libertad, denotados 
respectivamente por tn-1,α/2 y tn-1,1-α/2; esto es,   
α
μ
αα −=










<
−
<
−−−
12/1,12/,1 nn t
n
s
xtP . 
Este resultado se representa gráficamente en la Figura 5.2. Por la simetría de la 
distribución t de Student, tn-1,α/2 = -tn-1,1-α/2 y la expresión anterior puede rescribirse 
como 
α
μ
αα −=










<
−
<−
−−−−
12/1,12/1,1 nn t
n
s
xtP . 
Para despejar la media poblacional, se multiplica cada término de la desigualdad por el 
error estándar s/ n  y a continuación se resta la media muestral x , resultando que 
Este resultado se representa gráficamente en la Figura 5.2. Por la simetría de la distribución t de 
Student, tn–1,α/2 = – tn–1,1–α/2 y la expresión anterior puede rescribirse como
 10
libertad, aproximándose a una distribución normal estandarizada (95% de los 
valores entre ± 1,96, Ejemplo 3.11).  
5.3.2 Intervalo de confianza para una media poblacional 
A partir de los resultados anteriores puede construirse un intervalo de confianza para la 
media poblacional. En general, la estimación por intervalo lleva asociada una 
probabilidad o nivel de confianza, denotada en términos porcentuales por 100(1 - α)%, 
que indica la cobertura del parámetro poblacional. Aunque en la práctica se utilizan casi 
exclusivamente los intervalos de confianza al 95% (α = 0,05), nos referiremos aquí de 
forma genérica al intervalo de confianza al 100(1 - α)% para la media poblacional. 
Utilizando la apr ximación t de Student al estadístico ( x  - μ /(s/ n ), se sigue que hay 
una probabilidad 1 - α de qu  dicho est dístico esté com rendido ntre los percentiles 
α/2 y 1 - α/2 de una distribución t de Student con n – 1 grados de libertad, denotados 
respectiv mente por tn-1,α/2 y tn-1,1-α/2; esto es,   
α
μ
αα −=










<
−
<
−−−
12/1,12/,1 nn t
n
s
xtP . 
Este resultado se representa gráficamente en la Figura 5.2. Por la simetría de la 
distribución t de Student, tn-1,α/2 = -tn-1,1-α/2 y la expresión anterior puede rescribirse 
como 
α
μ
αα −=










<
−
<−
−−−−
12/1,12/1,1 nn t
n
s
xtP . 
Para despejar la media poblacional, se multiplica cada término de la desigualdad por el 
error estándar s/ n  y a continuación se resta la media muestral x , resultando que 
Para despejar la media poblacional, se multiplica cada término de la desigualdad por el error 
estándar 
 9
La distribución t de Student es una distribución simétrica alrededor de 0 y de aspecto 
parecido al de una distribución normal estandarizada, aunqu  menos apuntada en el 
centro y con más probabilidad en los extremos (Figura 5.1). Los gra os de libertad de 
una distribución t de Student determinan su dispersión: al aumentar los grados de 
libertad, disminuye la variabilidad y la distribución t de Student se aproxima a una 
distribución normal estandarizada. Cuanto menor sea el tamaño muestral n, mayor será 
t de 
Student otorgará una mayo (   )/(s/ n )
el tamaño muestral es grande, s facilitará un estimación precisa de σ
distribución de dicho estadístico será aproximadamente normal. En l  Tabl  5 del 
Apéndice se presentan los percentiles de la distribución t de Student para distint s 
grados de libertad. 
[Figura 5.1 aproximadamente aquí] 
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una 
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente 
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de 
distribuciones simétricas en 0, el percentil 2,5 coincide con el correspondiente 
percentil 97,5 con signo opuesto; es decir, t2;0,025 = -4,303, t5;0,025 = -2,571, t10;0,025 
= -2,228 y t30;0,025 = -2,042. Por tanto, el 95% central de la distribución t de 
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre ± 4,303, ± 
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la 
dispersión de la distribución t de Student disminuye al aumentar los grados de 
  x −  y a continuación se resta la edia muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspon ientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones r alizadas. Si denotamos 
por n el tamaño muestral y por xi el valor bservado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, resultando que
 11
αμ αα −=



+<<−
−−−−
12/1,12/1,1
n
stx
n
stxP nn . 
Así, el intervalo de confianza (IC) al 100(1 - α)% para la media poblacional viene 
determinado por  
n
stx n 2/1,1 α−−± , 
que depende tanto de la estimación puntual x  (v lor central del intervalo) como de su 
error estándar s/ n . 
[Figura 5.2 aproximadamente aquí] 
Los límites del intervalo están determinados por datos muestrales y, en consecuencia, 
el intervalo de confianza variará en función de la muestra seleccionada. El principio 
fundamental de la estimación por intervalo radica en que, de todas las posibles muestras 
del mismo tamaño de la población de referencia, el 100(1 - α)% de los intervalos 
resultantes incluirá el parámetro poblacional. Así, aunque no es posible saber si 
efectivamente un intervalo concreto incluye o no el parámetro desconocido, se tendrá 
una confianza del 100(1 - α)% en que el único intervalo disponible esté entre aquellos 
que contienen dicho parámetro. En otras palabras, el nivel de confianza de un intervalo 
hace referencia a la frecuencia con la cual el método produce intervalos certeros y no a 
la probabilidad de que el intervalo obtenido en una muestra concreta incluya el 
parámetro poblacional. 
Ejemplo 5.7 En al Figura 5.3 se presentan los IC al 95% para la media 
poblacional del colesterol HDL en 100 muestras aleatorias de tamaño n = 10 
Así, el intervalo de confianza (IC) al 100(1 – α)% para la media poblacional viene determinado por 
11
αμ αα −=



+<<−
−−−−
12/1,12/1,1
n
stx
n
stxP nn .
Así, el intervalo de confianza (IC) al 100(1 - α)% para la media poblacional viene 
determinado por  
n
stx n 2/1,1 α−−± ,
que depende tanto de la estimación puntual x  (valor central del intervalo) como de su 
error estándar s/ n .
[Figura 5.2 aproximadamente aquí] 
Los límites del intervalo están determinados por datos muestrales y, en consecuencia, 
el intervalo de confianza variará en función de la muestra seleccionada. El principio 
fundamental de la estim ción por int rvalo radica en que, de tod s las posibles m stras 
del mismo tamaño de la pobl ción de referencia, el 100(1 - α)% de los intervalos 
resultantes incluirá el parámetr  poblacional. Así, aunque no es posible sa er si 
efectivamente un int rval  concreto incluye o no el parámetro desconocido, se tendrá 
una co fianza del 100(1 - α)% en que el único intervalo disponible esté entre aquellos 
que conti en dicho parámetro. En otras palabras, el nivel de confia za de un intervalo 
hace referencia a la frecuencia con la cual el método pro uce intervalos cert ros y n  a 
la probabilidad de que el intervalo btenido en una muestra concreta incluya el 
p rámetro poblacional. 
Ejemplo 5.7 En al Figura 5.3 se presentan los IC al 95% para la media 
poblacional del colesterol HDL en 100 muestras aleatorias de tamaño n = 10 
65
Estimación por intervalo
Pastor-Barriuso R.
Figura 5.2
0
tn-1
tn-1,α/2 tn-1,1-α/2
1 - α
α/2 α/2
n
s
x μ−
Figura 5.2 Distribución muestral del estadístico 
 9
La distribución t de Student es una distribución simétrica alrededor de 0 y de aspecto 
parecido al de una distribución normal estandarizada, aunque menos apuntada en el 
centro y con más probabilidad en los extremos (Figura 5.1). Los grados de libertad de 
una distribución t de Student determinan su dispersión: al aumentar los grados de 
libertad, disminuye la variabilidad y la distribución t de Student se aproxima a una 
distribución normal estandarizada. Cuanto menor sea el tamaño muestral n, mayor será 
t de 
Student otorg rá una mayo (   )/(s/ n )
el tamaño muestral es grande, s facilitará un estimación precisa de σ
distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del 
Apéndice se presentan los percentiles de la distribución t de Student para distintos 
grados de libertad. 
[Figura 5.1 aproximadamente aquí] 
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una 
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente 
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de 
distribuciones simétricas en 0, el percentil 2,5 coincide con el correspondiente 
percentil 97,5 con signo opuesto; es decir, t2;0,025 = -4,303, t5;0,025 = -2,571, t10;0,025 
= -2,228 y t30;0,025 = -2,042. Por tanto, el 95% central de la distribución t de 
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre ± 4,303, ± 
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la 
dispersión de la distribución t de Student disminuye al aumentar los grados de 
x − .
que depende tanto de la estimación puntual 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las me idas de ten enc a central informan acerca de cuál es el valor más representativo 
e una determinada variable o, dicho de for a equivalente, estos estimadores indican 
alrededor e qué valor se agrupan los datos bservados. Las me i as de tendencia 
central de la muestr  sirven tanto par  resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medi a de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de g avedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los v lores xtremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 (valor central del intervalo) como de su error 
estándar 
 9
La distribución t de Student es una distribución simétrica alrededor de 0 y de aspecto 
parecido al de una distribución normal estandarizada, aunque menos apuntada en el 
centro y con más probabilidad en los extremos (Figura 5.1). Los grados de libertad de 
una distribución t de Student determinan su dispersión: al aumentar los grados de 
libertad, disminuye la variabilidad y la distribución t de Student se aproxima a una 
distribución normal estandarizada. Cuanto menor sea el tamaño muestral n, mayor será 
t de 
Student otorgará una mayo (   )/(s/ n )
el tamaño muestral es grande, s facilitará un estimación precisa de σ
distribución de dicho estadístico será aproximadamente normal. En la Tabla 5 del 
Apéndice se presentan los percentiles de la distribución t de Student para distintos 
grados de libertad. 
[Figura 5.1 aproximadamente aquí] 
Ejemplo 5.6 De la Tabla 5 del Apéndice se obtiene que el percentil 97,5 en una 
distribución t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente 
t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de 
distribuciones simétricas en 0, el percentil 2,5 coincide con el correspondiente 
percentil 97,5 con signo opuesto; es decir, t2;0,025 = -4,303, t5;0,025 = -2,571, t10;0,025 
= -2,228 y t30;0,025 = -2,042. Por tanto, el 95% central de la distribución t de 
Student con 2, 5, 10 y 30 grados de libertad está comprendido entre ± 4,303, ± 
2,571, ± 2,228 y ± 2,042, respectivamente. Así, puede observarse que la 
dispersión de la distribución t de Student disminuye al aumentar los grados de 
  x − .
Los límites del intervalo están determinados por datos muestrales y, en consecuencia, el intervalo 
de confianza variará en función de la muestra seleccionada. El principio fundamental de la estimación 
por intervalo radica en que, de todas las posibles muestras del mismo tamaño de la población de 
referencia, el 100(1 – α)% de los intervalos resultantes incluirá el parámetro poblacional. Así, aunque 
no es posible saber si efectivamente un intervalo concreto incluye o no el parámetro desconocido, se 
tendrá una confianza del 100(1 – α)% en que el único intervalo disponible esté entre aquellos que 
contienen dicho parámetro. En otras palabras, el ivel de confianza de un intervalo hace referencia a 
la frecuencia con la cual el método produce intervalos certeros y no a la probabilidad de que el 
intervalo obtenido en una muestra concreta incluya el parámetro poblacional.
Ejemplo 5.7 En la Figura 5.3 se presentan los IC al 95% para la media poblacional del 
colesterol HDL en 100 muestras aleatorias de tamaño n = 10 obtenidas a partir de los 
controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calculó como
12
obtenidas a partir de los controles del estudio EURAMIC. En cada una de las 
mu tras, el IC al 95% se calculó com  
10
2,262
10
975,0;9
sxstx ±=± ,
donde x  y s s n las correspondientes medias y desviaciones típicas muestrales. 
Así, por ejemplo, en la primera muestra se obtuvo x  = 1,20 y s = 0,30, de tal 
f rma que la estimación puntual de la media oblaci nal d colesterol HDL 
resultó ser 1,20 mmol/l y su IC al 95% 1,20 ± 2,262⋅0,30/ 10  = (0,99; 1,41); es 
decir, a partir de esta muestra puede afirmarse con una confianza del 95% que la 
media poblacional del colesterol HDL se encuentra entre 0,99 y 1,41 mmol/l. 
En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media 
poblacional μ = 1,09 mmol/l, puede comprobarse empíricamente el significado 
del nivel de confianza al 95%: 94 de los 100 intervalos calculados contienen 
efectivamente la media poblacional, mientras que los 6 restantes no la contienen. 
Un IC particular puede o no incluir el parámetro y, por tanto, carece de sentido 
decir que hay una probabilidad del 95% de que μ se encuentre dentro de un 
intervalo concreto.
[Figura 5.3 aproximadamente aquí] 
La estimación por intervalo facilita un rango de valores verosímiles o compatibles 
con la media poblacional μ, cuya amplitud depende de: 
• El nivel de confianza 100(1 - α)%. Cuanto mayor sea la confianza deseada para 
un intervalo, mayor será la amplitud de mismo. 
donde 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejempl s s bre estimadores muestrales, se 
utilizarán los valores del olest rol HDL obtenidos en los 10 primeros suj tos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 y  son las correspondientes medias y desviaciones típicas muestrales. Así, por ejemplo, 
en la primera muestra se obtuvo 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más repre entat vo 
de una deter inada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La m di  a t ética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,20 y s = 0,30, de tal forma que la estimación puntual de la 
media poblacional de colesterol HDL resultó ser 1,20 m ol/l y su IC al 95% 1,20 ± 2,262·0,30/
12
obtenidas a partir de los controles del estudio EURAMIC. En cada na de las 
muestras, el IC al 95% se calculó como 
10
2,262
10
975,0;9
sxstx ±=± ,
donde x  y s son las correspondientes medias y desviaciones tí icas muestrales. 
Así, por ejemplo, en la primera muestra se obtuvo x  = 1,20 y s = 0,30, tal
forma que la estimación puntual de la media poblacional de colesterol HDL 
resultó ser 1,20 mmol/l y su IC al 95% 1,20 ± 2,262⋅0,30/ 10  = (0,99; 1,41); es 
decir, a partir de esta muestra puede afirmarse con una confianza del 95% que la 
media poblacional del colesterol HDL se encuentra entre 0,99 y 1,41 mmol/l. 
En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media 
poblacional μ = 1,09 mmol/l, puede comprobarse empíricamente el significado 
del nivel de confianza al 95%: 94 de los 100 intervalos calculados contienen 
efectivamente la media poblacional, mientras que los 6 restantes o la contie en. 
Un IC particular puede o no incluir el parámetro y, po  tanto, carece de s ntido 
decir que hay una probabilidad del 95% de que μ se encuentr  de tro de un 
intervalo concreto.
[Figura 5.3 aproximadamente aq í] 
La estimación por intervalo facilita un rango de valores verosímiles o compatibles 
con la media poblacional μ, cuya amplitud depende de: 
• El nivel de confianza 100(1 - α)%. Cuanto mayor sea la confianza deseada para 
un intervalo, mayor será la amplitud de mismo. 
  (0,99; 1,41); es deci , a partir de esta muestr  pued  afirmarse con una confianza del 95% 
que la media poblacional del cole terol HDL se encuentra e tre 0,99 y 1,41 mmol/l.
66
Inferencia estadística
Pastor-Barriuso R.
En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media poblacional 
μ = 1,09 mmol/l, puede comprobarse empíricamente el significado del nivel de confianza 
al 95%: 94 de los 100 intervalos calculados contienen efectivamente la media poblacional, 
mientras que los 6 restantes no la contienen. Un IC particular puede o no incluir el 
parámetro y, por tanto, carece de sentido decir que hay una probabilidad del 95% de que 
μ se encuentre dentro de un intervalo concreto. 
La estimación por intervalo facilita un rango de valores verosímiles o compatibles con la 
media poblacional μ, cuya amplitud depende de:
 y El nivel de confianza 100(1 – α)%. Cuanto mayor sea la confianza deseada para un 
intervalo, mayor será la amplitud del mismo.
Figura 5.3
0,6 0,8 1 1,2 1,4 1,6
Nivel medio de colesterol HDL (mmol/l)
Figura 5.3 Estimaciones puntuales (círculos) e intervalos de confianza al 95% (líneas horizontales) para 
la media poblacional del colesterol HDL en 100 muestras aleatorias de tamaño n = 10 obtenidas a partir de 
los controles del estudio EURAMIC. La línea vertical en trazo discontinuo corresponde al verdadero nivel 
medio μ = 1,09 mmol/l de colesterol HDL.
67
Contraste de hipótesis
Pastor-Barriuso R.
Ejemplo 5.8 En la primera muestra del ejemplo anterior, el IC al 99% (α = 0,01) se 
calcularía como
13
Ejemplo 5.8 En la primera muestra del ejemplo anterior, el IC al 99% (α = 0,01) 
se calcularía como 
10
30,0
3,25020,1
10
995,0;9 ±=±
stx  = (0,89; 1,51); 
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 
mmol/l con una confianza del 99%. Notar que este intervalo es más amplio que el 
correspondiente intervalo al 95% (0,99; 1,41). 
• El error estándar de la estimación SE( x ) = s/ n . Cuanto mayor sea el error de la 
estimación, mayor será la amplitud del intervalo. Es decir, la amplitud de un 
intervalo de confianza aporta una medida de la precisión de la estimación. 
Ejemplo 5.9 En una muestra aleatoria de tamaño n = 100 de los controles del 
EURAMIC se obtuvo x  = 1,09 y s = 0,31, resultando un IC al 95% para la media 
poblacional de 
10
31,0
1,98409,1
100
975,0;99 ±=±
stx  = (1,03; 1,15). 
Así, a partir de esta muestra de mayor tamaño, se concluye que la media 
poblacional del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un 
nivel de confianza del 95%. Este intervalo es mucho más preciso que los 
intervalos representados en la Figura 5.3 para muestras de tamaño n = 10. 
Como se verá más adelante, el cálculo de los intervalos de confianza es similar para 
todos los parámetros. En general, el intervalo de confianza al 100(1 - α)% para un 
determinado parámetro poblacional se construye como 
estimador puntual ± x1-α/2 SE,
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 mmol/l 
con una confianza de  99%. Notar qu  este intervalo s más amplio que el correspondiente 
intervalo al 95% (0,99; 1,41).
 y El error estándar de la estimación 
13
Ejemplo 5.8 En la primera muestra del ejemplo anterior, el IC al 99% (α = 0,01) 
se calcularía como 
10
30,0
3,25020,1
10
995,0;9 ±=±
stx  = (0,89; 1,51); 
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 
mmol/l con una confianza del 99%. Notar que este intervalo es más amplio que el 
correspondiente intervalo al 95% (0,99; 1,41). 
• El e ror estándar de la estimación SE( x ) = s/ n . Cuanto mayor sea el error de la 
estimación, mayor será la amplitud del intervalo. Es decir, la amplitud de un 
inte valo de confi nza aporta una medida de la precisión de la estimación. 
Ejemplo 5.9 En una muestra aleatoria de tamaño n = 100 de los controles del 
EURAMIC se obtuvo x  = 1,09 y s = 0,31, resultando un IC al 95% para la media 
pob acional de 
10
31,0
1,98409,1
100
975,0;99 ±=±
stx  = (1,03; 1,15). 
Así, a partir de esta muestra de mayor tamaño, se concluye que la media 
poblacional del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un 
nivel de confianza del 95%. Este intervalo es mucho más preciso que los 
intervalos representados en la Figura 5.3 para muestras de tamaño n = 10. 
Como se verá más adelante, el cálculo de los intervalos de confianza es similar para 
todos los parámetros. En general, el intervalo de confianza al 100(1 - α)% para un 
determinado par metro poblacional se construye como 
estimador puntual ± x1-α/2 SE,
Cuanto mayor sea l e ror de la 
estimación, mayor s rá la mplitud del intervalo. Es decir, la amplitud de un intervalo de 
confianz  aporta una m did  de la precisión d  la estimación.
jemplo 5.9 En una muestra aleatoria de t maño n = 100 de los control s del EURAMIC 
se obtuvo 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia c ntral informan acerca de cuál es el valor más rep esentativo 
de una determinada variabl  o, dicho de forma equiv lente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tant  para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblaci nales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los val res extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxi ants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de c s s y troles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,09 y s = 0,31, result ndo un IC al 95% para la media poblacional de
13
Ejemplo 5.8 En la primera muestra del ejemplo anterior, el IC al 99% (α = 0,01) 
se calcularía como 
10
30,0
3,25020,1
10
995,0;9 ±=±
stx  = (0,89; 1,51); 
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 
mmol/l con una confianza del 99%. Notar que este intervalo es más amplio que el 
correspondiente intervalo al 95% (0,99; 1,41). 
• El error estándar de la estimación SE( x ) = s/ n . Cuanto mayor sea el error de la 
estimación, mayor será la amplitud del intervalo. Es decir, la amplitud de un 
intervalo de confianza aporta una medida de la precisión de la estimación. 
Ejemplo 5.9 En una muestra aleatoria de tamaño n = 100 de los controles del 
EURAMIC se obtuvo x  = 1,09 y s = 0,31, resultando un IC al 95% para la media 
poblaci nal de 
10
31,0
1,98409,1
100
975,0;99 ±=±
stx  = (1,03; 1,15). 
Así, a partir de esta muestra de mayor tamaño, se concluye que la media 
poblacional del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un 
nivel de confianza del 95%. Este intervalo es mucho más preciso que los 
intervalos representados en la Figura 5.3 para muestras de tamaño n = 10. 
Como se verá más adelante, el cálculo de los i tervalos de confianza es similar para 
todos los p rámetros. E  gen ral, el intervalo de c nfianza a  100(1 - α)% para un 
determinado parám tro pobl ional se construye como 
estimador puntual ± x1-α/2 SE,
Así, a partir de esta muestra de mayor tamaño, se concluye que la media poblacional del 
colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un nivel de confianza del 95%. 
Este intervalo es mucho más preciso que los intervalos representados en la Figura 5.3 para 
muestras de tamaño n = 10.
Como se verá más adelante, el cálculo de los intervalos de confianza es similar para todos 
los parámetros. En general, el intervalo de confianza al 100(1 – α)% para un determinado 
parámetro poblacional se construye como
 13
Ejemplo 5.8 En la primera muestra del ejemplo anterior, el IC al 99% (α  = 0,01) 
se calcularía como 
10
0, 031, 02 052,3
10
9;0, 599 ± =±
st x  = (0,89; 1,51); 
esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 
mmol/l con una confianza del 99%. Notar que este intervalo es más amplio que el 
correspondiente intervalo al 95% (0,99; 1,41). 
• El error estándar de la estimación SE( x ) = s/ n . Cuanto mayor sea el error de la 
estimación, mayor será la amplitud del intervalo. Es decir, la amplitud de un 
intervalo de confianza aporta una medida de la precisión de la estimación. 
Ejemplo 5.9 En una muestra aleatoria de tamaño n = 100 de los controles del 
EURAMIC se obtuvo x  = 1,09 y s = 0,31, resultando un IC al 95% para la media 
poblacional de 
10
0, 131, 90 489,1
100
99 ;0, 579 ± =±
st x  = (1,03; 1,15). 
Así, a partir de esta muestra de mayor tamaño, se concluye que la media 
poblacional del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un 
nivel de confianza del 95%. Este intervalo es mucho más preci o que los 
intervalos representados en la Figura 5.  para muestras de tamaño n = 10. 
Como s  erá más adelante, el cálculo de los intervalos de co fianza es simila  para
todos los parámetros. En general, el intervalo de confianza al 100(1 - α)% para un 
deter inado parámetro pob acional se construye como
estimador puntual   SE, ± x1–α/2
donde x1–α/2 denota el percentil 1 – α/2 de la distribución muestral del estimador.
5.4 CONTRASTE DE HIPÓTESIS
En ocasiones, el interés de la investigación se centra no tanto en estimar un parámetro desconocido, 
sino en dilucidar si dicho parámetro es compatible con un valor predeterminado. A partir de 
conocimientos pr vios o mediante un razonamiento lógico, se pue n elaborar hipótesis o conjeturas 
sobre el fenómeno o parámetro objeto de estudio (por ejemplo, establecer la hipótesis de que la 
media de una población toma un valor determin do). La validez de estas hipótesis poblacionales ha 
de ser contrastada estadísticamente a partir de la información disponible en la muestra. Las técnicas 
que p t n evaluar el grado de compatibilidad de los atos muestrales con un  hipótesis 
predeterminada se conocen genéricamente con el nombre de tests (pruebas o contrastes) de hipótesis.
5.4.1 Formulación de hipótesis
Los tests de hipótesis parten del planteamiento de una hipótesis nula, denotada por H0, que 
representa el valor preestablecido del parámetro poblacional. Esta hipótesis nula se aceptará si 
los datos muestrales no aportan suficiente evidencia en contra de la misma. Por el contrario, si 
se cuenta con pruebas suficientes para contradecir la hipótesis nula, ésta se rechazará en favor 
de una hipótesis alternativa, denotada por H1, que corresponde generalmente a la negación de la 
68
Inferencia estadística
Pastor-Barriuso R.
hipótesis nula. En este punto, cabe incidir en que el término “aceptar” la hipótesis nula no 
implica que dicha hipótesis sea efectivamente cierta, sino que se carece de evidencia suficiente 
para rechazarla. Como se verá más adelante, las hipótesis nunca pueden ser corroboradas 
completamente, quedando siempre un margen o probabilidad de error.
Ejemplo 5.10 En un estudio para determinar la eficacia de un fármaco antihipertensivo, 
se compara la presión arterial de un grupo de pacientes tratados con dicho fármaco con la 
de un grupo de pacientes tratados con placebo. La hipótesis nula más natural, en este caso, 
es la hipótesis de no efecto del tratamiento; es decir, la presión arterial media de la 
población tratada con el fármaco μT es igual a la media de la población no tratada μP. La 
hipótesis alternativa sería, por el contrario, que las presiones arteriales medias de ambas 
poblaciones son distintas. Así, el contraste de hipótesis quedaría formulado como
 15
Ejemplo 5.10 En un estudio para determinar la eficacia de un fármaco 
antihipertensivo, se compara la presión arterial de un grupo de pacientes tratados 
con dicho fármaco con la de un grupo de pacientes tratados con placebo. La 
hipótesis nula ás natural, en este caso, es la hipótesis de no efecto del 
tratamiento; es decir, la presión arterial media de la población tratada con el 
fármaco μT es igual a la media de la población no tratada μP. La hipótesis 
alternativa sería, por el contrario, que las presiones arteriales medias de ambas 
poblaciones son distintas. Así, el c traste de hipótesis quedaría formulado como 
H0: μT = μP, 
H1: μT ≠ μP. 
La hipótesis nula se aceptará a no ser que los resultados del ensayo clínico 
muestren una gran diferencia entre los grupos que resulte poco compatible con 
una ausencia de efecto del tratamiento. 
Supongamos hipotéticamente que el grupo control del estudio EURAMIC 
constituye la población a estudio. Para contrastar si la media poblacional del 
colesterol HDL μ es igual a un determinado valor, pongamos por ejemplo 1 
mmol/l, el test de hipótesis se formularía como 
H0: μ = 1, 
H1: μ ≠ 1. 
La elección entre ambas hipótesis dependerá de los resultados obtenidos en una 
muestra de los controles del estudio EURAMIC. 
En los ejemplos anteriores, se ha planteado una hipótesis alternativa bilateral; es 
decir, se aceptan como evidencia contra la hipótesis nula las diferencias en ambos 
La hipótesis nula se aceptará a no ser que los resultados del ensayo clínico muestren una 
gran diferencia entre los grupos que resulte poco compatible con una ausencia de efecto 
del tratamiento.
Supongamos hipotéticamente que el grupo control del estudio EURAMIC constituye la 
población a estudio. Para contrastar si la media poblacional del colesterol HDL μ es igual 
a un determinado valor, pongamos por ejemplo 1 mmol/l, el test de hipótesis se formularía 
como
 15
Ejemplo 5.10 En un estudio para determinar la eficacia de un fármaco 
antihipertensivo, se compara la presión arterial de un grupo de pacientes tratados 
con dicho fármaco con la de un grupo de pacientes tratados con placebo. La 
hipótesis nula más natural, en este caso, es la hipótesis de no efecto del 
tratamiento; es decir, la presión arterial media de la población tratada con el 
fármaco μT es igual a la media de la población no tratada μP. La hipótesis 
alternativa sería, por el contrario, que las presiones arteriales medias de amba  
poblaciones s n di tintas. Así, el contraste de quedaría formulado c mo 
H0: μT = μP, 
H1: μT ≠ μP. 
La hipótesis nula se aceptará a no ser que los resulta os del ensayo clí ic  
muestren una gran diferencia entre los grupos que resulte poco compatible con 
una ausencia de efecto del tratamiento. 
Supongamos hipotéticamente que el grupo control del estudio EURAMIC 
constituye la población a estudio. Para contrastar si la media poblacional del 
colesterol HDL μ es igual a un d t rminado valor, pongamos por ejemplo 1 
mmol/l, el test e hipótesis se formularía como 
H0: μ  = 1, 
H1: μ  ≠ 1. 
La elección entre ambas hipótesis dependerá de los resultados obtenidos en una 
muestra de los controles del estudio EURAMIC. 
En los ejemplos anteriores, se ha planteado una hipótesis alternativa bilateral; es 
decir, se aceptan como evidencia contra la hipótesis nula las diferencias en ambos 
La elección entre ambas hipótesis dependerá de los resultados obtenidos en una muestra 
de los c ntroles del est dio EURAMIC.
En los ejemplos anteriores, se ha planteado una hipótesis alternativa bilateral; es decir, se 
aceptan como evidencia contra la hipótesis nula las diferencias en ambos sentidos. En algunas 
circunstancias, donde las desviaciones de la hipótesis nula en algún sentido carecen de 
importancia o son simplemente inconcebibles, es posible formular un contraste unilateral, 
aceptando como evidencia contra H0 únicamente las diferencias en un sentido.
Ejemplo 5.11 En el estudio de la eficacia del fármaco antihipertensivo, se formuló una 
hipótesis alternativa bilateral H1: μT ≠ μP. En este caso, se admite que la evidencia en 
contra de la hipótesis nula puede provenir tanto por un efecto nocivo del tratamiento 
(μT > μP) como por la eficacia del mismo (μT < μP). Si en fases previas del ensayo clínico 
se ha comprobado la ausencia de efectos secundarios del tratamiento, la posibilidad de 
que la presión arterial media de los tratados sea superior a la media de los no tratados 
(μT > μP) carecería de sentido y sólo podría explicarse por variabilidad aleatoria. En tal 
caso, cabría plantearse el siguiente contraste de hipótesis unilateral
 16
sentidos. En algu as circunstancias, donde las d sviaciones de la hipótesis nula en 
algún sentido carecen de importancia o son simplemente inconcebibles, es posible 
formular un contraste unilateral, aceptando como evidencia contra H0 únicamente las 
diferencias en un sentido. 
Ejemplo 5.11 En el estudio de la eficacia del fármaco antihipertensivo, se formuló 
una hipótesis alternativa bilateral H1: μT ≠ μP. En este caso, se admite que la 
evid ncia en contra de la hipótesis nula p ede prov nir tanto por un efecto nocivo 
del tratamiento (μT > μP) com  por la eficacia d l mismo (μT < μP). Si en fases 
previas del ensayo clínico se ha comprobado la aus i  d  efectos secundarios 
del tratamiento, la posibili ad de que la presión a terial media de los tratados sea 
supe ior a media de los no tratados (μT > μP) carecería d  sentid  y sólo podrí  
explicarse p r variabilidad aleatoria. En tal caso, cabría p ante rse el siguiente 
contraste de hipótesis unilateral 
H0: μT = μP, 
H1: μT < μP, 
donde sólo se considera como alternativa a H0 la posibilidad de que el tratamiento 
antihipertensivo sea eficaz.  
Los contrates bilaterales son más conservadores que sus correspondientes contrates 
unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En 
la mayor parte de aplicaciones prácticas se utilizan hipótesis alternativas bilaterales, ya 
que resulta imposible excluir con absoluta certeza diferencias en alguno de los dos 
sentidos. Así, todos los contrastes de hipótesis planteados a lo largo de este texto están 
basados en hipótesis alternativas bilaterales.   
donde sólo se considera como alternativa a H0 la posibilidad de que el tratamiento 
antihipertensivo sea eficaz. 
69
Contraste de hipótesis
Pastor-Barriuso R.
Los contrastes bilaterales son más conservadores que sus correspondientes contrastes 
unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En la 
mayor parte de las aplicaciones prácticas se utilizan hipótesis alternativas bilaterales, ya que 
resulta imposible excluir con absoluta certeza diferencias en alguno de los dos sentidos. Así, 
todos los contrastes de hipótesis planteados a lo largo de este texto están basados en hipótesis 
alternativas bilaterales.  
5.4.2 Contraste estadístico para la media de una población
En este apartado se discuten los conceptos básicos para la realización e interpretación de un 
contraste de hipótesis bilateral sobre la media de una población. Esto es, se pretende contrastar 
la hipótesis nula H0: μ = μ0 frente a la hipótesis alternativa bilateral H1: μ ≠ μ0, donde μ0 es un 
valor predeterminado de la media poblacional. El contraste de otros parámetros, así como la 
comparación de parámetros entre distintas poblaciones, se presentará en temas posteriores.
La elección entre las hipótesis nula y alternativa dependerá de los resultados obtenidos en la 
muestra o, más concretamente, de la compatibilidad de la media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se d scriben los principales estimadores de la tendencia central de una 
variabl . 
1.2.1 Media aritmética 
L  medi  aritmética, enotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 con l valor 
predeterminado μ0. Como la media muestral es un estimador sujeto a error, el objetivo es 
determinar si la variabilidad inherente al muestreo consti uy  una explicación probable para la 
diferencia observada entre la media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencia  ac rca d  los parámetros poblacional  correspondientes. A 
continuación se d scriben los principales estima ores de la tendencia central de una 
variable. 
1.2.1 Media arit étic  
La me ia aritmética, enotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 y el valor predetermina o μ0 de la media 
poblacional. Para ello, se calcula la probabilidad de que bajo la hipótesis nul , una media 
muestral difiera tanto o más de μ0 que el valor obs rvado de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
L s med das de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable , dicho de forma equivalente, estos estimadores indican 
alrededor de qué valo  se agrupan los da os bservados. Las edidas de tendencia 
centr l de la mue tr  sirven tant  p ra resumir los resultados observados como para 
realiz r inferenci s acer a de los pa ámetros poblacion les corr spondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M dia ari mética
La med a aritmética, denota a por x , se defin  como la suma de cada uno de los 
valores muestrales di idida por el núme o de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Correspond  al “centro de gr vedad” d  los datos de la muestra. Su 
principal limitación es que está muy influencia a por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En ste y en l s sucesivos ejemplos sobre e timador s muestrales, se 
utilizarán l s valores el colesterol HDL obten dos en los 10 primeros sujetos del 
estudio “European Study on A ioxidants, Myo ardia  Infarction and Cancer of 
the Breast“ (EURAMIC), un studio multicéntrico d  cas s y c ntroles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
. Esta prob bili d e co ce 
como valor P del contraste de hipótesis y determ na l g ado e c mpatibilidad de los datos 
muestrales con la hipótesis n la. Si este valor P es ele , los atos muestrales serán 
compatibles con el valor μ0 de la media poblacional, careciendo así de evidencia para rechazar 
la hipótesis nula. Por el contrario, si el valor P es pequeño, la media muestral resultará poco 
compatible con el valor preestablecido μ0, concluyendo entonces que los datos aportan suficiente 
evidencia para rechazar dicha hipótesis. En ge eral, cuanto menor sea el valor P, menos 
compatibles serán los datos con la hipótesis nula.
La decisión de rechazar la hipótesis nula se basa en la definición de un umbral preestablecido 
o nivel de significación α, tradicionalmente α = 0,05. Si el valor P es inferior o igual que α se 
rechaza la hipótesis nula o, de forma equivalente, se afirma que los resultados son estadísticamente 
significativos; en caso contrario, si P es superior a α se acepta la hipótesis nula, concluyendo 
que los resultados del test no son estadísticamente significativos.
Para conocer el valor P del contraste es por tanto necesario calcular la probabilidad de que 
las medias de todas las posibles muestras de tamaño n difieran tanto o más de μ0 que el valor 
observado de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de l  tendencia central d  un  
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se d fine como la suma d  ca a uno de l s 
valores muestrales dividida por el número de observacion s realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, asumie do que la m di pobl cional es μ0. Bajo la hipótesis nula H0: μ = μ0, las 
medias muestrales se distribuirán alrededor de μ0, de tal forma que sus desviaciones estandarizadas 
 18
inf rior o igual que α se rechaza la hi ótesis nula o,  forma equivalente, se afirma que 
los resultados son estadí ticamente significat os; n caso contr io, si P es superior a α
se ac pta hipótesis ula, concluyend que los r sultados del test no son 
estadísticamente significativos. 
Para conocer el valor P del contraste es por tanto necesario calcular la probabilidad 
de que las medias de todas las posibles muestras de tamaño n difieran tanto o más de μ0 
que el valor observado de x , a umiendo que la m ia pobl iona  e  μ0. Bajo  
hipótesis nula H0: μ = μ0, las m dias muestrales se distribuirán alrededor d  μ0, de tal 
forma que sus desviaciones estandarizadas  
n
s
xt 0μ−=  
seguirán aproximadamente una distribució  t de Stu t con n - 1 grados d  libertad 
(Apartado 5.3.1). Una vez calculado el valor de este estadístico t a par ir de l s datos 
observados en la muestra, el valor P del contraste vendrá determinado por el área bajo 
la curva de la distribución tn-1 para aquellos valor s tant  o más distant s d  0 que el 
valor observado de t (esto es, desviaciones de μ0 mayores o iguales que la observada en 
cualquiera de los dos sentidos). En la Figura 5.4 se representa gráficamente el cálculo 
del valor P para este contraste de hipótesis. 
[Figura 5.4 aproximadamente aquí] 
Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del 
colesterol HDL en los controles del EURAMIC es igual a 1 mmol/l mediante el 
test de hipótesis bilateral 
seguirán aproximadamente una distribución t de Student con n – 1 grados de libertad (Apartado 
5.3.1). Una vez calculado el valor de este estadístico t a partir de los datos observados en la 
muestra, el valor P del contraste vendrá determinado por el área bajo la curva de la distribución 
tn–1 para aquellos valores tanto o más distantes de 0 que el valor observado de t (esto es, 
desviaciones de μ0 mayores o iguales que la observada en cualquiera de los dos sentidos). En la 
Figura 5.4 se representa gráficamente el cálculo del valor P para este contraste de hipótesis.
70
Inferencia estadística
Pastor-Barriuso R.
 Figura 5.4
0- t
P/2
t
P/2
(valor observado) 
00
0 : bajo  deón Distribuci μμμ =−= H
n
s
xt
tn-1
Figura 5.4 Valor P para el contraste bilateral de la media de una población.
Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del 
colesterol HDL en los controles del EURAMIC es igual a 1 mmol/l mediante el test de 
hipótesis bilateral
 19
H0: μ  = 1, 
H1: μ  ≠ 1. 
Para ello, se obtiene una muestra de tamaño n = 10 donde la media y desviación 
típica resultaron ser x  = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula 
el estadístico del contraste 
t = 
10
30,0
120,10 −
=
−
n
s
x μ
 = 2,11, 
que determina la diferencia estandariza (dividida por el error estándar) entre la 
media muestral x  y el valor predeterminado μ0. La distribución muestral de este 
estadístico bajo la hipótesis nula H0: μ = 1 seguirá aproximadamente una t de 
Student con 9 grados de libertad (n - 1 = 10 - 1 = 9). Así, si la hipótesis nula fuera 
cierta (esto es, si la verdadera media poblacional fuera 1 mmol/l), la probabilidad 
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual 
a 1,20 mmol/l (mayor o igual desviación que la observada por la derecha) o 
inferior o igual a 0,80 mmol/l (mayor o igual desviación que la observada por la 
izquierda) sería 
 P = P( x  ≥ 1,20 | H0) + P( x  ≤ 0,80 | H0) 
  = 










−
≤
−
+










−
≥
−
0
00
0
00 80,020,1 H
n
s
n
s
xPH
n
s
n
s
xP μμμμ  
  ≈ P(t9 ≥ 2,11) + P(t9 ≤ -2,11) = 2P(t9 ≥ 2,11) = 0,064, 
que corresponde al área bajo la curva de la distribución t9 para valores superiores 
a 2,11 (valor observado del estadístico) o inferiores a -2,11. Notar que el valor 
exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del 
Para ello, se obtiene una muestra de tamaño n = 10 donde la media y desviación típica 
resultaron ser 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto r  resumir los resulta os observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, deno da por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,20 y s = 0,30 mmol/l. A p rtir de estos datos se calcula el estadístico 
del contraste
 19
H0: μ = 1, 
H1: μ ≠ 1. 
Para ello, se obtiene una muestra de tamaño n = 10 donde la media y desviación 
típica resultaron ser x  = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula 
el estadístico del contraste 
t = 
10
30,0
120,1 −
=
−
n
s
x μ
 = 2,11, 
que determina la diferencia estandariza (dividida por el error estándar) entre la 
media muestral x  y el valor predeterminado μ0. La distribución muestral de este 
estadístico bajo la hipótesis nula H0: μ = 1 seguirá aproximadamente una t de 
Student con 9 grados de libertad (n - 1 = 10 - 1 = 9). Así, si la hipótesis nula fuera 
cierta (esto es, si la verdadera media poblacional fuera 1 mmol/l), la probabilidad 
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual 
a 1,20 mmol/l (mayor o igual desviación que la observada por la derecha) o 
inferior o igual a 0,80 mmol/l (mayor o igual desviación que la observada por la 
izquierda) sería 
 P = P( x  ≥ 1,20 | H0) + P( x  ≤ 0,80 | H0) 
  = 










−
≤
−
+










−
≥
−
0
00
0
00 80,020,1 H
n
s
n
s
xPH
n
s
n
s
xP μμμμ  
  ≈ P(t9 ≥ 2,11) + P(t9 ≤ -2,11) = 2P(t9 ≥ 2,11) = 0,064, 
que corresponde al área bajo la curva de la distribución t9 para valores superiores 
a 2,11 (valor observado del estadístico) o inferiores a -2,11. Notar que el valor 
exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del 
que determina la diferencia estandarizada (dividida por el error estándar) entre la media 
muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones r alizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-é imo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 y l valor predeterminado μ0. La distribución muestral de este estadístico bajo 
la hipótesis nula H0: μ = 1 seguirá aproximadamente una t de Student con 9 grados de 
libertad (n – 1 = 10 – 1 = 9). Así, si la hipótesis nula fuera cierta (esto es, si la verdadera 
media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos 
con una media de coles rol s p rior o igual a 1,20 mmol/l (m yor o igual desviación que 
la obs rvada por la de echa) o inferior o igual a 0,80 mmol/l (mayor o igual desviación 
que la observada p r la izquier a) sería
71
Contraste de hipótesis
Pastor-Barriuso R.
 19
H0: μ = 1, 
H1: μ ≠ 1. 
Para ello, se obtiene una muestra de tamaño n = 10 donde la media y desviación 
típica resultaron ser x  = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula 
el estadístico del contraste 
t = 
10
30,0
120,10 −
=
−
n
s
x μ
 = 2,11, 
que determina la diferencia estandariza (dividida por el error estándar) entre la 
media muestral x  y el valor predeterminado μ0. La distribución muestral de este 
estadístico bajo la hipótesis nula H0: μ = 1 seguirá aproximadamente una t de 
Student con 9 grados de libertad (n - 1 = 10 - 1 = 9). Así, si la hipótesis nula fuera 
cierta (esto es, si la verdadera media poblacional fuera 1 mmol/l), la probabilidad 
de obtener una muestra de 10 sujetos con una media de colesterol superior o igual 
a 1,20 mmol/l (mayor o igual desviación que la observada por la derecha) o 
inferior o igual a 0,80 mmol/l (mayor o igual desviación que la observada por la 
izquierda) sería 
 P = P( x  ≥ 1,20 | H0) + P( x  ≤ 0,80 | H0) 
  = 










−
≤
−
+










−
≥
−
0
00
0
00 80,020,1 H
n
s
n
s
xPH
n
s
n
s
xP μμμμ  
  
≈ P(t9 ≥ 2,11) + P(t9 ≤ 2,11) = 2P(t9 ≥ 2,11) = 0,064, 
que corresponde al área bajo la curva de la distribución t9 para valores superiores 
a 2,11 (valor observado del estadístico) o inferiores a -2,11. Notar que el valor 
exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del 
−
que corresponde al área bajo la curva de la distribución t9 para valores superiores a 2,11 
(valor observado del estadístico) o inferiores a – 2,11. Notar que el valor exacto de P se 
ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del Apéndice, puede 
comprobarse que el estadístico t = 2,11 está comprendido entre los percentiles t9;0,95 = 
1,833 y t9;0,975 = 2,262, de lo cual se deduce la desigualdad 0,025 < P(t9 ≥ 2,11) < 0,05, que 
equivale a un valor P bilateral comprendido entre 0,05 < P < 0,10.
Si se adopta el nivel de significación α = 0,05 como regla de decisión, los resultados de 
esta muestra no aportan suficiente evidencia para rechazar la hipótesis nula (P = 0,064 > 
0,05), concluyendo que la verdadera media poblacional del colesterol HDL no resulta 
significativamente distinta de 1 mmol/l.
El valor P determina la significación estadística de los resultados de un contraste de hipótesis, 
y depende tanto de la magnitud de la diferencia entre el verdadero valor del parámetro y su 
valor predeterminado bajo H0, como del tamaño muestral. Así, una pequeña diferencia puede 
resultar estadísticamente significativa si el tamaño muestral es suficientemente grande y, por el 
contrario, una gran diferencia puede no alcanzar la significación estadística si la muestra es 
insuficiente. En consecuencia, el valor P no debe interpretarse como una medida de la magnitud 
de la diferencia o asociación objeto de estudio.
Ejemplo 5.13 En el ejemplo anterior se observó una diferencia en el colesterol HDL 
de 0,20 mmol/l entre el valor determinado bajo la hipótesis nula μ0 = 1 mmol/l y la media 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,20 mm l/l en una muestra de tamaño n = 10. Los resultados del test no fueron 
estadísticamente significativos (P = 0,064) pero la magnitud de la diferencia podría ser 
clínicam nte importa te d  confirmarse  estudios con mayor tamaño muestral.
Supongamos que se plantea el mismo contraste bilateral de la hipótesis nula H0: μ = 1 a 
partir de una muestra de tamaño n = 100 con media 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La medi  aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los val res extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,09 mmol/l y de viación típica 
s = 0,31 mmol/l. El estadístico del contraste es
 
 21
Supongamos que se plantea el mismo contraste bilateral de la hipótesis nula H0: μ 
= 1 a partir de una muestra de tamaño n = 100 con media x  = 1,09 mmol/l y 
desviación típica  = 0,31 mol/l. El estadístico el contraste es 
t = 
10
31,0
109,10 −
=
−
n
x μ  = 2,90 
y, por tanto, el valor P vendría determinado por 
P = P(t99 ≥ 2,90) + P(t99 ≤ -2,90) = 2P(t99 ≥ 2,90) = 0,005. 
Utilizando la a roximación normal a la distribución t de Student con 99 grados de 
liberta , el valor P también puede aproximarse a partir de la Tabla 3 del Apéndice 
como 
P = 2P(t99 ≥ 2,90) ≈ 2{1 - Φ(2,90)} = 0,004. 
En este caso, aunque la diferencia entre el valor predeterminado y la media 
muestral resultó ser sensiblemente menor (0,09 mmol/l), los resultados del test 
fueron estadísticamente significativos (P = 0,005), aportando suficiente evidencia 
para rechazar la hipótesis nula. 
La realización de una prueba de hipótesis presenta la misma estructura básica para 
todos los parámetros. En general, se calcula primero un estadístico del contraste, cuyo 
numerador corresponde a la diferencia entre el valor observado en la muestra y el valor 
esperado bajo la hipótesis nula, y el denominador representa la variabilidad o error 
estándar de la estimación. El valor P se obtiene entonces como la probabilidad de 
obtener un valor del estadístico tanto o más extremo que el observado en el estudio, 
asumiendo que la hipótesis nula es cierta. 
s
y, por tanto, el valor P vendría determinado por
 21
Supongamos que se plantea el mismo contraste bilateral de la hipótesis nula H0: μ 
= 1 a partir de una muestra de tamaño n = 100 con media x  = 1,09 mmol/l y 
desviación típica s = 0,31 mmol/l. El estadístico del contraste es 
t = 
10
31,0
109,10 −
=
−
n
s
x μ  = 2,90 
y, por tanto, el valor P vendría determinado por 
P = P(t99 ≥ 2,90) + P(t99 ≤  2,90) = 2P(t99 ≥ 2,90) = 0,005. 
Utilizando la aproximación normal a la distribución t de Student con 99 grados de 
libertad, el valor P también puede aproximarse a partir de la Tabla 3 del Apéndice 
como 
P = 2P(t99 ≥ 2,90) ≈ 2{1 - Φ(2,90)} = 0,004. 
En este caso, aunque la diferencia entre el valor predeterminado y la media 
muestral resultó ser sensiblemente menor (0,09 mmol/l), los resultados del test 
fueron estadísticamente significativos (P = 0,005), aportando sufici te evidencia 
para rechazar la hipótesi  nula. 
La realización de una prueba de hipótesis presenta la misma estructura básica para 
todos los parámetros. En general, se calcula primero un estadístico del contraste, cuyo 
numerador corresponde a la diferencia entre el valor observado en la muestra y el valor 
esperado bajo la hipótesis nula, y el denominador representa la variabilidad o error 
estándar de la estimación. El valor P se obtiene entonces como la probabilidad de 
obtener un valor del estadístico tanto o más extremo que el observado en el estudio, 
asumiendo que la hipótesis nula es cierta. 
−
Utilizando la aproximación normal a la distribución  de Student con 99 grados de libertad, 
el valor P también puede aproxi arse a partir de la Tabla 3 del Apéndice como
 21
Supongamos que se plantea el mismo contraste bilateral de la hipótesis nula H0: μ 
= 1 a partir de un  muestra de tam ño n = 100 c n media x  = 1,09 mmol/l y 
desviación típica s = 0,31 mmol/l. El estadístico del contraste es 
t = 
10
31,0
109,10 −
=
−
n
s
x μ = 2,90 
y, por tanto, el valor P vendría determinado por 
P = P(t99 ≥ 2,90) + P(t99 ≤ -2,90) = 2P(t9  ≥ 2,90) = 0,005. 
Utilizando la aproximación normal a la distribución t de Student con 99 grados de 
libertad, el valor P también puede aproximarse a partir de la Tabla 3 del Apéndice 
como 
P = 2P(t99 ≥ 2,90) ≈ 2{1 Φ(2,90)} = 0,004. 
En este caso, aunqu  la difere cia entre el valor pr determinado y la media 
muestral resultó se  sensible ente menor (0,09 m ol/l), os resultad s del test 
fueron estadísticamente significativos (P = 0,005), aporta o sufici e evidencia 
para rechazar la hipótesis nula. 
La realización de una pru ba de hipótesis presenta la misma estructura básica para 
todos los parámetros. En gen ral, se calcula primero un estadístico del contraste, cuyo 
numerador corresponde a la dif rencia entre el valor observado en la muestra y el valor 
esperado bajo la hipótesis nula, y el denominador representa la va iabilidad o error 
estándar de la estimación. El valor P se obtiene entonces como la probabilidad de 
obtener un valor del estadístico tanto o más extremo que el observado en el estudio, 
asumiendo que la hipótesis nula es cierta. 
−
En este caso, aunque la diferencia entre el valor predeterminado y la media muestral 
resultó ser sensibl ment  menor (0,09 mmol/l), los resultados el test fu ron 
72
Inferencia estadística
Pastor-Barriuso R.
estadísticamente significativos (P = 0,005), aportando suficiente evidencia para rechazar 
la hipótesis nula.
La realización de una prueba de hipótesis presenta la misma estructura básica para todos los 
parámetros. En general, se calcula primero un estadístico del contraste, cuyo numerador 
corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la 
hipótesis nula, y cuyo denominador representa la variabilidad o error estándar de la estimación. 
El valor P se obtiene entonces como la probabilidad de obtener un valor del estadístico tanto o 
más extremo que el observado en el estudio, asumiendo que la hipótesis nula es cierta.
El contraste de hipótesis para un determinado parámetro está relacionado con su 
correspondiente intervalo de confianza. Si se contrasta la hipótesis nula H0: μ = μ0 frente a 
la hipótesis alternativa bilateral H1: μ ≠ μ0, el resultado será estadísticamente significativo 
para un nivel α = 0,05 si el IC al 95% para μ no incluye el valor μ0. Por el contrario, este 
contraste no resultará estadísticamente significativo si el IC al 95% para μ contiene al valor 
μ0. No obstante, ambos métodos facilitan información complementaria. El intervalo de 
confianza aporta una medida de la magnitud y precisión en la estimación del parámetro, 
aunque no facilita el valor exacto de P o el grado de compatibilidad con una hipótesis nula 
de interés. El valor P sí determina la compatibilidad de los datos con una determinada 
hipótesis, pero no facilita una medida de la magnitud del parámetro o asociación objeto de 
estudio. En general, el uso de los contrastes de hipótesis como forma exclusiva de presentar 
los resultados de un estudio está siendo ampliamente cuestionado en la actualidad. La 
presentación de los resultados de un estudio ha de consistir fundamentalmente en el 
estimador puntual y el intervalo de confianza, que pueden completarse con el valor P de la 
hipótesis correspondiente.
Ejemplo 5.14 En la primera muestra de tamaño n = 10 del Ejemplo 5.7 se obtuvo una 
media de 1,20 mmol/l y una desviación típica de 0,30 mmol/l, de tal forma que el IC al 
95% para la media poblacional del colesterol HDL resultó ser (0,99; 1,41). Estos mismos 
datos muestrales se emplearon en el Ejemplo 5.12 para el contraste bilateral de la hipótesis 
nula H0: μ = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado 
que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hipótesis nula y, por 
tanto, el contraste no resulta estadísticamente significativo para un nivel α = 0,05.
En el Ejemplo 5.9, a partir de una muestra de tamaño n = 100 con 
 
 5
1.2 MEDIDAS DE TENDENCIA C NTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La m di  aritmética, denotada p r x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,09 mm l/l y 
s = 0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de 
(1,03; 1,15). El correspondiente contraste de H0: μ = 1 frente a H1: μ ≠ 1 se realizó n el 
Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera 
de los límites de confianza al 95% y, en consec ncia, los resu tados del test son 
estadísticamente significativos.
5.4.3 Errores y potencia de un contraste de hipótesis
Como se comentó anteriormente, las hipótesis nunca pueden ser corroboradas completamente, 
quedando siempre un margen o probabilidad de error. La elección entre las hipótesis nula y 
alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la 
hipótesis nula cuando ésta es cierta, o si se rechaza la hipótesis nula cuando la alternativa es 
cierta, se habrá tomado una decisión correcta. Sin embargo, es posible cometer alguno de los 
siguientes tipos de error en un contraste de hipótesis:
73
Contraste de hipótesis
Pastor-Barriuso R.
Tabla 5.1 Resultados posibles en un contraste de hipótesis.
Realidad
Decisión H0 cierta H1 cierta
Aceptar H0 Correcto Error de tipo II
Rechazar H0 Error de tipo I Correcto
 y El error de tipo I consiste en rechazar la hipótesis nula cuando ésta es, en realidad, cierta. 
Como se comentó anteriormente, el nivel de significación α se utiliza para clasificar los 
resultados obtenidos en un test como significativos si el valor P ≤ α, en cuyo caso se 
rechaza la hipótesis nula, o como no significativos si P > α, en cuyo caso se acepta la 
hipótesis nula. Con esta regla de decisión, puede comprobarse a partir de la Figura 5.4 que 
 24
 P(error de tipo I) = P(rechazar H0 | H0 cierta) 
  = P(t ≥ tn 1,1 α /2  | H 0 cierta) + P(t ≤ tn 1 ,α /2 | H0 cierta) 
  = P(tn 1  ≥ tn 1,1 α /2) + P(t  ≤ t ,α /2) = α /2 + α /2 = α
es decir, la probabilidad de cometer un error de tipo I viene determinada de 
antemano por el nivel de significación α. Así, por ejemplo, para un test con un 
nivel de significación α = 0,05, la probabilidad de incurrir en un error de tipo I 
será del 0,05; esto es, si la hipótesis nula es cierta, ésta se rechazará erróneamente 
en un 5% de los contrastes de hipótesis realizados sobre todas las posibles 
muestras del mismo tamaño. 
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras 
aleatorias de tamaño n = 10 y, en cada una de ellas, se realiza el contraste de 
hipótesis bilateral para la media poblacional del colesterol HDL 
H0: μ = 1,09, 
H1: μ ≠ 1,09, 
mediante el estadístico 
t = 
10
09,1
s
x − , 
donde x  y s son las correspondientes medias y desviaciones típicas muestrales. 
En cada muestra, se calcula el valor P como el área bajo la curva de la 
distribución t9 para valores tanto o más distantes de 0 que el valor observado de t, 
y se decide rechazar la hipótesis nula si P ≤ 0,05. Así, la hipótesis nula se aceptó 
en un 94,4% de las muestras (944 de 1000) y se rechazó en un 5,6% (56 de 1000). 
; n 1 1n
es decir, la probabilidad de cometer un error de tipo I viene determinada de antemano por 
el nivel de significación α. Así, por ejemplo, para un test con un nivel de significación 
α = 0,05, la probabilidad de incurrir en un error de tipo I será del 0,05; esto es, si la 
hipótesis nula es c erta, ésta se rechazará erróneamente en un 5% de los contrastes de 
hipótesis realizados sobre todas las posibles muestras del mismo tamaño.
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras 
aleatorias de tamaño n = 10 y, en cada una de ellas, se realiza el contraste de hipótesis 
bilateral para la media poblacional del colesterol HDL
 24
 P(error de tipo I) = P(rechazar H0 | H0 cierta) 
  = P(t ≥ tn-1,1-α/2 | H0 cierta) + P(t ≤ tn-1,α/2 | H0 cierta) 
  = P(tn-1 ≥ tn-1,1-α/2) + P(tn-1 ≤ tn-1,α/2) = α/2 + α/2 = α, 
es decir, la probabilidad de cometer un error de tipo I viene determinada de 
ante ano p r l nivel de significación α. Así, por ejemplo, para un test con un 
nivel de significación α = 0,05, la probabilidad de incurrir en un error de tipo I 
será del 0,05; esto es, si la hipótesis nula es cierta, ésta se rechazará erróneamente 
en un 5% de los contrastes de hipótesis realizados sobre todas las posibles 
muestras del mismo tamaño. 
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras 
aleatorias de tamaño n = 10 y, en cada una de ellas, se realiza el contraste de 
hipótesis bilateral para la media poblacional del colesterol HDL 
H0: μ  = 1,09, 
H1: μ  ≠ 1,09, 
m diante  estadístico 
t = 
10
09,1
s
x − , 
donde x  y s son las correspondientes medias y desviaciones típicas muestrales. 
En cada muestra, se calcula el valor P como el área bajo la curva de la 
distribución t9 para valores tanto o más distantes de 0 que el valor observado de t, 
y se decide rechazar la hipótesis nula si P ≤ 0,05. Así, la hipótesis nula se aceptó 
en un 94,4% de las muestras (944 de 1000) y se rechazó en un 5,6% (56 de 1000). 
mediante el estadístico
 24
 P(error de tipo I) = P(rechazar H0 | H0 cierta) 
  = P(t ≥ tn-1,1-α/2 | H0 cierta) + P(t ≤ tn-1,α/2 | H0 cierta) 
  = P(tn-1 ≥ tn-1,1-α/2) + P(tn-1 ≤ tn-1,α/2) = α/2 + α/2 = α, 
es decir, la probabilidad de cometer un error de tipo I viene determinada de 
antemano por el nivel de significación α. Así, por ejemplo, para un test con un 
nivel de significación α = 0,05, la probabilidad de incurrir en un error de tipo I 
será del 0,05; esto es, si la hipótesis nula es cierta, ésta se echazará er óneamente 
en un 5% de los contrastes de hipótesis realizados sobre todas las posibles 
muestras del mismo tamaño. 
Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras 
aleatorias de tamaño n = 10 y, en cada una de ellas, se realiza el contraste de 
hipótesis bilateral para la media poblacional del colesterol HDL 
H0: μ = 1,09, 
H1: μ ≠ 1,09, 
mediante el estadístico 
t = 
10
09,1
s
x − , 
donde x  y s son las correspondientes medias y desviaciones típicas muestrales. 
En cada muestra, se calcula el valor P como el área bajo la curva de la 
distribución t9 para valores tanto o más distantes de 0 que el valor observado de t, 
y se decide rechazar la hipótesis nula si P ≤ 0,05. Así, la hipótesis nula se aceptó 
en un 94,4% de las muestras (944 de 1000) y se rechazó en un 5,6% (56 de 1000). 
donde 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los da os observados. Las medidas de t ndencia 
central de la muestra sirven tan o para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida d  tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 y s son las correspondien s medias y desviaciones típicas muestrales. En cada 
muestra, se calcu  el valor P como el ár a bajo la curva de la distribución t9 para valores 
tanto o más distantes de 0 qu  el valor observado de t, y se decide rechazar la hipótesis 
nula si P ≤ 0,05. Así, a hipótesis nula se aceptó en un 94,4% de las muestras (944 de 
1000) y se rechazó en un 5,6% (56 de 1000).
En este ejemplo ilustrativo, la hipótesis nula es cierta ya que la media poblacional del 
colesterol HDL en el grupo control del EURAMIC es efectivamente μ = 1,09 mmol/l. Por 
lo tanto, se tomó la decisión correcta de aceptar H0 en el 94,4% de las muestras y se 
rechazó erróneamente H0 (error de tipo I) en el restante 5,6%, que concuerda casi 
perfectamente con el ivel de significación α = 0,05 preestablecido para el contraste.
 y El error de tipo II consiste en aceptar la hipótesis nula cuando, en realidad, es cierta la 
hipótesis alternativa. La probabilidad de cometer un error de tipo II se denota por β,
 25
En este ejemplo ilustrativo, la hipótesis nula es cierta ya que la media poblacional 
del colesterol HDL en el grupo control del EURAMIC es efectivamente μ = 1,09 
mmol/l. Por lo tanto, se tomó la decisión correcta de aceptar H0 en el 94,4% de las 
muestras y se rechazo erróneamente H0 (error de tipo I) en el restante 5,6%, que 
concuerda casi perfectamente con el nivel de significación α = 0,05 
preestablecido para el contraste. 
• El error de tipo II consiste en aceptar la hipótesis nula cuando, en realidad, es 
cierta l  hipótesis alternativa. La prob bilidad de comet r un rror de tipo II se 
denota por β, 
P(error  tipo II) = P(aceptar H0 | H1 cierta) = β . 
Si la hipótesis alternativa es cierta, la probabilidad de tomar la decisión correcta y, 
por tanto, rechazar la hipótesis nula se conoce como potencia del test, 
Potencia = P(rech za  H0 | H1 cierta) 
  = 1 - P(error de tipo II) = 1 - β. 
La probabilidad de error de tipo II β y la potencia de un contraste 1 - β no están 
predeterminadas de antemano y, como se comprobará a continuación, dependen 
de distintos factores, como el nivel de significación α, la desviación del verdadero 
valor del parámetro respecto al valor nulo μ - μ0, la dispersión de los datos σ y el 
tamaño muestral n. 
Supongamos, para simplificar la exposición, que una variable aleatoria tiene media 
desconocida μ y varianza conocida σ 2, y que se pretende contrastar la hipótesis nula H0: 
μ = μ0 frente a la hipótesis alternativa H1: μ = μ1, donde μ1 ≠ μ0. Por el teorema central 
del límite, se sabe que la distribución muestral de x  en muestras de tamaño n será 
74
Inferencia estadística
Pastor-Barriuso R.
Si la hipótesis alternativa es cierta, la probabilidad de tomar la decisión correcta y, por 
tanto, rechazar la hipótesis nula se conoce como potencia del test,
 25
En este ejemplo ilustrativo, la hipótesis nula es cierta ya que la media poblacional 
del colesterol HDL en el grupo control del EURAMIC es efectivamente μ = 1,09 
mmol/l. Por lo tanto, se tomó la decisión correcta de aceptar H0 en el 94,4% de las 
muestras y se rechazo erróneamente H0 (error de tipo I) en el restante 5,6%, que 
concuerda casi perfectamente con el nivel de significación α = 0,05 
preestablecido para el contraste. 
• El error de tipo II consiste en aceptar la hipótesis nula cuando, en realidad, es 
cierta la hipótesis alternativa. La probabilidad de cometer un error de tipo II se 
denota por β, 
P(error de tipo II) = P(aceptar H0 | H1 cierta) = β. 
Si la hipótesis alternativa es cierta, la probabilidad de tomar la decisión correcta y, 
por tanto, rechaza  l  hipótesis nula se c noce como potencia del test, 
 Potencia = P(rechazar H0 | H1 cierta) 
  = 1  P(error de tipo II) = 1  β . 
La probabilidad de error de tipo II β y la potencia de un contraste 1 - β no están 
predeterminadas de antemano y, como se comprobará a continuación, dependen 
de distintos factores, como el nivel de significación α, la desviación del verdadero 
valor del parámetro respecto al valor nulo μ - μ0, la dispersión de los datos σ y el 
tamaño muestral n. 
Supongamos, para simplificar la exposición, que una variable aleatoria tiene media 
desconocida μ y varianza conocida σ 2, y que se pretende contrastar la hipótesis nula H0: 
μ = μ0 frente a la hipótesis alternativa H1: μ = μ1, donde μ1 ≠ μ0. Por el teorema central 
del límite, se sabe que la distribución muestral de x  en muestras de tamaño n será 
− −
La probabilidad de error de tipo II β y la potencia de un contraste 1 – β no están 
predeterminadas de antemano y, como se comprobará a continuación, dependen de distintos 
factores, como el nivel de significación α, la desviación del verdadero valor del parámetro 
respecto al valor nulo μ – μ0, la dispersión de los datos σ y el tamaño muestral n.
Supongamos, para simplificar la exposición, que una variable aleatoria tiene media 
desconocida μ y varianza conocida σ2, y que se pretende contrastar la hipótesis nula H0: μ = μ0 
frente a la hipótesis alternativa H1: μ = μ1, donde μ1 ≠ μ0. Por el teorema central del límite, se 
sabe que la distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Medi  aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 en muestras de tamaño n será aproxima amente N(μ0, σ2/n) 
si H0 es cierta o, en caso contrario, N(μ1, σ2/n) si H1 es cierta. La distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media arit ética 
La media ar tmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 bajo 
las hipótesis nula y alternativa s  representa en la Figura 5.5. Para un nivel de significación α, 
el contraste de hipótesis no resultará significativo (P > α) si el estadístico
 26
aproximadamente N(μ0, σ 2/n) si H0 es cierta o, en caso contrario, N(μ1, σ 2/n) si H1 es 
ierta. L  distribución muestral de x  bajo las hipótesis nula y alternativa se representa 
n la Figura 5.5. Para n nivel de significación α, el contr st  de hipótesis n  resultará 
significativo (P > α) si el estadístico 
z1 α /2 < 
n
x
σ
μ 0−  < z1 α /2 
o, de forma equivalente, si 
μ0 - z1-α/2σ/ n  < x  < μ0 + z1-α/2σ/ n ; 
es decir, la hipotes nula se aceptará en todas aquellas muestras con una media x  
comprend da en la región μ0 ± z1-α/2σ/ , que se denomina común ente como región 
de aceptación. Así, la probabilidad de un error de tipo I α está determinada por el área 
bajo la curva para H0 situada fuera de la región de aceptación (área en gris oscuro de la 
Figura 5.5), y la probabilidad de error de tipo II β por el área bajo la curva para H1 
situada dentro de la región de aceptación (área en gris claro de la Figura 5.5). 
[Figura 5.5 aproximadamente aquí] 
El balance entre las probabilidades de un error de tipo I y tipo II puede observarse en 
la Figura 5.5. Si se reduce la probabilidad de error de tipo I α (esto es, se aumenta la 
región de aceptación), aumenta la probabilidad de error de tipo II β, mientras que si α 
aumenta, disminuye β. En la práctica, la estrategia habitual es fijar α en el nivel 
predeterminado (típicamente α = 0,05) e intentar minimizar β o, de forma equivalente, 
maximizar la potencia 1 - β del contraste. Para α fijo, la potencia de 1 - β depende de la 
−
− −
o, de forma equivalente, si
 26
aproximadament  N(μ0, σ 2/n) s  H0 es cierta o, en caso contrario, N(μ1, σ 2/n) si H1 es 
cierta. La distribución muestral de x  bajo las hipótesis nula y alternativa se representa 
en la Figura 5.5. Para un nivel de significación α, el contraste de hipótesis no resultará 
significativo (P > α) si el estadístico 
-z1-α/2 < 
n
x
σ
μ0−  < z1-α/2 
o, de forma equivalente, si 
μ 0 z1 α /2σ / n  < x  < μ 0 + z1 α /2σ / n ; 
es decir, la hipotes nula se aceptará en todas aquellas muestras con una media x  
comprendida en la región μ0 ± z1-α/2σ/ n , que se denomina comúnmente como región 
de aceptación. Así, la probabilidad de un error de tipo I α está determinada por el área 
bajo la curva para H0 situada fuera de la región de aceptación (área en gris oscuro de la 
Figura 5.5), y la probabilidad de error de tipo II β por el área bajo la curva para H1 
sit ada dentr  de la región de aceptación (área e  gris claro de la Figura 5.5). 
[Figura 5.5 aproximadamente aquí] 
El balance entre las probabilidades de un error de tipo I y tipo II puede observarse en 
la Figura 5.5. Si se reduce la probabilidad de error de tipo I α (esto es, se aumenta la 
región de aceptación), aumenta la probabilidad de error de tipo II β, mientras que si α 
aumenta, disminuye β. En la práctica, la estrategia habitual es fijar α en el nivel 
p edeterminado (típicamente α = 0,05) e intentar minimizar β o, de forma equivalente, 
maximizar la potencia 1 - β del contraste. Para α fijo, la potencia de 1 - β depende de la 
−
− −
 
Figura 5.5
α/2 α/2
β
μ1 μ0
nz /2/10 σμ α−+
Región de aceptación de H0
N(μ0, σ 2/n)
0 bajo  deón Distribuci Hx
N(μ1, σ 2/n)
1 bajo  deón Distribuci Hx
nz /2/10 σμ α−−
Figura 5.5 Errores de tipo I y II para el contraste bilateral de la hipótesis nula H0: μ = μ0 frente a la hipó-
tesis alternativa H1: μ = μ1 en una distribución con va ianza conocida.
75
Contraste de hipótesis
Pastor-Barriuso R.
es decir, la hipotesis nula se aceptará en todas aquellas muestras con una media 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
L  m di  aritmética, denot da por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 compre dida 
en la región 
 26
aproximadamente N(μ0, σ 2/n) si H0 es cierta o, en caso contrario, N(μ1, σ 2/n) si H1 es 
cierta. La distribución muestral de x  bajo las hipótesis nula y alternativa se representa 
en la Figura 5.5. Para un nivel de significación α, el contraste e hipótesis no resultará 
significativo (P > α) si el estadístico 
-z1-α/2 < 
n
x
σ
μ0−  < z1-α/2 
o, de forma equivalente, si 
μ0 - z1-α/2σ/ n  < x  < μ0 + z1-α/2σ/ n ; 
es decir, la hipotes nula se aceptará en todas aquellas muestras con una media x  
comprendida ión μ0 ± z1 α/2σ/ n
de aceptación. Así, la probabilidad de un error de tipo I α está determinada por el área 
bajo la curva para H0 situada fuera de la región de aceptación (área en gris oscuro de la 
Figura 5.5), y la probabilidad de error de tipo II β por el área bajo la curva para H1 
situada dentro de la región de aceptación (área en gris claro de la Figura 5.5). 
[Figura 5.5 aproximadamente aquí] 
El balance entre las probabilidades de un error de tipo I y tipo II puede observarse en 
la Figura 5.5. Si se reduce la probabilidad de error de tipo I α ( sto es, se aumenta la 
región de aceptación), aumenta la probabilidad de error de tipo II β, mientras que si α 
aumenta, disminuye β. En la práctica, la estrategia habitual es fijar α en el nivel 
predeterminado (típicamente α = 0,05) e intentar minimizar β o, de forma equivalente, 
maximizar la potencia 1 - β del contraste. Para α fijo, la potencia d  1 - β depende de la 
, que se denomina comúnmente como región de aceptación. Así, la 
probabilidad de un error de tipo I α está determinada por el área bajo la curva para H0 situada 
fuera de la región de aceptación (área en gris oscuro de la Figura 5.5), y la probabilidad de error 
de tipo II β por el área bajo la curva para H1 situada dentro de la región de ac ptación (ár a en 
gris claro de la Figura 5.5).
El balance entre las probabilidades de un error de tipo I y tipo II puede observarse en la 
Figura 5.5. Si se reduce la probabilidad de error de tipo I α (esto es, se aumenta la región de 
aceptación), aumenta la probabilidad de error de tipo II β; mientras que si α aumenta, disminuye β. 
En la práctica, la estrategia habitual es fijar α en un nivel predeterminado (típicamente α = 0,05) 
e intentar minimizar β o, de forma equivalente, maximizar la potencia 1 – β del contraste. Para 
α fijo, la potencia 1 – β depende de la superposición de las distribuciones nula y alternativa de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida d  tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, que stá a su vez determinad  por l s siguientes factores:
 y La diferencia subyacente μ1 – μ0. La potencia para detectar una hipótesis alternativa cierta 
será tanto mayor cuanto mayor sea la diferencia entre el verdadero valor del parámetro μ1 y 
el valor nulo μ0. Esta situación se ilustra en la Figura 5.6(a), d nd  se observa un incremento 
de la potencia como consecuencia de una mayor diferencia entre μ1 y μ0.
 Figura 5.6
 
α/2 α/2β
β
α/2 α/2
μ1 μ0 nz /2/10 σμ α−+nz /2/10 σμ α−−
μ0μ1 nz /2/10 σμ α−+nz /2/10 σμ α−−
)/,(~: 200 nNxH σμ→)/,(~: 211 nNxH σμ→
)/,(~: 200 nNxH σμ→)/,(~: 211 nNxH σμ→
(a)
(b)
Figura 5.6 Errores de tipo I y II para una mayor diferencia μ0 – μ1 (a) y para un mayor tamaño muestral n (b).
76
Inferencia estadística
Pastor-Barriuso R.
Tabla 5.2 Porcentaje de muestras de tamaño n = 10, 25 y 100 con 
resultados significativos (P ≤ 0,05) para el contraste bilateral de 
las hipótesis nulas H0: μ = 1 y 1,05 mmol/l sobre la media poblacional 
del colesterol HDL en los controles del estudio EURAMIC.
Hipótesis nula H0: μ = μ0
Tamaño muestral (n) μ0 = 1 μ0 = 1,05
 10 11,2  5,0
 25 26,9  8,0
100 85,7 23,0
 y El error estándar 
 27
superposición de las distribuciones nula y alternativa de x , que está a su vez 
determinada por los siguientes factores: 
• La diferencia subyacente μ1 - μ0. La potencia para detectar una hipótesis 
alternativa cierta será tanto mayor cuando mayor sea la diferencia entre el 
verdadero valor del parámetro μ1 y el valor nulo μ0. Esta situación se ilustra en la 
Figura 5.6(a), donde se observa un incremento de la potencia como consecuencia 
de una mayor diferencia entre μ1 y μ0. 
• El err r σ / n . Al aumentar el tamaño muestral n, disminuye el error 
estándar de la media muestral y, en consecuencia, la variabilidad de las 
distribuciones nula y alternativa de x . Así, para un nivel de significación α 
predeterminado, la potencia del contraste aumenta conforme aumenta el tamaño 
de la muestra (Figura 5.6(b)). Esta relación puede utilizarse tanto para calcular la 
potencia de un contraste una vez determinado el tamaño muestral, como para 
estimar a priori el tamaño muestral necesario para una determinada potencia. Este 
último punto se discutirá con mayor detalle en el Tema 9 de determinación del 
tamaño muestral.  
[Figura 5.6 aproximadamente aquí] 
Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras 
aleatorias de tamaño n = 10, 25 y 100 y, en cada una de ellas, se realiza el 
contraste bilateral de las hipótesis nulas H0: μ = 1 y 1,05 mmol/l para la media 
poblacional del colesterol HDL. Para cada muestra y contraste, el valor P se 
calcula según los métodos del Apartado 5.4.2 y la hipótesis nula se rechaza si P ≤ 
l au entar el tamaño muestral n, disminuye l rro  estándar de la 
media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos timadores indican 
alrededor de qué valor se agrupan los atos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para
realizar inferencias acerca de los parámetros poblacionales cor espondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
. Así, para un nivel de signifi ción α pr determinado, la potencia del contraste aumenta 
conforme aumenta el tamaño de la muestra (Figura 5.6(b)). Esta relación puede utilizarse 
tanto para calcul r la potencia de un contraste una vez determinado el tamaño muestral, 
como para estimar a priori el tamaño muestral necesario para una determinada potencia. 
Este último punto se discutirá con mayor detalle e  el Tema 9 de determinación del tamaño 
muestral. 
Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras 
aleatorias de tamaño  = 10, 25 y 100 y, en cada una de ellas, se realiza el contraste 
bilateral de las hipótesis nulas H0: μ = 1 y 1,05 mmol/l para la media poblacional del 
colesterol HDL. Para cada muestra y contraste, el valor P se calcula según los métodos 
del Apartado 5.4.2 y la hipótesis nula se rechaza si P ≤ 0,05. En la Tabla 5.2 se presenta 
el porcentaje de muestras con resultados significativos para los distintos tamaños 
muestrales e hipótesis nulas.
En este caso, ambas hipótesis nulas son falsas dado que la verdadera media del colesterol 
HDL en los controles del estudio EURAMIC es 1,09 mmol/l. Así, los porcentajes de la 
Tabla 5.2 representan valores empíric s de la pot cia de cada contraste. Para una desviación 
subyacente de μ – μ0 = 1,09 – 1 = 0,09 mmol/l entre el verdadero nivel medio de colesterol 
HDL y el valor nulo, la potencia resultó ser del 11,2% para n = 10, 26,9% para n = 25 y 
85,7% para n = 100. Para una desviación de μ – μ0 = 1,09 – 1,05 = 0,04 mmol/l, la potencia 
se redujo a un 5,0% para n = 10, 8,0% para n = 25 y 23,0% para n = 100. Como puede 
apreciarse, sólo se alcanza una potencia aceptable para detectar una diferencia de 0,09 
mmol/l con un tamaño muestral de 100, mientras que sería necesaria una muestra mayor 
para poder detectar una diferencia de 0,04 mmol/l.
5.5 REFERENCIAS
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Englewood Cliffs, NJ: Prentice Hall, 1977.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 
2001.
3. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
77Pastor-Barriuso R.
Referencias
4. Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag, 
1997.
5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer 
Verlag, 1998.
6. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
7. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: 
Lippincott Williams & Wilkins, 2008.
8. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State 
University Press, 1989.
9. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical 
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.

79Pastor-Barriuso R.
TEMA 6
INFERENCIA SOBRE MEDIAS
6.1 INTRODUCCIÓN
En el presente tema se revisan las técnicas básicas de inferencia a partir de datos de carácter 
cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se 
centra en el estudio de parámetros subyacentes tales como la media y la varianza poblacional. 
A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia 
descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas:
 y La estimación de la media y la varianza de una población.
Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una 
muestra representativa de la población de referencia del estudio. A partir de los valores de 
colesterol HDL obtenidos en los controles, ¿cuál es la estimación y el intervalo de 
confianza al 95% para la media y la varianza del colesterol HDL en la población de 
referencia? ¿Son estos datos muestrales compatibles con una verdadera media poblacional 
de 1 mmol/l?
 y La comparación de medias y varianzas poblacionales a partir de dos muestras 
independientes.
Ejemplo 6.2 En el estudio EURAMIC se comparan dos muestras independientes: una 
muestra de casos de infarto de miocardio, recogida de las unidades de cuidados intensivos, 
y una muestra independiente de controles, representativos de la población de la que 
proceden los casos. ¿Cuál es entonces la estimación y el intervalo de confianza al 95% 
para la diferencia en los niveles medios de colesterol HDL entre los casos de infarto y los 
sujetos libres de la enfermedad? ¿Es esta diferencia estadísticamente significativa?
En un ensayo clínico para evaluar la eficacia antihipertensiva de un nuevo medicamento, 
se asignaron aleatoriamente 100 pacientes hipertensos a uno de los dos grupos de 
tratamiento: un grupo que toma la medicación a estudio y otro que toma un placebo. 
Después de 4 semanas de tratamiento, se compararon las medias de presión arterial 
sistólica entre ambos grupos como medida de la eficacia de dicho medicamento. ¿Cuál es 
la estimación puntual y el intervalo de confianza al 95% para la reducción en el nivel 
medio de presión arterial sistólica? ¿Cómo se determina si esta reducción es efecto del 
tratamiento o se debe a simple variabilidad aleatoria? 
 y La comparación de medias poblacionales a partir de dos muestras dependientes.
Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en 
el riesgo de desarrollar infarto de miocardio, cada caso se emparejó por grupo de edad y 
sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de 
los casos y de los controles no pueden analizarse como medidas procedentes de muestras 
independientes, ya que es esperable un cierto grado de correlación entre los valores de 
80
Inferencia sobre medias
Pastor-Barriuso R.
colesterol HDL en cada pareja caso-control. ¿Cómo contrastar entonces si existe una 
asociación significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de 
miocardio?
Para evaluar la eficacia de un fármaco antihipertensivo, se seleccionaron 50 pacientes 
hipertensos y se administró a todos ellos dicho fármaco durante 4 semanas. La presión 
arterial sistólica de cada paciente se determinó tanto al comienzo del estudio como 
después de las 4 semanas de tratamiento. En tal caso, los valores medios de presión arterial 
antes y después del tratamiento no son independientes, ya que los datos recogidos en un 
mismo paciente están correlacionados. En estas circunstancias, ¿cómo estimar la reducción 
media de presión arterial sistólica al administrar dicho tratamiento?
Para cada uno de estos problemas, se facilitan las técnicas de inferencia apropiadas para 
obtener estimaciones puntuales y por intervalo del parámetro poblacional objeto de estudio, así 
como para el contraste de hipótesis preestablecidas. Estos procedimientos van a permitir inferir 
los resultados del estudio al ámbito poblacional de forma clara y sucinta.
6.2 INFERENCIA SOBRE UNA MEDIA Y VARIANZA POBLACIONAL
La media y la varianza poblacional son parámetros que representan la tendencia central y 
dispersión de la distribución subyacente de una variable aleatoria. Estos parámetros son 
típicamente desconocidos y, en consecuencia, han de ser estimados a partir de los valores 
observados de dicha variable en una muestra. En esta sección, se presentan los métodos de 
estimación y contraste para la media y la varianza de una distribución poblacional.
6.2.1 Inferencia sobre la media de una población
La estimación e inferencia de una media poblacional µ se discutió en el tema anterior. Para 
cualquier variable aleatoria, se ha comprobado que la media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las me idas de t ndencia centr l informan acerca de cuál es el valor más representativo 
de u  determin da v riable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar i ferencias acerca de los parámetros poblaci ales correspondientes. A 
con inuación se d s riben los principales estima res de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, enotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 es un estimad r 
insesgado y consistente de µ y que, en el caso de distribuciones normales, es el estimador con 
menor error estándar. Estas características hacen de la med a muestral un buen estimador 
puntual de la media poblacional.
Utilizando las propiedades de la distribución muestral de la media, es posible obtener un 
intervalo de confianza al 100(1 – α)% para la media poblacional µ como 
 4
Utilizando las propiedades de la distribución muestral de la media, es posible obtener 
un intervalo de confianza al 100(1 - α)% para la medi  pobl cional μ com   
n
stx n 2/1,1 α−−± . 
A su vez, el contraste de la hipótesis nula H0: μ = μ0 frente a la hipótesis alternativa 
bilateral H1: μ ≠ μ0 puede realizarse mediante el estadístico 
ns
xt 0μ−= . 
Bajo la hipótesis nula, este estadístico seguirá aproximadamente una distribución t de 
Student con n - 1 grados de libertad y, en consecuencia, el valor P del contraste puede 
calcularse como el área bajo la curva de esta distribución para aquellos valores tanto o 
más distantes de 0 que el valor observado de t. En general, el planteamiento de una 
determinada hipótesis nula puede proceder de estudios anteriores o de hipótesis 
biológicas respecto al comportamiento de las variables, aunque en el caso de una única 
media poblacional los contrastes de hipótesis pueden resultar un tanto artificiales. 
Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con 
determinaciones del colesterol HDL, la media y desviación típica fueron x  = 1,09 
y s = 0,29 mmol/l. Así, el IC al 95% para la media de colesterol HDL en la 
población de referencia resultó ser 
539
29,009,1 975,0;538t±  = 1,09 ± 1,96⋅0,012 = (1,07; 1,11). 
Estos datos muestrales también se emplearon para el contraste bilateral de la 
hipótesis nula H0: μ = 1. Para ello, se calculó el estadístico del contraste 
A su vez, el contraste de la hipótesis nula H0: μ = μ0 frente a la hipótesis alternativa bilateral H1: 
μ ≠ μ0  pu de realizarse medi nte el tadístico
 4
Utilizando las propiedades de la distribución muestral de la media, es posible obtener 
un intervalo de confianza al 100(1 - α)% para la media poblacional μ como  
n
stx n 2/1,1 α−−± . 
A su vez, el contraste de la hipótesis nula H0: μ = μ0 frente a la hipótesis alternativa 
bilateral H1: μ ≠ μ0 puede realizarse mediante el estadístico 
ns
xt 0μ−= . 
Bajo la hipótesis nula, este estadístico seguirá aproximadamente una distribución t de 
Student con n - 1 grados de libertad y, en consecuencia, el valor P del contraste puede 
calcularse como el área bajo la curva de esta distribución para aquellos valores tanto o 
más distantes de 0 que el valor observado de t. En general, el planteamiento de una 
determinada hipótesis nula puede proceder de estudios anteriores o de hipótesis 
biológicas respecto al comportamiento de las variables, aunque en el caso de una única 
media poblacional los contrastes de hipótesis pueden resultar u  tant  artificiales. 
Ejemplo 6.4 Entre los n = 539 controles del studio EURAMIC con 
determinaciones del colesterol HDL, la media y desviación típica fueron x  = 1,09 
y s = 0,29 mmol/l. Así, el IC al 95% para la media de colesterol HDL en la 
población de referencia resultó ser 
539
29,009,1 975,0;538t±  = 1,09 ± 1,96⋅0,012 = (1,07; 1,11). 
Estos datos muestrales también se emplearon para el contraste bilateral de la 
hipótesis nula H0: μ = 1. Para ello, se calculó el estadístico del contraste 
Bajo la hipótesis nula, este estadístico seguirá aproximadamente una distribución t de Student 
con n – 1 grados de libertad y, n consecuencia, el valor P el co traste puede calculars  como 
el área bajo la curva de esta distribución para aquellos valores tanto o más distantes de 0 que el 
valor observado de t. En general, el planteamiento de una determinada hipótesis n la puede 
proceder de estudios previos o de hipótesis biológicas respecto al comportamiento de las 
81
Inferencia sobre una media y varianza poblacional
Pastor-Barriuso R.
variables, aunque en el caso de una única media poblacional los contrastes de hipótesis pueden 
resultar un tanto artificiales.
Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con determinaciones 
del colesterol HDL, la media y desviación típica fueron 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada p r x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 1,09 y s = 0,29 mmol/l. Así, 
el IC al 95% para la media de colesterol HDL en la población de referencia resultó ser
 4
Utilizando las propiedades de la distribución muestral de la media, es posible obtener 
un intervalo de confianza al 100(1 - α)% para la media poblacional μ como  
n
stx n 2/1,1 α−−± . 
A su vez, el contraste de la hipótesis nula H0: μ = μ0 frente a la hipótesis alternativa 
bilateral H1: μ ≠ μ0 puede realizarse mediante el estadístico 
n
s
xt 0μ−= . 
Bajo la hipótesis nula, este estadístico seguirá aproximadamente una distribución t de 
Student con n - 1 grados de libertad y, en consecuencia, el valor P del contraste puede 
calcularse como el área bajo la curva de esta distribució  para aquellos valores tanto o 
más distantes de 0 que el valor observado de t. En gen ral, el planteamiento de una 
determinada hipótesis nula pu  proc der de estudios anteriores o de hipótesis 
biológicas respecto al comportamiento de la  v riables, unque en l caso de una única 
media poblacional los cont astes de hipótes s pueden resultar un tan o artificiales. 
Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con 
determinaciones del colesterol HDL, la media y desviación típica fueron x  = 1,09 
y s = 0,29 mmol/l. Así, el IC al 95% para la media de colesterol HDL en la 
población de referencia resultó ser 
539
29,009,1 975,0;538t±  = 1,09 ± 1,96⋅0,012 = (1,07; 1,11). 
Estos datos muestrales también se emplearon para el contraste bilateral de la 
hipótesis nula H0: μ = 1. Para ello, se calculó el estadístico del contraste 
Estos datos muestrales también se emplearon para el contraste bilateral de la hipótesis 
nula H0: μ = 1. Pa  llo, se calculó el estadístico d
 5
t = 
539
29,0
109,10 −
=
−
ns
x μ  = 7,21, 
cuya distribución bajo la hipótesis nula será t538 o, de forma equivalente, normal 
estandarizada. De la Tabla 3 del Apéndice se desprende que la probabilidad de 
obtener valores superiores a 7,21 en una distribución normal estandarizada es 
virtualmente nula, por lo que el valor P bilateral será inferior a 0,001. En 
conclusión, el nivel medio de colesterol HDL n esta población difiere 
significativamente de 1 mmol/l (P < 0,001). De h ch , la media poblacional de 
colesterol HDL se estimó en 1,09 mmol/l, con un intervalo de confianza al 95% 
comprendido entre 1,07 y 1,11 mmol/l. 
6.2.2 Inferencia sobre la varianza de una población 
En ocasiones, el interés se centra en estimar no sólo la media de una variable aleatoria 
continua, sino también su varianza poblacional. Como se mostró en el Apartado 5.2 del 
tema anterior, la varianza muestral s2 es un estimador insesgado y consistente de la 
varianza poblacional σ 2 de cualquier variable aleatoria, siendo además el estimador 
insesgado con menor error estándar para distribuciones normales. 
Al igual que ocurría en el caso de una media, los intervalos de confianza y las 
pruebas de hipótesis sobre la varianza poblacional σ 2 se basan en la distribución 
muestral de s2. Si la distribución subyacente de la variable es normal, puede probarse 
que el estadístico (n – 1)s2/σ 2 sigue una distribución denominada chi-cuadrado con n - 
1 grados de libertad y denotada por 2 1−nχ , 
2
12
2
~)1(
−
−
n
sn χ
σ
. 
cuya distribución bajo l  hipótesis nula será t538 o, de form  equivalente, normal 
estan arizada. De l  Tabla 3 d l Apéndice se despr nde que la probabilidad de obtener 
valores superiores a 7,21 en una distribución ormal estandarizada s virtualmente nula, 
por lo que el valor P bil teral será inferior a 0,001. En conclusión, el nivel medio de 
colesterol HDL en esta pobl ción difiere significativa ente de 1 mmol/l (P < 0,001). De 
hecho, la media poblacional de colesterol HDL se estimó en 1,09 mmol/l, con un intervalo 
de confianza al 95% omprendido entre 1,07 y 1,11 mmol/l.
6.2.2 Inferencia sobre la varianza de una población
En ocasiones, el interés se centra en estimar no sólo la media de una variable aleatoria continua, 
sino también su varianza poblacional. Como se mostró en el Apartado 5.2 del tema anterior, la 
varianza muestral s2 es un estimador insesgado y consistente de la varianza poblacional σ 2 de 
cualquier variable aleatoria, siendo además el estimador insesgado con menor error estándar 
para distribuciones normales.
Al igual que ocurría en el caso de una media, los intervalos de confianza y las pruebas de hipótesis 
sobre la varianza poblacional σ 2 se basan en la distribución muestral de s2. Si la distribución 
subyacente de l variab e es norm l, p ede probarse que el estadístico (n – 1)s2/σ2 sigue una 
distribución denominada chi-cuadrado con n – 1 grados de libertad y denotada por χ2n–1, 
 5
t = 
539
29,0
109,10 −
=
−
ns
x μ  = 7,21, 
cuya distribución bajo la hipótesis nula será t538 o, de forma equivalente, normal 
estandarizada. De la Tabla 3 del Apéndice se desprende que la probabilidad de 
obtener valores superiores a 7,21 en una distribución normal estandarizada es 
virtualmente ula, por lo que el valor P bilat ral será inferior a 0,001. En 
conclusión, el nivel medio de colesterol HDL en esta población di iere 
significativamente de 1 mmol/l (P < 0,001). De hecho, la media poblacional de 
colesterol HDL se estimó en 1,09 mmol/l, con un intervalo de confianza al 95% 
comprendido entre 1,07 y 1,11 mmol/l. 
6.2.2 Inferencia sobre la varianza de una población 
En ocasiones, el interés se centra en timar no sólo la media de u a variable ale toria
continua, sino también su varianza poblacional. C mo se mostró en el Aparta o 5.2 del 
tema ant ri r, la varianza muestral s2 es un estimador insesgado y consistente de la 
varianza poblacional σ 2 de cualquier variable aleatoria, siendo además el stima or 
insesgado con menor error estándar para distribuciones normales. 
Al igual que ocurría en el caso de una media, los intervalos de confianza y las 
pruebas de hipótesis sobre la varianza poblacional σ 2 se basan en la distribución 
muestral de s2. Si la distribución subyacente de la variable es normal, puede probarse 
que el estadístico (n – 1)s2/σ 2 sigue una distribución denominada chi-cuadrado con n - 
1 grados de libertad y denotada por 2 1−nχ , 
2
12
2
~)1(
−
−
n
sn χ
σ
. 
Como puede apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma valores 
positivos y está sesgada a la derecha. Los grados de libertad de una distribución chi-cuadrado 
determinan su tendencia central, dispersión y asimetría: al aumentar los grados de libertad, 
aumenta la media y la varianza de la distribución y disminuye su sesgo a la derecha. En la Tabla 6 
del Apéndice se presentan los percentiles de la distribución chi-cuadrado para distintos grados 
de libertad.
82
Inferencia sobre medias
Pastor-Barriuso R.
 Figura 6.1
  
0 2 4 6 8 10 12
0
0,1
0,2
0,3
0,4
0,5
0,6 χ 21
χ 22
χ 23
χ 25
x
f(x)
Figura 6.1 Función de densidad de la distribución chi-cuadrado con 1, 2, 3 y 5 grados de libertad.
A partir de la distribución χ2n–1 del estadístico (n – 1)s2/σ2 resulta sencillo calcular un intervalo 
de confianza para la varianza poblacional. El 100(1 – α)% de la distribución muestral de este 
estadístico está comprendido entre los percentiles α/2 y 1 – α/2 de la distribución chi-cuadrado 
con n – 1 grados de libertad, denotados por χ2n–1,α/2 y χ2n–1,1–α/2,
 6
Como puede apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma 
valores positivos y está sesgada a la derecha. Los grados de libertad de una distribución 
chi-cuadrado determinan su tendencia central, dispersión y asimetría: al aumentar los 
grados de libertad, aumenta la media y la varianza de la distribución y disminuye su 
sesgo a la derecha. En la Tabla 6 del Apéndice se presentan los percentiles de la 
distribución chi-cuadrado para distintos grados de libertad. 
[Figura 6.1 aproximadamente aquí] 
A partir de la distribución 2 1−nχ  del estadístico (n – 1)s2/σ 2 resulta sencillo calcular 
un intervalo de confianza para la varianza poblacional. El 100(1 - α)% de la 
distribución muestral de este estadístico está comprendido entre los percentiles α/2 y 1 - 
α/2 de la distribución chi-cuadrado con n - 1 grados de libertad, denotados por 2 2/,1αχ −n  
y 2 2/1,1 αχ −−n , 
αχ
σ
χ
αα −=



<
−
<
−−−
1)1( 2 2/1,12
2
2
2/,1 nn
snP . 
Manipulado esta desigualdad para despejar la varianza poblacional, se obtiene que 
α
χ
σ
χ αα
−=



−
<<
−
−−−
1)1()1( 2
2/,1
2
2
2
2/1,1
2
nn
snsnP ; 
es decir, el IC al 100(1 - α)% para la varianza poblacional σ 2 viene determinado por 
[(n – 1)s2/ 2 2/1,1 αχ −−n , (n – 1)s2/ 2 2/,1αχ −n ], 
cuyos límites pueden calcularse a partir de los datos observados en la muestra. A 
diferencia de los intervalos de confianza para μ, que están centrados alrededor de x , los 
Manipulando esta desigualdad para despejar la varianza poblacional, se obtiene que
 6
Como puede apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma 
valores positivos y stá sesgad a la derecha. Lo  grados de libert  de una distribución 
chi-cuadrado determinan su tendencia c ntral, di persión y asimetría: al aumentar los 
grados e libertad, aumenta la m dia y la varianza de la distribución y disminuye su 
sesg  a la derecha. En la T bla 6 el Apéndice se pr sentan los percentiles de la 
di tribución chi-cuadrado para distintos grados de libertad. 
[Figura 6.1 aproximadamente aquí] 
A partir de la distribución 2 1−nχ  del estadístico (n – 1)s2/σ 2 resulta sencillo calcular 
un intervalo de confianza para la varianza poblacional. El 100(1 - α)% de la 
distribución muestral de este estadíst co está comprendido entre los perc ntiles α/2 y 1 - 
α/2 de la distribución chi-cuadrado con n - 1 grados de libertad, denotados por 2 2/,1αχ −n  
y 2 2/1,1 αχ −−n , 
αχ
σ
χ αα −=



<
−
<
−−−
1)1( 2 2/1,12
2
2
2/,1 nn
snP . 
Manipulado esta desigualdad para despejar la varianza poblacional, se obtiene que 
α
χ
σ
χ αα
−=



−
<<
−
−−−
1)1()1( 2
2/,1
2
2
2
2/1,1
2
nn
snsnP ; 
es decir, el IC al 100(1 - α)% para la varianza poblacional σ 2 viene determinado por 
[(n – 1)s2/ 2 2/1,1 αχ −−n , (n – 1)s2/ 2 2/,1αχ −n ], 
cuyos límites pueden calcularse a partir de los datos observados en la muestra. A 
diferencia de los interv os de confianza para μ, que están centrados alrededor de x , los 
es decir, el IC al 100(1 – α)% para la varianza poblacional σ2 viene determinado por
 6
Como puede apreciarse en la Figura 6.1, la distribución chi-cuadrado sólo toma 
valores positivos y está sesgada a la derecha. Los grados de libertad de una distribución 
chi-cuadrado determinan su tendencia central, dispersión y asimetría: al aumentar los 
grados de libertad, aumenta la media y la varianza de la distribución y disminuye su 
sesgo a la derecha. En la Tabla 6 del Apéndice se presentan los percentiles de la 
distribución chi-cuadrado para distintos grados de libertad. 
[Figura 6.1 aproximadamente aquí] 
A partir de la distribución 2 1−nχ  del estadístico (n – 1)s2/σ 2 resulta sencillo calcular 
un intervalo de confianza para la varianza poblacional. El 100(1 - α)% de la 
distribución muestral de este estadístico está comprendido entre los percentiles α/2 y 1 - 
α/2 de la distribución chi-cuadrado con n - 1 grados de libertad, denotados por 2 2/,1αχ −n  
y 2 2/1,1 αχ −−n , 
αχ
σ
χ αα −=



<
−
<
−−−
1)1( 2 2/1,12
2
2
2/,1 nn
snP . 
Manipulado esta desigualdad para despejar la varianza poblacional, se obtiene que 
α
χ
σ
χ αα
−=



−
<<
−
−−
1)1()1( 2
2/,
2
2
2
2/,1
2
nn
snsnP ; 
es decir, el IC al 100(1 - α)% para la varianza poblacional σ 2 viene determinado por 
[(n – 1)s2/ 2 2/1,1 αχ −−n , (n – 1)s2/ 2 2/,1αχ −n ], 
cuyos límites pueden calcularse a partir de los datos observados en la muestra. A 
diferencia de los intervalos de confianza para μ, que están centrados alrededor de x , los 
cuyos límites pueden calcularse a partir de los datos observados en la muestra. A diferencia de 
los intervalos de confia za para μ, que están centra os alrededor e 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La m dia aritmética, den tada por x , se define como la suma de cada uno de los 
valores muestr les dividida por l número d  observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, los intervalos de confianza 
para σ2 no son simétricos alrededor de s2, particularmente cuando el tamaño muestral es 
reducido.
De igual forma, l contraste una dete minada hipót i  ula H0: σ2 = σ02 frente a la hipótesis 
alternativa bilateral H1: σ2 ≠ σ02 puede realizarse mediante el estadístico
 7
intervalos de confianza para σ 2 no son simétricos alrededor de s2, particularmente 
cuando el tamaño muestral es reducido. 
De igual forma, el ontraste de una determin da hipótesis nula H0: σ 2 = 20σ  frente a 
la hipótesis alternativa bilateral H1: σ 2 ≠ 20σ  puede r alizarse mediante el esta ístico 
χ 2 = 2
0
2)1(
σ
sn − , 
que bajo H0 sigue una distribución chi-cuadrado con n - 1 grados de libertad. Así, el 
valor P del test se obtiene como el doble del área a la izquierda de este estadístico bajo 
la distribución 2 1−nχ , si s2 ≤ 20σ , o como el d bl  del áre  a la derecha del st ístico, i 
s2 > 20σ . Es importante notar que, si la distribución subyacente dista mucho de ser 
normal, los intervalos de confianza y los contrastes para la varianza poblacional son 
menos fiables que para la media, en cuyo caso conviene proceder con cautela. 
Ejemplo 6.5 Utilizando la desviación típica s = 0,29 mmol/l del colesterol HDL 
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional 
viene determinado por 
 (538⋅0,292/ 2 975,0;538χ , 538⋅0,292/ 2 025,0;538χ ) 
  = (45,25/604,16; 45,25/475,62) = (0,075; 0,095), 
ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grados 
de libertad son respectivamente 2 025,0;538χ  = 475,62 y 2 975,0;538χ  = 604,16. Así, el IC 
al 95% para la desviación típica del colesterol HDL en la población de referencia 
es 
( 075,0 ; 095,0 ) = (0,27; 0,31). 
83
Comparación de medias en dos muestras independientes
Pastor-Barriuso R.
que bajo H0 sigue una distribución chi-cuadrado con n – 1 grados de libertad. Así, el valor P del 
test se obtiene como el doble del área a la izquierda de este estadístico bajo la distribución χ2n–1, 
si s2 ≤ σ02, o como el doble del área a la derecha del estadístico, si s2  > σ02 . Es importante notar 
que, si la distribución subyacente dista mucho de ser normal, los intervalos de confianza y los 
contrastes para la varianza poblacional son menos fiables que para la media, en cuyo caso 
conviene proceder con cautela.
Ejemplo 6.5 Utilizando la desviación típica s = 0,29 mmol/l del colesterol HDL en los 
n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional viene 
determinado por
 7
intervalos de confianza para σ 2 no son simétricos alrededor de s2, particularmente 
cuando el tamaño muestral es reducido. 
De igual forma, el contraste de una determinada hipótesis nula H0: σ 2 = 20σ  frente a 
la hipótesis alternativa bilateral H1: σ 2 ≠ 20σ  puede realizarse mediante el estadístico 
χ 2 = 2
0
2)1(
σ
sn − , 
que bajo H0 sigue una distribución chi-cuadrado con n - 1 grados de libertad. Así, el 
valor P del test se obtiene como el doble del área a la izquierda de este estadístico bajo 
la distribución 2 1−nχ , si s2 ≤ 20σ , o como el doble del área a la derecha del estadístico, si 
s2 > 20σ . Es importante notar que, si la distribución subyacente dista mucho de ser 
normal, los intervalos de confianza y los contrastes para la varianza poblacional son 
menos fiables que para la media, en cuyo caso conviene proceder con cautela. 
Ejemplo 6.5 Utilizando la desviación típica s = 0,29 mmol/l del colesterol HDL 
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional 
viene determinado por 
 (538⋅0,292/ 2 975,0;538χ , 538⋅0,29
2/ 2 025,0;538χ ) 
  = (45,25/604,16; 45,25/475,62) = (0,075; 0,095), 
ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grados 
de libertad son respectivamente 2 025,0;538χ  = 475,62 y 2 975,0;538χ  = 604,16. Así, el IC 
al 95% para la desviación típica del colesterol HDL en la población de referencia 
es 
( 075,0 ; 095,0 ) = (0,27; 0,31). 
ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grados de libertad 
son respectivamente 
 7
intervalos de confianza para σ 2 no son simétricos alrededor de s2, particularmente 
cuando el tamaño muestral es reducido. 
De igual forma, el contraste de una determinada hipótesis nula H0: σ 2 = 20σ  frente a 
la hipótesis alternativa bilateral H1: σ 2 ≠ 20σ  puede realizarse mediante el estadístico 
χ 2 = 2
0
2)1(
σ
sn − , 
que bajo H0 sigue una distribución chi-cuadrado con n - 1 grados de libertad. Así, el 
valor P del test se obtiene como el doble del área a la izquierda de este estadístico bajo 
la distribución 2 1−nχ , si s2 ≤ 20σ , o como el doble del área a la derecha del estadístico, si 
s2 > 20σ . Es importante notar que, si la distribución subyacente dista mucho de ser 
normal, los intervalos de confianza y los contrastes para la varianza poblacional son 
menos fiables que para la media, en cuyo caso conviene proceder con cautela. 
Ejemplo 6.5 Utilizando la desviación típica s = 0,29 mmol/l del colesterol HDL 
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional 
viene determinado por 
 (538⋅0,292/ 2 975,0;538χ , 538⋅0,292/ 2 025,0;538χ ) 
  = (45,25/604,16; 45,25/475,62) = (0,075; 0,095), 
ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grados 
de libertad son 2 025,0;538χ  = 475,62 y 2 975,0;538χ  = 604,16. Así, el IC 
al 95% para la desviación típica del colesterol HDL en la población de referencia 
es 
( 075,0 ; 095,0 ) = (0,27; 0,31). 
í, el IC al 95% para la 
desviación típica del colesterol HDL en la población de referencia es
 7
intervalos de confianza para σ 2 no son simétricos alrededor de s2, particularmente 
cuando el tamaño muestral es reducido. 
De igual forma, el contraste de una determinada hipótesis nula H0: σ 2 = 20σ  frente a 
la hipótesis alternativa bilateral H1: σ 2 ≠ 20σ  puede realizarse mediante el estadístico 
χ 2 = 2
0
2)1(
σ
sn − , 
que bajo H0 sigue una distribución chi-cuadrado con n - 1 grados de libertad. Así, el 
valor P del test se obtiene como el doble del área a la izquierda de este estadístico bajo 
la distribución 2 1−nχ , si s2 ≤ 20σ , o como el doble del área a la derecha del estadístico, si 
s2 > 20σ . Es importante notar que, si la distribución subyacente dista mucho de ser 
normal, los intervalos de confianza y los contrastes para la varianza poblacional son 
menos fiables que para la media, en cuyo caso conviene proceder con cautela. 
Ejemplo 6.5 Utilizando la desviación típica s = 0,29 mmol/l del colesterol HDL 
en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional 
viene determinado por 
 (538⋅0,292/ 2 975,0;538χ , 538⋅0,292/ 2 025,0;538χ ) 
  = (45,25/604,16; 45,25/475,62) = (0,075; 0,095), 
ya que los percentiles 2,5 y 97,5 de la distribución chi-cuadrado con 538 grados 
de libertad son respectivamente 2 025,0;538χ  = 475,62 y 2 975,0;538χ  = 604,16. Así, el IC 
al 5% par  la desviación típic  del colesterol HDL en la población de referencia 
 
( 075,0 ; 095,0 ) = (0,27; 0,31). 
Para determinar i los niveles de colesterol HDL en los controles del EURAMIC son 
compatibles con una desviación típica poblacional de 0,30 mmol/l, se contrastó 
bilateralmente la hipótesis nula H0: σ2 = 0,302  mediante el estadístico
 8
Para determ nar si los niveles d  colesterol HDL en los controles del EURAMIC 
son compatibles con una desviación típica poblacional de 0,30 mmol/l, se 
contrastó bilateralmente la hipótesis nula H0: σ 2 = 0,302 mediante el estadístico 
χ   = 2
2
2
0
2
30,0
29,0538)1( ⋅
=
−
σ
sn  = 502,73. 
Como s < σ 0, el valor P corresponde a 2P( 2538χ  ≤ 502,73) = 2⋅0,140 = 0,280; es 
decir, el contraste no resultó estadísticamente significativo, careciendo entonces 
de evidencia para rechazar la hipótesis nula. La conclusión de este contraste es 
consistente con el intervalo de confianza para σ, dado que éste incluye el valor 
nulo σ 0 = 0,30 mmol/l. 
6.3 COMPARACIÓN DE MEDIAS EN DOS MUESTRAS INDEPENDIENTES 
Hasta ahora se han revisado las técnicas estadísticas para realizar inferencias sobre el 
valor de un parámetro en una población. Sin embargo, una situación mucho más 
frecuente en la práctica es la comparación de un determinado parámetro entre dos 
poblaciones distintas. En este apartado se presentan los métodos para comparar la media 
poblacional de una variable cuantitativa a partir de dos muestras independientes, donde 
las observaciones de una muestra no están relacionadas o emparejadas con las 
observaciones de la otra muestra. 
En adelante, la media y la varianza de la variable aleatoria en la primera población se 
denotan por μ1 y 21σ , y en la segunda población por μ2 y 22σ . El objetivo se centra en 
estimar la diferencia entre ambas medias poblacionales μ1 - μ2 a partir de dos muestras 
independientes de dichas poblaciones de tamaños n1 y n2 con medias respectivas 1x  y 
2x  y varianzas 21s  y 22s . 
Como s < σ0,  el valor P corresponde a 2P(χ2538 ≤ 502,73) = 2∙0,140 = 0,280;  es decir, el 
contraste no resultó estadísticame te significativo, careciendo entonces de evidencia para 
rechazar la hipótesis nula. La conclusión de este contraste es consistente con el intervalo 
de confianza para σ, dado que éste incluye el valor nulo σ0 = 0,30 mmol/l.
6.3 COMPARACIÓN DE MEDIAS EN DOS MUESTRAS INDEPENDIENTES
Hasta ahora se han revisado las técnicas estadísticas para realizar inferencias sobre el valor de 
un parámetro en una población. Sin embargo, una situación mucho más frecuente en la práctica 
es la comparación de un determinado parámetro entre dos poblaciones distintas. En este apartado 
se presentan los métodos para comparar la media poblacional de una variable cuantitativa a 
partir de dos muestras independientes, donde las observaciones de una muestra no están 
relacionadas o emparejadas con las observaciones de la otra muestra.
En adelante, la media y la varianza de la variable aleatoria en la primera población se denotan 
por μ1 y σ12, y en la s gun a pobla ión por μ2 y σ22. El objetivo se centra en estima  la diferencia 
entre ambas medias poblacionales μ1 – μ2 a partir de dos muestras independientes de dichas 
poblaciones de tamaños n1 y n2 con medias respectivas 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de u a d terminada vari bl  o, dicho de forma equ valente, estos estimadores indican 
lred dor de qué valor se agrupan l s datos observados. L  m didas de tendencia 
central de la muestra sirven tanto para res mir los resultados observados como para 
realiz r infere cias cerca de los parámetros poblacional s correspondientes. A 
c ntinu ción se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética
La medi aritmética, denotad  p r x , se define como la suma de cada uno de los 
valores muestr les dividida por l número de observaciones realizadas. Si denotamos 
por  l tamaño muestral y por xi el valor bserv d  para el sujeto -ésimo, i = 1, ..., n, 
l  media ve dría d da por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenci da por los valores extremos y, en este 
caso, uede no ser un fiel reflejo de la tendencia c ntral de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 y 
 
 5
1.2 MEDIDAS DE TENDEN IA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una det rminada variable o, di ho de forma quivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observado . La medidas de tendencia 
central de la muestra sirven tanto para resumir los result dos observados como para 
realizar inf rencias acerca de los parámetros poblacional s correspo dientes. A 
continuación se describen los princip les estimadores d  la tendencia central de una 
variable. 
1.2.1 Media ritmética 
La media ar tmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el númer  de bservaciones realizadas. Si den tamos 
por n el tamaño mu tral y p r xi el valor observado par el sujeto i-ésimo, i = 1, ..., n, 
la media ven rí  d da por   
n
xx
x
n
x n
n
i
i
++
== 
=
...1 21
1
. 
La m dia es la me ida de tendencia central más utiliza a y de más fácil 
interpretación. Corresponde al “centro de gr vedad” de los datos de la muestra. Su 
principal limit ción es que está muy influenciada por los valores extremos y, en este 
caso, pued  no ser un fiel refl jo d  la tendencia centr l de la distribución. 
Ejemplo 1.4 En este y en los ucesivos ejemplos sobre estimadores muestral s, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 p imeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio mul icéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Isr el para evaluar l efecto de los 
2 y varia zas s12 y 22.
Como cabría esperar, el estimador puntual es la diferencia de las medias muestrales 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La m dia aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 – 
 
 5
1.2 MEDIDAS D  TENDENCIA CENTRAL 
Las medi as de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrede or de qué valor se agrupan los dato  observados. Las medi as de tendencia 
centra  de la mue t a sirven tanto para resumir los resultado  observad s como para 
real zar inferencias acerca de los parámetr s poblacionales correspo dientes. A 
continuación se describen los principales estimador s de la tendencia central de una 
v riable. 
1.2.1 Media ari mética 
La me a ritmét ca, denot da por x , se define como la suma de cada uno de los 
valores muestrales ividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media ven ría dada por   
n
xxx
x
n
x n
n
i
i
++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
int rpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fie  reflejo de la tendencia centra  de la distr bución. 
Ejemplo 1.4 En este y en los uce ivos ejemplos sobre estimadores muestral s, se 
utilizarán los valor s del colesterol HDL obtenidos en los 10 p imeros sujetos del 
estudio “European Study on Antioxidants, Myoc rdial Infarction and Cancer of 
th  Breast“ (EURAMIC), un estudio multicéntrico de casos y c ntroles realizado 
entre 1991 y 1992 en ocho países Europ o  e Israel par  evaluar l efecto de los 
2 que 
representa además un estimador insesgado y consistente de la diferencia subyacente μ1 – μ2 en la 
población. Para realizar inferencias sobre esta diferencia de edia  poblacionales, es necesari  
84
Inferencia sobre medias
Pastor-Barriuso R.
conocer la distribución muestral de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 – 
 
 5
1.2 MEDIDAS D  TENDENCIA CENTRAL 
Las medi as de te dencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrede or de qué valor se agrupan los dato  observados. Las medi as de te dencia 
central de la mue t a sirve  tanto para resumir los resultado  observad s como para 
realizar inferencias acerca de los parámetr s poblacionales correspo dientes. A 
continuación se describen los principales estimador s de la te dencia central de una 
variable. 
.2.1 Media ari mética 
La media a tmética, denot da por x , se d fine como la suma de cada uno de los 
valores muestrales vidida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
++
== 
=
...1 21
1
. 
La media es la medida de te dencia central más utilizada y de más fácil 
int rpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores xtremos y, en este 
caso, puede no ser un fie  reflejo de la te dencia central de la distribución. 
Ejemplo 1.4 En este y en los suce ivos ejempl s sobre estimadores muestral s, se 
utilizarán los valor s del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myoc rdial Infarction and Cancer of 
th  Breast“ (EURAMIC), un estudio multicéntrico de casos y c ntroles realizado 
ntre 99  y 1992 en cho países Eur p o  e Israel par  evaluar l efecto de los 
2. Si amb s tam ños m estr les n1 y n2 son suficientemente 
grandes (recuérdese el teorema central del límite), las medias muestrales 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 y 
 
 5
1.2 MEDI AS DE T DEN IA CENTRAL 
Las me idas  tendencia ce tral informan ac r a de cuál es el valor más representativo 
de una determin d  variable o, dich  de forma equival nte, os estimadores i dican 
alrededor de qué valor se grupan l datos observados. Las me idas  tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferen ias ac rca de los pa ámetros p bl cionales correspondientes. A 
continuación se d scriben los rincipales estima ores de la tendencia central de una 
variable. 
1.2.1 Media ar tmética 
La media aritmética, denotada por x , se define como l sum  de cada un  de los 
valor  mu trales ividida por el número de observaciones re lizadas. Si denotamos 
por n el ta año muestral y por xi el valor observ do para l sujeto i-ésimo i = 1 ..., n, 
la m dia vendrí  dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida  tendencia central más utilizada y de más fácil 
in erpretación. Corresponde al “centro de grave ad” de l  atos de la muestra. Su 
rincipal limitación es que está muy influenciada por s valores extremos y, n este 
caso, pued  no ser un i l reflejo de la tendencia central e la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimador  mu trales, se 
utilizarán s valores d l colesterol HDL obtenidos en los 10 primeros uj tos del 
estudio “European Study on Antioxidants, Myocardi l Infarction d Cancer of 
the Breast“ (EURAMIC), n estudio mult éntri o de cas s y cont oles realizado 
entre 1991 y 1992 en ocho países Europeos  Israel p ra eva uar el ef ct  de los 
2 guirán 
aproxi adam nte la  istribuciones nor al s N(μ1, σ12/n1) y N(μ2, σ22/n2), respectivamente. Así, al 
tratarse de muestras independientes (véase Apartado 3.4), l  distribución mu stral d  la iferencia 
de medias ta bién será aproximadamente normal con media
 9
Como cabría esperar, el estimador puntual es la diferencia de las medias muestrales 
1x  - 2x , que representa además un estimador insesgado y consistente de la diferencia 
subyacente μ1 - μ2 en la población. Para realizar inferencias sobre esta diferencia de 
medias poblacionales, es necesario conocer la distribución muestral de 1x  - 2x . Si 
ambos tamaños muestrales n1 y n2 son suficientemente grandes (recuérdese el teorema 
central del límite), las medias muestrales 1x  y 2x  seguirán aproximadamente las 
distribuciones normales N(μ1, 21σ /n1) y N(μ2, 22σ /n2), respectivamente. Así, al tratarse 
de muestras independientes (véase Apartado 3.4), la distribución muestral de la 
diferencia de medias también será aproximadamente normal con media 
E( 1x 2x ) = E( 1x )  E( 2x ) = μ1 μ2 
y varianza 
var( 1x  - 2x ) = var( 1x ) + var( 2x ) = 21σ /n1 + 22σ /n2. 
En consecuencia, se tiene que  




+−→−
2
2
2
1
2
1
2121 ,~ nnNxx
σσμμ  
o, aplicando la estandarización de una distribución normal, 
)1  ,0(~)(
2
2
2
1
2
1
2121 N
nn
xx
→
+
−−−
σσ
μμ . 
Esta distribución muestral constituye la base para la comparación de dos medias 
poblacionales a partir de muestras independientes. No obstante, para hacer uso de este 
resultado, es necesario estimar previamente las varianzas desconocidas 21σ  y 22σ  de 
ambas poblaciones. La estimación se simplifica notablemente si se asume que las dos 
−
− −
y varianza
 9
Como cabría esperar, el estimador puntual e  l  difer cia de las medias muestr l s 
1x  - 2x , que representa además un estimador ins sgado y consistente e la diferenci
subyacente μ1 - μ2 en la población. Par  r alizar inferenci s sobre e ta difere cia de 
medias poblacionales, es necesario conocer la distribución muestral de 1x  - 2x . Si 
ambos tamaños muestrales n1 y n2 son suficientemente grandes (recuérdese el teorema 
central del límite), las medias muestrales 1x  y 2x  seguirán aproximadamente las 
distribuciones normales N(μ1, 21σ /n1) y N(μ2, 22σ /n2), respectiva ente. Así, al tratarse 
de muestras independientes (véase Apartado 3.4), la distribución muestral de la 
diferencia de medias también será aproximadamente normal con media 
E( 1x  - 2x ) = E( 1x ) - E( 2x ) = μ1 - μ2 
y varianza 
var( 1x 2x ) = var( 1x ) + var( 2x ) = 21σ /n1 + 22σ /n2. 
En consecuencia, se tiene que  




+−→−
2
2
2
1
2
1
2121 ,~ nNxx
σσμμ  
o, aplicando la estandarización de una distribución normal, 
)1  ,0(~)(
2
2
2
1
2
1
2121 N
nn
xx
→
+
−−−
σσ
μμ . 
Esta distribución muestral constituye la base para la comparación de dos medias 
poblacionales a partir de muestras independientes. No obstante, para hacer uso de este 
resultado, es necesario estimar previamente las varianzas desconocidas 21σ  y 22σ  de 
ambas poblaciones. La estimación se simplifica notablemente si se asume que las dos 
−
En consecuencia, se tiene que 
 9
Como cabría esperar, el estimador puntual es la diferencia de las medias muestrales 
1x  - 2x , que representa además un estimador insesgado y consistente de la diferencia 
subyacente μ1 - μ2 en la población. Para realizar inferencias sobre esta diferencia de 
medias poblacionales, es necesario conocer la distrib ción muestral de 1x  - 2x . Si 
ambos tamaños muestrales n1 y n2 son suficient ment  grand  (recuérdese el teorema 
central del límite), las medias muestrales 1x  y 2x  seguirán aproximadamente las 
distribuciones normales N(μ1, 21σ /n1) y N(μ2, 22σ /n2), respectivamente. Así, al tratarse 
de muestras independientes (véase Apartado 3.4), la distribución muestral de la 
diferencia de medias también será aproximadamente nor al on media 
E( 1x  - 2x ) = E( 1x ) - E( 2x ) = μ1 - μ2 
y varianza 
var( 1x  - 2x ) = var( 1x ) + var( 2x ) = 21σ /n1 + 22σ /n2. 
En consecuencia, se tiene que  




+−→−
2
2
2
1
2
1
2121 ,~ nnNxx
σσμμ
o, aplicando la estandarización de una distribución normal, 
)1  ,0(~)(
2
2
2
1
2
1
2121 N
nn
xx
→
+
−−−
σσ
μμ . 
Esta distribución muestral constituye la base para la c mparación de d s medias 
poblaci nales a partir de muestras i dependientes. No obstante, para hacer uso de este 
resultado, es necesario estimar previamente las varianzas desconocidas 21σ  y 22σ  de 
ambas poblaciones. La estimación se simplifica notablemente si se asume que las dos 
o, aplicando la estandarización de una distribución normal,
 9
Como cabría esperar, el estimador puntual es la diferencia de las medias muestrales 
1x  - 2x , que representa además un estimador insesgado y consistente de la diferencia 
subyacente μ1 - μ2 en la población. Para realizar inferencias sobre esta diferencia de 
medias poblacional s, es necesario conocer la distribución muestral d  1x  - 2x . Si 
ambos tamaños mu strales n1 y n2 son suficientemente grandes (recuérdese el teorema 
central del límite), las medias muestr les 1x  y 2x  s guirán aproximadamente las
distribuciones normales N(μ1, 21σ /n1) y N(μ2, 22σ /n2), respectivament . Así, al tratarse 
de muestras independientes (véase Apartado 3.4), la distribución muestral de la 
diferencia de m dias también será aproximadamente normal c n e i  
E( 1x  - 2x ) = E( 1x ) - E( 2x ) = μ1 - μ2 
y varianza 
var( 1x  - 2x ) = var( 1x ) + var( 2x ) = 21σ /n1 + 22σ /n2. 
En consecuencia, se tiene que  




+−→−
2
2
2
1
2
1
2121 ,~ nnNxx
σσμμ  
o, aplicando la estandarización de una distribución normal, 
)1  ,0(~)(
2
2
2
1
2
1
2121 N
nn
xx
→
+
−−−
σσ
μμ . 
Esta distribución muestral constituye la base para la comparación de dos medias 
poblacionales a partir de muestras independientes. No obstante, para hacer uso de este 
resultado, es necesario estimar previamente las varianzas desconocidas 21σ  y 22σ  de 
ambas poblaciones. La imación se simplifica not blemente si se asume que las dos 
Esta distribución muestral constituye la base para la comparación de dos medias poblacionales 
a partir de muestras independientes. No obst nte, para hacer uso de este resultado, es necesario 
estimar previamente las varianzas desconocidas σ1
2 y σ22 de ambas poblaciones. La estimación 
se simplif ca notablemente si se asume que las dos varianzas so  igu les σ1
2 = σ22, en cuyo caso 
es posible obtener una estimación combinada de la varianza común para ambas poblaciones. 
Po  el contrario si σ12 ≠ σ22, cada varianza pob cional deberá estimarse por separado, siendo 
entonces más impreciso el proceso de inferencia. Parece razonable pensar que la comparación 
de medias es más complicada en distribuciones con distinta variabilidad que en distribuciones 
con una misma varianza. La igualdad de varianzas no es una asunción puramente teórica, sino 
que tiene implicaciones prác cas como pu de apreciarse en el siguiente ejemplo.
Ejemplo 6.6 En el ensayo clínico del Ejempl  6.2 se prete de comparar las medias de 
presión arterial sistólica entre el grupo placebo y el grupo bajo tratamiento antihipertensivo. 
Si este tratamiento produjera una reducción del nivel de presión arterial aproximadamente 
igual en todos los pacientes, cabría esperar que la distribución de la presión arterial en los 
tratados presentara un nivel medio inferior que en el grupo placebo manteniendo 
inalterable la variabilidad. En tal caso, estaríamos ante una comparación de medias en 
distribuciones con igual varianza (Figura 6.2(a)). En caso contrario, si el tratamiento 
produjera una disminución de la presión arterial sistólica proporcional al nivel basal de 
cada paciente (esto es, mayor reducción en los sujetos con niveles más altos), la presión 
arterial en el grupo tratado tendría menor nivel medio y dispersión que en el grupo placebo. 
Bajo esta circunstancia, nos encontraríamos con una comparación de medias en 
distribuciones con distinta varianza (Figura 6.2(b)).
85
Comparación de medias en dos muestras independientes
Pastor-Barriuso R.
 Figura 6.1
  
μ trat μ plac
μ placμ trat
Tratamiento
Tratamiento Placebo
Placebo
(a) Efecto constante
(b) Efecto proporcional
Figura 6.2 Distribución de la presión arterial sistólica en los grupos placebo y tratamiento de un hipotético 
ensayo clínico asumiendo un efecto constante (a) o proporcional (b) del tratamiento antihipertensivo.
6.3.1 Comparación de medias en distribuciones con igual varianza
Si se asume que las varianzas poblacionales son iguales σ1
2 = σ22,  resulta natural estimar una 
única varianza combinada a partir de la información disponible en ambas muestras. Así, se 
obtendrá un estimador más estable de la varianza poblacional, lo que redundará en una mayor 
precisión de la estimación de la diferencia de medias y en una mayor potencia del contraste.
La media de las varianzas muestrales s21  y s22  podría utilizarse como estimador combinado de 
la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas 
varianzas muestrales, aun cuando la varianza estimada a partir de una muestra mayor sea más 
fiable. Para dar más peso a los resultados obtenidos con mayor tamaño muestral, la estimación 
combinada de la varianza se obtiene como la media de s12 y s22 ponderada por sus correspondientes 
grados de libertad
 11
6.3.1 Comparación de medias en distribuciones con igual varianza 
Si se asume que las varianzas poblaciones son iguales 21σ  = 22σ , resulta natural estimar 
una única varianza combinada a partir de la información disponible en ambas muestras. 
Así, se obtendrá un estimador más estable de la varianza poblacional, lo que redundará 
en una mayor precisión de la estimación de la diferencia de medias y en una mayor 
potencia del contraste. 
La media de las varianzas muestrales 21s  y 22s  podría utilizarse como estimador 
combinado de la varianza. Esta media es, sin embargo, ineficiente ya que otorga el 
mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de 
una muestra mayor sea más fiable. Para dar más peso a los resultados obtenidos con 
mayor tamaño muestral, la estimación combinada de la varianza se obtiene como la 
media de 21s  y 22s  ponderada por sus correspondientes grados de libertad 
.
2
)()(
2
)1()1(
21
1
2
2
1
2
1
21
2
22
2
112
21
−+
−+−
=
−+
−+−
=

==
nn
xxxx
nn
snsns
n
j
j
n
i
i
 
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de 
la media de cada grupo, y el denominador corresponde al número de grados de libertad 
para el cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 
1 en la segunda, (n1 – 1) + (n2 – 1) = n1 + n2 – 2. 
En la distribución muestral de la diferencia de medias, las varianzas desconocidas 
2
1σ  y 22σ  pueden entonces sustituirse por la estimación combinada de la varianza s2. 
Sin embargo, como esta estimación s2 está sujeta al error del muestreo, la distribución 
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la 
media de cada grupo, y el deno i ador corresponde al número de grados e libertad para el 
cálculo de este estimador: n1 – 1 grados de libertad en la primera muestra y n2 – 1 en la segunda, 
(n1 – 1) + (n2 – 1) = n1 + n2 – 2.
86
Inferencia sobre medias
Pastor-Barriuso R.
En la distribución muestral de la diferencia de medias, las varianzas desconocidas σ1
2 y σ22 
pueden entonces sustituirse por la estimación combinada de la varianza s2. Sin embargo, como 
esta estimación s2 está sujeta al error del muestreo, la distribución de la diferencia de medias ya 
no será normal, sino que seguirá aproximadamente una distribución t de Student con n1 + n2 – 2 
grados de libertad,
 12
de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una 
distribución t de Student con n1 + n2 – 2 grados de libertad, 
2
21
2121
21
~
11
)(
−+→
+
−−−
nnt
nns
xx μμ . 
A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una 
media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para 
la diferencia de medias poblacionales μ1 - μ2 como 
21
2/1,221
11 21 nnstxx nn +±− −−+ α , 
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud 
depende de su error estándar SE( 1x  - 2x ) = s 21 /1/1 nn + . Notar que este intervalo es 
una generalización bastante natural del intervalo para la media de una poblacional. 
Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del 
colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron cax  = 
0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron cox  = 1,09 y sco = 
0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia 
en el nivel medio de colesterol HDL es cax  - cox  = 0,98 - 1,09 = -0,11 mmol/l. Si 
asumimos una misma variabilidad del colesterol HDL en casos y controles, la 
varianza combinada de ambas muestras vendría determinado por  
;074,0
2539462
29,0 )1539(25,0 )1462(
2
)1()1(
22
coca
2
coco
2
caca2
=
−+
−+−
=
−+
−+−
= nn
snsns
 
A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una media 
(Apartado 5.3.2), puede erivarse un intervalo de confianza al 100(1 – α)% para l  diferencia 
de medias poblacionales μ1 – μ2 como
 12
de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una 
distribución t de Student con n1 + n2 – 2 grados de libertad, 
2
21
2121
21
~
11
)(
−+→
+
−−−
nnt
nns
xx μμ . 
A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una 
media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para 
la diferencia de medias poblacionales μ1 - μ2 como 
21
2/1,221
11 21 nnstxx nn +±− −−+ α , 
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud 
depende de su error estándar SE( 1x  - 2x ) = s 21 /1/1 nn + . Notar que este intervalo es 
una generalización bastante natural del intervalo para la media de una poblacional. 
Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del 
colesterol HDL entre los nca = 462 casos de infarto de miocardio fueron cax  = 
0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron cox  = 1,09 y sco = 
0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia 
en el nivel medio de colesterol HDL es cax  - cox  = 0,98 - 1,09 = -0,11 mmol/l. Si 
asumimos una misma variabilidad del colesterol HDL en casos y controles, la 
varianza combinada de ambas muestras vendría determinado por  
;074,0
2539462
29,0 )1539(25,0 )1462(
2
)1()1(
22
coca
2
coc
2
caca2
=
−+
−+−
=
−+
−+−
= nn
snsns
 
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de 
su error estánda  
 12
de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una 
distribución t de Student con n1 + n2 – 2 grados de libertad, 
2
21
2121
21
~
11
)(
−+→
+
−−−
nnt
nns
xx μμ . 
A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una 
media (Apartado 5.3.2), pued  deriv rse un interval  de confianza al 100(1 - α)% para 
la diferencia de medias pobl cionales μ1 - μ2 como 
21
2/1,221
11 21 nstxx nn +±− −−+ α , 
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud 
depende de SE( 1x 2x ) = s 21 /1/1 nn + . Notar que este int rvalo es 
una generalización bastante natural del intervalo para la media de una poblaci nal. 
Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del 
colesterol HDL entre l s nca = 462 casos de infarto de miocardio fueron cax  = 
0,98 y sca = 0,25 mmol/l, y entr  los nco = 539 controle fueron cox  = 1,09 y sco = 
0,29 mmol/l. De estos datos se deduce que la estimación puntual de la dif e cia 
en el nivel medio de colesterol HDL es cax  - cox  = 0,98 - 1,09 = -0,11 mmol/l. Si 
asumimos una misma ariabilida  del col sterol HDL en casos y controles, la 
varianza combinada de ambas muestras vendría determinado por  
;074,0
2539462
29,0 )1539(25,0 )1462(
2
)1()1(
22
coca
2
coco
2
caca2
=
−+
−+−
=
−+
−+−
= nn
snsns
 
−
una generalización 
bastante natural del intervalo para la media de una población.
Ejemplo 6.7 En el estudio EURAMIC, la media y la desviación típica del colesterol HDL 
ntre los nca = 462 c s s de infarto de miocardio fueron 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Medi  rit étic  
La m dia itmética, denotada p r x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
ca = 0,98 y sca = 0,25 mmol/l, y 
entre los nco = 539 controles fueron 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada p r x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observacion  realizadas. Si denotamos 
por n el tamaño mu stral y por xi el valor bservado para el sujeto i-ésim , i = 1, ..., n, 
a media vendría da a p r   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La e ia es l  edida de t encia central más utilizada y de más fácil 
interp etación. Corresponde al “centro de grave ad” de los d tos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
co = 1,09 y sco = 0,29 m ol/l. De estos datos e deduce 
que la e timación puntu l de la diferencia en el nivel m dio de c lesterol HDL s 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
L s medi as de tendencia central informan acerca de cuál es el valor más representativo 
d  una determinada variable o, dicho de forma equival te, estos estimadores indican 
alr dedor de qué valor se ag upan los datos observados. L s medidas de tendencia 
central de la mues a sirven tanto para resumir los resultados observados como para 
r alizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los rincipales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La m dia ar tmética, d n tada por x , se define como la su a de cada uno de los 
valores mu str es dividida por el número de observaciones realizadas. Si denotamos 
n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
int rpretación. Corresponde al “centro d  grav dad” de los datos de la muestra. Su 
principal limit ción s que stá muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en l  suce ivos ejemplos sobre estimadores muestrales, se 
utilizarán los v lores del colesterol HDL obtenidos en l s 10 primeros sujetos del 
estudio “Eur pean Study on Antioxidants, Myoca dial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntric ca os y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
ca – 
 
 5
1.2 MEDI AS DE T DEN IA CENTRAL 
Las medidas de tendencia central informan ce ca de cuá es el valor más r presentativo 
de una determin da variable o, dicho de forma equivalen e, estos estimadores i dican 
alrededo  de q é val r s  agrupan lo  datos observado . Las medidas de tendencia 
central de la muestra sirve  tanto para resumi  los resultados observados como para 
realizar i ferencias ce ca os parámetros poblacio les correspondientes. A 
continuación e describen los principales estimadores d  la tendencia central de una 
variable. 
1.2.1 Med a aritmétic  
La edia ar tmética, denotada por x , se define como la uma e cada uno de los 
valores muestrales dividid  por el núm r  d  bservacio es realizadas. Si den tamos 
por n el tamaño muestral y por xi el valor observado para l sujeto i-és mo, i = 1, ..., n, 
la media vendrí  dada por   
n
xxx
x
n
x n
n
i
i
++
== 
=
...1 21
1
. 
La m di s l  me ida de ten encia central más utiliza a y de más fácil 
in erpretación. Corres nde al “centro de gr ve ad” de los datos de la muestra. Su 
princ pal limitación s que está muy i fl enciada por los valores extremos y, en este 
caso, puede no ser un fiel refl jo d  la tendencia central e la distribución. 
Ejemp o 1.4 En este y en los sucesivos ejemplos obre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obte idos en los 10 primeros sujetos del 
estudio “Europea  Study on Antioxidants, Myocardi l Infarction and Cancer of 
the Breast“ (EURAMIC), un studio mul i éntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Isr el para evaluar el efecto de los 
co = 
0,98 – 1,09 = – 0,11 mmol/l. Si asumimos una misma variabilidad el colester l HDL en 
casos y controles, la varia za co binada de ambas muestras ven ría eterminado por 
 12
de la diferencia de medias ya no será normal, sino que seguirá aproximadamente una 
distribución t de Student con n1 + n2 – 2 grados de libertad, 
2
21
2121
21
~
11
)(
−+→
+
−−−
nnt
nns
xx μμ . 
A partir de este resultado, y siguiendo un procedimiento análogo al utilizado para una 
media (Apartado 5.3.2), puede derivarse un intervalo de confianza al 100(1 - α)% para 
la diferencia de medias poblacionales μ1 - μ2 como 
21
2/1,221
11 21 nnstxx nn +±− −−+ α , 
que está centrado alrededor de la diferencia de medias muestrales y cuya amplitud 
depende de su error estándar SE( 1x  - 2x ) = s 21 /1/1 nn + . Notar que este intervalo es 
una generalización bastante natural del intervalo para la media de una poblacional. 
Ejem lo 6.7 En el estudio EURAMIC, la m di  y la desviación típica del 
col sterol HDL entre los nca = 462 casos de infarto de miocardio fueron cax  = 
0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron cox  = 1,09 y sco = 
0,29 mmol/l. De estos datos se deduce que la estimación puntual de la diferencia 
en el nivel medio de colesterol HDL es cax  - cox  = 0,98 - 1,09 = -0,11 mmol/l. Si 
asumimos una misma variabilidad del colesterol HDL en casos y controles, la 
varianza combinada de ambas muestras vendría determinado por  
;074,0
2539462
29,0 )1539(25,0 )1462(
2
)1()1(
22
coca
2
coco
2
caca2
=
−+
−+−
=
−+
−+−
= nn
snsns
 
es decir, la desviación típica combinada es 
 13
es decir, l  desviación tí i  i  s = 074,0  = 0,272 mmol/l, cuyo 
valor está más próxima a la desviación típica observada en los controles que en 
los casos (mayor tamañ  muestral de los primeros). Así, el error estándar de la 
diferencia de medias puede alcul rse como 
SE( cax  - cox ) = 
539
1
462
1272,011
coca
+=+ nns  = 0,017. 
A partir de la diferencia de medias muestrales y de su error estándar, y teniendo 
en cuenta que la distribución t de Student con nca + nco – 2  999 grados de 
libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 
95% para μca - μco viene dado por 
 cax  - cox  ± t999;0,975 SE( cax  - cox ) 
  = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08). 
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel 
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al 
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia 
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.   
En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más 
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta 
hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de 
dos muestras independientes de igual varianza, se emplea el siguiente test estadístico 
21
21
21
21
11)(
nns
xx
xxSE
xxt
+
−
=
−
−
= , 
val r está 
más próximo a la desviación típica observada en los controles que en los casos (mayor 
tamaño muestral de los primeros). Así, el error estándar de la diferencia de medias puede 
calcularse como
 13
es decir, la desviación típica combinada es s = 074,0  = 0,272 mmol/l, cuyo 
valor está más próxima a la desviación típica observada en los controles que en 
los casos (mayor tamaño muestr l de los pr meros). Así, el error estándar de l  
diferencia de medias pu de cal ularse como 
SE( cax cox ) = 
539
1
462
1272,011
coca
+=+ nns  = 0,017. 
A partir de la diferencia de medias muestrales y de su error estándar, y teniendo 
en cuenta que la distribución t de Student n nca + nco – 2 = 999 grados de 
libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 
95% para μca - μco viene dado por 
 cax  - cox  ± t999;0,975 SE( cax  - cox ) 
  = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08). 
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel 
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al 
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia 
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.   
En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más 
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta 
hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de 
dos muestras independientes de igual varianza, se emplea el siguiente test estadístico 
21
21
21
21
11)(
nns
xx
xxSE
xxt
+
−
=
−
−
= , 
−
A partir de la diferencia de medias muestrales y de su error estándar, y teniendo en cuenta 
que la distribuc ón t de Student con nca + nco – 2 = 999 g ados de libertad es virtualmente 
idéntica a una distribución normal esta darizada, el IC al 95% para μca – μco viene dado por
 13
es decir, la desviación típica combinada es s = 074,0  = 0,272 mmol/l, cuyo 
valor está más próxima a la desviación típica observada en los controles que en 
los casos (mayor ta año muestral de los primeros). Así, l error estándar de la 
diferencia de medias pue e calcularse omo
SE( cax  - cox ) = 
539
1
462
1272,011
coca
+=+ nns  = 0,017. 
A artir de la difer ncia edias muestrales y de su rror es ándar, y teniendo 
e  cuenta que la distrib ción t de Student con nca + nco – 2 = 999 grados de
libertad es virtualment  idéntica a una distribución normal estandarizada, el IC al 
95% para μca - μco viene dado por 
 cax cox  ± t999;0,975 SE( cax cox ) 
  
=  0,11 ± 1,96⋅0,017 = ( 0,14;  0,08). 
De los resultados del estudio EURAMIC puede enton es concluirse que el nivel 
medio d  colesterol HDL en los c sos de infart  es inferior en 0,11 mmol/l al 
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia 
comprendida entre 0,08 y 0,14 mmol/l con na co fianza del 95%.   
En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más 
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta 
hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de 
dos muestras independientes de igual varianza, se emplea el siguiente test estadístico 
21
21
21
21
11)(
nns
xx
xxSE
xxt
+
−
=
−
−
= , 
− −
−
− −
87
Comparación de medias en dos muestras independientes
Pastor-Barriuso R.
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de 
colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los 
sujetos libres de la enfermedad, estando esta diferencia comprendida entre 0,08 y 0,14 
mmol/l con una confianza del 95%.
En el caso de la comparación de medias entre dos poblaciones, la hipótesis nula más natural 
es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta hipótesis nula 
H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2  a partir de dos muestras 
independientes de igual varianza, se emplea el siguiente test estadístico
 13
es decir, la desviación típica combinada es s = 074,0  = 0,272 mmol/l, cuyo 
valor está más próxima a la desviación típica observada en los controles que en 
los casos (mayor tamaño muestral de los primeros). Así, el error estándar de la 
diferencia de medias puede calcularse como 
SE( cax  - cox ) = 
539
1
462
1272,011
coca
+=+ nns  = 0,017. 
A partir de la diferencia de medias muestrales y de su error estándar, y teniendo 
en cuenta que la distribución t de Student con nca + nco – 2 = 999 grados de 
libertad es virtualmente idéntica a una distribución normal estandarizada, el IC al 
95% para μca - μco viene dado por 
 cax  - cox  ± t999;0,975 SE( cax  - cox ) 
  = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08). 
De los resultados del estudio EURAMIC puede entonces concluirse que el nivel 
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al 
nivel medio de los sujetos libres de la enfermedad, estando esta diferencia 
comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%.   
En el caso de la comparación de medias entre os poblaciones, la hipót sis nula más 
natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta 
hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 a partir de 
dos muestras independientes de igual varianza, se emplea el siguiente test estadístico 
21
21
21
21
11)(
nns
xx
xxSE
xxt
+
−
=
−
−
= , 
que sigue aproximadamente una distribución t de Student con n1 + n2 – 2 grados de libertad si 
la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el área bajo la 
distribución 
 14
que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de 
libertad si la hipótesis nula H0: μ1 = μ2 s cierta. Por tanto, el valor P se obtiene como el 
área bajo la 221 −+nnt  para valores más extremos que el valor observado de t. 
Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para 
muestras independientes con igual varianza. 
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en 
los casos de infarto que en los sujetos libres de enfermedad sería compatible con 
la hipótesis de que el colesterol HDL es un factor protector en el infarto de 
miocardio. En este ejemplo, se pretende contrastar esta hipótesis a partir de los 
niveles de colesterol HDL observados en los casos y controles del estudio 
EURAMIC. El resultado de este contraste, junto con la estimación puntual y por 
intervalo obtenida en el ejemplo anterior, permiten evaluar no sólo la 
significación estadística sino también la relevancia clínica y de salud pública del 
hallazgo. 
Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la 
hipótesis nula H0: μca = μco se realiza mediante el estadístico 
t = 
0,017
0,11-
)( coca
coca
=
−
−
xxSE
xx  = -6,35. 
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico 
sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene 
entonces como el doble de la probabilidad a la izquierda de -6,35 en la 
distribución normal estandarizada, que corresponde a P < 0,001. Así, puede 
concluirse que existen diferencias muy significativas en el nivel medio de 
colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta 
 l r s más extremos que el valor observado de t. Esta prueba de 
hipótesis se conoce genéricamente como el test de la t de Student para muestras independientes 
con igual varianza.
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en los 
casos de infarto que en los sujetos libres de enfermedad sería compatible con la hipótesis 
de que el colesterol HDL es un factor protector para el infarto de miocardio. En este 
ejemplo, se pretende contrastar esta hipótesis a partir de los niveles de colesterol HDL 
observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, 
junto con la estimación puntual y por intervalo obtenidas en el ejemplo anterior, permiten 
evaluar no sólo la significación estadística sino también la relevancia clínica y de salud 
pública del hallazgo.
Asumiendo igualdad de varianzas poblacionales, el contraste bilateral de la hipótesis nula 
H0: μca = μco se realiza mediante el estadístico
 14
que sigue aproximadamente una distribución t de Student con n1 + n2 - 2 grados de 
libertad si la hipótesis nula H0: μ1 = μ2 es cierta. Por tanto, el valor P se obtiene como el 
área bajo la distribución 221 −+nnt  para valores más extremos que el valor observado de t. 
Esta prueba de hipótesis se conoce genéricamente como el test de la t de Student para 
muestras independientes con igual varianza. 
Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente más bajo en 
los casos de infarto que en los sujetos libres de enfermedad sería compatible con 
la hipótesis de que el colesterol HDL es un factor protector en el infarto de 
miocardio. En este ejemplo, se pretende contrastar esta hipótesis a partir d  los 
n veles de oleste ol HDL observados en los casos y controles del estudio 
EURAMIC. El resultado de este contraste, junto con la estimación puntual y por 
intervalo obtenida en el ejemplo anterior, permiten evaluar no sólo la 
sig ificación esta ística ino también la relevancia clínica y de salud pública del 
hall zgo. 
Asumiendo igualdad de varia zas p blacionales, el co traste bilateral de la 
hipótesis nula H0: μca = μco se realiza mediante el estadístico
t = 
0,017
0,11
)( coca
coca
=
−
−
xxSE
xx  =  6,35. 
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico 
sería t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene 
entonces como el doble de la probabilidad a la izquierda de -6,35 en la 
distribución normal estandarizada, que corresponde a P < 0,001. Así, puede 
concluirse que existen diferencias muy significativas en el nivel medio de 
colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta 
−
−
Si ambas medias poblacionales fueran iguales, la distribución de este estadístico sería t999 o 
aproximadamente n rmal est ndarizada. El v or P bilateral se obtien  entonces com el doble 
de la probabilidad a la izquierda de – 6,35 en la distribución normal estandarizada, que corresponde 
a P < 0,001. Así, puede concluirse que existen diferencias muy significativas en el niv l medio 
de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia 
significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo 
anterior, puesto que éste no contenía al cero (valor nulo para la diferencia de medias).
Los métodos descritos en este apartado pueden extenderse a la comparación de tres o más medias 
poblacionales. Las técnicas para comparar medias en múltiples muestras independientes se conocen 
con el nombre de análisis de la varianza de una vía y pueden consultarse en los libros referenciados 
al final del tema. Aunque estos procedimientos no se tratan explícitamente en este texto, la 
comparación de múltiples medias a partir de datos independientes también puede abordarse mediante 
los modelos de regresión lineal que se presentarán más adelante (Temas 10 y 11).
88
Inferencia sobre medias
Pastor-Barriuso R.
6.3.2 Contraste para la igualdad de varianzas
La comparación de medias presentada en el apartado anterior se fundamenta en la asunción de 
igualdad de varianzas. Esta asunción es determinante para poder calcular una estimación 
combinada de la varianza. En este apartado se presentan los métodos para contrastar 
estadísticamente la hipótesis de homogeneidad de varianzas en dos muestras independientes.
El test para la igualdad de varianzas poblacionales se basa en la comparación de las varianzas 
muestrales s12 y s22. Como se apuntó anteriormente (Apartado 6.2.2), si la distribución subyacente 
de la variable es normal en ambas poblaciones, los estadísticos (n1 – 1)s12/σ12 y (n2 – 1)s22/σ22 se 
distribuyen como una chi-cuadrado con n1 – 1 y n2 – 1 grados de libertad, respectivamente. 
Combinando la distribución de estos estadísticos en ambas muestras independientes, se obtiene que
 15
diferencia significativa es perfectamente consistente con el intervalo de confianza 
calculado en el ejemplo anterior, puesto que éste no contenía al cero (valor nulo 
para la diferencia de medias). 
Los métodos descritos en este apartado pueden extenderse a la comparación de tres o 
más medias poblacionales. Las técnicas para comparar medias en múltiples muestras 
independientes se conocen con el nombre de análisis de la varianza de una vía y 
pueden consultarse en los libros referenciados al final del tema. Aunque estos 
procedimientos no se tratan explícitamente en este texto, la comparación de múltiples 
medias a partir de datos independientes también puede abordarse mediante los modelos 
de regresión lineal que se presentarán más adelante (Temas 10 y 11). 
6.3.2 Contrate para la igualdad de varianzas 
La comparación de medias presentada en el apartado anterior se fundamenta en la 
asunción de igualdad de varianzas. Esta asunción es determinante para poder calcular 
una estimación combinada de la varianza. En este apartado se presentan los métodos 
para contrastar estadísticamente la hipótesis de homogeneidad de varianzas en dos 
muestras independientes. 
El test para la igualdad de varianzas poblacionales se basa en la comparación de las 
varianzas muestrales 21s  y 22s . Como se apuntó anteriormente (Apartado 6.2.2), si la 
distribución subyacente de la variable es normal en ambas poblaciones, los estadísticos 
(n1 – 1) 21s / 21σ  y (n2 – 1) 22s / 22σ  se distribuyen como una chi-cuadrado con n1 - 1 y n2 - 
1 grados de libertad, respectivamente. Combinando la distribución de estos estadísticos 
en ambas muestras independientes, se obtiene que 
)1/(
)1/(
~
/
/
2
2
1
1
2
1
2
2
2
2
2
1
2
1
2
1
−
−
−
−
n
n
s
s
n
n
χ
χ
σ
σ . 
A la derecha de esta expresión se tiene el cociente de dos variables independientes chi-
cuadrado divididas por sus respectivos grados de libertad, que se conoce como la distribución 
F de Fisher con n1 – 1 grados de libertad en el numerador y n2 – 1 en el denominador, y 
se denota por 
 16
A la derecha de esta expresión se tiene el cociente de dos variables i dependientes chi-
cuadrado divididas por sus respectivos grados de libertad, que se conoce como la 
distribución F de Fisher con n1 - 1 grados de libertad en el numerador y n2 - 1 en el 
denominador, y  t  r 1,1 21 −− nnF . Así, la razón entre 21s / 21σ  y 22s / 22σ  sigue una 
distribución F con n1 - 1 y n2 - 1 grados de libertad, 
1,12
2
2
2
2
1
2
1
21
~
/
/
−− nnFs
s
σ
σ
. 
La distribución F de Fisher toma sólo valores positivos y está sesgada positivamente 
con un valor más frecuente (moda) menor de 1 y una media mayor de 1. Al aumentar 
los grados de libertad del numerador y denominador, tanto la media como la moda se 
aproximan al valor 1 (Figura 6.3). Los percentiles de la distribución F de Fisher para 
distintos grados de libertad del numerador y denominador se presentan en la Tabla 7 del 
Apéndice. 
[Figura 6.3 aproximadamente aquí] 
Ejemplo 6.9 Utilizando la Tabla 7 del Apéndice, el percentil 97,5 de una 
distribución F de Fisher con 5 grados de libertad en el numerador y denominador 
es F5;5;0,975 = 7,15, y para 30 grados de libertad en ambos es F30;30;0,975 = 2,07. 
Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el 
percentil α en una distribución F con d1 y d2 grados de libertad es igual al inverso 
del percentil 1 - α en una distribución F con d2 y d1 grados de libertad, α,, 21 ddF  = 
1/ α−1,, 12 ddF . Así, el percentil 2,5 en las distribuciones anteriores es F5;5;0,025 = 
1/F5;5;0,975 = 1/7,15 = 0,14 y F30;30;0,025 = 1/F30;30;0,975 = 1/2,07 = 0,48. Por tanto, el 
95% central de la distribución F5,5 está comprendido entre 0,14 y 7,15, y de la 
 í, l   t  s12/σ12 y s22/σ22  sigue una distribución F con n1 – 1 y 
n2 – 1 grados de libertad,
 16
A la derecha de esta expresión se tiene el cociente de dos variables independientes chi-
cuadrado divididas por sus respectivos grados de libertad, que se conoce como la 
distribución F de Fisher con n1 - 1 grados de libertad en el numerador y n2 - 1 en el 
denominador, y se denota por 1,1 21 −− nnF . Así, la razón entre 21s / 21σ  y 22s / 22σ  sigue una 
distribución F con n1 - 1 y n2 - 1 grados de libertad, 
1,12
2
2
2
2
1
2
1
21
~
/
/
−− nnFs
s
σ
σ
. 
La distribución F de Fisher toma sólo valores positivos y está sesgada positivamente 
con un valor más frecuente (moda) menor de 1 y una media mayor de 1. Al aumentar 
los grados de libertad del numerador y denominador, tanto la media como la moda se 
aproximan al valor 1 (Figura 6.3). Los percentiles de la distribución F de Fisher para 
distintos grados de libertad del numerador y denominador se presentan en la Tabla 7 del 
Apéndice. 
[Figura 6.3 aproximadamente aquí] 
Ejemplo 6.9 Utilizando la Tabla 7 del Apéndice, el percentil 97,5 de una 
distribución F de Fisher con 5 grados de libertad en el numerador y denominador 
es F5;5;0,975 = 7,15, y para 30 grados de libertad en ambos es F30;30;0,975 = 2,07. 
Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el 
percentil α en una distribución F con d1 y d2 grados de libertad es igual al inverso 
del percentil 1 - α en una distribución F con d2 y d1 grados de libertad, α,, 21 ddF  = 
1/ α−1,, 12 ddF . Así, el percentil 2,5 en las distribuciones anteriores es F5;5;0,025 = 
1/F5;5;0,975 = 1/7,15 = 0,14 y F30;30;0,025 = 1/F30;30;0,975 = 1/2,07 = 0,48. Por tanto, el 
95% central de la distribución F5,5 está comprendido entre 0,14 y 7,15, y de la 
La distribución F de Fisher toma sólo valores positivos y está sesgada positivamente con un 
valor más frecuente (moda) m nor de 1 y una media may r de 1. Al aumentar los grados de 
libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1 
(Figura 6.3). Los percentiles de la istribución F de Fisher para distintos grados de libertad del 
numerador y denominador se presentan en la Tabla 7 del Apéndice.
 Figura 6.1
 
0 1 2 3
0
0,2
0,4
0,6
0,8
0 1 2 3
0
0,2
0,4
0,6
0,8
f(x)
x x
F5,5
F5,10
F5,30
F5,5
F10,5
F30,5
(a) (b)
Figura 6.3 Función de densidad de la distribución F de Fisher al aumentar los grados de libertad del de-
nominador (a) y del numerador (b).
89
Comparación de medias en dos muestras independientes
Pastor-Barriuso R.
Ejemplo 6.9 Utilizando la Tabla 7 del Apéndice, el percentil 97,5 de una distribución F 
de Fisher con 5 grados de libertad en el numerador y denominador es F5;5;0,975 = 7,15, y 
para 30 grados de libertad en ambos es F30;30;0,975 = 2,07. Aunque esta tabla no facilita 
percentiles inferiores, puede comprobarse que el percentil α en una distribución F con d1 
y d2 grados de libertad es igual al inverso del percentil 1 – α en una distribución F con d2 
y d1 grados de libertad, 
 16
A la derecha de esta expresión se tiene el cociente de dos variables independientes chi-
cuadrado divididas por sus respectivos grados de libertad, que se conoce como la 
distribución F de Fisher con n1 - 1 grados de libertad en el numerador y n2 - 1 en el 
denominador, y se denota por 1,1 21 −− nnF . Así, la razón entre 21s / 21σ  y 22s / 22σ  sigue una 
distribución F con n1 - 1 y n2 - 1 grados de libertad, 
1,12
2
2
2
2
1
2
1
21
~
/
/
−− nnFs
s
σ
σ
. 
La distribución F de Fisher toma sólo valores positivos y está sesgada positivamente 
con un valor más frecuente (moda) menor de 1 y una media mayor de 1. Al aumentar 
los grados de libertad del numerador y denominador, tanto la media como la moda se 
aproximan al valor 1 (Figura 6.3). Los percentiles de la distribución F de Fisher para 
distintos grados de libertad del numerador y denominador se presentan en la Tabla 7 del 
Apéndice. 
[Figura 6.3 aproximadamente aquí] 
Ejemplo 6.9 Utilizando la Tabla 7 del Apéndice, el percentil 97,5 de una 
distribución F de Fisher con 5 grados de libertad en el numerador y denominador 
es F5;5;0,975 = 7,15, y para 30 grados de libertad  ambos es F30;30;0,975 = 2,07. 
Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el 
percentil α en una distribución F con d1 y d2 grados de libertad es igual al inverso 
del percentil 1 - α en una distribución F con d2 y d1 grados de libertad, 
α,, 21 ddF  = 1/ α−1,, 12 ddF . Así, el percentil 2,5 en las distribuciones anteriores es F5;5;0,025 = 
1/F5;5;0,975 = 1/7,15 = 0,14 y F30;30;0,025 = 1/F30;30;0,975 = 1/2,07 = 0,48. Por tanto, el 
95% central de la distribución F5,5 está comprendido entre 0,14 y 7,15, y de la 
el percentil 2,5 en las distribuciones 
anteriores es F5;5;0,025 = 1/F5;5;0,975 = 1/7,15 = 0,14 y F30;30;0,025 = 1/F30;30;0,975 = 1/2,07 = 0,48. 
Por tanto, el 95% central de la distribución F5,5 está comprendido entre 0,14 y 7,15, y de
la distribución F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar el 
número de grados de libertad del numerado  y denominador, la distribución F d  F sher 
se hace menos dispersa y más simétrica alrededor del valor 1.
A partir de la distribución muestral 
 17
distribución F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar 
el número de grados de libertad del numerador y denominador, la distribución F 
de Fisher se hace menos dispersa y más simétrica alrededor del valor 1. 
l  distri t 1,1 21 −− nnF  del cociente entre 21s / 21σ  y 22s / 22σ , 
resulta sencillo calcular un intervalo de confianza para la razón de dos varianzas 
poblacionales 21σ / 22σ . No obstante, por su mayor utilidad práctica, nos centraremos 
aquí en el test para la igualdad de varianzas. El contraste bilateral de la hipótesis nula 
H0: 21σ  = 22σ  frente a la alternativa H1: 21σ  ≠ 22σ  se basa en la razón de las varianzas 
muestrales 
F = 2
2
2
1
s
s . 
Si la hipótesis nula de igualdad de varianzas 21σ  = 22σ  es cierta, la razón 
( 21s / 21σ )/( 22s / 22σ ) se reduce a 21s / 22s , de tal forma que este estadístico se distribuirá 
según una F de Fisher con n1 - 1 grados de libertad en el numerador y n2 - 1 en el 
denominador. El valor P del contraste se calcula entonces como el doble de la 
probabilidad a la izquierda de este estadístico bajo la distribución 1,1 21 −− nnF , si 21s  ≤ 22s , 
o como el doble del área a la derecha del estadístico, si 21s  > 22s . 
Ejemplo 6.10 En los Ejemplos 6.7 y 6.8, se comparó la media del colesterol HDL 
entre los casos y controles del EURAMIC bajo la asunción de homogeneidad de 
varianzas. La validez de estos resultados dependerá del cumplimiento de dicha 
hipótesis. Para contrastar bilateralmente la hipótesis nula H0: 2caσ  = 2coσ , se 
calcula el test estadístico 
 l i te t  s12 /σ12  y s22 /σ22 , resulta sencillo 
calcular un intervalo de confianza para la razón de dos varianzas poblacionales σ1
2 /σ22  . No obstante, 
por su mayor utilidad práctica, nos centraremos aquí en el test para la igualdad de varianzas. El 
contraste bilateral de la hipótesis nula H0: σ12  = σ22  frente a la alternativa H1: σ12  ≠ σ22  se basa en la 
razón de las varianzas muestrales
 17
distribución F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar 
el número de grados de libertad del numerador y denominador, la distribución F 
de Fisher se hace menos dispersa y más simétrica alrededor del valor 1. 
A partir de la distribución muestral 1,1 21 −− nnF  del cociente ent e 21s / 21σ  y 22s / 22σ , 
resu ta sencillo calcular un intervalo de confi nza para la razón de dos varianzas 
poblacionales 21σ / 22σ . No obstante, por su mayor utilidad práctica, nos centraremos 
aquí en el test para la igualdad de varianzas. El contraste bilateral de la hipótesis nula 
H0: 21σ  = 22σ  frente a la alternativa H1: 21σ  ≠ 22σ  se basa en la razón de las varianzas 
muestrales 
F = 2
2
2
1
s
s . 
Si la hipótesis nula de igualdad de varianzas 21σ  = 22σ  es cierta, la razón 
( 21s / 21σ )/( 22s / 22σ ) se reduce a 21s / 22s , de tal forma que este estadístico se distribuirá 
según una F de Fisher con n1 - 1 grados de libertad en el numerador y n2 - 1 en el 
denominador. El valor P del contraste se calcula entonces como el doble de la 
probabilidad a la izquierda de este estadístico bajo la distribución 1,1 21 −− nnF , si 21s  ≤ 22s , 
o como el doble del área a la derecha del estadístico, si 21s  > 22s . 
Ejemplo 6.10 En los Ejemplos 6.7 y 6.8, se comparó la media del colesterol HDL 
entre los casos y controles del EURAMIC bajo la asunción de homogeneidad de 
varianzas. La validez de estos resultados dependerá del cumplimiento de dicha 
hipótesis. Para contrastar bilateralmente la hipótesis nula H0: 2caσ  = 2coσ , se 
calcula el test estadístico 
Si la hipótesis nula de igualdad de varianzas σ1
2  = σ22   es cierta, la razón (s12 /σ12 )/(s22  /σ22  ) se reduce 
a s12  /s22 , de tal forma que este est ístico se distribuirá según una F de Fisher con n1 – 1 grados 
de libertad en el numerador y n2 – 1 en el denominador. El valor P del contraste se calcula 
entonces como el doble de la probabilidad a la izquierda de este estadístico bajo la distribución 
 17
distribución F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar 
el número de grados de libertad del numerador y denominador, la distribución F 
de Fisher se hace menos dispersa y más simétrica alrededor del valor 1. 
A partir de la distribución muestral 1,1 21 −− nnF  del cociente entre 21s / 21σ  y 22s / 22σ , 
resulta sencillo calcular un intervalo de confianza para la razón de dos varianzas 
poblacionales 21σ / 22σ . No obstante, por su mayor utilidad práctica, nos centraremos 
aquí en el test para la igualdad de varianzas. El contraste bilateral de la hipótesis nula 
H0: 21σ  = 22σ  frente a la alternativa H1: 21σ  ≠ 22σ  se basa en la razón de las varianzas 
muestrales 
F = 2
2
2
1
s
s . 
Si la hipótesis nula de igualdad de varianzas 21σ  = 22σ  es cierta, la razón 
( 21s / 21σ )/( 22s / 22σ ) se reduce a 21s / 22s , de tal forma que este estadístico se distribuirá 
según una F de Fisher con n1 - 1 grados de libertad en el numerador y n2 - 1 en el 
denominador. El valor P del contraste se calcula entonces como el doble de la 
probabilidad a la izquierda de este estadístico bajo la distribución 1,1 21 −− nnF , si 21s  ≤ 22s , 
o como el doble del área a la derecha del estadístico, si 21s  > 22s . 
Ejemplo 6.10 En los Ejemplos 6.7 y 6.8, se comparó la media del colesterol HDL 
entre los casos y controles del EURAMIC bajo la asunción de homogeneidad de 
varianzas. La validez de estos resultados dependerá del cumplimiento de dicha 
hipótesis. Para contrastar bilateralmente la hipótesis nula H0: 2caσ  = 2coσ , se 
calcula el test estadístico 
s12  ≤ s22 , o como el doble del área a la derecha del estadístico, si s12   > s22 . 
Ejemplo 6.10 En los Ejemplos 6.7 y 6.8 se comparó la media del colesterol HDL entre 
l s casos y controles del EURAMIC bajo la sunción de homogeneida  de varianzas. La 
validez de estos resultados dependerá del cumplimiento de dicha hipótesis. Para contrastar 
bi ateralmente la hipótesis nula H0: σ 2ca = σ 2co ,  se calcula el test estadístico
 18
F = 2
2
2
co
2
ca
29,0
25,0
=s
s  = 0,74, 
que sigue una distribución F con nca – 1 = 461 y nco – 1 = 538 grados de libertad 
bajo H0. Como sca < sco, el valor P es igual a 2P(F461,538 ≤ 0,74) = 2⋅0,0005 = 
0,001. Notar que este valor P sería idéntico si se hubiera utilizado el estadístico 
inverso F = 2cos / 2cas  = 1,35. En tal caso, el valor P se obtendría a partir de la 
distribución F538,461 como 2P(F538,461 ≥ 1,35) = 2⋅0,0005 = 0,001.  
La variabilidad del colesterol HDL resulta significativamente menor entre los 
casos de infarto que entre los individuos libres de la enfermedad, con lo cual no 
puede aceptarse la hipótesis de igualdad de varianzas. En consecuencia, los 
procedimientos utilizados en los Ejemplos 6.7 y 6.8 son inadecuados para 
comparar los niveles medios de colesterol HDL entre casos y controles. 
Existen otras técnicas estadísticas para la comparación de varianzas en muestras 
independientes, tales como el test de Bartlett o la prueba de Levene. En general, estas 
técnicas permiten comparar varianzas entre dos o más grupos y, en el caso del test de 
Levene, la comparación no requiere que la distribución subyacente de la variable sea 
normal. Los lectores interesados pueden consultar estos procedimientos en las 
referencias incluidas al final del tema. 
6.3.3 Comparación de medias en distribuciones con distinta varianza 
Cuando las varianzas poblacionales sean distintas, carece de sentido calcular una 
estimación combinada de la varianza, ya que ésta infraestimará o sobreestimará la 
variabilidad específica de cada población. En este caso, aun perdiendo algo de 
precisión, es preferible estimar por separado las varianzas poblacionales 21σ  y 22σ  
mediante sus correspondientes varianzas muestrales 21s  y 22s . 
que sigue una distribución F con nca – 1 = 461 y nco – 1 = 538 grados de libertad bajo H0. 
Como sca < sco, el valor P es igual a 2P(F461,538 ≤ 0,74) = 2∙0,0005 = 0,001. No r que este 
valor P sería idéntico si se hubiera utilizado el estadístico inverso 
 18
F = 2
2
2
co
2
ca
29,0
25,0
=s
s  = 0,74, 
que sigue una distribución F con nca – 1 = 461 y nco – 1 = 538 grados de libertad 
bajo H0. Como sca < sco, el valor P es igual a 2P(F461,538 ≤ 0,74) = 2⋅0,0005 = 
0,001. N tar que este valor P sería idéntico si se hubiera utilizado el estadístico 
F = 2cos / 2cas  = 1,35. En tal caso, el valor P se obtendría a partir de la 
distribución F538,461 como 2P(F538,461 ≥ 1,35) = 2⋅0,0005 = 0,001.  
La variabilidad del colesterol HDL resulta significativamente menor entre los 
casos de infarto que entre los individuos libres de la enfermedad, con lo cual no 
puede aceptarse la hipótesis de igualdad de varianzas. En consecuencia, los 
procedimientos utilizados en los Ejemplos 6.7 y 6.8 son inadecuados para 
comparar los niveles medios de colesterol HDL entre casos y controles. 
Existen otras técnicas estadísticas para la comparación de varianzas en muestras 
independientes, tales como el test de Bartlett o la prueba de Levene. En general, estas 
técnicas permiten comparar varianzas entre dos o más grupos y, en el caso del test de 
Levene, la comparación no requiere que la distribución subyacente de la variable sea 
normal. Los lectores interesados pueden consultar estos procedimientos en las 
referencias incluidas al final del tema. 
6.3.3 Comparación de medias en distribuciones con distinta varianza 
Cuando las varianzas poblacionales sean distintas, carece de sentido calcular una 
estimación combinada de la varianza, ya que ésta infraestimará o sobreestimará la 
variabilidad específica de cada población. En este caso, aun perdiendo algo de 
precisión, es preferible estimar por separado las varianzas poblacionales 21σ  y 22σ  
mediante sus correspondientes varianzas muestrales 21s  y 22s . 
tal caso, el valor P se obtendría a part r de l  distribución F538,461 como 2P(F538,461 ≥ 1,35) 
= 2∙0,0005 = 0,001. 
La variabilidad del colesterol HDL resulta significativamente menor entre los casos de 
infarto que entre los individuos libres de la enfermedad, con lo cual no puede aceptarse la 
hipótesis de igualdad de varianzas. En consecuencia, los procedimientos utilizados en los 
Ejemplos 6.7 y 6.8 son inadecuados para comparar los niveles medios de colesterol HDL 
entre casos y controles.
Existen otras técnicas estadísticas para la comparación de varia zas en muestras 
independientes, tales como el test de Bartlett o la prueba de Levene. En general, estas técnicas 
90
Inferencia sobre medias
Pastor-Barriuso R.
permiten comparar varianzas entre dos o más grupos y, en el caso del test de Levene, la 
comparación no requiere que la distribución subyacente de la variable sea normal. Los lectores 
interesados pueden consultar estos procedimientos en las referencias incluidas al final del tema.
6.3.3 Comparación de medias en distribuciones con distinta varianza
Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimación 
combinada de la varianza, ya que ésta infraestimará o sobreestimará la variabilidad específica de 
cada población. En este caso, aun perdiendo algo de precisión, es preferible estimar por separado las 
varianzas poblacionales σ1
2 y σ22 mediante sus correspondientes varianzas muestrales s12   y s22 .
Así, sustituyendo σ12  por s12   y σ22   por s22   en la distribución muestral de la diferencia de medias, 
se obtiene el estadístico
 19
Así, sustituyendo 21σ  por 21s  y 22σ  por 22s  en la distribución muestral de la 
diferencia de medias, se obtiene el estadístico 
2
2
2
1
2
1
2121 )(
n
s
n
s
xx
+
−−− μμ . 
Aunque resulta complicado derivar la distribución exacta de este estadístico, existen 
diversas aproximaciones que funcionan bien en la práctica. El método más utilizado es 
la aproximación de Welch, que permite aproximar la distribución de este estadístico 
mediante una t de Student con los siguientes grados de libertad 
)1/()/()1/()/(
)//(
2
2
2
2
21
2
1
2
1
2
2
2
21
2
1
−+−
+
= nnsnns
nsnsd . 
Puede comprobarse que d es siempre inferior o igual a n1 + n2 – 2; es decir, esta 
distribución t de Student será más dispersa que la empleada en el caso de igualdad de 
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la 
distribución resultante ha de reflejar mayor incertidumbre. Esto conllevará una 
disminución tanto en la precisión de los intervalos de confianza como en la potencia de 
los contrastes. 
En el caso de distribuciones con distinta varianza, el intervalo de confianza al 100(1 - 
α)% para la diferencia de medias poblacionales μ1 - μ2 vendrá determinado por 
2
2
2
1
2
1
2/1,21  n
s
n
stxx d +±− −α , 
donde d son los grados de libertad calculados según la fórmula anterior. De igual forma, 
para contrastar la hipótesis nula H0: μ1 = μ2 frente a la alternativa H1: μ1 ≠ μ2 a partir de 
dos muestras independientes con distinta varianza, se emplea el estadístico 
Aunque resulta complicado derivar la distribución exacta de este estadístico, existen diversas 
aproximaciones que func onan bien en la práctica. El método má  utiliz o es la aproximación 
de Welch, que permite aproximar la distribución de este estadístico mediante una t de Student 
con los iguientes grad s de libertad
 19
Así, sustituyendo 21σ  por 21s  y 22σ  por 22s  en la distribución muestral de la 
diferencia de medias, se obtiene el estadístico 
2
2
2
1
2
1
2121 )(
n
s
n
s
xx
+
−−− μμ . 
Aunque resulta complicado derivar la distribución exacta de este estadístico, existen 
diversas aproximaciones que funcionan bien e  la práctica. El método más utilizado es 
la aproximación de Welch, que permite aproximar la distribución de este estadístico 
mediante una t de Student con los siguientes grados de libertad 
)1/()/()1/()/(
)//(
2
2
2
2
21
2
1
2
1
2
2
2
21
2
1
−+−
+
= nnsnns
nsnsd . 
Puede comprobarse que d es siempre inferior o igual a n1 + n2 – 2; es decir, esta 
distribución t de Student será más dispersa que la empleada en el caso de igualdad de 
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la 
distribución resultante ha de reflejar mayor incertidumbre. Esto conllevará una 
disminución tanto en la precisión de los intervalos de confianza como en la potencia de 
los contrastes. 
En el caso de distribuciones con distinta varianza, el intervalo de confianza al 100(1 - 
α)% para la diferencia de medias poblacionales μ1 - μ2 vendrá determinado por 
2
2
2
1
2
1
2/1,21  n
s
n
stxx d +±− −α , 
donde d son los grados de libertad calculados según la fórmula anterior. De igual forma, 
para contrastar la hipótesis nula H0: μ1 = μ2 frente a la alternativa H1: μ1 ≠ μ2 a partir de 
dos muestras independientes con distinta varianza, se emplea el estadístico 
Puede comprobarse que d es siempre inferior o igual a n1 + n2 – 2; es decir, esta distribución t 
de Stu nt será más dispersa que la empleada en el caso de igualdad de varianzas. Esto es lo que 
cabría esperar ya que, al estimar por separado las varianzas, la distribución resultante ha de 
reflejar mayor incertidumbre. Esto conll vará una disminució  tanto en la precisión de los 
intervalos de confianza como en la potencia de los contrastes.
En el caso de distribucion  con distinta varianza, el intervalo de confianza al 100(1 – α)% 
para la diferencia de medias poblacionales μ1 – μ2 vendrá determinado por
 19
Así, sustituyendo 21σ  por 21s  y 22σ  por 22s  en la distribución muestral de la 
diferencia de medias, se obtiene el estadístico 
2
2
2
1
2
1
2121 )(
n
s
n
s
xx
+
−−− μμ . 
Aunque resulta complicado derivar la distribución exacta de este estadístico, existen 
diversas aproximaciones que funcionan bien en la práctica. El método más utilizado es 
la aproximación de Welch, que permite aproximar la distribución de este estadístico 
mediante una t de Student con los siguientes grados de libertad 
)1/()/()1/()/(
)//(
2
2
2
2
21
2
1
2
1
2
2
2
21
2
1
−+−
+
= nnsnns
nsnsd . 
Puede comprobarse que d es siempre inferior o igu l a n1 + n2 – 2; es de ir, sta 
distribución t de Student será más dispersa que la empleada en el caso de ig alda  de 
varianzas. Esto es lo que cabría esperar ya que, al estimar por separado las varianzas, la 
distribución resultante ha de reflejar mayor incertidumbre. Esto conllevará una 
disminución tanto en la precisión de los intervalos de confianza como en la potenc a de 
los contrastes. 
En el cas  de distribuciones con dist nta varianza, el intervalo de confianza al 100(1 - 
α)% para la diferencia de medias poblacionales μ1 - μ2 vendrá determinado por 
2
2
2
1
2
1
2/1,21  n
s
ntxx d +±− −α , 
donde d son los grados de libertad calculados según la fórmula anterior. De igual forma, 
para contrastar la hipótesis nula H0: μ1 = μ2 frente a la alternativa H1: μ1 ≠ μ2 a partir de 
dos muestras independientes con distinta varianza, se emplea el estadístico 
donde d son los grados de libertad calculados según la fórmula anterior. De igual forma, para 
contrastar la hipótesis nula H0: µ1 = µ2 frente a la alter ativa H1: μ1 ≠ μ2 a partir de dos muestras 
independientes con distinta varianza, se emplea el estadístico
 20
2
2
2
1
2
1
21
n
s
n
s
xxt
+
−
= , 
que bajo la hipótesis nula, se distribuye aproximadamente según una t de Student con d 
grados de libertad. Así, el valor P viene dado por la probabilidad de obtener valores más 
extremos que el valor observado de t bajo la distribución td. Este contraste se conoce 
con el nombre de test de la t de Student para muestras independientes con distinta 
varianza. 
Ejemplo 6.11 En el Ejemplo 6.10 se contrastó que la variabilidad del colesterol 
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la 
enfermedad. Por ello, la comparación del nivel medio de colesterol HDL entre 
casos y controles ha de realizarse mediante la prueba t de Student para muestras 
independientes con distinta varianza. La estimación puntual de la diferencia de 
medias es cax  - cox  = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estándar se estima 
directamente por 
SE( cax  - cox ) = 
539
29,0
462
25,0 22
co
2
co
ca
2
ca
+=+ n
s
n
s  = 0,017. 
En el caso de varianzas heterogéneas, los grados de libertad para la distribución 
de la diferencia de medias vienen determinados por la aproximación de Welch, a 
saber 
.97,998
)1539()539/29,0()1462()462/25,0(
)539/29,0462/25,0(
)1()/()1()/(
)//(
2222
222
co
2
co
2
coca
2
ca
2
ca
2
co
2
coca
2
ca
=
−+−
+
=
−+−
+
= nnsnns
nsnsd
 
que bajo la hipótesis nula, se distribuye aproximadamente según una t de Student con d grados 
de lib rt d. Así, el valor P vien  ado por l  r babilidad de obtener valores más x remos que 
el valor observado de t bajo la distribución td. Este contraste se conoce con el nombre de test de 
la t de Stu ent para muestras independientes c n distint  varianza.
91
Comparación de medias en dos muestras independientes
Pastor-Barriuso R.
Ejemplo 6.11 En el Ejemplo 6.10 se contrastó que la variabilidad del colesterol HDL 
difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad. 
Por ello, la comparación del nivel medio de colesterol HDL entre casos y controles ha de 
realizarse mediante la prueba t de Student para muestras independientes con distinta 
varianza. La estimación puntual de la diferencia de medias es 
 20
2
2
2
1
2
1
21
n
s
n
s
xxt
+
−
= , 
que bajo la hipótesis nula, se distribuye aproximadamente según una t de Student con d 
grados de libertad. Así, el valor P viene dado por la probabilidad de obtener valores más 
extremos que el valor observado de t bajo la distribución td. Este contraste se conoce 
con el nombre de test de la t de Student para muestras independientes con distinta 
varianza. 
Ejemplo 6.11 En el Ejemplo 6.10 se contrastó que la variabilidad del colesterol 
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la 
enfermedad. Por ello, la comparación del nivel medio de colesterol HDL entre 
casos y controles ha de realizarse mediante la prueba t de Student para muestras 
independientes con distinta vari nza. La estimación puntual de la diferencia de 
 cax cox  = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estándar se estima 
directamente por 
SE( cax  - cox ) = 
539
29,0
462
25,0 22
co
2
co
ca
2
ca
+=+ n
s
n
s  = 0,017. 
En el caso de varianzas heterogéneas, los grados de libertad para la distribución 
de la diferencia de medias vienen determinados por la aproximación de Welch, a 
saber 
.97,998
)1539()539/29,0()1462()462/25,0(
)539/29,0462/25,0(
)1()/()1()/(
)//(
2222
222
co
2
co
2
coca
2
ca
2
ca
2
co
2
coca
2
ca
=
−+−
+
=
−+−
+
= nnsnns
nsnsd
 
−   – 1,09 = 
– 0,11 mmol/l, cuyo error estándar se estima directamente por
 20
2
2
2
1
2
1
21
n
s
n
s
xxt
+
−
= , 
que bajo la hipótesis nula, se distribuye aproximadamente según una t de Student con d 
grados de libertad. Así, el valor P viene dado por la probabilidad de obtener valores más 
extremos que el valor observado de t bajo la distribución td. Este contraste se conoce 
con el nombre de test de la t de Student para muestras independientes con distinta 
varianza. 
Ejemplo 6.11 En el Ejemplo 6.10 se contrastó que la variabilidad del colesterol 
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la 
enfermedad. Por ello, la comparación del nivel medio de colesterol HDL entre 
casos y controles ha de realizarse mediante la prueba t de Student para muestras 
independientes con distinta varianza. La estimación puntual de la diferencia de 
medias es cax  - cox  = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estándar se estima 
directamente por 
SE( cax cox ) = 
539
29,0
462
25,0 22
co
2
co
ca
2
ca
+=+ n
s
n
s  = 0,017. 
En el caso de varianzas heterogéneas, los grados de libertad para la distribución 
de la diferencia de medias vienen determinados por la aproximación de Welch, a 
saber 
.97,998
)1539()539/29,0()1462()462/25,0(
)539/29,0462/25,0(
)1()/()1()/(
)//(
2222
222
co
2
co
2
coca
2
ca
2
ca
2
co
2
coca
2
ca
=
−+−
+
=
−+−
+
= nnsnns
nsnsd
 
−
En el caso de varianzas heterogéneas, los grados de libertad para la distribución de la 
diferencia de medias vien n determinados por la aproxim ción de Welch
 20
2
2
2
1
2
1
21
n
s
n
s
xxt
+
−
= , 
que bajo la hipótesis nula, se distribuye aproximadamente según una t de Student con d 
grados de libertad. Así, el valor P viene dado por la probabilidad de obtener valores más 
extremos que el valor observado de t bajo la distribución td. Este contraste se conoce 
con el nombre de test de la t de Student para muestras independientes con distinta 
varianza. 
Eje plo 6.11 En el Ejemplo 6.10 se contrastó que la variabilidad del colesterol 
HDL difiere significativamente entre los casos de infarto y los sujetos libres de la 
enfermedad. Por ello, la comparación del nivel medio de colesterol HDL entre 
casos y controles ha de realizarse mediante la prueba t de Student para muestras 
independientes con distinta varianza. La estimación puntual de la diferencia de 
medias es cax  - cox  = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estándar se estima 
directamente por 
SE( cax  - cox ) = 
539
29,0
462
25,0 22
co
2
co
ca
2
ca
+=+ n
s
n
s  = 0,017. 
En el caso de varianzas heterogéneas, los grados de libertad para la distribución 
de la diferencia de medias vienen determinados por la aproximación de Welch, a 
saber 
.97,998
)1539()539/29,0()1462()462/25,0(
)539/29,0462/25,0(
)1()/()1()/(
)//(
2222
222
co
2
co
2
coca
2
ca
2
ca
2
co
2
coca
2
ca
=
−+−
+
=
−+−
+
= nnsnns
nssd
 
Notar que, en este ejemplo, los grado  de libertad son casi iguales a los obtenidos bajo la 
asunción de igualdad de varianzas (nca + nco – 2 = 999). A partir de estos resultados es 
posible calcular un IC al 95% para μca – μco como
 21
Notar que, en este ejemplo, los grados de libertad son casi iguales a los obtenidos 
bajo la asunción de igualdad de varianzas (nca + nco – 2 = 999). A partir de estos 
resultados, es posible calcular un IC al 95% para μca - μco como 
 cax cox  ± t998,97;0,975 SE ( cax cox ) 
  
=  0,11 ± 1,96⋅0,017 =  ( 0,14;  0,08), 
y contrastar la hipótesis nula H0: μca = μco mediante el estadístico 
t = 
0,017
0,11-
)( coca
coca
=
−
−
xxSE
xx  = -6,44, 
que bajo la distribución t998,97 o normal estandarizada, corresponde a un valor P 
menor que 0,001. Así, se pone de manifiesto que los casos de infarto presentan un 
nivel medio de colesterol HDL significativamente inferior que los sujetos libres 
de la enfermedad (P < 0,001), con una diferencia estimada en 0,11 mmol/l (IC al 
95% 0,08−0,14 mmol/l). En este caso, los resultados obtenidos asumiendo 
homogeneidad o heterogeneidad de varianzas son virtualmente idénticos debido, 
en parte, a que ambos tamaños muestrales no difieren sustancialmente. 
En resumen, la comparación de medias en muestras independientes requiere 
contrastar en primer lugar la igualdad de varianzas, para después utilizar según proceda 
el test de la t de Student con igual o distinta varianza. Esta distinción no es meramente 
académica: si la variabilidad difiere entre ambas poblaciones, los procedimientos de 
estimación y contraste asumiendo igualdad de varianzas pueden ser muy engañosos, 
particularmente en muestras pequeñas o moderadas cuyos tamaños n1 y n2 difieran 
sustancialmente. 
− −
− − −
y contrastar la hipótesis nula H0: μca = μco mediante el estadístico
 21
Notar que, en este ejemplo, los grados de libertad son casi iguales a los obtenidos 
bajo la asunción de igualdad de varianzas (nca + nco – 2 = 999). A partir de estos 
resultados, es posible calcular un IC al 95% para μca - μco como 
 cax  - cox  ± t998,97;0,975 SE( cax  - cox ) 
  = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08), 
y contrastar la hipótesis nula H0: μca = μco mediante el estadístico 
t = 
0,017
0,11
)( coca
coca
=
−
−
xxSE
xx  =  6,44, 
que bajo la distribución t998,97 o normal estandarizada, corresponde a un valor P 
menor que 0,001. Así, se pone de manifiesto que los casos de infarto presentan un 
nivel medio de colesterol HDL significativamente inferior que los sujetos libres 
de la enfermedad (P < 0,001), con una diferencia estimada en 0,11 mmol/l (IC al 
95% 0,08−0,14 mmol/l). En este caso, los resultados obtenidos asumiendo 
homogeneidad o heterogeneidad de varianzas son virtualmente idénticos debido, 
en parte, a que ambos tamaños muestrales no difieren sustancialmente. 
En resumen, la comparación de medias en muestras independientes requiere 
contrastar en primer lugar la igualdad de varianzas, para después utilizar según proceda 
el test de la t de Student con igual o distinta varianza. Esta distinción no es meramente 
académica: si la variabilidad difiere entre ambas poblaciones, los procedimientos de 
estimación y contraste asumiendo igualdad de varianzas pueden ser muy engañosos, 
particularmente en muestras pequeñas o moderadas cuyos tamaños n1 y n2 difieran 
sustancialmente. 
−
−
que bajo la distribución t998,97 o normal estandarizada, corresponde a un valor P menor 
 0,001. Así, se pone de manifiesto que los casos de infarto presentan un nivel medio 
de colesterol HDL significativamente inferior que los sujetos libres de la enfermedad 
(P < 0,001), con una diferencia stimada en 0,11 mmol/l (IC al 95% 0,08-0,14 mmol/l). 
En este caso, los resultados obtenidos asumiendo homogeneidad o heterogeneidad de 
varianzas son virtualmente idént cos deb do,  parte, a que ambos tamaños muestrales 
no difieren sustancialmente.
En resumen, la comparación de medias en muestras independientes requiere contrastar en 
primer lugar la igualdad de varianzas, par espués utilizar segú  proceda el test de la t de 
Student con igual o distinta varianza. Esta distinción no es meramente académica: si la 
variabilidad difiere entre ambas poblaciones, los procedimientos de estimación y contraste 
asumiendo igualdad de varianzas pueden ser muy engañosos, particularmente en muestras 
pequeñas o moder as cuyos tamaños n1 y n2 difieran sustancialmente.
92
Inferencia sobre medias
Pastor-Barriuso R.
6.4 COMPARACIÓN DE MEDIAS EN DOS MUESTRAS DEPENDIENTES
Los datos dependientes surgen cuando las observaciones recogidas en el estudio están 
correlacionadas entre sí. A continuación se presentan algunos mecanismos y diseños 
epidemiológicos que generan datos dependientes:
 y La obtención de dos o más determinaciones de la misma variable en un mismo sujeto da 
lugar a datos dependientes, que pueden presentarse como:
  Diferentes medidas de la misma variable en un momento determinado, habitualmente 
para aumentar la fiabilidad del instrumento de medida.
  Determinaciones de la misma variable en diferentes localizaciones anatómicas.
  Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones 
antes y después de un tratamiento, en ensayos clínicos cruzados o en estudios de medidas 
repetidas con visitas sucesivas.
 y La selección de los participantes en un estudio emparejándolos por determinadas 
características pronósticas genera datos dependientes entre los sujetos emparejados. El 
ejemplo más habitual es el emparejamiento en el diseño de los estudios de casos y controles.
 y Los datos de estudios procedentes de sujetos de una misma familia o de animales 
pertenecientes a la misma camada suelen ser también dependientes.
En todos estos casos, la correlación se limita a los grupos específicos donde se genera la 
dependencia, que suelen ser habitualmente parejas. Así, en un estudio de casos y controles 
emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas 
son independientes entre sí. Igualmente, en un estudio de medidas repetidas, los datos de un 
mismo individuo son dependientes, mientras que los resultados en diferentes individuos son 
independientes entre sí.
Las muestras dependientes están constituidas por observaciones en los mismos sujetos o en 
distintos sujetos emparejados según ciertas características pronósticas de interés. De esta forma, 
la distribución de dichas características será similar en ambas muestras, eliminando así la 
posibilidad de que estos factores influyan en la comparación objeto de estudio. En general, el 
emparejamiento es una técnica frecuentemente utilizada en el diseño de estudios clínicos o 
epidemiológicos con el propósito de controlar por determinados factores de confusión (ver 
textos de método epidemiológico referenciados al final del tema). Estos diseños requieren de 
técnicas específicas de análisis que preserven el emparejamiento. En este apartado se revisan 
los métodos estadísticos para el tratamiento de un caso específico de dependencia, en el que se 
dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes.
Ejemplo 6.12 Supongamos que en el estudio EURAMIC se seleccionan 
aleatoriamente 50 casos de infarto de miocardio. Como la edad es un importante factor 
pronóstico de enfermedades coronarias, cada uno de estos casos se emparejó por grupos 
quinquenales de edad a un control libre de la enfermedad. Así, por ejemplo, para un caso 
de 62 años de edad se seleccionó aleatoriamente un control entre todos los controles 
disponibles con edades comprendidas entre 60 y 64 años. La muestra resultante de aplicar 
este procedimiento constituiría un estudio de casos y controles emparejados. En este 
estudio, cabría esperar un cierto grado de correlación en la información recogida para 
cada pareja, dado que tanto el caso como el control se encuentran en el mismo rango de 
edad. En la Tabla 6.1 se presentan los niveles de colesterol HDL en las 50 parejas de casos 
y controles.
93
Comparación de medias en dos muestras dependientes
Pastor-Barriuso R.
Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados 
según grupos quinquenales de edad.
Colesterol HDL (mmol/l) Colesterol HDL (mmol/l)
Pareja Caso Control d* Pareja Caso Control d*
1 0,81 0,63 0,18 26 0,96 1,29 – 0,33
2 0,91 0,91 0,00 27 1,33 0,72 0,61
3 0,98 0,76 0,22 28 0,93 1,04 – 0,11
4 0,91 1,19 – 0,28 29 0,32 1,54 – 1,22
5 0,55 0,99 – 0,44 30 0,86 1,08 – 0,22
6 0,62 1,14 – 0,52 31 0,93 1,12 – 0,19
7 0,79 0,73 0,06 32 1,40 1,75 – 0,35
8 0,89 1,08 – 0,19 33 1,50 1,29 0,21
9 1,24 0,87 0,37 34 0,92 1,17 – 0,25
10 1,76 1,04 0,72 35 0,88 0,93 – 0,05
11 1,35 1,03 0,32 36 0,82 0,88 – 0,06
12 0,72 1,09 – 0,37 37 1,52 0,74 0,78
13 0,94 1,12 – 0,18 38 1,68 1,45 0,23
14 1,01 1,20 – 0,19 39 0,81 1,02 – 0,21
15 0,98 1,62 – 0,64 40 0,60 1,15 – 0,55
16 0,92 1,25 – 0,33 41 1,16 1,49 – 0,33
17 0,68 1,31 – 0,63 42 0,75 0,98 – 0,23
18 1,48 1,00 0,48 43 0,96 1,31 – 0,35
19 1,23 0,78 0,45 44 1,46 1,15 0,31
20 0,83 0,95 – 0,12 45 0,76 1,51 – 0,75
21 0,92 1,13 – 0,21 46 0,76 1,01 – 0,25
22 0,82 0,97 – 0,15 47 1,12 1,26 – 0,14
23 1,21 0,74 0,47 48 1,01 0,91 0,10
24 0,78 0,88 – 0,10 49 0,99 1,63 – 0,64
25 0,88 1,14 – 0,26 50 0,75 1,45 – 0,70
* Diferencia de colesterol HDL entre caso y control.
Para concretar el problema supongamos que se dispone de n pares de observaciones de una 
variable aleatoria continua. En cada pareja de datos dependientes, una observación x1 corresponde 
a la primera muestra y la otra observación x2 a la segunda muestra. El objetivo se centra en 
comparar las medias poblacionales μ1 y μ2 a partir de estas dos muestras dependientes.
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta situación, ya 
que las medias de ambas muestras no son independientes por provenir de observaciones 
correlacionadas. Sin embargo, la comparación se simplifica notablemente si se calculan las 
diferencias d = x1 – x2 en cada una de las n observaciones emparejadas. Por un lado, como las 
distintas parejas no están relacionadas entre sí, estas diferencias son independientes. Por otro 
lado, la media de las diferencias 
 24
Para concretar el problema, supongamos que se dispone de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primera muestra y la otra observación x2 a la segunda 
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta 
situación, ya que las medias de ambas muestras no son independientes por provenir de 
observaciones correlacionadas. Sin embargo, la comparación se simplifica notablemente 
si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones empareja as. 
Por un lado, como las distintas parejas no están relacionadas entre sí, estas diferencias 
son independientes. Por otro l , l  i   l  i i  d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos muestras 
dependientes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
 coincide con la diferencia de medias muestrales,
94
Inferencia sobre medias
Pastor-Barriuso R.
 24
Para concretar el problema, supongamos que se dispone de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primera muestra y la otra observación x2 a la segunda 
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta 
situación, ya que las medias de ambas muestras no son independientes por provenir de 
observaciones correlacionadas. Sin embargo, la comparación se simplifica notablemente 
si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. 
Por un lado, como las distintas parejas no están relacionadas entre sí, estas diferencias 
son independientes. Por otro lado, la media de las diferencias d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos muestras 
dependientes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
y, en consecuencia, 
 24
Para concretar el problema, supongamos que se dispone de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primera muestra y la otra observación x2 a la segunda 
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta 
situación, ya que las medias de ambas muestras no son independientes por provenir de 
observaciones correlacionadas. Sin embargo, la comparación se simplifica notablemente 
si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. 
Por un lado, como las distintas parejas no están relacionadas entre sí, estas diferencias 
son independientes. Por otro lado, la media d  las diferencias d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos muestras 
dependientes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
 es u  estimador insesgado de la diferencia de medias poblacionales μ1 – μ2. 
Así, el pr blema de l  comparación de medias en s muestras dependientes queda reducido a 
una simple inferencia sobre la media de una única muestra de n diferencias independientes.
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces utilizarse 
para calcular un intervalo de confianza al 100(1 – α)% para μ1 – μ2 como
 24
Para concretar el problema, supongamos que se dispone de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primera muestra y la otra observación x2 a la segunda 
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta 
situación, ya que las medias de ambas muestras no son independientes por provenir de 
observaciones correlacionadas. Sin embargo, la comparación se simplifica notablemente 
si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. 
Por un lado, como las distintas parejas no están relacionadas entre sí, estas diferencias 
son independientes. Por otro lado, la media de las diferencias d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
pobl cion les μ1 - μ2. Así, l problem  de la comparación de medias en dos muestras 
depend e tes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
donde sd es la desviación típica de las diferencias obs rvadas. De igual forma, la hipótesis de 
igualdad de medias poblacionales H0: µ1 = µ2  puede contrastarse frente a la hipótesis alternativa 
H1: µ1 ≠ µ2  mediante el estadístico
 25
donde sd es la desviación típica de las diferencias observadas. De igual forma, la 
hipótesis de igualdad de medias poblacionales H0: μ1 = μ2 puede contrastarse frente a la 
hipótesis alternativa H1: μ1 ≠ μ2 mediante el stadístico 
n
s
dt
d
= . 
Bajo la hipótesis nula, las diferencias observadas se distribuirían aleatoriamente 
alre edor del valor 0, de tal forma que este estadístico seguiría una distribución t de 
Student con n - 1 grados de liberad. El valor P corresponderá, por tanto, a la 
probabilidad bajo la distribución tn-1 para valores más extremos que el valor observado 
de t. Esta prueba se denomina habitualmente como el test de la t de Student para 
muestras dependientes. 
Ejemplo 6.13 Para preservar el emparejamiento entre los casos y controles de la 
Tabla 6.1, se calcula la diferencia de colesterol HDL d = xca - xco en cada pareja. 
Como puede apreciarse, predominan las parejas donde el caso presenta un nivel 
inferior de colesterol HDL que su correspondiente control (diferencias negativas). 
De hecho, la media de estas diferencias  
12,050
70,0...00,018,0
50
1 50
1
−=
−++
== 
=i
idd  
es una estimación de la diferencia en el nivel medio de colesterol HDL entre los 
casos de infarto y los sujetos libres de la enfermedad. La varianza de las 
diferencias viene dada por 
Bajo la hipótesis nula, las diferencias observadas se distribuirían aleatoriamente alrededor del 
valor 0, de tal forma que este estadístico seguirí  una distribución t de Student con n – 1 grados 
de libertad. El valor P corresponderá, por tanto, a la probabilidad bajo la distribución tn–1 para 
valor s más extr mos qu  l val r obs rvado de t. Esta pr eb  se denomina habitualmente 
como el test de la t de Student para muestras dependientes.
Ejemplo 6.13 Para preservar el emparejamiento entre los casos y controles de la Tabla 6.1, 
se calcula la diferencia de colesterol HDL d = xca – xco en cada pareja. Como puede apreciarse, 
predominan las parejas donde el caso presenta un nivel inferior de colesterol HDL que su 
correspondiente control (diferencias negativas). De hecho, la media de estas diferencias 
 25
donde sd es la desviación típica de las diferencias observadas. De igual forma, la 
hipótesis de igualdad de medias poblacionales H0: μ1 = μ2 puede contrastarse frente a la 
hipótesis alternativa H1: μ1 ≠ μ2 mediante el estadístico 
n
s
dt
d
= . 
Bajo l  hipótesis ula, las iferencias observadas se distribuirían aleatoriamente 
alrededor del valor 0, de tal forma que este estadístico seguiría una distribución t de 
Student con n - 1 grados de liberad. El valor P corresponderá, por tanto, a la 
probabilidad bajo la distribución tn-1 par  valores más extremos que el valor observado 
de t. Esta prueba se denomina habitualmente como el test de la t de Student para 
muestras dependientes. 
Ejemplo 6.13 Para preservar el emparejamiento entre los casos y controles de la 
Tabla 6.1, se calcula la diferencia de colesterol HDL d = xca - xco en cada pareja. 
Como puede apreciarse, predominan las parejas donde el caso presenta un nivel 
inferior de colesterol HDL que su correspondiente control (diferencias negativas). 
De hecho, la media de estas diferencias  
12,050
70,0...00,018,0
50
1 50
1
−=
−++
== 
=i
idd  
es una estimación de la diferencia en el nivel medio de colesterol HDL entre los 
casos de infarto y los sujetos libres de la enfermedad. La varianza de las 
diferencias viene dada por 
es una estimación de la diferencia en el nivel medio de colesterol HDL entre los casos de 
infarto y los sujetos libres de la enf rmedad. La varianza de las diferencias viene dada por
 26
,16,0
49
)12,070,0(...)12,018,0(
)(
49
1
22
50
1
22
=
+−+++
=
−= 
=i
id dds
 
luego el error estándar de d  es  
057,0
50
40,0)( === n
sdSE d . 
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco s obtiene 
como 
 d  ± t49;0,975 SE( d ) 
  = -0,12 ± 2,01⋅0,057 = (-0,23; -0,01), 
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico 
t = 
057,0
12,0
)(
−
=dSE
d  = -2,13, 
cuyo valor P asociado en la distribución t49 es P = 2P(t49 ≤ -2,13) = 2⋅0,019 = 
0,038. 
De este estudio de casos y controles emparejados, puede entonces concluirse que 
la media del colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al 
nivel medio de los controles (IC al 95% 0,01−0,23 mmol/l), siendo esta diferencia 
estadísticamente significativa (P = 0,038). Esta conclusión es consistente con la 
obtenida en el Ejemplo 6.11 para las muestras completas e independientes de 
casos y controles. No obstante, cabe destacar las siguientes particularidades. Por 
un lado, esta estimación está sujeta a mayor variabilidad aleatoria ya que tan solo 
utiliza 50 parejas de casos y controles. Por otro lado, el diseño emparejado 
luego el error estándar de 
 24
Para concretar el problema, supongamos que se dispone de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primera muestra y la otra observación x2 a la segunda 
muestra. El objetivo se centra en comparar las medias poblacional s μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta 
situación, ya que las medias de ambas muestras no son independientes por provenir de 
observaciones correlacionadas. Sin embargo, la comparación se simplifica notablemente 
si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. 
Por un lado, como las distintas parejas no están relacionadas entre sí, estas diferencias 
son independientes. Por otro lado, la media de las diferencias d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos muestras 
dependientes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
 es 
 26
,16,0
49
)12,070,0(...)12,018,0(
)(
49
1
22
50
1
22
=
+−+++
=
−= 
=i
id dds
luego el err r están ar  d  es  
057,0
50
4,0)( === n
sdSE d . 
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene 
como 
 d  ± t49;0,975 SE( d ) 
  = -0,12 ± 2,01⋅0,057 = (-0,23; -0,01), 
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico 
t = 
057,0
12,0
)(
−
=dSE
d  = -2,13, 
cuyo valor P sociado en la distribución t49 es P = 2P(t49 ≤ -2,13) = 2⋅0,019 = 
0,038. 
De este estudio de casos y controles emparejados, puede entonces concluirse que 
la media del colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al 
nivel medio de los controles (IC al 95% 0,01−0,23 mmol/l), siendo esta diferencia 
estadísticamente significativa (P = 0,038). Esta conclusión es consistente con la 
obtenida en el Ejemplo 6.11 para las muestras completas e independientes de 
casos y controles. No obstante, cabe destacar las siguientes particularidades. Por 
un lado, esta estimación está sujeta a mayor variabilidad aleatoria ya que tan solo 
utiliza 50 parejas de casos y controles. Por otro lado, el diseño emparejado 
95
Referencias
Pastor-Barriuso R.
Así, el IC al 95% para la diferencia de medias poblacionales μca – μco  se obtiene como
 26
,16,0
49
)12,070,0(...)12,018,0(
)(
49
1
22
50
1
22
=
+−+++
=
−= 
=i
id dds
 
luego el error estándar de d  es  
057,0
50
40,0)( === n
sdSE d . 
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene 
como 
 d  ± t49;0,975 SE( d ) 
  
=  0,12 ± 2,01⋅0,057 = ( 0,23;  0,01), 
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico 
t = 
057,0
12,0
)(
−
=dSE
d  = -2,13, 
cuyo valor P asociado en la distribución t49 es P = 2P(t49 ≤ -2,13) = 2⋅0,019 = 
0,038. 
De este estudio de casos y controles emparejados, puede entonces concluirse que 
la media del colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al 
nivel medio de los controles (IC al 95% 0,01−0,23 mmol/l), siendo esta diferencia 
estadísticamente significativa (P = 0,038). Esta conclusión es consistente con la 
obtenida en el Ejemplo 6.11 para las muestras completas e independientes de 
casos y controles. No obstante, cabe destacar las siguientes particularidades. Por 
un lado, esta estimación está sujeta a mayor variabilidad aleatoria ya que tan solo 
utiliza 50 parejas de casos y controles. Por otro lado, el diseño emparejado 
− − −
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico
 26
,16,0
49
)12,070,0(...)12,018,0(
)(
49
1
22
50
1
22
=
+−+++
=
−= 
=i
id dds
 
luego el error estándar de d  es  
057,0
50
40,0)( === n
sdSE d . 
Así, el IC al 95% para la diferencia de medias poblacionales μca - μco se obtiene 
como 
 d  ± t49;0,975 SE( d ) 
  = -0,12 ± 2,01⋅0,057 = (-0,23; -0,01), 
y la hipótesis nula H0: μca = μco se contrasta mediante el test estadístico 
t = 
057,0
12,0
)(
−
dSE
d  =  2,13, 
cuyo valor P asociado en la distribución t49 es P = 2P(t49 ≤ -2,13) = 2⋅0,019 = 
0,038. 
De este estudio de casos y controles emparejados, puede entonces concluirse que 
la media del colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al 
nivel medio de los controles (IC al 95% 0,01−0,23 mmol/l), siendo esta diferencia 
estadísticamente significativa (P = 0,038). Esta conclusión es consistente con la 
obtenida en el Ejemplo 6.11 para las muestras completas e independientes de 
casos y controles. No obstante, cabe destacar las siguientes particularidades. Por 
un lado, esta estimación está sujeta a mayor variabilidad aleatoria ya que tan solo 
utiliza 50 parejas de casos y controles. Por otro lado, el diseño emparejado 
− = 
cuyo valor P asociado en la distribución t49 es P = 2P(t49 ≤ – 2,13) = 2∙0,019 = 0,038. De 
este estudio de casos y controles emparejados puede entonces concluirse que la media del 
colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al nivel medio de 
los controles (IC al 95% 0,01-0,23 mmol/l), siendo esta diferencia estadísticamente 
significativa (P = 0,038). Esta conclusión es consistente con la obtenida en el Ejemplo 
6.11 para las muestras completas e independientes de casos y controles. No obstante, cabe 
destacar las siguientes particularidades. Por un lado, esta estimación está sujeta a mayor 
variabilidad aleatoria ya que tan sólo utiliza 50 parejas de casos y controles. Por otro lado, 
el diseño emparejado permite comparar casos con controles de similar edad y, en 
consecuencia, la estimación será menos propensa a posibles sesgos derivados de la 
diferencia de edad entre casos y controles.
Los procedimientos presentados en este apartado se limitan a la comparación de una variable 
continua a partir de dos muestras emparejadas sujeto a sujeto. El análisis de la varianza de dos 
vías permite extender esta comparación a casos más generales de dependencia, tales como el 
diseño de parejas con más de un sujeto por muestra (por ejemplo, un estudio de casos y controles 
donde cada caso se empareja con 2 controles) o la comparación de tres o más muestras 
dependientes (por ejemplo, un ensayo clínico donde cada paciente recibe diversos tratamientos 
alternativos). Los métodos de análisis de la varianza de dos vías pueden consultarse en los 
textos estadísticos citados a continuación.
6.5 REFERENCIAS
 1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth 
Edition. Oxford: Blackwell Science, 2001. 
 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Englewood Cliffs, NJ: Prentice Hall, 1977.
 3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of 
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
 4. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 
2001.
 5. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
 6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & 
Sons, 1986.
96
Inferencia sobre medias
Pastor-Barriuso R.
 7. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and 
Quantitative Methods. New York: John Wiley & Sons, 1982.
 8. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and Other 
Multivariable Methods, Third Edition. Belmont, CA: Duxbury Press, 1998.
 9. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 
1999.
 10. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: 
Lippincott Williams & Wilkins, 2008.
 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State 
University Press, 1989.
 12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical 
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
97Pastor-Barriuso R.
TEMA 7
INFERENCIA SOBRE PROPORCIONES
7.1 INTRODUCCIÓN
En el análisis de datos epidemiológicos es frecuente el estudio de variables dicotómicas, que 
reflejan la presencia o ausencia de una determinada característica en los miembros de una 
población. El interés radica fundamentalmente en estimar la proporción π de individuos o 
elementos de la población que presentan dicha característica.
Esta proporción poblacional π es un parámetro desconocido que se estima mediante la 
proporción muestral p = k/n, donde k es el número observado de individuos que presentan la 
característica de interés en una muestra aleatoria de tamaño n. La distribución muestral de una 
proporción ya se discutió en el Apartado 4.3.4. Brevemente, recordamos que una proporción 
muestral p tiende a distribuirse de forma normal con media π y varianza π(1 – π)/n,
 1
TEMA 7 
INFERENCIA SOBRE PROPORCIONES 
7.1 INTRODUCCIÓN 
En el análisis de datos epidemiológicos es frecuente el estudio de variables dicotómicas, 
que reflejan la presencia o ausencia de una determinada característica en los miembros 
de una población. El interés radica fundamentalmente en estimar la proporción  de 
individuos o elementos de la población que presentan dicha característica. 
Esta proporción poblacional  es un parámetro desconocido que se estima mediante 
la proporción muestral p = k/n, donde k es el número observado de individuos que 
presentan la característica de interés en una muestra aleatoria de tamaño n. La 
distribución muestral de una proporción ya se discutió en el Apartado 4.3.4. 
Brevemente, recordamos que una proporción muestral p tien a distribuirse de forma 
normal con me a  y varianza (1 - )/n, 


 
n
Np
)1(
,~
 , 
cuando el tamaño muestral es suficientemente grande y la proporción poblacional no es 
excesivamente extrema, de tal forma que se cumpla la condición n(1 - )  5. Esta 
aproximación se utilizará repetidamente a lo largo de esta tema de inferencia sobre 
datos de carácter binario o dicotómico. 
Al igual que en el tema de inferencia sobre medias, este capítulo aborda la 
estimación de una proporción poblacional, así como la comparación de proporciones a 
cuando el tamaño muestral es suficientemente grande y la proporción poblacional no es 
excesivam n e extrema, de t  forma qu  se cumpla la condición nπ(1 – π) ≥ 5. Esta aproximación 
se utilizará repetidamente a lo largo de este tema de inferencia sobre datos de carácter binario o 
dicotóm co.
Al igual que en el tema de inferencia sobre medias, este capítulo aborda la estimación de 
una proporción poblacional, así como la comparación de proporciones a partir de muestras 
dependientes e independientes. Para cada problema de inferencia sobre proporciones se 
presentará un estimador puntual del parámetro poblacional objeto de estudio, un intervalo de 
confianza y una prueba de significación.
7.2 INFERENCIA SOBRE UNA PROPORCIÓN POBLACIONAL
Con frecuencia se desea conocer la proporción π de individuos que poseen una cierta característica 
en la población. Como ya se apuntó en el Apartado 5.2, la proporción muestral p es un buen 
estimador puntual de la proporción poblacional, ya que p es el estimador insesgado y consistente 
de π con menor error estándar.
Utilizando la aproximación normal a la distribución muestral de p, se tiene la siguiente relación
2
partir de muestras dependientes e independientes. Para cada problema de inferencia 
sobre proporciones se presentará un estimador puntual del parámetro poblacional objeto 
de estudio, un intervalo de confianza y una prueba de significación. 
7.2 INFERENCIA SOBRE UNA PROPORCIÓN POBLACIONAL 
Con frecuencia se desea conocer la proporción  de individuos que poseen una cierta 
característica en la población. Como ya se apuntó en el Apartado 5.2, la proporción 
muestral p es un buen estimador puntual de la proporción poblacional, ya que p es el 
estimador insesgado y consistente de  con menor error estándar. 
Utilizando la aproximación normal a la distribución muestral de p, se tiene la 
siguiente relación 


 


 
  1
/)1(
2/12/1 z
n
pzP ,
donde z1-/2 es el percentil 1 - /2 de la distribución normal estandarizada. El método 
más sencillo para obtener un intervalo de confianza consiste en sustituir el error 
estándar de p por su estimación npp /)1(   y despejar la proporción poblacional 
  


   1)1()1( 2/12/1
n
ppzp
n
ppzpP .
Así, el intervalo de confianza al 100(1 - )% para la proporción poblacional  viene 
dado por 
n
ppzp )1(2/1
  .
Para realizar el contraste de la hipótesis nula H0:  = 0 frente a la alternativa 
bilateral H1:   0, puede emplearse el estadístico 
donde z1–α/2 es el percentil 1 – α/2 de la distribución normal estandarizada. El método más 
sencillo para obtener un intervalo de confianza consiste en sustituir el e ror estándar de p por su 
estimación 
2
partir de muestras dependientes e independientes. Para cada problema de inferencia 
sobre proporciones se presentará un estimador puntual del parámetro poblacional objeto 
de estudio, un intervalo de confianza y una prueba de significación. 
7.2 INFERENCIA SOBRE UNA PROPORCIÓN POBLACIONAL 
Con frecuencia se desea conocer la proporción  de individuos que poseen una cierta 
característica en la población. Como ya se apuntó en el Apartad  5.2, la proporción 
muestral p es un buen estimador puntual de la proporción poblacional, ya que p es el 
estimador insesgado y consistente de  con menor error está dar. 
Utilizando la aproximación normal a la distribución muestral de p, se tiene la 
siguiente relación 


 


 

  1
/)1(
2/12/1 z
n
pzP ,
donde z1-/2 es el percentil 1 - /2 de la distribución normal estandarizada. El método 
más sencillo para obtener un intervalo de confianza consiste en sustituir el error 
estándar de p por su ti i  npp /)1(   y despejar la proporción poblacional 
  


   1)1()1( 2/12/1
n
ppzp
n
ppzpP .
Así, el intervalo de confianza al 100(1 - )% para la proporción poblacional  viene 
dado por 
n
ppzp )1(2/1
  .
Para realizar el contraste de la hipótesis nula H0:  = 0 frente a la alternativa 
bilateral H1:   0, puede emplearse el estadístico 
 y despejar la proporción poblacional
2
partir de muestras dependientes  independientes. Para cada problema d  inferencia 
sobre proporc ones e presentará un estimador puntual del paráme o poblacional objeto 
de estudio, un intervalo de confianza y una prueba d  signific c ó . 
7.2 INFERENCIA SOBRE UNA PROPORCIÓN POBLACIONAL 
Con frecuenci  se desea conocer la proporción  de individu s que poseen un  cierta 
característica n la población. Co o ya se ap ntó en el Apartado 5.2, la proporción
muestral p es un buen estimador puntual de la pr porción poblacional, ya que p es el 
es imador insesgado y consistente de  con menor error estándar. 
Utilizando la aproxi ción no mal la distribución muestral de p, se tiene la 
siguiente relación 


 


 
  1
/)1(
2/12/1 z
n
pzP ,
donde z1-/2 es el percentil 1 - /2 de la distribución normal estandarizada. El método 
más sencillo para obtener un intervalo de confianza consiste en sustituir el error 
estándar de p por su estimación npp /)1(   y despejar la proporción poblacional 
  


   1)1()1( 2/12/1
n
ppzp
n
ppzpP .
Así, el intervalo de confianza al 100(1 - )% para la proporción poblacional  viene 
dado por 
n
pzp )1(2/1
  .
Para realizar el contraste de la hipótesis nula H0:  = 0 frente a la alternativa 
bilateral H1:   0, puede emplearse el estadístico 
98
Inferencia sobre proporciones
Pastor-Barriuso R.
Así, el intervalo de confianza al 100(1 – α)% para la proporción poblacional π viene dado por
2
partir de muestras dependientes e independientes. Para cada problema de inferencia 
sobre proporciones se presentará un estimador puntual del parámetro poblacional objeto 
de estudio, un intervalo de confianza y una prueba de significación. 
7.2 INFERENCIA SOBRE UNA PROPORCIÓN POBLACIONAL 
Con frecuencia se desea conocer la proporción  de individuos que poseen una cierta 
característica en la población. Como ya se apuntó en el Apartado 5.2, la proporción 
muestral p es un buen estimador puntual de la proporción poblacional, ya que p es el 
estimador insesgado y consistente de  con menor error estándar. 
Utilizando la aproximación normal a la distribución muestral de p, se tiene la 
siguiente relación 


 


 
  1
/)1(
2/12/1 z
n
pzP ,
donde z1-/2 es el percentil 1 - /2 de la distribución normal estandarizada. El método 
más sencillo para obtener un intervalo de confianza consiste en sustituir el error 
estándar de p por su estimación npp /)1(   y despejar la proporción poblacional 
  


   1)1()1( 2/12/1
n
ppzp
n
ppzpP .
Así, el intervalo de confianza al 100(1 - )% para la proporción poblacional  viene 
dado por 
n
ppzp )1(2/1
  .
Para realizar el contraste de la hipótesis nula H0:  = 0 frente a la alternativa 
bilateral H1:   0, puede emplearse el estadístico 
Para realizar el contraste de la hipótesis nula H0: π = π0 frente a la alternativa bilateral H1: π ≠ π0, 
puede emplearse el stadístico
3
n
pz
)1( 00
0



 ,
cuya distribución será aproximadamente N(0, 1) si la hipótesis nula H0:  = 0 es cierta. 
El valor P del test corresponde entonces a la probabilidad bajo la distribución normal 
estandarizada para valores más alejados de 0 que el valor observado de z.
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar 
la proporción de individuos en la población de referencia de dicho estudio que 
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 
bajos según el “National Cholesterol Education Program”). En k = 158 de los n = 
539 controles se observaron valores inferiores o iguales a este umbral, 
obteniéndose una proporción muestral  
p = k/n = 158/539 = 0,293. 
Dado que np(1 - p) = 111,7  5, puede emplearse la aproximación normal para 
calcular un IC al 95% para la proporción poblacional  como 
539
)293,01(293,0
293,0 975,0
 z
  = 0,293  1,960,020 = (0,255; 0,332); 
es decir, la proporción poblacional de sujetos con niveles bajos de colesterol HDL 
está comprendida entre el 25,5 y el 33,2% con una confianza del 95%. Asimismo, 
para determinar si los datos muestrales son compatibles con una proporción 
subyacente del 30%, se contrastó la hipótesis H0:  = 0,30 versus H1:   0,30 
mediante el estadístico 
cuya distribución será aproximadamente N(0, 1) si la hipótesis nula H0: π = π0 es cierta. El 
valor P del est corresponde entonces a la probabilidad b jo la di trib ción normal estandarizada 
para valores más alejados de 0 que el valor observado de z.
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la 
proporción de individuos en la población de r ferencia d  dicho estudio que presentan 
niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos según el 
“National Cholesterol Education Program”). En k = 158 de los n = 539 controles se 
observaron valores inferiores o iguales a este umbral, obteniéndose una proporción 
muestral 
p = k/n = 158/539 = 0,293.
Dado que np(1 – p) = 111,7 ≥ 5, puede emplearse la aproximación normal para calcular 
un IC al 95% para la proporción poblacional π como
 3
n
pz
)1( 00
0



 , 
cuya distribución será aproximadamente N(0, 1) si la hipótesis nula H0:  = 0 es cierta. 
El valor P del test corresponde entonces a la probabilidad bajo la distribución normal 
estandarizada para valores más alejados de 0 que el valor observado de z. 
Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar 
la proporción de individuos en la población de referencia de dicho estudio que 
presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 
bajo  según el “National Cholesterol Education Pr gram”). En k = 158 de lo  = 
539 controles se bservaron val res inferio es o iguales  este umbral, 
obten én ose una proporción muestral  
p = k/n = 158/539 = 0,293. 
Dado que np(1 - p) = 111,7  5, puede emplears  la aproximación n rmal para 
calcular un IC al 95% para la pr orción poblacional  c mo 
 
539
)293,01(293,0
293,0 975,0
 z  
  = 0,293  1,960,020 = (0,255; 0,332); 
es decir, la proporción poblacional de sujetos con niveles bajos de colesterol HDL 
está comprendida entre el 25,5 y el 33,2% con una confianza del 95%. Asimismo, 
para determinar si los datos muestrales son compatibles con una proporción 
subyacente del 30%, se contrastó la hipótesis H0:  = 0,30 versus H1:   0,30 
mediante el estadístico 
es decir, la proporción poblacional de sujetos con niveles bajos de colesterol HDL está 
comprendida entre el 25,5 y el 33,2% con una confianza del 95%. Asimismo, para determinar 
si los datos muestrales son compatibles con una proporción subyacente del 30%, se 
contrastó la hipótesis H0: π = 0,30 versus H1: π ≠ 0,30 mediante el estadístico
 4
z = 
539
)30,01(30,0
30,0293,0
)1( 00
0



n
p

  = 0,35, 
que corresponde a un valor P = 2P(Z  -0,35) = 2{1 - (0,35)} = 0,726 en las 
tablas de la distribución normal estandarizada (Tabla 3 del Apéndice). Por tanto, 
puede concluirse que la prevalencia poblacional de niveles bajos de colesterol 
HDL no es significativamente distinta del 30%. 
Los procedimientos de nferencia presentados e este apartado asumen que el tamaño 
muestral es suficientemente grande para aplicar la aproximación normal; es decir, ha de 
cumplirse l requerimiento mínimo de que n(1 - )  5. No obstante, en el Apéndice de 
este tema (Apartado 7.8) se facilitan correcciones de estos métodos que permiten 
aumentar la cobertura de los intervalos de confianza y reducir la probabilidad de un 
error de tipo I en los contrastes, particularmente cuando el tamaño muestral es 
moderado o pequeño. Esta corrección de la aproximación normal se conoce como 
corrección por continuidad y es aplicable a la mayoría de los procedimientos 
estadísticos descritos en este tema. En adelante, se tratarán los métodos de inferencia sin 
corrección por continuidad. Las correspondientes versiones con corrección se presentan 
en el Apéndice al final del tema. 
7.3 COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS 
INDEPENDIENTES 
Supongamos ahora que el interés radica en comparar la proporción de sujetos con una 
determinada característica en dos muestras independientes. Este planteamiento general 
es aplicable a las comparaciones realizadas en cualquiera de los siguientes diseños de 
un estudio: 

que corresponde a un valor P = 2P(Z ≤ –0,35) = 2{1 – Φ(0,35)} = 0,726 en las tablas de 
la istribució  normal estandarizada (Tabla 3 del Apéndice). Por tanto, puede concluirse 
que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente 
distinta del 30%.
Los procedimientos d  inferencia present dos en ste apartad  asumen que el tamaño 
muestral es suficientemente grande para aplicar la aproximación normal; es decir, ha de 
cumplirse el requerimiento mínimo e que nπ(1 – π) ≥ 5. No obstante, en el Apéndice de este 
tema (Apartado 7.8) se facilitan correcciones de estos métodos que permiten aumentar la 
cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los 
contrastes, particularmente cuando el tamaño muestral es moderado o pequeño. Esta corrección 
99
Comparación de proporciones en dos muestras independientes
Pastor-Barriuso R.
de la aproximación normal se conoce como corrección por continuidad y es aplicable a la 
mayoría de los procedimientos estadísticos descritos en este tema. En adelante, se tratarán los 
métodos de inferencia sin corrección por continuidad. Las correspondientes versiones con 
corrección se presentan en el Apéndice al final del tema.
7.3  COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS INDEPENDIENTES
Supongamos ahora que el interés radica en comparar la proporción de sujetos con una 
determinada característica en dos muestras independientes. Este planteamiento general es 
aplicable a las comparaciones realizadas en cualquiera de los siguientes diseños de un estudio:
 y Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervención 
(ensayo clínico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no 
expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuántos 
desarrollan la enfermedad. Los tamaños muestrales de ambos grupos n1 y n2 están fijados 
de antemano y, en el caso de un ensayo clínico, la intervención se asigna de forma aleatoria 
a cada sujeto. El objetivo se centra en comparar la proporción de sujetos que desarrollan 
la enfermedad entre los expuestos y los no expuestos. 
 y Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con 
la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar 
cuántos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseño, 
el número de casos y controles está predeterminado y, en consecuencia, ha de compararse 
la proporción de expuestos entre los sujetos con y sin la enfermedad.
 y Un estudio transversal es aquel en el que se selecciona un total de n individuos en un 
instante determinado para establecer en cada sujeto la presencia o ausencia de la exposición 
y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia 
de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de 
la enfermedad en un instante determinado entre expuestos y no expuestos.
Ejemplo 7.2 En el “Second National Health and Nutrition Examination Survey” 
(NHANES II), una encuesta llevada a cabo entre 1976 y 1980 en Estados Unidos, se 
recogieron datos del nivel de colesterol sérico total en una muestra representativa 
de 7.712 sujetos entre 30 y 74 años de edad sin diagnóstico previo de enfermedad 
cardiovascular o cáncer. Tras un seguimiento medio de 15 años, se determinó el estatus 
vital de cada sujeto y, en su caso, la causa de muerte. Así, en este estudio de cohortes 
prospectivo se registraron 254 muertes por enfermedad cardiovascular entre los 2.713 
participantes con niveles de colesterol total superiores o iguales a 6,20 mmol/l (niveles 
altos según el “National Cholesterol Education Program”) y 309 muertes por enfermedad 
cardiovascular entre los 4.999 participantes con niveles de colesterol total inferiores 
a 6,20 mmol/l.
Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasificó a los sujetos 
según tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de colesterol HDL. 
De los 462 casos de infarto de miocardio con datos disponibles, 193 tuvieron valores de 
colesterol HDL inferiores o iguales a 0,90 mmol/l; mientras que de los 539 controles 
libres de la enfermedad, 158 presentaron valores de colesterol HDL inferiores a dicho 
umbral.
100
Inferencia sobre proporciones
Pastor-Barriuso R.
Tabla 7.1 Tabla 2×2 genérica de la 
asociación entre exposición y enfermedad.
Enfermedad
Exposición Sí No Total
Sí a b n1
No c d n2
Total m1 m2 n
En general, los resultados de la comparación de una variable dicotómica en dos muestras 
independientes suelen organizarse en una tabla 2×2 (Tabla 7.1). En este apartado suponemos 
que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en 
la proporción de enfermos entre expuestos y no expuestos. Estos métodos pueden aplicarse 
igualmente a estudios retrospectivos, pero comparando la proporción de expuestos entre casos 
y controles (ver Ejemplo 7.5).
La proporción de enfermos en la muestra de sujetos expuestos viene dada por p1 = a/n1 y en la 
muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas 
proporciones muestrales tenderán a distribuirse de forma normal, p1 
6
determinó el estatus vital de cada sujeto y, en su caso, la causa de muerte. Así, en 
este estudio de cohortes prospectivo se registraron 254 muertes por enfermedad 
cardiovascular entre los 2.713 participantes con niveles de colesterol total 
superiores o iguales a 6,20 mmol/l (niveles altos según el “National Cholesterol 
Education Program”) y 309 muertes por enfermedad cardiovascular entre los 
4.999 participantes con niveles de colesterol total inferiores a 6,20 mmol/l. 
Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasificó a los 
sujetos según tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de 
colesterol HDL. De los 462 casos de infarto de miocardio con datos disponibles, 
193 tuvieron valores de colesterol HDL inferiores o iguales a 0,90 mmol/l, 
mientras que de los 539 controles libres de la enfermedad, 158 presentaron 
valores de colesterol HDL inferiores a dicho umbral. 
En general, los resultados de la comparación de una variable dicotómica en dos 
muestras independientes suelen organizarse en una tabla 22 (Tabla 7.1). En este 
apartado suponemos que se analizan datos de un estudio prospectivo, en el que se 
pretende estimar la diferencia en la proporción de enfermos entre expuestos y no 
expuestos. Estos métodos pueden aplicarse igualmente a estudios retrospectivos, pero 
comparando la proporción de expuestos entre casos y controles (ver Ejemplo 7.5). 
[Tabla 7.1 aproximadamente aquí] 
La proporción de enfermos en la muestra de sujetos expuestos viene dada por p1 = 
a/n1 y en la muestra de sujet s no expu stos por p2 = c/n2. Si n1 y n2 son uficien emente 
grandes, estas proporciones muestrales tenderán a distr buirse de forma normal, p1 ~  N(π1, π1(1 – π1)/n1) y p2 
6
det rminó el status vital de cada sujeto y, en su caso, la causa de muerte. Así, en 
este estudio d  cohortes prospectivo se registraron 254 muertes por enfermedad 
cardiovascular entre l s 2.713 parti ipant s con niveles de colesterol total 
superiores o iguales a 6,20 mmol/l (niveles altos según el “National Cholesterol 
Education Prog am”) y 309 muertes por enfermedad cardiovascular entre los 
4.999 parti ipant s con nivel s de colesterol total inferiores a 6,20 mmol/l. 
Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasificó a los 
sujetos según tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de 
colester l HDL. De los 462 casos de inf rto e miocardio con datos disponibles, 
193 tuvieron valores de colesterol HDL inferiores o iguales a 0,90 mmol/l, 
mientras que de los 539 controles libres d  la enfermedad, 158 presentaron 
valores de colesterol HDL inferiores a dicho umbral. 
En general, los resultados de l  comparaci n de una variable dicotómica en dos 
m stras independientes suelen organiz rse en una tabla 22 (Tabla 7.1). En este 
apartado suponemos q e se analizan datos de u studio prospectivo, en el que se 
pretende estimar la difer ncia en la proporción de enfermos entre expuestos y no 
ex stos. Estos métodos pueden aplicarse igualmente a estudios retrospectivos, pero 
comparando la propor ión de expuestos entre casos y controles (ver Ejemplo 7.5). 
[Tabl  7.1 aproximadamente aquí] 
La proporción de enfermos en la mue tra d  sujetos ex uestos viene dada por p1 = 
a/n1 y en la m ra de suj tos o expuesto p r p2 = c/ 2. Si 1 y n2 son suficientemente
grandes, estas proporciones muestral s tenderán a distribuirse de forma normal, p1 ~  N(π2, 
π2(1 – π2)/n2). Además, como ambas muestras son independientes (véase Apartado 3.4), se tiene que
 7
N( , 1(1 - 1)/n1) y 2 ~  N(2, 2(1 - 2)/n2). Ad más, como amb  muestras so  
i depe di nt  (véas  Ap rtado 3.4), se tien  que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 . 
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene siguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   , 
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0: 
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  , 
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinada de enfermos en ambas muestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
De este resultado se desprende que p1 – p2 es un estimador puntual insesgado de la diferencia de 
riesgos ubyacente π1 – π2 entre xpuestos y no expuestos, E( 1 – p2) = π1 – π2. El intervalo de 
confianza al 100(1 – α)% para π1 – π2 se obtiene siguiendo el mismo procedimiento utilizado 
para una proporción como
 7
N(1, 1(1 - 1)/n1) y p2 ~  N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
independientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 . 
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene iguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   , 
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0: 
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  , 
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinada de enfermos en ambas muestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente prop rcional a la stimació  de su err r estándar.
Para determinar si existen diferencias en la robabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0: π1 = π2 
frente a la hipótesis alternativa bilateral H1: π1 ≠ π2. Bajo la hipótesis nula de igualdad de 
proporciones H0: π1 = π2 = π, se cumple que
 7
N(1, 1(1 - 1)/n1) y p2 ~  N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
indep ndientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 . 
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene siguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
pzpp   , 
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0: 
1 = 2 frente a la hipótesis alternativa bilater l H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  , 
donde  corresponde a la probabilidad de enfer ar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinada de enfermos en ambas muestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
donde π corresponde a la probabilidad de enfermar común para expuestos y no expuestos. Aunque esta 
probabilidad π es desconocida, su valor puede estimarse mediante la roporción combinada de enfermos 
en ambas muestras 
7
N(1, 1(1 - 1)/n1) y p2 ~ N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
independientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 .
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obti ne siguiend  el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   ,
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0:
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  ,
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinada de enfermos en ambas uestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
 = (a + c)/(n1 + n2) = m1/n. Así, el estadístico propuesto para este test es
 8


 

21
21
11)1(
nn
pp
ppz , 
que bajo H0 sigue aproximadamente una distribución normal estandarizada, lo que 
permitirá determinar la significación estadística de la diferencia entre proporciones. 
Ejemplo 7.4 En la Tabla 7.2 se presenta el número de muertes por enfermedad 
cardiovasc lar obse vadas urant  el seguimiento del estudio NHANES II entre 
los sujet s con niveles altos y moderados-bajos de colesterol sérico total (Ejemplo 
7.2). La proporción de muertes p r enfermedad cardiovascular es p1 = 254/2.713 
= 0,094 en los participantes con niveles de colesterol total superiores a 6,20 
mmol/l y p2 = 309/4.999 = 0,062 en aquellos con niveles inferiores a 6,20 mmol/l. 
Por tanto, la estimación puntual de la diferencia de riesgos subyacente es p1 - p2 = 
0,094 - 0,062 = 0,032 y su intervalo de confianza al 95%  
 
999.4
)062,01(062,0
713.2
)094,01(094,0
032,0 975,0
 z  
  = 0,032  1,960,007 = (0,019; 0,045). 
Para el contraste bilateral de la hipótesis nula de igualdad de proporciones 
poblacionales H0: 1 = 2 se emplea el estadístico 
z = 


 
999.4
1
713.2
1)073,01(073,0
032,0
 = 5,13, 
donde p  = 563/7.712 = 0,073 es la proporción global de muertes por enfermedad 
cardiovascular en todos los participantes del NHANES II. El valor P del test se 
obtiene como 2P(Z  5,13) = 2{1 - (5,13)} < 0,001. En resumen, después de 15 
años de seguimiento, la incidencia acumulada de muertes por enfermedad 
que bajo H0 sigue aproximadamente una distribución normal estandarizada, lo que permitirá 
determinar la signific ción estadística de l fe encia entre proporciones.
101
Comparación de proporciones en dos muestras independientes
Pastor-Barriuso R.
Tabla 7.2 Muertes por enfermedad cardiovascular 
(ECV) durante el seguimiento del estudio 
NHANES II según niveles del colesterol sérico total.
Colesterol 
total (mmol/l)
Mortalidad por ECV
Sí No Total
≥ 6,20 254 2.459 2.713
< 6,20 309 4.690 4.999
Total 563 7.149 7.712
Ejemplo 7.4 En la Tabla 7.2 se presenta el número de muertes por enfermedad 
cardiovascular observadas durante el seguimiento del estudio NHANES II entre los sujetos 
con niveles altos y moderados-bajos de colesterol sérico total (Ejemplo 7.2). La proporción 
de muertes por enfermedad cardiovascular es p1 = 254/2.713 = 0,094 en los participantes 
con niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos 
con niveles inferiores a 6,20 mmol/l. Por tanto, la estimación puntual de la diferencia de 
riesgos subyacente es p1 – p2 = 0,094 – 0,062 = 0,032 y su intervalo de confianza al 95% 
 8


 

21
21
11)1(
nn
pp
ppz , 
que bajo H0 sigue aproximadamente una distribución normal estandarizada, lo que 
permitirá determinar la significación estadística de la diferencia entre proporciones. 
Ejemplo 7.4 En la Tabla 7.2 se presenta el nú ero de muertes por enfermedad 
cardiovascular observadas durante el seguimiento del estudio NHANES II entre 
los sujetos con niveles altos y moderados-bajos de colesterol sérico total (Ejemplo 
7.2). La proporción de muertes por enfermedad cardiovascular es p1 = 254/2.713 
= 0,094 en los participantes con niveles de colesterol total superiores a 6,20 
mmol/l y p2 = 309/4.999 = 0,062 en aquellos con niveles inferiores a 6,20 mmol/l. 
Por tanto, la estimación puntual de la diferencia de riesgos subyacente es p1 - p2 = 
0,094 - 0,062 = 0,032 y su intervalo de confianza al 95%  
 
999.4
)062,01(062,0
713.2
)094,01(094,0
032,0 975,0
 z  
  = 0,032  1,960,007 = (0,019; 0,045). 
Para el contraste bilateral de la hipótesis nula de igualdad de proporciones 
poblacionales H0: 1 = 2 se emplea el estadístico 
z = 


 
999.4
1
713.2
1)073,01(073,0
032,0
 = 5,13, 
donde p  = 563/7.712 = 0,073 es la proporción global de muertes por enfermedad 
cardiovascular en todos los participantes del NHANES II. El valor P del test se 
obtiene como 2P(Z  5,13) = 2{1 - (5,13)} < 0,001. En resumen, después de 15 
años de seguimiento, la incidencia acumulada de muertes por enfermedad 
Para el contraste bilateral de la hipótesis nula de igualdad de proporciones poblacionales 
H0: π1 = π2 se emplea el estadístico
 8


 

21
21
11)1(
nn
pp
ppz , 
que bajo H0 sigue aproximadamente una distribución normal estandarizada, lo que 
permitirá determinar la significación estadística de la diferencia entre proporciones. 
Ejemplo 7.4 En la Tabla 7.2 se presenta el número de muertes por enfermedad 
cardiovascular observadas durante el seguimiento del estudio NHANES II entre 
los sujetos con niveles altos y moderados-bajos de colesterol sérico total (Ejemplo 
7.2). La proporción de muertes por enfermedad cardiovascular es p1 = 254/2.713 
= 0,094 en los participantes con niveles de colesterol total superiores a 6,20 
mmol/l y p2 = 309/4.999 = 0,062 en aquellos con niveles inferiores a 6,20 mmol/l. 
Por tanto, la estimación puntual de la diferencia de riesgos subyacente es p1 - p2 = 
0,094 - 0,062 = 0,032 y su intervalo de confianza al 95%  
 
999.4
)062,01(062,0
713.2
)094,01(094,0
032,0 975,0
 z  
  = 0,032  1,960,007 = (0,019; 0,045). 
Para el contraste bilateral de la hipótesis nula de igualdad de proporciones 
poblacionales H0: 1 = 2 se emplea el estadístico 
z = 


 
999.4
1
713.2
1)073,01(073,0
032,0
 = 5,13, 
donde p  = 563/7.712 = 0,073 es la proporción global de muertes por enfermedad 
cardiovascular en todos los participantes del NHANES II. El valor P del test se 
obtiene como 2P(Z  5,13) = 2{1 - (5,13)} < 0,001. En resumen, después de 15 
años de seguimiento, la incidencia acumulada de muertes por enfermedad 
donde 
7
N(1, 1(1 - 1)/n1) y p2 ~ N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
independientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 .
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene siguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   ,
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0:
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  ,
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinada de enfermos en ambas muestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
 563/7.712 = 0,073 es la proporción global de muertes por enfermedad 
cardiovascular en todos los participantes del NHANES II. El valor P del test se obtiene 
como 2P(Z ≥ 5,13) = 2{1 – Φ(5,13)} < 0,001. En resumen, después de 15 años de 
seguimiento, la inci encia acumulada de muertes por enfermedad cardiovascular en los 
sujetos con niveles altos de colesterol total excedió en 32 casos por 1.000 a la de los 
participantes con niveles más bajos (IC al 95% entre 19 y 45 casos por 1.000), siendo esta 
diferencia muy significativa (P < 0,001).
Ejemplo 7.5 La Tabla 7.3 muestra los casos de infarto de miocardio y los controles del 
EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A partir 
de esta tabla 2×2, se pretende comparar la proporción de sujetos con niveles bajos de 
colesterol HDL (≤ 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 = 
d/m2 = 158/539 = 0,293. La diferencia de proporciones muestrales es p1 – p2 = 0,418 – 
0,293 = 0,125 y el IC al 95% para π1 – π2 viene dado por
 9
cardiovascular en los sujetos con niveles altos de colesterol total excedió en 32 
casos por 1.000 a la de los participantes con niveles más bajos (IC al 95% entre 19 
y 45 casos por 1.000), siendo esta diferencia muy significativa (P < 0,001). 
[Tabla 7.2 aproximadamente aquí] 
Ejemplo 7.5 La Tabla 7.3 muestra los casos de infarto de miocardio y los 
ntroles del EURAMIC con valores de colesterol HDL s periores o inferiores a 
0,90 mm l/l. A partir de esta tabla 22, se pretende comparar la proporción de 
suj tos con niveles bajos de colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 
= 193/462 = 0,418 y controles p2 = d/m2 = 158/539 = 0,293. La diferencia de 
proporciones muestrales es p1 - p2 = 0,418 - 0,293 = 0,125 y el IC al 95% para 1 - 
2 viene dado por 
 
2
22
1
11
975,021
)1()1(
m
pp
m
ppzpp   
  = 
539
)293,01(293,0
462
)418,01(418,0
96,1125,0 
 
  = 0,125  1,960,030 = (0,065; 0,184). 
El estadístico para el contraste bilateral de la hipótesis nula H0: 1 = 2 se calcula 
como  
,12,4
539
1
462
1)351,01(351,0
125,0
11)1(
21
21



 



 

mm
pp
ppz
 
102
Inferencia sobre proporciones
Pastor-Barriuso R.
Tabla 7.3 Colesterol HDL en los casos de infarto 
agudo de miocardio y los controles del estudio 
EURAMIC.
Colesterol 
HDL (mmol/l)
Infarto de miocardio
Caso Control Total
> 0,90 269 381 650
≤ 0,90 193 158 351
Total 462 539 1.001
El estadístico para el contraste bilateral de la hipótesis nula H0: π1 = π2 se calcula como 
 9
cardiovascular en los sujetos con niveles altos de colesterol total excedió en 32 
casos por 1.000 a la de los participantes con niveles más bajos (IC al 95% entre 19 
y 45 casos por 1.000), siendo esta diferencia muy significativa (P < 0,001). 
[Tabla 7.2 aproximadamente aquí] 
Ejemplo 7.5 La Tabla 7.3 muestra los casos de infarto de miocardio y los 
controles del EURAMIC con valores de colesterol HDL superiores o inferiores a 
0,90 mmol/l. A partir de esta tabla 22, se pretende comparar la proporción de 
sujetos con niveles bajos de colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 
= 193/462 = 0,418 y controles p2 = d/m2 = 158/539 = 0,293. La diferencia de 
proporciones muestrales es p1 - p2 = 0,418 - 0,293 = 0,125 y el IC al 95% para 1 - 
2 viene dado por 
 
2
22
1
11
975,021
)1()1(
m
pp
m
ppzpp   
  = 
539
)293,01(293,0
462
)418,01(418,0
96,1125,0   
  = 0,125  1,960,030 = (0,065; 0,184). 
El estadístico para el contraste bilateral de la hipótesis nula H0: 1 = 2 se calcula 
como  
,12,4
539
1
462
1)351,01(351,0
125,0
11)1(
21
21



 



 

mm
pp
ppz
 
donde 
7
N(1, 1(1 - 1)/n1) y p2 ~ N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
independientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 .
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene siguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   ,
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0:
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  ,
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinada de enfermos en ambas muestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
  n2/n = 351/1.001 = 0,351 es la proporción total de sujetos con niveles bajos de 
colesterol HDL. La significación estadística del contraste es por tanto P = 2{1 – Φ(4,12)} < 
0,001. Así, los casos de infarto de miocardio son significativamente más propensos a presentar 
niveles bajos de colesterol HDL que los sujetos libres de la enfermedad (P < 0,001), con 
una diferencia de proporciones del 12,5% (IC al 95% 6,5-18,4%).
7.4 ASOCIACIÓN ESTADÍSTICA EN UNA TABLA DE CONTINGENCIA
En este apartado se presenta una prueba de significación estadística para evaluar de forma 
genérica la presencia o ausencia de asociación entre las variables dicotómicas representadas en 
una tabla 2×2. Este procedimiento no facilita estimaciones de efecto, sino únicamente valores 
P, y es aplicable a estudios prospectivos (marginales n1 y n2 fijos), retrospectivos (marginales 
m1 y m2 fijos) y transversales (tamaño muestral n fijo).
Para contrastar si las variables de una tabla 2×2 son independientes, se comparan las 
frecuencias observadas Oij en cada celda (i, j) de la tabla con sus frecuencias esperadas Eij bajo 
la hipótesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la columna. Estas 
frecuencias esperadas Eij se calculan como el producto de sus correspondientes marginales ni 
y mj, dividido por el tamaño muestral total n,
 10
donde p  = n2/n = 351/1.001 = 0,351 es la proporción total de sujetos con niveles 
bajos de colesterol HDL. La significación estadística del contrate es por tanto P = 
2{1 - (4,12)} < 0,001. Así, los casos de infarto de miocardio son 
significativamente más propensos a presentar niveles bajos de colesterol HDL que 
los sujetos libres de la enfermedad (P < 0,001), con una diferencia de 
proporciones del 12,5% (IC al 95% 6,518,4%). 
[Tabla 7.3 aproximadamente aquí] 
7.4 ASOCIACIÓN ESTADÍSTICA EN UNA TABLA DE CONTINGENCIA 
En este apartado se presenta una prueba de significación estadística para evaluar de 
forma genérica la presencia o ausencia de asociación entre las variables dicotómicas 
representadas en una tabla 22. Este procedimiento no facilita estimaciones de efecto, 
sino únicamente valores P, y es aplicable a estudios prospectivos (marginales n1 y n2 
fijos), retrospectivos (marginales m1 y m2 fijos) y transversales (tamaño muestral n fijo). 
Para contrastar si las variables de una tabla 22 son independientes, se comparan las 
frecuencias observadas Oij en cada celda (i, j) de la tabla con sus frecuencias esperadas 
Eij bajo la hipótesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la 
columna. Estas frecuencias esperadas Eij se calculan como el producto de sus 
correspondientes marginales ni y mj, dividido por el tamaño muestral total n, 
Eij = 
n
mn ji
. 
Así, por ejemplo, si en un estudio prospectivo no hubiera asociación entre exposición y 
enfermedad, la frecuencia esperada de expuestos que desarrollan la enfermedad sería 
igual al producto del número de expuestos n1 por la proporción combinada de enfermos 
Así, por ejemplo, si en un estudio prospectivo no hubiera asociación entre exposición y 
enfermedad, la frecuencia espera a de ex uestos que desarrollan la e f rm dad sería igual al 
producto del número de expuestos n1 por la proporción combinada de enfermos m1/n, E11 = 
n1m1/n. Igualmente, n u  estudio etrospectivo la frecuencia esperad  de casos que han estado 
expuestos al factor de riesgo correspondería al producto del número de casos m1 por la proporción 
combinada de expuestos n1/n, E11 = m1n1/n. Asimismo, en un estudio transversal la frecuencia 
esperada de sujetos a la vez expuestos y enfermos sería igual al producto del número total de 
103
Asociación estadística en una tabla de contingencia
Pastor-Barriuso R.
sujetos n por las proporciones de expuestos n1/n y de enfermos m1/n, E11 = n(n1/n)(m1/n) = 
n1m1/n. Notar, por tanto, que los valores esperados bajo la hipótesis nula de independencia 
coinciden en los distintos tipos de diseño.
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociación entre la 
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo 
NHANES II. Si ambas variables fueran independientes, la probabilidad de morir por 
enfermedad cardiovascular sería igual en los sujetos con niveles altos y bajos de 
colesterol total. Esta probabilidad podría entonces estimarse mediante la proporción 
combinada de muertes en ambas muestras 563/7.712 = 0,073. Así, entre los 2.713 
participantes con niveles altos de colesterol total, cabría esperar 2.713·0,073 = 198,1 
muertes por enfermedad cardiovascular bajo la hipótesis nula de independencia. 
Aplicando este mismo razonamiento, los valores esperados en cada celda vendrían 
dados por
 11
m1/n, E11 = n1m1/n. Igualmente, en un estudio retrospectivo la frecuencia esperada de 
casos que han estado expuestos al factor de riesgo correspondería al producto del 
número de casos m1 por la proporción combinada de expuestos n1/n, E11 = m1n1/n. 
Asimismo, en un estudio transversal la frecuencia esperada de sujetos a la vez expuestos 
y enfermos sería igual al producto del número total de sujetos n por las proporciones de 
expuestos n1/n y de enfermos m1/n, E11 = n(n1/n)(m1/n) = n1m1/n. Notar, por tanto, que 
los valores esperados bajo la hipótesis nula de independencia coinciden en los distintos 
tipos de diseño. 
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociación entre la 
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio 
prospectivo NHANES II. Si ambas variables fueran independientes, la 
probabilidad de morir por enfermedad cardiovascular sería igual en los sujetos 
con niveles altos y bajos de colesterol total. Esta probabilidad podría entonces 
esti arse mediante la proporción combinad  de muert s en ambas muestr s 
563/7.712 = 0,073. Así, entre los 2.713 partici a tes con niveles altos e 
l t l total, cabría esperar 2.7130,073 = 198,1 muertes por enfermedad 
cardiovascular bajo la hipótesis nula de independencia. Aplicando este mismo 
razonamiento, los valores esperados en cada celda vendrían dados por 
E11 = 
712.7
563713.2 
 = 198,1, 
E12 = 
712.7
149.7713.2 
 = 2.514,9, 
E21 = 
712.7
563999.4 
 = 364,9, 
E22 = 
712.7
149.7999.4 
 = 4.634,1. 
Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la 
tabla de frecuencias observadas (Tabla 7.2) y esperadas (Tabla 7.4) coinciden. De hecho, 
una vez calculado el valor esperado en una cualquiera de las celdas, los restantes valores 
esperados de la tabla 2×2 quedan determinados por dichos marginales.
Para evaluar la independencia de las variables de una tabla 2×2, se comparan las frecuencias 
observadas y esperadas mediante el estadístico
 12
Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales 
de la tabla de frecuencias observadas (Tabla 7.2) y esperadas (Tabla 7.4) 
coinciden. De hecho, una vez calculado el valor esperado en una cualquiera de las 
celdas, los restantes valores esperados de la tabla 22 quedan determinados por 
dichos marginales. 
[Tabla 7.4 aproximadamente aquí] 
Para evaluar la independencia de las variables de una tabla 22, se comparan las 
frecuencias observadas y esperadas mediante el estadístico 
 2 = 
 
2
1
2
1
2)(
i j ij
ijij
E
EO . 
Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor será la 
magnitud del estadístico y, en consecuencia, se tendrá mayor evidencia en contra de la 
hipótesis nula de independencia. En particular, puede probarse que si las variables de la 
tabla 22 son independientes, este estadístico sigue aproximadamente una distribución 
chi-cuadrado con 1 grado de libertad (sólo una frecuencia esperada de la tabla 22 es 
independiente). El valor P del contraste corresponde entonces a la probabilidad a la 
derecha del estadístico  2 bajo la distribución 21 . Esta prueba se conoce con el nombre 
de test chi-cuadrado de independencia o asociación de Pearson, y puede aplicarse 
siempre que los marginales de la tabla sean suficientemente grandes, de tal forma que 
todas las frecuencias esperadas sean superiores o iguales a 5. 
Ejemplo 7.7 A partir de los valores observados y esperados bajo la hipótesis de 
independencia entre la mortalidad por enfermedad cardiovascular y el colesterol 
sérico total, se obtiene el test estadístico 
Tabla 7.4 Frecu ncias esp radas b j  la hipótesis 
de independencia entre la mortalidad por 
enfermedad cardiovascular (ECV) y el colesterol 
total en el estudio NHANES II.
Colesterol
total (mmol/l)
Mortalidad por ECV
Sí No Total
≥ 6,20 198,1 2.514,9 2.713
< 6,20 364,9 4.634,1 4.999
Total 563 7.149 7.712
104
Inferencia sobre proporciones
Pastor-Barriuso R.
Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor será la magnitud 
del estadístico y, en consecuencia, se tendrá mayor evidencia en contra de la hipótesis nula de 
independencia. En particular, puede probarse que si las variables de la tabla 2×2 son 
independientes, este estadístico sigue aproximadamente una distribución chi-cuadrado con 1 
grado de libertad (sólo una frecuencia esperada de la tabla 2×2 es independiente). El valor P del 
contraste corresponde entonces a la probabilidad a la derecha del estadístico χ 2 bajo la 
distribución χ 21 . Esta prueba se conoce con el nombre de test chi-cuadrado de independencia 
o asociación de Pearson, y puede aplicarse siempre que los marginales de la tabla sean 
suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o 
iguales a 5.
Ejemplo 7.7 A partir de los valores observados y esperados bajo la hipótesis de 
independencia entre la mortalidad por enfermedad cardiovascular y el colesterol sérico 
total, se obtiene el test estadístico
 13
  2 = 
9,514.2
)9,514.2459.2(
1,198
)1,198254( 22   
  1,634.4
)1,634.4690.4(
9,364
)9,364309( 22   
  = 15,80 + 1,24 + 8,58 + 0,68 = 26,30. 
Como las frecuencias esperadas son claramente superiores a 5, este estadístico se 
distribuirá aproximadamente como una chi-cuadrado con 1 grado de libertad bajo 
la hipótesis nula de independencia. Utilizando la Tabla 6 del Apéndice, puede 
comprobarse que el valor calculado del estadístico es muy superior al percentil 
2
995,0;1  = 7,88, de lo cual se deduce que P = P( 21   26,30) < 0,005. Así, los 
niveles altos de colesterol total están significativamente asociados con la 
mortalidad por enfermedad cardiovascular. 
La hipótesis nula de independencia entre las variables de una tabla 22 equivale a la 
igualdad de dos proporciones poblacionales. De hecho, puede probarse que el 
estadístico  2 de Pearson es igual al cuadrado del estadístico z de la comparación de 
proporciones en muestras independientes, de tal forma que los valores P resultantes de 
ambos procedimientos son idénticos (la distribución chi-cuadrado con 1 grado de 
libertad es, por definición, igual al cuadrado de una distribución normal estandarizada). 
Cabría preguntarse entonces cuál es la aportación del test de independencia de Pearson. 
En primer lugar, los cálculos de este test no dependen del diseño utilizado para generar 
los datos. En segundo lugar, esta prueba puede generalizarse de forma sencilla a la 
comparación de múltiples proporciones en una tabla con r filas y c columnas. 
Para contrastar la independencia de dos variables categóricas en una tabla rc, se 
calcula el estadístico 
Como las frecuencias esperadas son claramente superiores a 5, este estadístico se 
distribuirá aproxim damente como una chi-cuadrado con 1 grado de libertad bajo la 
hipótesis nula de independencia. Utilizando la Tabla 6 del Apéndice, puede comprobarse 
que el valor calculado del estadístico es muy superior al percentil χ 21 ;0,995 = 7,88, de lo cual 
se deduce que P = P(χ 21  ≥ 26,30) < 0,005. Así, los niveles altos de colesterol total están 
significativamente asociados con la mortalidad por enfermedad cardiovascular.
La hipótesis nula de independencia entre las variables de una tabla 2×2 equivale a la 
igualdad de dos proporciones poblacionales. De hecho, puede probarse que el estadístico χ 2 de 
Pearson es igual al cuadrado del estadístico z de la comparación de proporciones en muestras 
independientes, de tal forma que los valores P resultantes de ambos procedimientos son 
idénticos (la distribución chi-cuadrado con 1 grado de libertad es, por definición, igual al 
cuadrado de una distribución normal estandarizada). Cabría preguntarse entonces cuál es la 
aportación del test de independencia de Pearson. En primer lugar, los cálculos de este test no 
dependen del diseño utilizado para generar los datos. En segundo lugar, esta prueba puede 
generalizarse de forma sencilla a la comparación de múltiples proporciones en una tabla con r 
filas y c columnas.
Para contrastar la independencia de dos variables categóricas en una tabla r×c, se calcula el 
estadístico
 14
 2 = 
 
r
i
c
j ij
ijij
E
EO
1 1
2)( , 
donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una 
tabla 22. Bajo la hipótesis nula de independencia, dicho estadístico se distribuye 
aproximadamente según una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los 
grados de libertad corresponden al número de frecuencias esperadas independientes 
para el cálculo del estadístico, una vez determinados los marginales de la tabla rc. La 
aproximación chi-cuadrado a la distribución del estadístico será válida si el tamaño 
muestral es suficientemente grande. En concreto, el criterio más aceptado para aplicar 
este test es que ningún valor esperado sea inferior a 1 y que no más del 20% de las 
celdas tengan valores esperados inferiores a 5. 
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular 
entre los participantes del estudio NHANES II con un colesterol sérico total 
inferior a 5,20 mmol/l (nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limítrofe 
alto) y superior o igual a 6,20 mmol/l (hipercolesterolemia). Para determinar si la 
incidencia de muertes por enfermedad cardiovascular difiere entre los tres grupos, 
se calculan en primer lugar las frecuencias esperadas mediante el producto de sus 
correspondientes marginales dividido por el tamaño muestral total. Estas 
frecuencias esperadas se presentan entre paréntesis en la Tabla 7.5. A 
continuación, se comparan los valores observados y esperados mediante el 
estadístico 
  2 = 
9,514.2
)9,514.2459.2(
1,198
)1,198254( 22   
  
2,232.2
)2,232.2234.2(
8,175
)8,175174( 22   
105
Asociación estadística en una tabla de contingencia
Pastor-Barriuso R.
donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una tabla 2×2. 
Bajo la hipótesis nula de independencia, dicho estadístico se distribuye aproximadamente según 
una chi-cuadrado con (r – 1)(c – 1) grados de libertad. Los grados de libertad corresponden al 
número de frecuencias esperadas independientes para el cálculo del estadístico, una vez 
determinados los marginales de la tabla r×c. La aproximación chi-cuadrado a la distribución del 
estadístico será válida si el tamaño muestral es suficientemente grande. En concreto, el criterio 
más aceptado para aplicar este test es que ningún valor esperado sea inferior a 1 y que no más 
del 20% de las celdas tengan valores esperados inferiores a 5.
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular entre los 
participantes del estudio NHANES II con un colesterol sérico total inferior a 5,20 mmol/l 
(nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limítrofe alto) y superior o igual a 6,20 
mmol/l (hipercolesterolemia). Para determinar si la incidencia de muertes por enfermedad 
cardiovascular difiere entre los tres grupos, se calculan en primer lugar las frecuencias 
esperadas mediante el producto de sus correspondientes marginales dividido por el 
tamaño muestral total. Estas frecuencias esperadas se presentan entre paréntesis en la 
Tabla 7.5. A continuación, se comparan los valores observados y esperados mediante el 
estadístico
 14
 2 = 
 
r
i
c
j ij
ijij
E
EO
1 1
2)( , 
donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una 
tabla 22. Bajo la hipótesis nula de independencia, dicho estadístico se distribuye 
aproximadamente según una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los 
grados de libertad corresponden al número de frecuencias esperadas independientes 
para el cálculo del estadístico, una vez determinados los marginales de la tabla rc. La 
aproximación chi-cuadrado a la distribución del estadístico será válida si el tamaño 
muestral es suficientemente grande. En concreto, el criterio más aceptado para aplicar 
este test es que ningún valor esperado sea inferior a 1 y que no más del 20% de las 
celdas tengan valores esperados inferiores a 5. 
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular 
entre los participantes del estudio NHANES II con un colesterol sérico total 
inferior a 5,20 mmol/l (nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limítrofe 
alto) y superior o igual a 6,20 mmol/l (hipercolesterolemia). Para determinar si la 
incidencia de muertes por enfermedad cardiovascular difiere entre los tres grupos, 
se calculan en primer lugar las frecuencias esperadas mediante el producto de sus 
correspondientes marginales dividido por el tamaño muestral total. Estas 
frecuencia  esperadas se pres ntan ent e p réntesis en la Tabla 7.5. A 
continuación, se comparan los valores observados y esperados mediante el 
estadístico 
  2 = 
9,514.2
)9,514.2459.2(
1,198
)1,198254( 22   
  2,232.2
)2,232.2234.2(
8,175
)8,175174( 22 
 
 15
  
9,401.2
)9,401.2456.2(
1,189
)1,189135( 22   
  = 15,80 + 1,24 + 0,02 + 0,00 + 15,50 + 1,22 = 33,79. 
Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la 
distribución chi-cuadrado con (3 - 1)(2 - 1) = 2 grados de libertad (Tabla 6 del 
Apéndice) para obtener un valor P = P( 22   33,79) < 0,005. Esto es, la 
incidencia de muertes por enfermedad cardiovascular difiere significativamente 
entre los tres grupos, obteniéndose una incidencia acumulada en los 15 años de 
seguimiento de 52, 72 y 94 muertes por cada 1.000 participantes con niveles 
deseables, limítrofes altos y altos de colesterol total, respectivamente. 
[Tabla 7.5 aproximadamente aquí] 
7.5 TEST DE TENDENCIA EN UNA TABLA r2 
A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hipótesis 
nula de igualdad de proporciones H0: 1 = 2 = ... = r frente a la hipótesis alternativa 
H1: i  j, donde i y  j son 2 muestras cualesquiera. Un resultado significativo de esta 
prueba indicaría que al menos 2 de las r proporciones poblacionales son heterogéneas. 
En el caso de que los grupos o muestras estén intrínsecamente ordenados, cabría 
preguntarse además si estas proporciones siguen alguna tendencia determinada a lo 
largo de los grupos. En este apartado se presenta un test específico para detectar la 
existencia de un gradiente o componente lineal (creciente o decreciente) entre las 
proporciones de los sucesivos grupos. 
En primer lugar, se asigna una puntuación si a cada una de las muestras ordenadas. 
Esta puntuación puede representar un atributo numérico del grupo (ver Ejemplo 7.9), o 
Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribución 
chi-cuadrado con (3 – 1)(2 – 1) = 2 grados de libertad (Tabla 6 del Apéndice) para 
obtener un valor P = P(χ 22  ≥ 33,79) < 0,005. Esto es, la incidencia de muertes por 
enfermedad cardiovascular difiere significativamente entre los tres grupos, obteniéndose 
una incidencia acumulada en los 15 años de seguimiento de 52, 72 y 94 muertes por 
cada 1.000 participantes con niveles deseables, limítrofes altos y altos de colesterol 
total, respectivamente.
Tabla 7.5 Frecuencias observadas (esperadas) de 
muertes por enfermedad cardiovascular (ECV) entre los 
participantes del NHANES II con niveles de colesterol 
total < 5,20, 5,20-6,19 y ≥ 6,20 mmol/l.
Colesterol
total (mmol/l)
Mortalidad por ECV
Sí No Total
≥ 6,20 254 (198,1) 2.459 (2.514,9) 2.713
5,20-6,19 174 (175,8) 2.234 (2.232,2) 2.408
< 5,20 135 (189,1) 2.456 (2.401,9) 2.591
Total 563 7.149 7.712
106
Inferencia sobre proporciones
Pastor-Barriuso R.
7.5 TEST DE TENDENCIA EN UNA TABLA r×2
A partir de una tabla r×2, el test chi-cuadrado de Pearson permite contrastar la hipótesis nula de 
igualdad de proporciones H0: π1 = π2 = ... = πr frente a la hipótesis alternativa H1: πi ≠ πj, donde 
i y j son 2 muestras cualesquiera. Un resultado significativo de esta prueba indicaría que al 
menos 2 de las r proporciones poblacionales son heterogéneas. En el caso de que los grupos o 
muestras estén intrínsecamente ordenados, cabría preguntarse además si estas proporciones 
siguen alguna tendencia determinada a lo largo de los grupos. En este apartado se presenta un 
test específico para detectar la existencia de un gradiente o componente lineal (creciente o 
decreciente) entre las proporciones de los sucesivos grupos.
En primer lugar, se asigna una puntuación si a cada una de las muestras ordenadas. Esta 
puntuación puede representar un atributo numérico del grupo (ver Ejemplo 7.9), o simplemente 
tomar los valores 1, 2, ..., r indicando el orden de los grupos. A continuación, se relacionan las 
proporciones observadas pi con sus correspondientes puntuaciones si mediante el estadístico
 16
simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A 
continuación, se relacionan las proporciones observadas pi con sus correspondientes 
puntuaciones si mediante el esta ístico 
  2 = 









 
r
i
ii
r
i
iii
ssnpp
ssppn
1
2
2
1
)()1(
))((
, 
donde ni es el tamaño de cada muestra, n = ni, p  = nipi/n es la proporción 
combinada en todas las muestras y s  = nisi/n es la puntuación media. Notar que si las 
proporciones observadas tienden a aumentar o disminuir con las puntuaciones, el 
numerador del estadístico será grande. Si, por el contrario, las proporciones no varían en 
función de la puntuación de cada grupo, el numerador estará próximo a 0. Bajo la 
hipótesis nula de ausencia de una componente lineal en la tendencia, el estadístico 
anterior seguirá aproximadamente una distribución chi-cuadrado con 1 grado de 
libertad. Esta prueba se conoce genéricamente como test chi-cuadrado de tendencia y, 
a diferencia del test de independencia o asociación, puede aplicarse incluso cuando 
algunas muestras tengan un tamaño reducido, basta con que la muestra total sea 
suficientemente grande y la proporción combinada no muy extrema, n p (1 - p )  5. 
Finalmente, cabe reseñar que el test de tendencia no permite contrastar la idoneidad de 
la relación lineal; este test únicamente determina la existencia de una componente lineal 
significativa, independientemente de cuál sea la relación subyacente. 
Ejemplo 7.9 En el ejemplo anterior se detectaron diferencias significativas en el 
riesgo de muerte por enfermedad cardiovascular entre los participantes del 
NHANES II con niveles de colesterol total < 5,20, 5,206,19 y  6,20 mmol/l. De 
hecho, se observa un claro incremento en las incidencias acumuladas p1 = 
donde ni es el tamaño de cada muestra, n = ∑ni, 
7
N(1, 1(1 - 1)/n1) y p2 ~ N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
independientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 .
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene siguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   ,
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0:
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  ,
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinad  de enfermos en ambas muestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
  ∑nipi/n es la proporción combinada en 
todas las muestras y 
16
simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A 
continuación, se relacionan las proporciones observadas pi con sus correspondientes 
puntuaciones si mediante el estadístico 
 2 = 









 
r
i
ii
r
i
iii
ssnpp
ssppn
1
2
2
1
)()1(
))((
,
donde ni es el tamaño de cada muestra, n = ni, p  = nipi/n es la proporción 
combinada en todas las muestras y s  = nisi/n es la puntuación media. Notar que si las 
proporciones observadas tienden a aumentar o disminuir con las puntuaciones, el 
numerador del estadístico será grande. Si, por el contrario, las proporciones no varían en 
función de la puntuación de cada grupo, el numerador estará próximo a 0. Bajo la 
hipótesis nula de ausencia de una componente lineal en la tendencia, el estadístico 
anterior seguirá aproximadamente una distribución chi-cuadrado con 1 grado de 
libertad. Esta prueba se conoce genéricamente como test chi-cuadrado de tendencia y, 
a diferencia del test de independencia o asociación, puede aplicarse incluso cuando 
algunas muestras tengan un tamaño reducido, basta con que la muestra total sea 
suficientemente grande y la proporción combinada no muy extrema, n p (1 - p )  5. 
Finalmente, cabe reseñar que el test de tendencia no permite contrastar la idoneidad de 
la relación lineal; este test únicamente determina la existencia de una componente lineal 
significativa, independientemente de cuál sea la relación subyacente. 
Ejemplo 7.9 En el ejemplo anterior se detectaron diferencias significativas en el 
riesgo de muerte por enfermedad cardiovascular entre los participantes del 
NHANES II con niveles de colesterol total < 5,20, 5,206,19 y  6,20 mmol/l. De 
hecho, se observa un claro incremento en las incidencias acumuladas p1 = 
 = ∑nisi/n es la puntuación media. Notar que si las proporciones observadas 
tienden a aumentar o disminuir con las puntuaciones, el numerador del estadístico será grande. 
Si, por el co trario, las proporciones no varían en función de la puntuación de cada grupo, el 
numerador estará próximo a 0. Bajo la hipótesis nula de ausencia de una componente lineal en 
la tendencia, el estadístico anterior seguirá aproximadamente una distribución chi-cuadrado 
con 1 grado de libertad. Esta prueba se conoce genéricamente como test chi-cuadrado de 
tendencia y, a diferencia del test de independencia o asociación, puede aplicarse incluso 
cuando algunas muestras tengan un tamaño reducido, basta con que la muestra total sea 
suficientemente grande y la proporción combinada no muy extrema, n
7
N(1, 1(1 - 1)/n1) y p2 ~ N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
independientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 .
De este resultado se desprende que 1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene siguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   ,
que es si étrico alrededor de la diferencia de prop rciones mu strales con una amplitud 
direc amente proporcional a la estimación d  su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0:
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  ,
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunqu  sta probabilidad  es descono ida, su valor puede stimarse 
mediante la proporción combinada de enfermos e  a bas mu stras p  = (a + c)/(n1 + 
n2) = 1/n. Así, l esta ístico propuesto para este test es 
(1 – 
7
N(1, 1(1 - 1)/n1) y p2 ~ N(2, 2(1 - 2)/n2). Además, como a ba  muestras son 
i ependiente  (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 .
De este resulta o se desprende que p1 - p2  un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 ntre expuest s y no expuestos, E(p1 - p2) = 1 - 
2. El interval  de confianza al 100(1 - )% para 1 - 2 s  obt ene siguiendo el mismo 
proc dimiento utilizado p ra una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   ,
que s simétrico alrededor de la diferenci  de proporcion  muestrales con una amplitud 
dir amente prop rcion l a la estimación d  su error estándar. 
Para dete minar si exi n diferencias en la prob bilidad subyac nt  de desarrollar la 
enfermedad entre los ujetos expuest s y no expuestos, se contrasta la h pótesis nula H0:
1 = 2 frente a la h pótesis lternativa bilateral H1: 1  2. Bajo la h pótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  ,
donde  c rresponde a la prob bilidad de enfermar común para expuest s y no 
expuestos. Aunque esta prob bil dad  es desconocida, su valor puede estimarse 
m dia t  la proporción c mbinada de enferm s en a ba  muestras p  = (a + c)/(n1 + 
n2) = 1/n. Así, el estadístico propuesto para est  test es 
) ≥ 5. Finalmente, 
cabe reseñar que el test de tendencia no permite contrastar la idoneidad de la relación lineal; 
este test únicamente determina la existencia de una componente lineal significativa, 
independientemente de cuál sea la relación subyacente.
Ejemplo 7.9 En el ejemplo anterior se detectaron diferencias significativas en el riesgo 
de muerte por enfermedad cardiovascular entre lo  participantes del NHANES II con 
niveles de colesterol total < 5,20, 5,20-6,19 y ≥ 6,20 mmol/l. De hecho, se observa un 
claro incremento en las incidencias acumuladas p1 = 135/2.591 = 0,052, p2 = 174/2.408 = 
0,072 y p3 = 254/2.713 = 0,094 de las sucesivas categorías (Figura 7.1). Para contrastar si 
esta tendencia creciente es significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 
y s3 = 6,90 correspondientes a la mediana del colesterol total de cada categoría. Aunque 
podrían asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de tendencia 
central de cada categoría (media o mediana) para preservar la distancia entre las mismas. 
Así, el numerador del estadístico del test de tendencia vendría dado por
 17
135/2.591 = 0,052, p2 = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las 
sucesivas categorías (Figura 7.1). Para contrasta  si esta tendenci  creciente es 
significativa, se asignan l s puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90 
corresp ndientes a a median  del colesterol total de cada categoría. Aunque
podrían asignar e las puntuaciones 1, 2 y 3, es preferible uti izar una medida de 
tendencia central de cada categoría (media o mediana) para preservar la distancia 
entre las mismas. Así, el numer dor el estadístico del test de t ndencia vendría
dado por 
 N = {2.591(0,052  0,073)(4,65  5,78) 
  
+ 2.408(0,072  0,073)(5,72  5,78) 
  
+ 2.713(0,094  0,073)(6,90  5,78)}2 = 15.364,56 
y el denominador por 
 D = 0,073(1 - 0,073){2.591(4,65 - 5,78)2 
  + 2.408(5,72 - 5,78)2 
  + 2.713(6,90 - 5,78)2} = 454,78, 
donde p  = 563/7.712 = 0,073 es la proporción global de muertes por enfermedad 
cardiovascular en todos los participantes del NHANES II y s  = (2.5914,65 + 
2.4085,72 + 2.7136,90)/7.712 = 5,78 es la puntuación media. El estadístico 
resulta entonces  2 = N/D = 33,78, que corresponde a un valor P = P( 21   33,78) 
< 0,005 en la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del 
Apéndice). Este resultado confirma que el riesgo de mortalidad por enfermedad 
cardiovascular aumenta significativamente al aumentar el nivel de colesterol total. 
[Figura 7.1 aproximadamente aquí] 
 
 
 
107
Medidas de efecto en una tabla de contingencia
Pastor-Barriuso R.
Figura 7.1
4,5 5 5,5 6 6,5 7
0
0,02
0,04
0,06
0,08
0,1
Colesterol total (mmol/l)
In
ci
de
nc
ia
 a
cu
m
ul
ad
a 
de
 m
ue
rte
s 
po
r E
C
V
Figura 7.1 Incidencia acumulada de muertes por enfermedad cardiovascular (ECV) en 15 años de 
seguimiento del estudio NHANES II según niveles de colesterol total < 5,20, 5,20-6,19 y ≥ 6,20 mmol/l.
y el denominador por
 17
135/2.59  = 0,052, p2 = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las 
sucesivas categorías (Figura 7.1). Para contrastar si esta tendencia creciente es 
significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90 
correspondientes a la mediana del colesterol total de cada categoría. Aunque 
po rían asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de 
tendencia central de cada categoría (media o mediana) para preservar la distancia 
entre las mismas. Así, el numerador del estadístico del test de tendencia vendría 
dado por 
 N = {2.591(0,052 - 0,073)(4,65 - 5,78) 
  + 2.408(0,072 - 0,073)(5,72 - 5,78) 
 + 2.713(0,094 - 0,073)(6,90 - 5,78)}2 = 15.364,56 
y el denominador por 
 D = 0,073(1  0,073){2.591(4,65  5,78)2 
  
+ 2.408(5,72  5,78)2 
  
+ 2.713(6,90  5,78)2} = 454,78, 
donde p  = 563/7.712 = 0,073 es la proporción global de muertes por enfermedad 
cardiovascular en todos los participantes del NHANES II y s  = (2.5914,65 + 
2.4085,72 + 2.7136,90)/7.712 = 5,78 es la puntuación media. El estadístico 
resulta entonces  2 = N/D = 33,78, que corresponde a un valor P = P( 21   33,78) 
< 0,005 en la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del 
Apéndice). Este resultado confirma que el riesgo de mortalidad por enfermedad 
cardiovascular aumenta significativamente al aumentar el nivel de colesterol total. 
[Figura 7.1 aproximadamente aquí] 
 


donde 
7
N(1, 1(1 - 1)/n1) y p2 ~ N(2, 2(1 - 2)/n2). Además, como ambas muestras son 
independientes (véase Apartado 3.4), se tiene que 


 
2
22
1
11
2121
)1()1(,~
nn
Npp
 .
De este resultado se desprende que p1 - p2 es un estimador puntual insesgado de la 
diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 - 
2. El intervalo de confianza al 100(1 - )% para 1 - 2 se obtiene siguiendo el mismo 
procedimiento utilizado para una proporción como 
2
22
1
11
2/121
)1()1(
n
pp
n
ppzpp   ,
que es simétrico alrededor de la diferencia de proporciones muestrales con una amplitud 
directamente proporcional a la estimación de su error estándar. 
Para determinar si existen diferencias en la probabilidad subyacente de desarrollar la 
enfermedad entre los sujetos expuestos y no expuestos, se contrasta la hipótesis nula H0:
1 = 2 frente a la hipótesis alternativa bilateral H1: 1  2. Bajo la hipótesis nula de 
igualdad de proporciones H0: 1 = 2 = , se cumple que 



 

 
21
21
11)1(,0~
nn
Npp  ,
donde  corresponde a la probabilidad de enfermar común para expuestos y no 
expuestos. Aunque esta probabilidad  es desconocida, su valor puede estimarse 
mediante la proporción combinada de enfermos en ambas muestras p  = (a + c)/(n1 + 
n2) = m1/n. Así, el estadístico propuesto para este test es 
 563/7.712 = 0,073 es la proporción global de muertes por enfermedad 
cardiovascular en todos los participantes del NHANES II y 
16
simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A 
continuación, se relacionan las proporciones observadas pi con sus correspondientes 
puntuaciones si mediante el estadístico 
 2 = 









 
r
i
ii
r
i
iii
ssnpp
ssppn
1
2
2
1
)()1(
))((
,
donde ni es el tamaño de cada muestra, n = ni, p  = nipi/n es la proporción 
c mbinada e  todas las muestras  s  = nisi/n es la puntuación media. Notar que si las 
proporciones observadas tienden a aumentar o disminuir con las puntuaciones, el 
numerador del estadístico será grande. Si, por el contrario, las proporciones no varían en 
función de la puntuación de cada grupo, el numerador estará próximo a 0. Bajo la 
hipótesis nula de ausencia de una componente lineal en la tendencia, el estadístico 
anterior seguirá aproximadamente una distribución chi-cuadrado con 1 grado de 
libertad. Esta prueba se conoce genéricamente como test chi-cuadrado de tendencia y, 
a diferencia del test de independencia o asociación, puede aplicarse incluso cuando 
algunas muestras tengan un tamaño reducido, basta con que la muestra total sea 
suficientemente grande y la proporción combinada no muy extrema, n p (1 - p )  5. 
Finalmente, cabe reseñar que el test de tendencia no permite contrastar la idoneidad de 
la relación lineal; este test únicamente determina la existencia de una componente lineal 
significativa, independientemente de cuál sea la relación subyacente. 
Ejemplo 7.9 En el ejemplo anterior se detectaron diferencias significativas en el 
riesgo de muerte por enfermedad cardiovascular entre los participantes del 
NHANES II con niveles de colesterol total < 5,20, 5,206,19 y  6,20 mmol/l. De 
hecho, se observa un claro incremento en las incidencias acumuladas p1 = 
 = (2.591∙4,65 + 2.408∙5,72 
+ 2.713∙6,90)/7.712 = 5,78 es la puntuación media. El stadístico resulta entonces χ 2 = 
N/D = 33,78, que corresponde a un val r P = P(χ 21 ≥ 33,78) < 0,005 en la distribución chi-
cua rado on 1 grado de libertad (T bla 6 del Apéndice). Este resultado confirma que el 
riesgo de mortalidad por enfermedad c rdiovascular umenta signifi ativ mente al 
aumentar el nivel de colesterol total.
7.6 MEDIDAS DE EFECTO EN UNA TABLA DE CONTINGENCIA
En epidemiología y en otras aplicaciones del análisis de datos en salud pública, no sólo interesa 
determinar el grado de significación estadística sino también obtener estimadores de efecto o 
medidas de la magnitud de la asociación. A partir de una tabla 2×2 pueden obtenerse distintas 
medidas de efecto, tales como la diferencia de riesgos, el riesgo relativo y el odds ratio. La 
diferencia de riesgos o proporciones, que ya se discutió en el Apartado 7.3, permite determinar 
la diferencia en la tasa de incidencia o prevalencia de la enfermedad entre los sujetos expuestos 
y no expuestos en un estudio prospectivo o transversal, respectivamente. En este apartado se 
revisan los métodos de inferencia sobre el riesgo relativo y el odds ratio, así como sus respectivos 
ámbitos de aplicación.
108
Inferencia sobre proporciones
Pastor-Barriuso R.
7.6.1 Riesgo relativo
El riesgo relativo o razón de riesgos es la medida de efecto más utilizada en estudios prospectivos 
para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como
 18
7.6 MEDIDAS DE EFECTO EN UNA TABLA DE CONTINGENCIA 
En epidemiología y en otras aplicaciones del análisis de datos en salud pública, no sólo 
interesa determinar el grado de significación estadística sino también obtener 
estimadores de efecto o medidas de la magnitud de la asociación. A partir de una tabla 
de 22 pueden obtenerse distintas medidas de efecto, tales como la diferencia de 
riesgos, el riesgo relativo y el odds ratio. La diferencia de riesgos o proporciones, que 
ya se discutió en el Apartado 7.3, permite determinar la diferencia en la tasa de 
incidencia o prevalencia de la enfermedad entre los sujetos expuestos y no expuestos en 
un estudio prospectivo o transversal, respectivamente. En este apartado se revisan los 
métodos de inferencia sobre el riesgo relativo y el odds ratio, así como sus respectivos 
ámbitos de aplicación. 
7.6.1 Riesgo relativo 
El riesgo relativo o razón de riesgos es la medida de efecto más utilizada en estudios 
prospectivos para comparar la incidencia de la enfermedad entre expuestos y no 
expuestos, y se define como 
 = 
)|(
)|(
2
1
cEDP
EDP
 , 
donde 1 = P(D|E) y 2 = P(D|Ec) representan la probabilidad de desarrollar la 
enfermedad D entre los sujetos expuestos E y no expuestos Ec, respectivamente. Así, el 
riesgo relativo determina cuántas veces es más frecuente la enfermedad en expuestos 
que en no expuestos. Se trata, por tanto, de una medida de efecto multiplicativa que 
puede tomar cualquier valor no negativo, de tal forma que: 
  = 1 indica la misma probabilidad de enfermar en expuestos y no expuestos 
P(D|E) = P(D|Ec); es decir, la exposición y la enfermedad son independientes. 
donde π1 = P(D|E) y π2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D 
entre los sujetos expuestos E y no expu stos Ec, respectivamente. Así, el riesgo relativo determina 
cuántas veces es más frecuente la enfermedad en expuestos que en no expuestos. Se trata, por 
tanto, de una medida de efecto multiplicativa que puede tomar cualquier valor no negativo, de 
tal forma que:
 y ψ = 1 indica la misma probabilidad de enfermar en expuestos y no expuestos P(D|E) = 
P(D|Ec); es decir, la exposición y la enfermedad son independientes. Cuanto más alejado 
esté ψ de 1 en cualquier sentido, mayor será la magnitud de la asociación entre exposición 
y enfermedad.
 y ψ > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no 
expuestos. Por ejemplo, si ψ = 1,25, los sujetos expuestos tienen 1,25 veces más riesgo o 
son un 25% más propensos a desarrollar la enfermedad que los no expuestos (100(ψ – 1) 
= 100(1,25 – 1) = 25%).
 y ψ < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no 
expuestos. Por ejemplo, si ψ = 0,80, los sujetos expuestos son un 20% menos propensos a 
desarrollar la enfermedad que los no expuestos (100(0,80 – 1) = –20%).
 y Un valor de ψ y su inverso 1/ψ representan el mismo nivel de asociación, pero en sentido 
opuesto. Por ejemplo, si ψ = 4, los sujetos expuestos son 4 veces más propensos a 
desarrollar la enfermedad que los no expuestos, o equivalentemente los no expuestos son 
un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ψ – 1) = 
100(0,25 – 1) = –75%).
Esta medida de efecto también puede aplicarse a estudios transversales en términos de la 
razón de prevalencias. Sin embargo, y al igual que ocurría con la diferencia de riesgos, el riesgo 
relativo no es directamente estimable a partir de estudios retrospectivos ya que la proporción de 
casos está predeterminada por el propio diseño del estudio.
A partir de los datos observados en una tabla 2×2 (Tabla 7.1), un estimador puntual del 
riesgo relativo viene determinado por
 19
Cuanto más alejado esté  de 1 en cualquier sentido, mayor será la magnitud de la 
asociación entre exposición y enfermedad. 
  > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos 
que n no expuestos. Por ejemplo, si  = 1,25, los sujetos expuestos ti nen 1,25 
v ces más riesgo o son u  25% más prop sos a esarrollar la enfermedad que los 
no expuestos (100( - 1) = 100(1,25 - 1) = 25%). 
  < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que 
en no expuestos. Por ejemplo, si  = 0,80, los sujetos expuestos son un 20% 
menos propensos a desarrollar la enfermedad que los no expuestos (100(0,80 - 1) 
= -20%). 
 Un val r de  y su inverso 1/ representan el mismo niv l d  asociación, pero en 
sentido opuesto. Por ejemplo, si  = 4, los sujetos expuestos son 4 veces más 
propensos a desarrollar la enfermedad que los no expuestos, o equivalentemente 
los no expuestos son un 75% menos propensos a contraer la enfermedad que los 
expuestos (100(1/ - 1) = 100(0,25 - 1) = -75%). 
Esta medida de efecto también puede aplicarse a estudios transversales e  términos 
de la razón de prevalencias. Sin embargo, y al igual que ocurría con la diferencia de 
riesgos, el riesgo relativo no es directamente estimable a partir de estudios 
retrospectivos ya que la proporción de casos está predeterminada por el propio diseño 
del estudio. 
A partir de los datos observados en una tabla 22 (Tabla 7.1), un estimador puntual 
del riesgo re ativo viene d terminado por
RR = 
2
1
2
1
/
/
nc
na
p
p  , 
que corresponde al cociente entre la proporción de enfermos en la muestra de sujetos expuestos 
p1 = a/n1 y no expuestos p2 = c/n2.
Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporción de muertes por enfermedad 
cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con 
niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos 
con niveles inferiores a 6,20 mmol/l. Así, la estimación puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;
109
Medidas de efecto en una tabla de contingencia
Pastor-Barriuso R.
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 años 
de seguimiento es un 51% superior en los sujetos con niveles altos de colesterol total que 
en quienes tienen niveles más bajos.
El cálculo de un intervalo de confianza y un test de hipótesis para ψ no resulta sencillo ya 
que la distribución muestral de su estimador RR es muy asimétrica, particularmente cuando el 
riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de 
inferencia, es preferible trabajar con el logaritmo natural del riesgo relativo, cuya distribución 
presenta una mayor simetría. De hecho, puede probarse que si los tamaños de ambas muestras 
son suficientemente grandes n1π1(1 – π1) ≥ 5 y n2π2(1 – π2) ≥ 5, el log(RR) tiende a distribuirse 
de forma normal con media log(ψ) y varianza aproximada 1/a – 1/n1 + 1/c – 1/n2,
 20
que corresponde al cociente entre la proporción de enfermos en la muestra de sujetos 
expuestos p1 = a/n1 y no expuestos p2 = c/n2. 
Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporción de muertes por 
enfermedad cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del 
estudio NHANES II con niveles de colesterol total superiores a 6,20 mmol/l y p2 
= 309/4.999 = 0,062 en aquellos con niveles inferiores a 6,20 mmol/l. Así, la 
estimación puntual del riesgo relativo es 
RR = 0,094/0,062 = 1,51; 
es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 
años de seguimiento es un 51% superior en los sujetos con niveles altos de 
colesterol total que en quienes tienen niveles más bajos. 
El cálculo de un intervalo de confianza y un test de hipótesis para  no resulta 
sencillo ya que la distribución muestral de su estimador RR es muy asimétrica, 
particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para 
solv ntar este problema de inferencia, s preferible trabajar con e  logaritmo natural del 
riesgo relativo, cuya distribución presenta una mayor simetría. De hecho, puede 
probarse q e si los tam ños de ambas muestras son suficien emente grandes n11(1 - 1) 
 5 y n22(1 - 2)  5, el log(RR) tiende a distribuirse de forma normal con media log() 
y varianza aproximada 1/a - 1/n1 + 1/c - 1/n2, 


 
21
1111),log(~)log(
ncna
NRR  . 
Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones 
muestrales del RR y del log(RR) de mortalidad por enfermedad cardiovascular 
Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales 
del RR y del log(RR) de mort lidad por enfermedad c rdiovascular entre los sujetos con 
un colesterol total ≥ 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias 
simpl  de tamaño 500 del estudio NHANES II. Como puede observarse, ambas 
distribuciones están centradas alrededor de los parámetros subyacentes 1,51 y log(1,51) 
= 0,42 en todos los participantes del estudio. Sin embargo, la distribución muestral del 
RR presenta una clara asimetría, mientras que el log(RR) se distribuye de forma 
aproximadamente normal.
Figura 7.2
0 1 2 3 4
0
5
10
15
20
25
-1 0 1 2
0
5
10
15
20
25
0 1 2 3 4
0
5
10
15
20
25
-1 0 1 2
0
5
10
15
20
25
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
) e
n 
m
ue
st
ra
s 
de
 ta
m
añ
o 
50
0
(a) RR (b)     log(RR)
(c) OR (d)     log(OR)
Figura 7.2 Distribución muestral del RR (a), log(RR) (b), OR (c) y log(OR) (d) de mortalidad por enfermedad 
cardiovascular entre los sujetos con un colesterol total ≥ 6,20 y < 6,20 mmol/l en 1000 muestras aleatorias 
simples de tamaño n = 500 obtenidas a partir del estudio NHANES II. Las líneas verticales en trazo discontinuo 
corresponden a los parámetros subyacentes ψ = 1,51, log(ψ) = 0,42, ω = 1,57 y log(ω) = 0,45.
110
Inferencia sobre proporciones
Pastor-Barriuso R.
En base a la distribución aproximadamente normal del log(RR), puede obtenerse un intervalo 
de confianza al 100(1 – α)% para el log(ψ) como
 21
entre los sujetos con un colesterol total  6,20 y < 6,20 mmol/l obtenidos a partir 
de 1000 muestras aleatorias simples de tamaño 500 del estudio NHANES II. 
Como puede observarse, ambas distribuciones están centradas alrededor de los 
parámetros subyacentes 1,51 y log(1,51) = 0,42 en todos los participantes del 
estudio. Sin embargo, la distribución muestral del RR presenta una clara asimetría, 
mientras que el log(RR) se distribuye de forma aproximadamente normal. 
[Figura 7.2 aproximadamente aquí] 
En base a la distribución aproximadamente normal del log(RR), puede obtenerse un 
intervalo de confianza al 100(1 - )% para el log() como 
21
2/1
1111)log(
ncna
zRR   . 
Deshaciendo la transformación logarítmica en ambos límites de este intervalo, el IC al 
100(1 - )% para el riesgo relativo subyacente  queda entonces determinado por 



  
21
2/1
1111)log(exp
ncna
zRR  . 
Notar que por tratarse de una medida de efecto multiplicativa, el intervalo de confianza 
no es simétrico alrededor de la estimación puntual RR. Asimismo, la hipótesis nula de 
no efecto H0:  = 1 puede contrastarse frente a la hipótesis alternativa bilateral H1:   
1 mediante el estadístico 
21
1111
)log(
ncna
RRz

 , 
Deshaciendo la transformación logarítmica en ambos límites de este intervalo, el IC al 100(1 
– α)% p ra el riesgo relativo subyacente ψ queda entonces determinado por
 21
entre los sujetos con un colesterol total  6,20 y < 6,20 mmol/l obtenidos a partir 
de 1000 muestras aleatorias simples de tamaño 500 del estudio NHANES II. 
Como puede observarse, ambas distribuciones están centradas alrededor de los 
parámetros subyacentes 1,51 y log(1,51) = 0,42 en todos los participantes del 
estudio. Sin embargo, la distribución muestral del RR presenta una clara asimetría, 
mientras que el log(RR) se distribuye de forma aproximadamente normal. 
[Figura 7.2 aproximadamente aquí] 
En base a la distribución aproximadamente normal del log(RR), puede obtenerse un 
intervalo de confianza al 100(1 - )% para el log() como 
21
2/1
1111)log(
ncna
zRR   . 
Deshaciendo la transformación logarítmica en ambos límites de este intervalo, el IC al 
100(1 - )% para el iesgo re ativo subyacente  queda entonc  determinado por 



  
21
2/1
1111)log(exp
ncna
zRR  . 
Notar que por tratarse de una medida de efecto multiplicativa, el intervalo de confianza 
no es simétrico alrededor de la estimación puntual RR. Asimismo, la hipótesis nula de 
no efecto H0:  = 1 puede contrastarse frente a la hipótesis alternativa bilateral H1:   
1 mediante el estadístico 
21
1111
)log(
ncna
RRz

 , 
Notar que por tratarse de una medida de efecto multiplicativa, el intervalo de confianza no es 
simétrico alrededor de la estim ción puntual RR. Asim smo, la hipótesis nula de no efecto H0: 
ψ = 1 puede contrastarse frente a la hipótesis alternativa bilateral H1: ψ ≠ 1 mediante el estadístico
 21
entre los sujetos con un colesterol total  6,20 y < 6,20 mmol/l obtenidos a partir 
de 1000 muestras aleatorias simples de tamaño 500 del estudio NHANES II. 
Como puede observarse, ambas distribuciones están centradas alrededor de los 
parámetros subyacentes 1,51 y l g(1,51) = 0,42 en todos los participantes del 
estudio. Sin embargo, la distribución muestral del RR presenta una clara asimetría, 
mientras que el log(RR) se distribuye de forma aproximadamente normal. 
[Figura 7.2 aproximadamente aquí] 
En base a la distribución aproximadamente normal del log(RR), puede obtenerse un 
intervalo de confianza al 100(1 - )% para el log() como 
21
2/1
1111)log(
ncna
zRR   . 
Deshaciendo la transformación logarítmica en ambos límites de este intervalo, el IC al 
100(1 - )% para el riesgo relativo subyacente  queda entonces determinado por 



  
21
2/1
1111)log(exp
ncna
zRR  . 
Notar que por tratarse de una medida de efecto multiplicativa, el intervalo de confianza 
no es simétrico alrededor de la estimación puntual RR. Asimismo, la hipótesis nula de 
no efecto H0:  = 1 puede contrastarse frente a la hipótesis alternativa bilateral H1:   
1 mediant  el estadí tico 
21
1111
)log(
ncna
RRz

 , 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. Conviene destacar 
que esta hipótesis nula H0: ψ = 1 coincide con la hipótesis H0: π1 = π2 de la comparación de 
proporciones en dos muestras independientes, así como con la hipótesis nula de independencia 
del test χ 2 de Pearson en una tabla 2×2. Este test es, por tanto, un procedimiento alternativo para 
contrastar la misma hipótesis nula, que arroja resultados muy similares cuando el tamaño 
muestral es grande. No obstante, si la muestra es moderada o pequeña, el valor P de este test 
puede resultar algo impreciso, en cuyo caso es preferible utilizar los contrastes basados en la 
diferencia de proporciones o el test χ 2 de Pearson.
Ejemplo 7.12 Retomando de nuevo los datos del NHANES II presentados en la 
Tabla 7.2, el IC al 95% para el log(ψ) resulta ser
 22
que bajo H0 sigue aproximadamente una distribución normal estandarizada. Conviene 
destacar que esta hipótesis nula H0:  = 1 coincide con la hipótesis H0: 1 = 2 de la 
comparación de proporciones en os muestras independientes, así como c n la hipótesis 
nula de indepe dencia del test  2 de Pearson en una ta la 22. Este test es, por tanto, un 
procedimiento alternativo para contrastar la misma hipótesis nula, que arroja resultados 
muy similares cuando el tamaño muestral es grande. No obstante, si la muestra es 
moderada o pequeña, el valor P de este test puede resultar algo impreciso, en cuyo caso 
es preferible utilizar los contrates basados en la diferencia de proporciones o el test  2 
de Pearson. 
Ejemplo 7.12 Retomando de nuevo los datos del NHANES II presentados en la 
Tabla 7.2, el IC al 95% para el log() resulta ser 
 
999.4
1
309
1
713.2
1
254
1)51,1log( 975,0  z  
  = 0,415  1,960,081 = (0,256; 0,574). 
Aplicando la exponencial a ambos límites del intervalo, el IC al 95% para  
vendría dado por 
(exp{0,256}, exp{0,574}) = (1,29; 1,78), 
que es ligeramente asimétrico respecto a la estimación puntual RR = 1,51. El 
estadístico para el contraste de la hipótesis de no efecto H0:  = 1 es 
z = 
999.4
1
309
1
713.2
1
254
1
)51,1log(

 = 5,11, 
que corresponde a un valor P bilateral 2P(Z  5,11) = 2{1 - (5,11)} < 0,001. 
Como cabía esperar, este test arroja un resultado significativo dado que el valor 
Aplicando la exponencial a ambos límites del intervalo, el IC al 95% para ψ vendría dado por
(exp{0,256}, exp{0,574}) = (1,29; 1,78),
que es ligeramente asimétrico respecto a la estimación puntual RR = 1,51. El estadístico 
para el contraste de la hipótesis de no efecto H0: ψ = 1 es
 22
que bajo H0 sigue aproximadamente una distribución normal estandarizada. Conviene 
destacar que esta hipótesis nula H0:  = 1 coincide con la hipótesis H0: 1 = 2 de la 
comparación de proporciones en dos muestras independientes, así como con la hipótesis 
nula de independencia del test  2 de Pearson en una tabla 22. Este test es, por tanto, un 
procedimiento alternativo para contrastar la misma hipótesis nula, que arroja resultados 
muy similares cuando el tamaño muestral es grande. No obstante, si la muestra es 
moderada o pequeña, el valor P de este test puede resultar algo impreciso, en cuyo caso 
es preferible utilizar los contrates basados en la diferencia de proporciones o el test  2 
de Pearson. 
Ejemplo 7.12 Reto ndo de n evo los datos del NHANES II presentad s en la 
Tabla 7.2, el IC al 95% para el log() resulta ser 
 
999.4
1
309
1
713.2
1
254
1)51,1log( 975,0  z  
  = 0,415  1,960,081 = (0,256; 0,574). 
Aplicando la exponencial a ambos límites del intervalo, el IC al 95% para  
vendría dado por 
(exp{0,256}, exp{0,574}) = (1,29; 1,78), 
que es ligeramente asimétrico respecto a la estimación puntual RR = 1,51. El 
estadístico para el contraste de la hipótesis de no efecto H0:  = 1 es 
z = 
999.4
1
309
1
713.2
1
254
1
)51,1log(

 = 5,11, 
que corresponde a un valor P bilateral 2P(Z  5,11) = 2{1 - (5,11)} < 0,001. 
Como cabía esperar, este test arroja un resultado significativo dado que el valor 
que corresponde a un valor P bilateral 2P(Z ≥ 5,11) = 2{1 – Φ(5,11)} < 0,001. Como cabía 
esperar, ste test arroja un resultado significativo dado que el valor nulo ψ = 1 queda fuera de 
los límites del intervalo de confianza. Así, se concluye que los sujetos con niveles de colesterol 
total superior  a 6,20 mmol/l presenta  un 51% (IC al 95% 29-78%; P < 0,001) más riesgo 
de morir por enfermedad cardiovascular que quienes tienen niveles inferiores a este umbral.
111
Medidas de efecto en una tabla de contingencia
Pastor-Barriuso R.
7.6.2 Odds ratio
La frecuencia de una enfermedad D en una población expuesta a un factor E suele medirse 
mediante la probabilidad P(D|E) de que un sujeto de la población expuesta presente o desarrolle 
dicha enfermedad. Otra medida de frecuencia de la enfermedad vendría dada por
 23
nulo  = 1 queda fuera de los límites del intervalo de confianza. Así, se concluye 
que los sujetos con niveles de colesterol total superiores a 6,20 mmol/l presentan 
un 51% (IC al 95% 2978%; P < 0,001) más riesgo de morir por enfermedad 
cardiovascular que quienes tienen niveles inferiores a este umbral. 
7.6.2 Odds ratio 
La frecuencia de una enfermedad D en una población expu st  a un factor E suel  
medirse mediante la probabilidad P(D|E) de que un sujeto de la población expuesta 
presente o desarrolle dicha enfermedad. Otra medida de frecuencia de la enfermedad 
vendría dada por 
)|(
)|(
EDP
EDP
c
, 
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse 
mediante 
b
a
nb
na 
1
1
/
/ . 
Ejemplo 7.13 La proporción de muertes por enfermedad cardiovascular entre los 
participantes del NHANES II con niveles de colesterol total  6,20 mmol/l es 
094,0
713.2
254
1

n
a
; 
es decir, aproximadamente 1 de cada 11 sujetos con niveles altos de colesterol 
fallecerá por enfermedad cardiovascular a los 15 años de seguimiento. Por otra 
parte, el odds de morir por enfermedad cardiovascular entre estos sujetos es 
103,0
459.2
254 
b
a
; 
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante
 23
nulo  = 1 queda fuera de los límites del intervalo de confianza. Así, se concluye 
que los sujetos con niveles de colesterol total superiores a 6,20 mmol/l presentan 
un 51% (IC al 95% 2978%; P < 0,001) más riesgo de morir por enfermedad 
cardi vascular que qui n s tienen niveles inferiores a te umbral. 
7.6.2 Odds ratio 
La frecuencia de una enfermedad D en una población expuesta a un factor E suele 
medirse mediante la probabilidad P(D|E) de que un sujeto de la población expuesta 
presente o desarrolle dicha enfermedad. Otra medida de frecuencia de la e fermedad 
vendría dada por 
)|(
)|(
EDP
EDP
c
, 
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse 
mediante 
b
a
nb
na 
1
1
/
/ . 
Ejemplo 7.13 La proporción de muertes por enfermedad cardiovascular entre los 
participantes del NHANES II con niveles de colesterol total  6,20 mmol/l es 
094,0
713.2
254
1

n
a
; 
es decir, aproximadamente 1 de cada 11 sujetos con niveles altos de colesterol 
fallecerá por enfermedad cardiovascular a los 15 años de seguimiento. Por otra 
parte, el odds de morir por enfermedad cardiovascular entre estos sujetos es 
103,0
459.2
254 
b
a
; 
Ejemplo 7.13 La proporción de muertes por enfermedad cardiovascular entre los 
participantes del NHANES II con niveles de colesterol total ≥ 6,20 mmol/l es
 23
nulo  = 1 queda fuera de los límites del intervalo de confianza. Así, se concluye 
que los sujetos con niveles de colesterol total superiores a 6,20 mmol/l presentan 
un 51% (IC al 95% 2978%; P < 0,001) más riesgo de morir por enfermedad 
cardiovascular que quienes tienen niveles inferiores a este umbral. 
7.6.2 Odds ratio 
La frecuencia de una enfermedad D en una población expuesta a un factor E suele 
medirse mediante la probabilidad P(D|E) de que un sujeto de la población expuesta 
presente o desarrolle dicha enfermedad. Otra medida de frecuencia de la enfermedad 
vendría dada por 
)|(
)|(
EDP
EDP
c
, 
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse 
mediante 
b
a
nb
na 
1
1
/
/ . 
Ejemplo 7.13 La proporción de muertes por enfermedad cardiovascular entre los 
participantes del NHANES II con niveles de colesterol total  6,20 mmol/l es 
094,0
713.2
254
1

n
a
; 
es decir, aproximadamente 1 de cada 11 sujetos con niveles altos de colesterol 
fallecerá por enfermedad cardiovascular a los 15 años de seguimiento. Por otra 
parte, el odds de morir por enfermedad cardiovascular entre estos sujetos es 
103,0
459.2
254 
b
a
; 
es decir, aproximadamente 1 de cada 11 sujetos con niveles altos de colesterol fallecerá 
por nfermedad cardiovascular a los 5 años de segu mi nto. Por otra parte, el odds de 
morir por enfermedad cardiovascular entre estos sujetos es
 23
nulo  = 1 queda fuera de los límites del intervalo de confianza. Así, se concluye 
que los sujetos con niveles de colesterol total superiores a 6,20 mmol/l presentan 
un 51% (IC al 95% 2978%; P < 0,001) más riesgo de morir por enfermedad 
cardi vascular que qui nes tienen niveles inferiores a te umbral. 
7.6.2 Odds ratio 
La frecuencia de una enfermedad D en una población expuesta a un fact r E suele 
medirse mediante la probabilidad P(D|E) de que un sujeto de la población expuesta 
presente o desarrolle dicha enfermedad. Otra medida de frecuencia de la enfermedad 
vendría dada por 
)|(
)|(
EDP
EDP
c
, 
que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse 
mediante 
b
a
nb
a 
1
1
/
/ . 
Ejemplo 7.13 La proporción de muertes por enfermedad cardiovascular entre los 
participantes del NHANES II con niveles de colesterol total  6,20 mmol/l es 
094,0
713.2
254
1

n
a
; 
es decir, aproximadamente 1 de cada 11 sujetos con niveles altos de colesterol 
fallecerá por enfermedad cardiovascular a los 15 años de seguimiento. Por otra 
arte, el odds de morir por enfermedad c rdiovascular entre estos sujetos es 
103,0
459.2
254 
b
a
; 
esto es, por cada 10 sujetos con niveles altos de colesterol que no fallezcan por enfermedad 
cardiovascular, habrá aproximadamente 1 muerte por dicha causa a los 15 años de 
seguimiento. Aunque la interpretación difiere  ambas medidas de frecuencia facilitan la 
misma información.
De forma equivalente, el odds de estar enfermo entre los no expuestos se define como
 24
esto es, por cada 10 sujetos con niveles altos de colesterol que no fallezcan por 
enfermedad cardiovascular, habrá aproximadamente 1 muerte por dicha causa a 
los 15 años de seguimiento. Aunque la interpretación difiere, ambas medidas de 
frecuencia facilitan la misma información. 
De forma equivalent , el odds de estar en ermo entre los no expu stos s  define 
como 
)|(
)|(
cc
c
EDP
EDP , 
y el odds ratio o razón de odds entre expuestos y no expuestos queda entonces 
determinado por 
 = 
)|( )|(
)|( )|(
)|(/)|(
)|(/)|(
cc
cc
ccc
c
EDPEDP
EDPEDP
EDPEDP
EDPEDP  , 
cuya estimación puntual 
OR = 
bc
ad
ncnb
ndna 
)/)(/(
)/)(/(
21
21  
coincide con la razón del producto cruzado de las celdas de una tabla 22. 
Al igual que el riesgo relativo, el odds ratio es una medida de efecto multiplicativa 
que toma valores no negativos. Si  = 1, las probabilidades de enfermar en expuestos y 
no expuestos coinciden P(D|E) = P(D|Ec), indicando independencia entre exposición y 
enfermedad. Si por el contrario  > 1, la probabilidad de contraer la enfermedad será 
mayor en expuestos que en no expuestos; mientras que si  < 1, la probabilidad de 
desarrollar la enfermedad será menor en expuestos que en no expuestos. Resulta 
sencillo probar que el odds ratio estará siempre más alejado del valor nulo 1 que el 
riesgo relativo. Además, si la probabilidad de enfermar es baja en los sujetos expuestos 
y el odds ratio o razón de odds entre expuestos y no expuestos queda entonces determinado por
 24
esto es, por cada 10 sujetos con niveles altos de colesterol que no fallezcan por 
enfermedad cardiovascular, habrá aproximadamente 1 muerte por dicha causa a 
los 15 añ s de seguimiento. Aunqu  la interpretación difiere, ambas medidas de 
frecuenci  facilitan la misma información. 
De forma equivalente, el odds de estar enfermo entre los no expuestos se define 
como 
)|(
)|(
cc
c
EDP
EDP , 
y el odds ratio  razón de odds entre expuestos y n  exp estos queda entonces 
determinado por 
 = 
)|( )|(
)|( )|(
)|(/)|(
)|(/)|(
cc
cc
ccc
c
EDPEDP
EDPEDP
EDPEDP
EDPEDP  , 
cuya estimación puntual 
OR = 
bc
ad
ncnb
ndna 
)/)(/(
)/)(/(
21
21  
coincide con la razón del producto cruzado de las celd s de una tabla 22. 
Al igual que el riesgo relativo, el odds ratio es una medida de efecto multiplicativa 
que toma valores no negativos. Si  = 1, las probabilidades de enfermar en expuestos y 
no expuestos coinciden P(D|E) = P(D|Ec), indicando independencia entre exposición y 
enfermedad. Si por el contrario  > 1, la probabilidad de contraer la enferm dad será 
mayor en expuestos que en no expuestos; mientras que si  < 1, la probabilidad de 
desarrollar la enfermedad será menor en expuestos que en no expuestos. Resulta 
sencillo probar que el odds ratio estará sie pre más alejado del v lo  nulo 1 que el
ri sgo relativo. Además, si la probabilidad de enfermar s baja en los sujeto  expuestos 
cuya estimación puntual
 24
esto es, por cada 10 sujetos con niveles altos de colesterol que no fallezcan por 
nfermedad cardiovascular, habrá aproximadament  1 muert  p r dicha causa a 
los 15 años de seguimiento. Aunque la interpretación difiere, ambas medida  de 
frecuencia facilitan la misma i formación. 
De forma quivalente, el odds de estar enferm  entr  los no expuestos se define 
como 
)|(
)|(
cc
c
EDP
EDP , 
y el odds ratio o razón de o ds entre expuestos y no expuestos queda entonces 
d terminado p r 
 = 
)|( )|(
)|( )|(
)|(/)|(
)|(/)|(
cc
cc
ccc
c
EDPEDP
EDPEDP
EDPEDP
EDPEDP  , 
cuya estimación puntual 
OR = 
bc
ad
ncnb
ndna 
)/)(/(
)/)(/(
21
21  
coincide con la razón del producto cruzado de las celdas de una tabla 22. 
Al igual que el riesgo relativo, el odds ratio e una me ida de efecto multiplicativa 
que toma valores no negativos. Si  = 1, las probabilidades de nfermar en expuestos y 
no expuestos coinciden P(D|E) = P(D|Ec), indicando independ cia entr  exposición y 
enf rmedad. Si po  l c ntr r o  > 1, la probabili ad d  co traer la enf rmedad será 
may r n expuestos que en no expuestos; mientras que si  < 1, la probabilidad d  
desar ollar la enfermedad será menor en expuesto   en no expuest s. Resulta 
s ncillo p obar que el odd  ratio estará siempre más alejad  d l valor ulo 1 que el 
riesgo relativo. Además, si l  probabilidad d  nfermar es baja en l s s jetos expuestos 
coincide con la razón del producto cruzado de las celdas de una tabla 2×2.
Al igual que el riesgo relativo, el odds ratio es una medida de efecto multiplicativa que toma 
valores no negativos. Si ω = 1, las probabilidades de enfermar en expuestos y no expuestos 
coinciden P(D|E) = P(D|Ec), indicando independencia entre exposición y enfermedad. Si por el 
contrario ω > 1, la probabilidad de contraer la enfermedad será mayor en expuestos que en no 
expuestos; mientras que si ω < 1, la probabilidad de desarrollar la enfermedad será menor en 
expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estará siempre más 
112
Inferencia sobre proporciones
Pastor-Barriuso R.
alejado del valor nulo 1 que el riesgo relativo. Además, si la probabilidad de enfermar es baja en 
los sujetos expuestos y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estén próximas a 1, el 
odds ratio será entonces aproximadamente igual al riesgo relativo.
Ejemplo 7.14 A partir de los datos observados en el estudio NHANES II (Tabla 7.2), la 
estimación puntual del odds ratio es
 25
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estén próximas a 1, el odds ratio 
será entonces aproximadamente igual al riesgo relativo. 
Ejemplo 7.14 A partir de datos observados en el estudio NHANES II (Tabla 7.2), 
la estimación puntual del odds ratio es 
OR = 
309459.2
690.4254


 = 1,57. 
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% 
superior en los sujetos con niveles de colesterol total superiores a 6,20 mmol/l que 
en aquellos con niveles inferiores a 6,20 mmol/l. Este odds ratio es ligeramente 
mayor que el riesgo relativo RR = 1,51 estimado en el Ejemplo 7.10, aunque la 
diferencia no es muy grande porque la incidencia acumulada es relativamente baja 
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062. 
De la propia definición de , resulta obvio que el odds ratio puede estimarse a partir 
de estudios prospectivos y transversales, ya que ambos diseños facilitan estimaciones de 
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de 
probabilidad condicional (ver Tema 2), el odds ratio puede expresarse a su vez en 
términos de la probabilidad de estar expuesto en enfermos y no enfermos como 
,
)|( )|(
)|( )|(
)( )(
)( )(
)|( )|(
)|( )|(
DEPDEP
DEPDEP
EDPEDP
EDPEDP
EDPEDP
EDPEDP
cc
cc
cc
cc
cc
cc



 
de donde se desprende que el odds ratio es también estimable a partir de estudios 
retrospectivos, aun cuando estos diseños no facilitan información alguna sobre las 
probabilidades absolutas de enfermar en expuestos y no expuestos. Por supuesto, la 
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los 
suje os con niveles de c lesterol total superiores a 6,20 mmol/l qu  en aquellos con niveles 
inferiores a 6,20 mmol/l. Este odds ratio es ligeramente mayor que el riesgo relativo 
RR = 1,51 estimado en el Ejemplo 7.10, aunque la diferenc a no es muy grande porque la 
incidencia acumulada es relativamente baja tanto en expuestos 254/2.713 = 0,094 como 
no expuestos 309/4.999 = 0,062.
De la propia definición de ω, resulta obvio que el odds ratio puede estimarse a partir de 
estudios prospectivos y transversales, ya que ambos diseños facilitan estimaciones de las 
probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de probabilidad 
condicional (ver Tema 2), el odds ratio puede expresarse a su vez en términos de la probabilidad 
de estar expuesto en enfermos y no enfermos como
 25
y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estén próximas a 1, el odds ratio 
será entonces aproximadamente igual al riesgo relativo. 
Ejemplo 7.14 A partir de datos observados en el estudio NHANES II (Tabla 7.2), 
la estimación puntual del odds ratio es 
OR = 
309459.2
690.4254


 = 1,57. 
Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% 
superior en los sujetos con niveles de colesterol total superiores a 6,20 mmol/l que 
en aquellos con niveles inferiores a 6,20 mmol/l. Este odds ratio es ligeramente 
mayor que el riesgo relativo RR = 1,51 estimado en el Ejemplo 7.10, aunque la 
diferencia no es muy grande porque la incidencia acumulada es relativamente baja 
tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062. 
De la propia definición de , resulta obvio que el odds ratio puede estimarse a partir 
de estudios prospectivos y transversales, ya que ambos diseños facilitan estimaciones de 
las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definición de 
probabilidad ondicional (ver Tema 2), el odds ratio puede expresarse a u vez e  
térmi os de la probabilida  e estar expuesto en enfermos y no enferm como 
,
)|( )|(
)|( )|(
)( )(
)( )(
)|( )|(
)|( )|(
DEPDEP
DEPDEP
EDPEDP
EDPEDP
EDPEDP
EDPEDP
cc
cc
cc
cc
cc
cc



 
de donde se desprende que el odds ratio es también estimable a partir de estudios 
retrospectivos, aun cuando estos diseños no facilitan información alguna sobre las 
probabilidades absolutas de enfermar en expuestos y no expuestos. Por supuesto, la 
de donde se desprende que el odds ratio es también estimable a partir de estudios retrospectivos, 
aun cuando estos dis ños no facilitan información alguna sobre las robabilidades absolutas de 
enfermar en expuestos y no expuestos. Por supuesto, la estimación puntual del odds ratio en 
estudios r trospectivos coincide con la razón del producto cruz do
 26
estimación puntual del odds ratio en estudios retrospectivos coincide con la razón del 
producto cruzado 
OR = 
bc
ad
mcmb
mdma 
)/)(/(
)/)(/(
12
21 . 
Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, 
para las cuales la obtención de un número suficientes de casos requeriría de estudios 
prospectivo  co  gran tamaño muestral y amplio seguimi nto. En tales circunstancias, si 
la incidencia de la e fermedad e  baja y el diseño del estudio retrospectivo es adecuado 
(esto es, ca os incidentes y control s r presentativos del nivel de exposición en la 
población libre de enfermedad), el odds ratio constituye una buena aproximación al 
riesgo relativo subyacente. En adelante, el odds ratio se utilizará e interpretará como 
estimación del riesgo relativo, asumiendo que se cumplen las condiciones citadas 
anteriormente. 
Ejemplo 7.15 En el estudio EURAMIC se obtuvo una muestra de casos incidentes 
de infarto de miocardio procedentes de las unidades de cuidados intensivos y una 
muestra aleatoria de controles seleccionados a partir de la población de referencia. 
El número de casos y controles con valores de colesterol HDL superiores o 
inferiores a 0,90 mmol/l se presenta en la Tabla 7.3. Aunque el diseño 
retrospectivo del estudio no permite conocer la incidencia de infartos entre los 
sujetos con valores altos y bajos de colesterol HDL, sí es posible obtener una 
medida relativa de la asociación entre el colesterol HDL y el riesgo de infarto de 
miocardio mediante el odds ratio 
OR = 
193381
158269

  = 0,58. 
Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, para las 
cuales la obtención de un número suficiente de casos requeriría e estudios prospect vos con 
gran tamaño muestral y amplio seguimiento. En tales circunstancias, si la incidencia de la 
enfermedad es baja y el diseño l estudio etrospectivo es adecuado ( sto es, ca os ncidentes 
y controles representativos del nivel de exposición en la población libre de enfermedad), el 
odds ratio constituye u a buena aproximación al ries o relativo subyacente. En adelante, el 
odds ratio se utilizará e interpretará como estimación del riesgo relativo, asumiendo que se 
cumplen las on iciones citadas anteri rmente.
Ejemplo 7.15 En el studio EURAMIC se obtuvo una muestra de casos incidentes de 
infarto de miocardio procedentes de las unidades de cuidados intensivos y una muestra 
aleatoria de controles seleccionados a partir de la población de referencia. El número de 
casos y controles con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l se 
presenta en la Tabla 7.3. Aunque el diseño retrospectivo del estudio no permite conocer la 
113
Medidas de efecto en una tabla de contingencia
Pastor-Barriuso R.
incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, sí es 
posible obtener una medida relativa de la asociación entre el colesterol HDL y el riesgo 
de infarto de miocardio mediante el odds ratio
 26
estimación puntual del odds ratio en estudios retrospectivos coincide con la razón del 
producto cruzado 
OR = 
bc
ad
mcmb
mdma 
)/)(/(
)/)(/(
12
21 . 
Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, 
para las cuales la obtención de un número suficientes de casos requeriría de estudios 
prospectivos con gran tamaño muestral y amplio seguimiento. En tales circunstancias, si 
la incidencia de la enfermedad es baja y el diseño del estudio retrospectivo es adecuado 
(esto es, casos incidentes y controles representativos del nivel de exposición en la 
población libre de enfermedad), el odds ratio constituye una buena aproximación al 
riesgo relativo subyacente. En adelante, el odds ratio se utilizará e interpretará como 
estimación del riesgo relativo, asumiendo que se cumplen las condiciones citadas 
anteriormente. 
Ejemplo 7.15 En el estudio EURAMIC se obtuvo una muestra de casos incidentes 
de infarto de miocardio procedentes de las unidades de cuidados intensivos y una 
muestra aleatoria de controles seleccionados a partir de la población de referencia. 
El número de casos y controles con valores de colesterol HDL superiores o 
inferiores a 0,90 mmol/l se presenta en la Tabla 7.3. Aunque el diseño 
retrospectivo del estudio no permite conocer la incidencia de infartos entre los 
sujetos con valores altos y bajos de colesterol HDL, sí es posible obtener una 
medida relativa de la asociación entre el colesterol HDL y el riesgo de infarto de 
miocardio mediante el odds ratio 
OR = 
193381
158269

  = 0,58. 
Como la incidencia de infarto agudo de miocardio es relativamente baja en la población 
de hombres adultos, este odds ratio puede interpretarse como un riesgo relativo y concluir 
que los sujetos con un colesterol HDL superior a 0,90 mmol/l presentan un 42% menos 
riesgo de padecer un infarto de miocardio que aquellos con un colesterol HDL inferior 
a 0,90 mmol/l (100(0,58 – 1) = –42%).
El odds ratio es una medida de efecto multiplicativa cuya distribución muestral es 
notablemente asimétrica (Figura 7.2(c)), mientras que su transformación logarítmica log(OR) 
tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente igual a la 
suma de los inversos de las frecuencias de una tabla 2×2
 27
Como la incidencia de infarto agudo de miocardio es relativamente baja en la 
población de hombres adultos, este odds ratio puede interpretarse como un riesgo 
relativo y concluir que los sujetos con un colesterol HDL superior a 0,90 mmol/l 
presentan un 42% menos riesgo de padecer un infarto de miocardio que aquellos 
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%). 
El odds ratio es una medida de efecto m ltiplicativa cuya distribució  muestral es 
not blemente asimétrica (Figura 7.2(c)), mientras que su transformación logarítmica 
log(OR) tiende a distribuirse normalmente (Figura 7.2(d)) con una va anza 
aproximadamente igual a la suma de los inversos de l s f ecuencias de una tabla 22 
var{log(OR)}  
dcba
1111  . 
Utilizando esta aproximación normal a la distribución muestral del log(OR) y 
deshaciendo a continuación la transformación logarítmica, se obtiene el intervalo de 
confianza al 100(1 - )% para el odds ratio subyacente  



  
dcba
zOR 1111)log(exp 2/1  , 
que no es simétrico alrededor de la estimación puntual OR. De forma análoga, la 
significación estadística del contraste bilateral de la hipótesis nula H0:  = 1 se obtiene 
a partir del estadístico 
dcba
ORz
1111
)log(

 , 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. 
Utilizando esta aproximación normal a la distribución muestral del log(OR) y deshaciendo a 
continuación la tr nsformación loga ítmica, se obtiene el intervalo e confianza al 100(1 – α)% 
para el odds ratio subyacente ω
 27
Como l  incidencia de infarto agudo de miocardio es relativamente baja en la 
pobla ión e hombres adultos, este odds atio puede interpret se como un riesgo 
relativo y concluir que los sujetos con un colesterol HDL superior a 0,90 mmol/l 
presentan un 42% menos riesgo d  padec r un infarto de m ocardio que aquellos 
con un colesterol HDL infer r a 0,90 mmol/l (100(0,58 - 1) = -42%). 
El odds ratio es una medida de efecto multiplicativa cuya distribución muestral es 
notablemente asimétrica (Figura 7.2(c)), mientras que su transfor ación logarítmica 
log(OR) tiend  a distribuirse normalmente (Figura 7.2(d)) con una varianza 
aproximada ente igual a la s ma de los inv rsos de las frecuencias de una tabla 22 
var{log(OR)}  
dcba
1111  . 
Utilizando esta aproximación normal a la distribución muestral del log(OR) y 
deshaciendo a continuación la transformación logarítmica, se obtiene el intervalo de 
co fianza al 100(1 - )% para el odds ratio subya ente  



  
dcba
zOR 1111)log(exp 2/1  , 
que no es simétrico alrededor de la estimación puntual OR. De forma análoga, la 
significación estadística del contraste bilateral de la hipótesis nula H0:  = 1 se obtiene 
a partir del estadístico 
dcba
ORz
1111
)log(

 , 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. 
que no es simétrico alrededor de la estimación puntual OR. De forma análoga, la significación 
estadística del contraste bilateral hipótesis ula H0: ω = 1 se obtiene  partir del estadístico
 27
Como la incidencia de infarto agudo de miocardio es relativamente baja en la 
población de hombres adultos, este odds ratio puede interpretarse como un riesgo 
relativo y concluir que los sujetos con un colesterol HDL superior a 0,90 mmol/l 
presentan un 42% menos riesgo de padecer un infarto de miocardio que aquellos 
con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%). 
El od s ratio es una medida de efecto multiplicativa cuya distribución muestral es 
notablemente asimétrica (Figura 7.2(c)), mientras que su transformación logarítmica 
log(OR) tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza 
aproximadamente igual a la suma de los inversos de las frecuencias de una tabla 22 
var{log(OR)}  
dcba
1111  . 
Utilizando esta aproximación normal a la distribución muestral del log(OR) y 
deshaciendo a continuación l  transfor ación logarítmic , e obtiene el intervalo de 
confianza al 100(1 - )% para el odds ratio su yacente  



  
dcba
zOR 1111)log(exp 2/1  , 
que no es simétrico alrededor de la estimación puntual OR. De forma análoga, la 
significación estadística del contraste bilateral de la hipótesis nula H0:  = 1 se obtiene 
a partir del estadístico 
dcba
ORz
1111
)log(

 , 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. 
que bajo H0 sigue aproximadamente una distribución normal estandarizada.
Ejemplo 7.16 Continuando con el ejemplo anterior, el IC al 95% para el odds ratio de 
infarto agudo de miocardio entre los sujetos con niveles altos y bajos de colesterol HDL es
 28
Ejemplo 7.16 Continuando con el ejemplo anterior, el IC al 95% para el odds 
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de 
colesterol HDL es 
 



 
158
1
193
1
381
1
269
1)58,0log(exp 975,0z  
  
= exp( 0,55  1,960,134) = (0,44; 0,75). 
Por tanto, puede afirmarse con una confianza del 95% que los sujetos con niveles 
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un 
infarto de miocardio que quienes tienen niveles más bajos (100(0,75 - 1) = -25% y 
100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hipótesis de no 
efecto H0:  = 1 mediante el estadístico 
z = 
158
1
193
1
381
1
269
1
)58,0log(

 = -4,10 
arroja un resultado muy significativo P = 2P(Z  -4,10) = 2{1 - (4,10)} < 0,001. 
Notar que este test es equivalente al contraste de hipótesis realizado en el Ejemplo 
7.5 sobre la igualdad en la proporción de sujetos con niveles bajos de colesterol 
HDL entre los casos de infarto y los sujetos libres de la enfermedad, de tal forma 
que los valores P resultantes de ambos procedimientos son virtualmente idénticos. 
7.7 COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS 
DEPENDIENTES 
Hasta este punto se han presentado distintos métodos para la comparación de 
proporciones a partir de muestras independientes. Con cierta frecuencia, sin embargo, 
suelen emplearse muestras dependientes, que surgen tanto de observaciones tomadas en 

Por tanto, puede afirmarse con una confianza del 95% que los sujetos con niveles altos de 
colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio 
que quienes tienen niveles más bajos (100(0,75 – 1) = –25% y 100(0,44 – 1) = –56%). 
Asimismo, el contraste bilateral de la hipótesis de no efecto H0: ω = 1 mediante el estadístico
 28
Ejemplo 7.16 Continuando con el ejemplo anterior, el IC al 95% para el odds 
ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de 
colesterol HDL es 
 



 
158
1
193
1
381
1
269
1)58,0log(exp 975,0z  
  = exp(-0,55  1,960,134) = (0,44; 0,75). 
Por tanto, puede afirmarse con una confianza del 95% que los sujetos con niveles 
altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un 
infarto de miocardio que quienes tienen niveles más bajos (100(0,75 - 1) = -25% y 
100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hipótesis de no 
efecto H0:  = 1 mediante el e tadístico 
z = 
158
1
193
1
381
1
269
1
)58,0log(

 =  4,10 
arroja un resultado muy signific tivo P = 2P(Z  -4,10) = 2{1 - (4,10)} < 0,001. 
Notar que este test es equivalente al contraste de hipótesis realizado en el Ejemplo 
7.5 sobre la igualdad en la proporción de sujetos con niveles bajos de colesterol 
HDL entre los casos de infarto y los sujetos libres de la enfermedad, de tal forma 
que los valores P resultantes de ambos procedimientos son virtualmente idénticos. 
7.7 COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS 
DEPENDIENTES 
Hasta este punto se han presentado distintos métodos para la comparación de 
proporciones a partir de muestras independientes. Con cierta frecuencia, sin embargo, 
suelen emplearse muestras dependientes, que surgen tanto de observaciones tomadas en 
−
114
Inferencia sobre proporciones
Pastor-Barriuso R.
arroja un resultado muy significativo P = 2P(Z ≤ –4,10) = 2{1 – Φ(4,10)} < 0,001. Notar 
que este test es equivalente al contraste de hipótesis realizado en el Ejemplo 7.5 sobre la 
igualdad en la proporción de sujetos con niveles bajos de colesterol HDL entre los casos 
de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes 
de ambos procedimientos son virtualmente idénticos.
7.7 COMPARACIÓN DE PROPORCIONES EN DOS MUESTRAS DEPENDIENTES
Hasta este punto se han presentado distintos métodos para la comparación de proporciones a 
partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse 
muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como 
en distintos sujetos emparejados de acuerdo a determinados factores pronósticos. En el Apartado 
6.4 del tema anterior, se presentaron diversos diseños o mecanismos de generación de datos 
dependientes. En general, el propósito de los diseños emparejados es aumentar la precisión de 
las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por 
posibles factores de confusión. En este apartado se aborda el tratamiento estadístico de datos 
binarios o dicotómicos procedentes de parejas dependientes.
La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja está 
compuesta por dos observaciones de una variable dicotómica procedentes de distintas poblaciones. 
Así, por ejemplo, en comparaciones antes y después de un tratamiento, cada pareja de datos está 
constituida por la respuesta en un mismo sujeto antes y después de dicho tratamiento. Igualmente, 
en un estudio de casos y controles emparejados, cada pareja de observaciones está formada por 
la presencia o ausencia de exposición en cada caso y su correspondiente control. Para simplificar 
la presentación, nos centraremos en adelante en un estudio de casos y controles emparejados.
Para preservar el emparejamiento muestral, la unidad de análisis será cada pareja y no cada 
individuo. Así, la organización de los datos por individuo mediante la Tabla 7.1 no resulta adecuada 
ya que se pierde la información relativa al emparejamiento. La forma apropiada de presentar los 
datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que 
hay a parejas donde ambos caso y control están expuestos al factor de riesgo, b parejas donde el 
caso está expuesto y el control no, c parejas donde el control está expuesto y el caso no, y d parejas 
donde ninguno está expuesto. Las a + d parejas donde ambos o ninguno de los miembros están 
expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes.
Ejemplo 7.17 En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de miocardio y 50 
controles del estudio EURAMIC emparejados por grupos quinquenales de edad. A partir de sus 
valores del colesterol HDL (Tabla 6.1), se desprende que hay 23 parejas donde el caso de infarto 
y su correspondiente control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l), 
6 parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el caso tiene un 
nivel bajo y el control alto, y 4 parejas donde ambos presentan niveles bajos de colesterol HDL. 
Los datos de este estudio de casos y controles emparejados se resumen en la Tabla 7.7.
Tabla 7.6 Tabla de contingencia en un estudio de casos 
y controles emparejados.
Controles
Casos Expuestos No expuestos Total
Expuestos a b a + b
No expuestos c d c + d
Total a + c b + d n
115
Comparación de proporciones en dos muestras dependientes
Pastor-Barriuso R.
Tabla 7.7  Colesterol HDL en 50 casos de infarto de miocardio y 50 
controles del estudio EURAMIC emparejados por grupos quinquenales 
de edad.
Controles
Casos HDL > 0,90 mmol/l HDL ≤ 0,90 mmol/l Total
HDL > 0,90 mmol/l 23 6 29
HDL ≤ 0,90 mmol/l 17 4 21
Total 40 10 50
Con objeto de evaluar la asociación entre exposición y enfermedad controlando por aquellos 
factores de confusión utilizados en el emparejamiento, cada caso ha de ser comparado con su 
correspondiente control; es decir, las comparaciones deben estar condicionadas a cada pareja. 
Por ello, los pares concordantes, donde ambos miembros están o no expuestos, no aportan 
información sobre la asociación a estudio y, en consecuencia, el análisis estadístico se limita a 
las parejas discordantes. La probabilidad de observar una pareja con el caso expuesto y el 
control no expuesto viene dada por P(E|D)P(Ec|Dc), mientras que la probabilidad de obtener 
una pareja con el control expuesto y el caso no expuesto es P(E|Dc)P(Ec|D). Así, dado que 
una pareja es discordante, la probabilidad de que el caso esté expuesto es
 30
Ejemplo 7.17 En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de 
miocardio y 50 controles del estudio EURAMIC emparejados por grupos 
quinquenales de edad. A partir de sus valores del colesterol HDL (Tabla 6.1), se 
desprende que hay 23 parejas donde el caso de infarto y su correspondiente 
control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l), 6 
parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el 
caso tiene un nivel bajo y el control alto, y 4 parejas donde ambos presentan 
niveles bajos de colesterol HDL. Los datos de este estudio de casos y controles 
emparejados se resumen en la Tabla 7.7. 
[Tabla 7.7 aproximadamente aquí] 
Con objeto de evaluar la asociación entre exposición y enfermedad controlando por 
aquellos factores de confusión utilizados en el emparejamiento, cada caso ha de ser 
comparado con su correspondiente control; es decir, las comparaciones deben estar 
condicionadas a cada pareja. Por ello, los pares concordantes, donde ambos miembros 
están o no expuestos, no aportan información sobre la asociación a estudio y, en 
consecuencia, el análisis estadístico se limita a las parejas discordantes. La probabilidad 
de observar una pareja con el caso expuesto y el control no expuesto viene dad  por 
P(E|D)P(Ec|Dc), mientras qu  la probabilidad de obtener una pareja con el control 
expuesto y el caso no expuesto es P(E|Dc)P(Ec|D). Así, dado que una pareja es 
discordante, la pr babilidad de que l caso esté exp
1)|( )|()|( )|(
)|( )|(
 

DEPDEPDEPDEP
DEPDEP
cccc
cc
, 
donde la última igualdad refleja su relación con el odds ratio subyacente ω. Despejando ω de 
esta expresión, se tiene que
 31
donde la última igualdad refleja su relación con el odds ratio subyacente . Despejando 
 de esta expresión, se tiene que 

  1 . 
Como la probabilidad  puede estimarse mediante la proporción observada b/(b + c) de 
parejas discordantes donde el caso está expuesto, la estimación puntual del odds ratio de 
enfermar entre expuestos y no expuestos es 
OR = 
c
b
cbc
cbb
cbb
cbb 


)/(
)/(
)/(1
)/( , 
que coincide con la razón entre ambos tipos de pares discordantes. Si el número de 
parejas discordantes b con el caso expuesto es superior al número de parejas 
discordantes c con el control expuesto, el odds ratio será mayor de 1 y la exposición 
estará directamente asociada con la enfermedad; mientras que si b es inferior a c, el 
odds ratio será menor de 1 y la exposición estará inversamente asociada con la 
enfermedad. 
Al igual que en muestras independientes, el log(OR) también se distribuye de forma 
aproximadamente normal en muestras dependientes, con media log() y varianza 
aproximada 1/b + 1/c. El intervalo de confianza al 100(1 - )% para el odds ratio 
subyacente  resulta entonces  



  
cb
zOR 11)log(exp 2/1  . 
Ejemplo 7.18 En la Tabla 7.7 se tienen 6 parejas discordantes donde sólo el caso 
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde 
Como la probabilidad π puede estimarse mediante la proporción observada b/(b + c) de parejas 
discordantes d nde el caso está expuesto, la estim ción puntual del odd  ratio de enfermar entre 
expuestos y no expuestos es
 31
donde la última igualdad refleja su relación con el odds ratio subyacente . Despejando 
 de esta expresión, se tiene que 

  1 . 
Como la probabilidad  puede estimarse mediante la proporción observada b/(b + c) de 
parejas discordantes donde el caso está expuesto, la estimación puntual del odds ratio de 
enfermar entre xpue tos y no expuestos es 
OR = 
c
b
cbc
cbb
cbb
cbb 


)/(
)/(
)/(1
)/( , 
que coincide con la razón entre ambos tipos de pares discordantes. Si el número de 
parejas discordantes b con el caso expuesto es superior al número de parejas 
discordantes c con el control expuesto, el odds ratio será mayor de 1 y la exposición 
estará directamente asociada con la enfermedad; mientras que si b es inferior a c, el 
odds ratio será menor de 1 y la exposición estará inversa ente asociada con la 
enfermedad. 
Al igual que en muestras independientes, el log(OR) también se distribuye de forma 
aproximadamente normal en muestras dependientes, con media log() y varianza 
aproximada 1/b + 1/c. El intervalo de confianza al 100(1 - )% para el odds ratio 
subyacente  resulta entonces  



  
cb
zOR 11)log(exp 2/1  . 
Ejemplo 7.18 En la Tabla 7.7 se tienen 6 parejas discordantes donde sólo el caso 
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde 
que coincide con la razón entre ambos tipos de pares discordantes. Si el número de parejas 
discordantes b con el caso expuesto es superior al número de parejas discordantes c con el 
control expuesto, el odds ratio será mayor de 1 y la exposición estará directamente asociada con 
la enfermedad; mientras que si b es inferior a c, el odds ratio será menor de 1 y la exposición 
estará inversamente asociada con la enfermedad.
Al igual que en muestras independientes, el log(OR) también se distribuye de forma 
aproxima amente norm l en muestras d pendientes, con media log(ω) y varianza aproximada 1/b 
+ 1/c. El intervalo de confianza al 100(1 – α)% para el odds ratio subyacente ω resulta entonces 
 31
donde la última igualdad refleja su relación con el odds ratio subyacente . Despejando 
 de esta expresión, se tiene que 

  1 . 
Com  la probabilidad  puede estimarse mediante la proporción observada b/(b + c) de 
parejas discordantes donde el caso está expuesto, la estimación puntual del odds ratio de 
enfermar entr  expu stos y no expuestos es 
OR = 
c
b
cbc
cbb
cbb
cbb 


)/(
)/(
)/(1
)/( , 
que coincide con la razón entre ambos tipos de pares discordantes. Si el número de 
parejas discordantes b con el caso expuesto es superior al número de parejas 
discordantes c con el control expuesto, el odds ratio será mayor de 1 y la exposición 
estará directam nte ciada con la enf r ad; mient as que si b es inferior a c, el 
odds ratio será menor de 1 y la expo ición estará inv rsamente asociada con la 
edad. 
Al igual que en muestras independientes, el log(OR) también e distribuye de forma 
ap oximadamente normal en muestras dependientes, con media l g() y v rianza 
aproximada 1/b + 1/c. El intervalo de confianza l 100(1 - )% para el odds rat o 
suby cente  resulta entonces  



  
cb
zOR 11)log(exp 2/1  . 
Ejemplo 7.18 En la Tabla 7.7 se tienen 6 parejas discordantes donde sólo el caso 
de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde 
Ejemplo 7.18 En la Tabla 7.7 se tienen 6 parejas discordantes donde sólo el caso de 
infarto tiene un nivel alto de col sterol HDL y 17 parejas discordantes donde ólo el 
116
Inferencia sobre proporciones
Pastor-Barriuso R.
control presenta un nivel alto, de lo cual se deduce que la estimación puntual del odds 
ratio es 
 32
sólo el control presenta un nivel alto, de lo cual se deduce que la estimación 
puntual del odds ratio es  
OR = 
17
6
 = 0,35, 
y su IC al 95% 
 



 
17
1
6
1)35,0log(exp 975,0z  
  = exp(-1,04  1,960,475) = (0,14; 0,90). 
Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 
95% 1086%) en los sujetos con niveles de colesterol HDL > 0,90 mmol/l 
respecto a aquellos con niveles  0,90 mmol/l. La conclusión de este estudio 
emparejado es consistente con la obtenida en los Ejemplos 7.15 y 7.16 en la 
muestra completa e independiente de casos y controles del estudio EURAMIC. 
Aunque esta estimación de efecto es más imprecisa por disponer únicamente de 
50 parejas, será menos propensa a posibles sesgos derivados de la diferencia de 
edad entre casos y controles. 
El método más extendido para contrastar la hipótesis nula de independencia entre 
exposición y enfermedad en un estudio emparejado consiste en comparar la frecuencia 
observada b de pares discordantes donde el caso está expuesto con su frecuencia 
esperada bajo la hipótesis nula. Si no hubiera asociación entre exposición y enfermedad, 
esta frecuencia esperada sería simplemente la mitad del número total de parejas 
discordantes (b + c)/2, con lo cual el estadístico del contraste viene determinado por 
y su IC al 95%
 32
sólo el control presenta un nivel alto, de lo cual se deduce que la estimación 
puntual del odds ratio es  
OR = 
17
6
 = 0,35, 
y su IC al 95% 
 



 
17
1
6
1)35,0log(exp 975,0z  
  
= exp( 1,04  1,960,475) = (0,14; 0,90). 
Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 
95% 1086%) en los sujetos con niveles de colesterol HDL > 0,90 mmol/l 
respecto a aquellos con niveles  0,90 mmol/l. La conclusión de este estudio 
emparejado es consistente con la obtenida en los Ejemplos 7.15 y 7.16 en la 
muestra completa e independiente de casos y c ntroles del estudio EURAMIC. 
Aunque esta estimación de efecto es más imprecisa por isponer únicamente de 
50 parejas, será menos propensa a posibles sesgos deriva os de la diferencia de 
edad entre casos y controles. 
El método más extendido para contrastar la hipótesis nula de independencia entre 
exposición y enfermedad en un estudio emparejado consiste en comparar la frecuencia 
observada b de pares discordantes donde el caso está expuesto con su frecuencia 
esperada bajo la hipótesis nula. Si no hubiera as ciación entre exposición y e fermedad, 
esta frecuencia esperada sería simplemente la mitad del número total de parejas 
discordantes (b + c)/2, con lo cual el estadístico del contraste viene determinado por 

Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 95% 
10-86%) en los sujetos con niveles de colesterol HDL > 0,90 mmol/l respecto a aquellos 
con niveles ≤ 0,90 mmol/l. La conclusión de este estudio emparejado es consistente con 
la obtenida en los Ejemplos 7.15 y 7.16 en la muestra completa e independiente de casos 
y controles del estudio EURAMIC. Aunque esta estimación de efecto es más imprecisa 
por disponer únicamente de 50 parejas, será menos propensa a posibles sesgos derivados 
de la diferencia de edad entre casos y controles.
El método más extendido para contrastar la hipótesis nula de independencia entre exposición 
y enfer edad en un estudio emparej do consiste en comparar la frecuencia observada b de 
pares discordantes donde el caso está expuesto con su frecuencia esperada bajo la hipótesis 
nula. Si no hubiera asociación tr  exposi ión y enfermeda , esta frecuencia esperada sería 
simplemente la mitad del número total de parejas discordantes (b + c)/2, con lo cual el estadístico 
del contraste viene determinado por
 33
 2 = 
cb
cb
cb
cb
b
b
bEb




 

2
2
2 )(
4
2
)var(
)}({ . 
Bajo la hipótesis nula de no efecto, este estadístico sigue aproximadamente una 
distribución chi-cuadrado con 1 grado de libertad, lo que permite obtener el valor P 
como la probabilidad a la derecha del estadístico  2 en la distribución 21 . Este 
contraste se conoce como el test de McNemar y se aplica cuando la varianza de b bajo 
la hipótesis nula es var(b) = (b + c)(1 - ) = (b + c)/4  5; es decir, cuando el número 
de parejas discordantes es superior o igual a 20. 
Ejemplo 7.19 El estadístico del test de McNemar en la Tabla 7.7 toma el valor 
 2 = 
176
)176( 2


 = 5,26. 
A partir de la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del 
Apéndice), puede comprobarse que este estadístico está comprendido entre los 
percentiles 2 975,0;1  = 5,02 y 2 99,0;1  = 6,63, de lo cual se tiene que 0,01 < P < 
0,025. Así, el riesgo de infarto agudo de miocardio difiere significativamente 
entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90 
mmol/l. 
La inferencia sobre proporciones puede extenderse a estudios donde se empareja más 
de un sujeto por muestra (por ejemplo, un estudio de casos y controles donde cada caso 
está emparejado con múltiples controles, o un ensayo clínico donde cada paciente que 
recibe un nuevo tratamiento está emparejado con varios pacientes bajo tratamiento 
estándar), así como a estudios donde se comparan más de dos muestras dependientes 
(por ejemplo, un ensayo clínico donde se asignan aleatoriamente distintos tratamientos a 
Bajo la hipótesis nula de no efecto, este estadístico sigue aproximadamente una distribución 
chi-cuadrado con 1 grado de libertad, lo que permite obtener el valor P como la probabilidad 
a la derecha del estadístico χ 2 en la distribución χ 21 . Este contraste se conoce como el test 
de McNemar y se aplic  cuando la varianza de b bajo la hipótesis nula es var(b) = (b + c)
π(1 – π) = (b + c)/4 ≥ 5; es decir, cuando el número de parejas discordantes es superior o 
igual a 20.
Ejemplo 7.19 El estadís ico l test de McNem r en la T bla 7.7 toma el valor
 33
 2 = 
cb
cb
cb
cb
b
b
bEb




 

2
2
2 )(
4
2
)var(
)}({ . 
Bajo la hipótesis nula de no efecto, este estadístico sigue aproximadamente una 
distribución chi-cuadrado con 1 grado de libertad, lo que permite obtener el valor P 
como la probabilidad a la derecha del estadístico  2 en la distribu ión 21 . Este 
contraste se conoce como el test de McNemar y se aplica cuando la varianza de b bajo 
la hipótesis nula es var(b) = (b + c)(1 - ) = (b + c)/4  5; es decir, cuando el número 
de parejas discordantes es superior o igual a 20. 
Ejemplo 7.19 El e tadíst co d l tes  de McNemar en la Tabla 7.7 toma el valor 
 2 = 
176
)176( 2


 = 5,26. 
A partir de la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del 
Apéndice), puede comprobarse que este estadístico está comprendido entre los 
percentiles 2 975,0;1  = 5,02 y 2 99,0;1  = 6,63, de lo cual se tiene que 0,01 < P < 
0,025. Así, el riesgo de infarto agudo de miocardio difiere significativamente 
entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90 
mmol/l. 
La inferencia sobre proporciones puede extenderse a estudios donde se empareja más 
de un sujeto por muestra (por ejemplo, un estudio de casos y controles donde cada caso 
está emparejado con múltiples controles, o un ensayo clínico donde cada paciente que 
recibe un nuevo tratamiento está emparejado con varios pacientes bajo tratamiento 
estándar), así como a estudios donde se comparan más de dos muestras dependientes 
(por ejemplo, un ensayo clínico donde se asignan aleatoriamente distintos tratamientos a 
A partir de la distribución chi-cuadrado con 1 grado de libertad (Tabla 6 del Apéndice), 
puede comprobarse que este est ístico está comprendi o entre los percentiles 
χ 21  ;0,975 = 5,02 y χ 21  ;0,99 = 6,63, de lo cual se tiene que 0,01 < P < 0,025. Así, el riesgo de 
infarto agudo de miocardio difiere significativamente entre los sujetos con niveles de 
colesterol HDL superiores e inferiores a 0,90 mmol/l.
117
Apéndice: corrección por continuidad
Pastor-Barriuso R.
La inferencia sobre proporciones puede extenderse a estudios donde se empareja más de un 
sujeto por muestra (por ejemplo, un estudio de casos y controles donde cada caso está emparejado 
con múltiples controles, o un ensayo clínico donde cada paciente que recibe un nuevo tratamiento 
está emparejado con varios pacientes bajo tratamiento estándar), así como a estudios donde se 
comparan más de dos muestras dependientes (por ejemplo, un ensayo clínico donde se asignan 
aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento). 
Estas generalizaciones siguen argumentos similares a los descritos en este apartado y pueden 
consultarse en los libros de análisis de datos categóricos referenciados en este tema.
7.8 APÉNDICE: CORRECCIÓN POR CONTINUIDAD
En este apéndice se derivan las versiones con corrección por continuidad del intervalo de 
confianza y del test de hipótesis para una proporción poblacional π. Si k es el número observado 
de eventos en una muestra aleatoria de tamaño n, el intervalo de confianza al 100(1 – α)% 
para π vendrá determinado por aquellos valores (πinf, π sup) que verifiquen
 34
cada paciente que conforma un grupo de emparejamiento). Estas generalizaciones 
siguen argumentos similares a los descritos en este apartado y pueden consultarse en los 
libros de análisis de datos categóricos referenciados en este tema. 
7.8 APÉNDICE: CORRECCIÓN POR CONTINUIDAD 
En este apéndice se derivan las versiones con corrección por continuidad del intervalo 
de confianza y del test de hipótesis para una proporción poblacional . Si k es el número 
obs rvado de ev ntos en un  mu stra aleat ria de tamaño n, el intervalo e confianza al 
100(1 - )% p ra  vendrá dete minado por aquellos valores ( inf,  sup) que verifiquen 
P(X  k |  =  inf) = /2, 
P(X  k |  =  sup) = /2, 
donde X es una distribución binomial de parámetros n y . Como se discutió en el 
Apartado 3.3.2, si n(1 - )  5, estas probabilidades binomiales pueden aproximarse 
mediante la distribución normal estandarizada Z como 
P(X  k |  =  inf)  





)1(
2/1
infinf
inf


n
nkZP  = /2, 
P(X  k |  =  sup)  





)1(
2/1
supsup
sup


n
nkZP  = /2. 
Notar que el término 1/2 de la corrección por continuidad se añade a ambas expresiones 
con objeto de incluir la probabilidad de observar exactamente k eventos. Para 
simplificar los cálculos, las desviaciones típicas de estas distribuciones normales se 
sustituyen por la estimación )1( pnp  , de lo cual se deduce que 
donde X es una distribución binomial de parámetros n y π. Como se discutió en el Apartado 3.3.2, 
si nπ(1 – π) ≥ 5, estas probabilidades binomiales pueden aproximarse mediante la distribución 
normal estandarizada Z como
 34
cada paciente que conforma un grupo de emparejamiento). Estas generalizaciones 
siguen argumentos similares a los descritos en este apartado y pueden consultarse en los 
libros de análisis de datos categóricos referenciados en este tema. 
7.8 APÉNDICE: CORRECCIÓN POR CONTINUIDAD 
En este apéndice se erivan las versiones co  corrección por continuidad del intervalo 
de confianza y del test de hipótesis para una proporción poblacional . Si k es el número 
observado de eventos en una muestra aleatoria de tamaño n, el intervalo de confianza al 
100(1 - )% para  vendrá determinado por aquellos valores ( inf,  sup) que verifiquen 
P(X  k |  =  inf) = /2, 
P(X  k |  =  sup) = /2, 
donde X es una distribución binomial de parámetros n y . Como se discutió en el 
Apartado 3.3.2, si n(1 - )  5, estas probabilidades binomiales pueden aproximarse 
mediante la distribución normal estandarizada Z como 
P(X  k |  =  inf)  





)1(
2/1
infinf
inf


n
nkZP  = /2, 
P(X  k |  =  sup)  





)1(
2/1
supsup
sup


n
nkZP  = /2. 
Notar que el término 1/2 de la corrección por continuidad se añade a ambas expresiones 
con objeto de incluir la probabilidad de observar exactamente k eventos. Para 
simplificar los cálculos, las desviaciones típicas de estas distribuciones normales se 
sustituyen por la estimación )1( pnp  , de lo cual se deduce que 
Notar que el término 1/2 de la corrección por continuidad se añade a ambas expresiones con 
objeto de incluir la probabilidad de observar exactamente k eventos. Para simplificar los 
cálculos, las desviaciones típicas de estas distribuciones normales se sustituyen por la estimación 
34
cada paciente que conforma un grupo de emparejamiento). Estas generalizaciones 
siguen argumentos similares a los descritos en este apartado y pueden consultarse en los 
libros de análisis de datos categóricos referenciados en este tema. 
7.8 APÉNDICE: CORRECCIÓN POR CONTINUIDAD 
En este apéndice se derivan las versiones con corrección por continuidad del intervalo 
de confianza y del test de hipótesis para una proporción poblacional . Si k es el número 
observado de eventos en una muestra aleatoria de tamaño n, el intervalo de confianza al 
100(1 - )% para  vendrá determinado por aquellos valores ( inf,  sup) que verifiquen 
P(X  k |  =  inf) = /2,
P(X  k |  =  sup) = /2,
donde X es una distribución binomial de parámetros n y . Como se discutió en el 
Apartado 3.3.2, si n(1 - )  5, estas probabilidades binomiales pueden aproximarse 
mediante la distribución normal estandarizada Z como 
P(X  k |  =  inf)  





)1(
2/1
infinf
inf


n
nkZP  = /2,
P(X  k |  =  sup)  





)1(
2/1
supsup
sup


n
nkZP  = /2.
Notar que el término 1/2 de la corrección por continuidad se añade a ambas expresiones 
con objeto de incluir la probabilidad de observar exactamente k eventos. Para 
simplificar los cálculos, las desviaciones típicas de estas distribucione  normales se 
sustituyen por la estimación )1( pnp  , de lo cual se deduce que 
 35
)1(
2/1 inf
pnp
nk

   = z1 /2, 
)1(
2/1 sup
pnp
nk

   =  z1 /2. 
Finalmente, despejando  inf y  sup, se obtiene el intervalo de confianza al 100(1 - )% 
para  



  
nn
ppzp
2
1)1(
2/1  . 
Este intervalo de confianza difiere de la versión sin corrección presentada en el 
Apartado 7.2 en que ambos límites del intervalo se amplían en una cantidad 1/(2n) 
inversamente proporcional al tamaño muestral. La utilización de esta corrección se 
fundamenta en el hecho de aproximar una distribución binomial discreta mediante una 
distribución normal continua. Cuanto menor sea el tamaño muestral, más imprecisa será 
la aproximación normal y, en consecuencia, la corrección por continuidad 1/(2n) ha de 
ser mayor. Por el contrario, si el tamaño muestral es grande, la distribución binomial 
estará muy próxima a la normal, por lo que la corrección 1/(2n) será insignificante. 
El valor P para el contraste bilateral de la hipótesis nula H0:  = 0 puede obtenerse a 
partir de la aproximación normal a la distribución binomial como 
P = 2P(X  k | H0)  





)1(
2/12
00
0


n
nkZP , 
si la proporción observada p > 0, o alternativamente como 


Final ente, despejando π inf y π sup, se obti ne el intervalo de confianza al 100(1 – α)% para π
35
)1(
2/1 inf
pp
nk

   = z1-/2,
)1(
2/1 sup
pnp
nk

   = -z1-/2.
Finalmente, desp jando  inf y  sup, se obtiene el intervalo de confianza al 100(1 - )%
para 



  
nn
ppzp
2
1)1(
2/1  .
Este intervalo de confianza difiere de la versión sin corrección presentada en el 
Apartado 7.2 en que ambos límites del intervalo se amplían en una cantidad 1/(2n)
inversamente proporcional al tamaño muestral. La utilización de esta corrección se 
fundamenta en el hecho de aproximar una distribución binomial discreta mediante una 
distribución normal continua. Cuanto menor sea el tamaño muestral, más imprecisa será 
la aproximación normal y, en consecuencia, la corrección por continuidad 1/(2n) ha de 
ser mayor. Por el contrario, si el tamaño muestral es grande, la distribución binomial 
estará muy próxima a la normal, por lo que la corrección 1/(2n) será insignificante. 
El valor P para el contraste bilateral de la hipótesis nula H0:  = 0 puede obtenerse a 
partir de la aproximación normal a la distribución binomial como 
P = 2P(X  k | H0)  





)1(
2/12
00
0


n
kZP ,
si la proporción observada p > 0, o alternativamente como 
Este intervalo de confianza difiere de la versión sin corrección presentada en el Apartado 7.2 en 
que ambos límites del interv lo se amplían en una ca tidad 1/(2n) inve samente proporcional al 
tamaño muestral. La utilización de esta corrección se fundamenta en el hecho de aproximar una 
distribución binomial discreta med ante una distribución normal continu . Cuanto menor sea el 
tamaño muestral, más imprecisa será la aproximación normal y, en consecuencia, la corrección por 
118
Inferencia sobre proporciones
Pastor-Barriuso R.
continuidad 1/(2n) ha de ser mayor. Por el contrario, si el tamaño muestral es grande, la distribución 
binomial estará muy próxima a la normal, por lo que la corrección 1/(2n) será insignificante.
El valor P para el contraste bilateral de la hipótesis nula H0: π = π0 puede obtenerse a partir 
de la aproximación normal a la distribución binomial como
35
)1(
2/1 inf
pnp
nk

   = z1-/2,
)1(
2/1 sup
pnp
nk

   = -z1-/2.
Finalmente, despejando  inf y  sup, se obtiene el intervalo de confianza al 100(1 - )%
para 



  
nn
ppzp
2
1)1(
2/1  .
Este intervalo de confianza difiere de la versión sin corrección presentada en el 
Apartado 7.2 en que ambos límites del intervalo se amplían en una cantidad 1/(2n)
inversamente proporcional al tamaño muestral. La utilización de esta corrección se 
fundamenta en el hecho de aproximar una distribución binomial discreta mediante una 
distribución normal continua. Cuanto menor sea el tamaño muestral, más imprecisa será 
la aproximación normal y, en consecuencia, la corrección por continuidad 1/(2n) ha de 
ser mayor. Por el contrario, si el tamaño muestral es grande, la distribución binomial 
estará muy próxima a la normal, por lo que la corrección 1/(2n) será insignificante. 
El valor P para el contraste bilateral de la hipótesis nula H0:  = 0 puede obtenerse a 
partir de la aproximación normal a la distribución binomial como 
P = 2P(X  k | H0)  





)1(
2/12
00
0


n
nkZP ,
si la proporción observada p > 0, o alternativamente como 
si la proporción observada p > π0, o alternativamente como
 36
 P = 2P(X  k | H0)  





)1(
2/12
00
0


n
nkZP  
  = 





)1(
2/12
00
0


n
knZP , 
si p  0. Combinando ambos resultados, se tiene que el valor P corresponde al doble de 
la probabilidad normal estandarizada a la derecha del test estadístico 
n
n
p
n
nkz
)1(
2
1||
)1(
2/1||
00
0
00
0







 . 
El test con corrección por continuidad incorpora el término -1/(2n) en el numerador 
del estadístico, de tal forma que el valor P será ligeramente mayor que el obtenido en el 
correspondiente contraste sin corrección por continuidad (Apartado 7.2). Esta 
corrección será tanto mayor cuanto más reducido sea el tamaño muestral. 
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC 
para realizar inferencias sobre la prevalencia poblacional  de hombres adultos 
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuación se calculan 
los correspondientes intervalos de confianza y test de hipótesis utilizando la 
corrección por continuidad. El IC al 95% para  vendría dado por 
 





5392
1
539
)293,01(293,0
293,0 975,0z  
  = 0,293  (1,960,020 + 0,001) = (0,254; 0,333), 
y el estadístico corregido para el contraste bilateral de la hipótesis nula H0:  = 
0,30 sería 
si p ≤ π0. Combinando ambos resultados, se tiene que el valor P corresponde al doble de la 
probabilidad normal estandarizada a la derecha del test estadístico
36
P = 2P(X  k | H0)  





)1(
2/12
00
0


n
nkZP
  = 





)1(
2/12
00
0


n
knZP ,
si p  0. Combinando ambos resultados, se tiene que el valor P corresponde al doble de 
la probabilidad norm l estandarizada a la derecha d l test estadístico 
n
n
p
n
nkz
)1(
2
1||
)1(
2/1||
00
0
00
0







 .
El test con corrección por continuidad incorpora el término -1/(2n) en el numerador 
del estadístico, de tal forma que el valor P será ligeramente mayor que el obtenido en el 
correspondiente contraste sin corrección por continuidad (Apartado 7.2). Esta 
corrección será tanto mayor cuanto más reducido sea el tamaño muestral. 
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC 
para realizar inferencias sobre la prevalencia poblacional  de hombres adultos 
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuación se calculan 
los correspondientes intervalos de confianza y test de hipótesis utilizando la 
corrección por continuidad. El IC al 95% para  vendría dado por 






5392
1
539
)293,01(293,0
293,0 975,0z
  = 0,293  (1,960,020 + 0,001) = (0,254; 0,333), 
y el estadístico corregido para el contraste bilateral de la hipótesis nula H0:  = 
0,30 sería 
El test con corrección por continuidad incorpora el término –1/(2n) en el numerador del 
estadístico, de tal forma que el valor P será ligeramente mayor que el obtenido en el 
correspondiente contraste sin corrección por continuidad (Apartado 7.2). Esta corrección será 
tanto mayor cuanto más reducido sea el tamaño muestral.
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC para 
r alizar inferencias sobre la pre encia poblacional π de hombres adul os c n iveles 
bajos de colesterol HDL (≤ 0,90 mmol/l). A continuación se calculan los correspondientes 
intervalos de confianza y test de hipótesis utilizando la corrección por continuidad. El IC 
al 95% para π vendría dado por
 36
 P = 2P(X  k | H0)  





)1(
2/12
00
0


n
nkZP  
  = 





)1(
2/12
00
0


n
knZP , 
si p  0. Combinando ambos resultados, se tiene que el valor P corresponde al doble de 
la probabilidad normal estandarizada a la derecha del test estadístico 
n
n
p
n
nkz
)1(
2
1||
)1(
2/1||
00
0
00
0







 . 
El test con corrección por continuidad incorpora el término -1/(2n) en el numerador 
del estadístico, de tal forma que el valor P será ligeramente mayor que el obtenido en el 
correspondiente contraste sin corrección por continuidad (Apartado 7.2). Esta 
corrección será tanto mayor cuanto más reducido sea el tamaño muestral. 
Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC 
para realizar inferencias sobre la prevalencia poblacional  de hombres adultos 
con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuación se calculan 
los correspondientes intervalos de confianza y test de hipótesis utilizando la 
corrección por continuidad. El IC al 95% para  vendría dado por 
 





5392
1
539
)293,01(293,0
293,0 975,0z  
  = 0,293  (1,960,020 + 0,001) = (0,254; 0,333), 
y el estadístico corregido para el contraste bilateral de la hipótesis nula H0:  = 
0,30 sería 
y el estadístico corregido para el contraste bilateral de la hipótesis nula H0: π = 0,30 sería
37
z = 
539
)30,01(30,0
5392
1|30,0293,0|
)1(
2
1||
00
0



n
n
p


 = 0,30, 
con un valor P asociado en las tablas de la distribución normal estandarizada P = 
2P(Z  0,30) = 2{1 - (0,30)} = 0,764. Como cabría esperar, el intervalo de 
confianza corregido por continuidad (IC al 95% 25,433,3%) es ligeramente más 
amplio que su correspondiente int rvalo sin corrección (25,533,2%, Ejemplo 
7.1), y el valor P aumenta al aplicar dicha corrección (P = 0,764 versus 0,726, 
Ejemplo 7.1). No obstante, los resultados con y sin corrección son muy similares 
dado que el tamaño muestral utilizado en este ejemplo es moderadamente grande. 
La corrección por continuidad también se aplica a la comparación de proporciones en 
muestras independientes o dependientes y al test chi-cuadrado de asociación en una 
tabla 22, ya que estos métodos de inferencia utilizan una distribución continua (normal 
o chi-cuadrado) para representar una distribución de frecuencias discreta. Las versiones 
corregidas de estos procedimientos, cuya derivación es similar al caso de una 
proporción, se presentan en la Tabla 7.8. En general, la utilización de la corrección por 
continuidad da lugar a resultados más conservadores, esto es, intervalos de confianza 
más amplios y mayores valores P de los contrates. El principal objetivo de esta 
corrección es aumentar la cobertura de los intervalos de confianza y reducir la 
probabilidad de un error de tipo I en los contrastes, especialmente cuando el tamaño 
muestral es reducido. 
[Tabla 7.8 aproximadamente aquí] 
con un valor P asociado en las tablas de la distribución normal estandarizada P = 2P(Z ≥ 
0,30) = 2{1 – Φ(0,30)} = 0,764. Como cabría esperar, el intervalo de confianza corregido
119
Apéndice: corrección por continuidad
Pastor-Barriuso R.
Ta
bl
a 
7.
8 
In
te
rv
al
os
 d
e 
co
nf
ia
nz
a 
(I
C
) y
 te
st
s d
e 
hi
pó
te
si
s c
on
 c
or
re
cc
ió
n 
po
r 
co
nt
in
ui
da
d.
IC
 a
l 1
00
(1
 –
 α
)%
Te
st
 e
st
ad
ís
tic
o
U
na
 m
ue
st
ra
46
T
ab
la
 7
.8
 I
nt
er
va
lo
s 
de
 c
on
fi
an
za
 (
IC
) 
y 
te
st
s 
de
 h
ip
ót
es
is
 c
on
 c
or
re
cc
ió
n 
po
r 
co
nt
in
ui
da
d.
 
 
IC
 a
l 1
00
(1
 -
 )
%
 
T
es
t e
st
ad
ís
ti
co
 
U
na
 m
ue
st
ra
 
 
 




n
n
p
p
z
p
21
)
1(
2/
1

n
n
p
z
)
1(
21
|
|
0
0
0





D
os
 m
ue
st
ra
s i
nd
ep
en
di
en
te
s 


 
 








2
1
2
2
2
1
1
1
2/
1
2
1
1
1
21
)
1(
)
1(
n
n
n
p
p
n
p
p
z
p
p

 
 


 
 




2
1
2
1
2
1
1
1
)
1(
1
1
21
|
|
n
n
p
p
n
n
p
p
z
Te
st
 2
 d
e 
Pe
ar
so
n*
 

 




2 1
2 1
2
2
)2/
1
|
|(
i
j
ijij
ij
EE
O

Te
st
 d
e 
M
cN
em
ar
 

c
b
c
b




2
2
)
1
|
|(

* 
La
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d 
no
 se
 a
pl
ic
a 
al
 te
st
  
2  d
e 
Pe
ar
so
n 
en
 ta
bl
as
 d
e 
co
nt
in
ge
nc
ia
 m
ay
or
es
 d
e 
2
2.
 
46
T
ab
la
 7
.8
 I
nt
er
va
lo
s 
de
 c
on
fi
an
za
 (
IC
) 
y 
te
st
s 
de
 h
ip
ót
es
is
 c
on
 c
or
re
cc
ió
n 
po
r 
co
nt
in
ui
da
d.
 
 
IC
 a
l 1
00
(1
 -
 )
%
 
T
es
t e
st
ad
ís
ti
co
 
U
na
 m
ue
st
ra
 
 
 




n
n
p
p
z
p
21
)
1(
2/
1

 
n
n
p
z
)
1(
21
|
|
0
0
0





 
D
os
 m
ue
st
ra
s i
nd
ep
en
di
en
te
s 


 
 








2
1
2
2
2
1
1
1
2/
1
2
1
1
1
21
)
1(
)
1(
n
n
n
p
p
n
p
p
z
p
p

 
 
 


 
 




2
1
2
1
2
1
1
1
)
1(
1
1
21
|
|
n
n
p
p
n
n
p
p
z
 
Te
st
  
2  d
e 
Pe
ar
so
n*
 

 
 




2 1
2 1
2
2
)2/
1
|
| (
i
j
ijij
ij
EE
O

 
Te
st
 d
e 
M
cN
em
ar
 

 
c
b
c
b




2
2
) 1
|
| (

 
* 
La
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d 
no
 se
 a
pl
ic
a 
al
 te
st
  
2  d
e 
Pe
ar
so
n 
en
 ta
bl
as
 d
e 
co
nt
in
ge
nc
ia
 m
ay
or
es
 d
e 
2
2.
  
 
D
os
 m
ue
str
as
 in
de
pe
nd
ie
nt
es
 
46
T
ab
la
 7
.8
 I
nt
er
va
lo
s 
de
 c
on
fi
an
za
 (
IC
) 
y 
te
st
s 
de
 h
ip
ót
es
is
 c
on
 c
or
re
cc
ió
n 
po
r 
co
nt
in
ui
da
d.
 
 
IC
 a
l 1
00
(1
 -
 )
%
 
T
es
t e
st
ad
ís
ti
co
 
U
na
 m
ue
st
ra
 
 
 




n
n
p
p
z
p
21
)
1(
2/
1

 
n
n
p
z
)
1(
21
|
|
0
0
0





 
D
os
 m
ue
st
ra
s i
nd
ep
en
di
en
te
s 


 
 








2
1
2
2
2
1
1
1
2/
1
2
1
1
1
21
)
1(
)
1(
n
n
n
p
p
n
p
p
z
p
p

 
 
 


 
 




2
1
2
1
2
1
1
1
)
1(
1
1
21
|
|
n
n
p
p
n
n
p
p
z
 
Te
st
  
2  d
e 
Pe
ar
so
n*
 

 
 




2 1
2 1
2
2
)2/
1
|
| (
i
j
ijij
ij
EE
O

 
Te
st
 d
e 
M
cN
em
ar
 

 
c
b
c
b




2
2
) 1
|
| (

 
* 
La
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d 
no
 se
 a
pl
ic
a 
al
 te
st
  
2  d
e 
Pe
ar
so
n 
en
 ta
bl
as
 d
e 
co
nt
in
ge
nc
ia
 m
ay
or
es
 d
e 
2
2.
  
 
 
46
T
ab
la
 7
.8
 I
nt
er
va
lo
s 
de
 c
on
fi
an
za
 (
IC
) 
y 
te
st
s 
de
 h
ip
ót
es
is
 c
on
 c
or
re
cc
ió
n 
po
r 
co
nt
in
ui
da
d.
 
 
IC
 a
l 1
00
(1
 -
 )
%
 
T
es
t e
st
ad
ís
ti
co
 
U
na
 m
ue
st
ra
 
 
 




n
n
p
p
z
p
21
)
1(
2/
1

 
n
n
p
z
)
1(
21
|
|
0
0
0





 
D
os
 m
ue
st
ra
s i
nd
ep
en
di
en
te
s 


 
 








2
1
2
2
2
1
1
1
2/
1
2
1
1
1
21
)
1(
)
1(
n
n
n
p
p
n
p
p
z
p
p

 
 
 


 
 




2
1
2
1
2
1
1
1
)
1(
1
1
21
|
|
n
n
p
p
n
n
p
p
z
 
Te
st
  
2  d
e 
Pe
ar
so
n*
 

 
 




2 1
2 1
2
2
)2/
1
|
| (
i
j
ijij
ij
EE
O

 
Te
st
 d
e 
M
cN
em
ar
 

 
c
b
c
b




2
2
) 1
|
| (

 
* 
La
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d 
no
 se
 a
pl
ic
a 
al
 te
st
  
2  d
e 
Pe
ar
so
n 
en
 ta
bl
as
 d
e 
co
nt
in
ge
nc
ia
 m
ay
or
es
 d
e 
2
2.
  
 
Te
st
 χ
 2  d
e 
Pe
ar
so
n*
―
 
46
T
ab
la
 7
.8
 I
nt
er
va
lo
s 
de
 c
on
fi
an
za
 (
IC
) 
y 
te
st
s 
de
 h
ip
ót
es
is
 c
on
 c
or
re
cc
ió
n 
po
r 
co
nt
in
ui
da
d.
 
 
IC
 a
l 1
00
(1
 -
 )
%
 
T
es
t e
st
ad
ís
ti
co
 
U
na
 m
ue
st
ra
 
 
 




n
n
p
p
z
p
21
)
1(
2/
1

 
n
n
p
z
)
1(
21
|
|
0
0
0





 
D
os
 m
ue
st
ra
s i
nd
ep
en
di
en
te
s 


 
 








2
1
2
2
2
1
1
1
2/
1
2
1
1
1
21
)
1(
)
1(
n
n
n
p
p
n
p
p
z
p
p

 
 
 


 
 




2
1
2
1
2
1
1
1
)
1(
1
1
21
|
|
n
n
p
p
n
n
p
p
z
 
Te
st
  
2  d
e 
Pe
ar
so
n*
 

 
 




2 1
2 1
2
2
)2/
1
|
| (
i
j
ijij
ij
EE
O

 
Te
st
 d
e 
M
cN
em
ar
 

 
c
b
c
b




2
2
) 1
|
| (

 
* 
La
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d 
no
 se
 a
pl
ic
a 
al
 te
st
  
2  d
e 
Pe
ar
so
n 
en
 ta
bl
as
 d
e 
co
nt
in
ge
nc
ia
 m
ay
or
es
 d
e 
2
2.
  
 
Te
st
 d
e 
M
cN
em
ar
―
 
46
T
ab
la
 7
.8
 I
nt
er
va
lo
s 
de
 c
on
fi
an
za
 (
IC
) 
y 
te
st
s 
de
 h
ip
ót
es
is
 c
on
 c
or
re
cc
ió
n 
po
r 
co
nt
in
ui
da
d.
 
 
IC
 a
l 1
00
(1
 -
 )
%
 
T
es
t e
st
ad
ís
ti
co
 
U
na
 m
ue
st
ra
 
 
 




n
n
p
p
z
p
21
)
1(
2/
1

 
n
n
p
z
)
1(
21
|
|
0
0
0





 
D
os
 m
ue
st
ra
s i
nd
ep
en
di
en
te
s 


 
 








2
1
2
2
2
1
1
1
2/
1
2
1
1
1
21
)
1(
)
1(
n
n
n
p
p
n
p
p
z
p
p

 
 
 


 
 




2
1
2
1
2
1
1
1
)
1(
1
1
21
|
|
n
n
p
p
n
n
p
p
z
 
Te
st
  
2  d
e 
Pe
ar
so
n*
 

 
 




2 1
2 1
2
2
)2/
1
|
| (
i
j
ijij
ij
EE
O

 
Te
st
 d
e 
M
cN
em
ar
 

 
c
b
c
b




2
2
) 1
|
| (

 
* 
La
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d 
no
 se
 a
pl
ic
a 
al
 te
st
  
2  d
e 
Pe
ar
so
n 
en
 ta
bl
as
 d
e 
co
nt
in
ge
nc
ia
 m
ay
or
es
 d
e 
2
2.
  
 
* 
La
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d 
no
 se
 a
pl
ic
a 
al
 te
st
 χ 
2  d
e 
Pe
ar
so
n 
en
 ta
bl
as
 d
e 
co
nt
in
ge
nc
ia
 m
ay
or
es
 d
e 
2×
2.
 
120
Inferencia sobre proporciones
Pastor-Barriuso R.
por continuidad (IC al 95% 25,4-33,3%) es ligeramente más amplio que su correspondiente 
intervalo sin corrección (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha 
corrección (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin 
corrección son muy similares dado que el tamaño muestral utilizado en este ejemplo es 
moderadamente grande.
La corrección por continuidad también se aplica a la comparación de proporciones en muestras 
independientes o dependientes y al test chi-cuadrado de asociación en una tabla 2×2, ya que estos 
métodos de inferencia utilizan una distribución continua (normal o chi-cuadrado) para representar 
una distribución de frecuencias discreta. Las versiones corregidas de estos procedimientos, cuya 
derivación es similar al caso de una proporción, se presentan en la Tabla 7.8. En general, la 
utilización de la corrección por continuidad da lugar a resultados más conservadores; esto es, 
intervalos de confianza más amplios y mayores valores P de los contrastes. El principal objetivo 
de esta corrección es aumentar la cobertura de los intervalos de confianza y reducir la probabilidad 
de un error de tipo I en los contrastes, especialmente cuando el tamaño muestral es reducido.
7.9 REFERENCIAS
 1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 
2002.
 2. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth 
Edition. Oxford: Blackwell Science, 2001. 
 3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of 
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
 4. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and 
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
 5. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002.
 6. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
 7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition. 
New York: John Wiley & Sons, 2003.
 8. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and 
Company, 1987.
 9. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and 
Quantitative Methods. New York: John Wiley & Sons, 1982.
 10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 
1999.
 11. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: 
Lippincott Williams & Wilkins, 2008.
121Pastor-Barriuso R.
TEMA 8
MÉTODOS NO PARAMÉTRICOS
8.1 INTRODUCCIÓN
En los temas anteriores se han presentado distintos métodos de inferencia para datos de carácter 
continuo (Tema 6) y categórico (Tema 7). Estos procedimientos se conocen como métodos 
paramétricos y asumen que los datos proceden de una población cuya distribución de probabilidad 
es conocida (normal o binomial), o que al menos la distribución de los estadísticos empleados 
puede aproximarse mediante el teorema central del límite. Así, las inferencias se fundamentaban 
en la aproximación normal a la distribución de las medias y proporciones muestrales. Aunque en 
la mayoría de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan 
las condiciones necesarias para la realización de análisis paramétricos, especialmente cuando los 
tamaños muestrales son muy reducidos. En tales circunstancias, es posible utilizar métodos 
alternativos que realizan asunciones mínimas acerca de la distribución de la variable a estudio, y 
que reciben colectivamente el nombre de métodos no paramétricos o de distribución libre.
Antes de proceder a la descripción de los métodos no paramétricos más utilizados, conviene apuntar 
sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que:
 y Los métodos no paramétricos son muy robustos y, en consecuencia, pueden aplicarse a 
situaciones donde la utilización de pruebas paramétricas es cuestionable. Así, por ejemplo, 
la comparación de medias en dos muestras independientes requiere de tamaños muestrales 
suficientemente grandes para aplicar el teorema central del límite y de una varianza 
homogénea en ambas poblaciones, mientras que su equivalente no paramétrico permite 
contrastar globalmente la igualdad de distribuciones bajo la única asunción de que ambas 
distribuciones sean continuas.
 y Como se verá más adelante, la propia naturaleza de las pruebas no paramétricas las hace 
particularmente útiles para comparar variables cualitativas ordinales, cuyo tratamiento 
mediante métodos paramétricos clásicos entraña problemas conceptuales ya que estas variables 
carecen de interpretación numérica (ver definición de tipos de variables en el Tema 1).
Sin embargo, los métodos no paramétricos presentan una serie de limitaciones que impiden 
su uso generalizado:
 y Los métodos no paramétricos se emplean casi exclusivamente para determinar la 
significación estadística de la comparación entre grupos. Aunque existen procedimientos 
no paramétricos para obtener estimadores de efecto e intervalos de confianza, éstos 
requieren de asunciones adicionales y su aplicación es más compleja.
 y Si se cumplen las condiciones de aplicación de las pruebas paramétricas, el uso de métodos no 
paramétricos es un tanto ineficiente, lo que conlleva una leve pérdida de potencia en el análisis. 
Estudios de simulación bajo la asunción de normalidad han mostrado una perdida de potencia 
aproximada del 5% de las pruebas no paramétricas respecto a sus equivalentes paramétricos.
 y Los métodos paramétricos pueden extenderse fácilmente al análisis multivariante de 
situaciones más complejas. Aunque en la actualidad los métodos no paramétricos han 
experimentado un fuerte desarrollo, su utilización es aún limitada por la mayor complejidad 
y menor disponibilidad en los programas de análisis estadístico de uso rutinario.
122
Métodos no paramétricos
Pastor-Barriuso R.
En general, los métodos no paramétricos se emplean como complemento o alternativa a las 
pruebas paramétricas cuando no se cumplen las condiciones mínimas para la aplicación de estas 
últimas. En este tema se revisan los métodos no paramétricos de uso más frecuente, tales como 
el test de la suma de rangos de Wilcoxon, el test de los rangos con signo de Wilcoxon y el test 
exacto de Fisher.
8.2 TEST DE LA SUMA DE RANGOS DE WILCOXON
En el Apartado 6.3 se trató el problema de la comparación de variables continuas en dos muestras 
independientes. Si ambos tamaños muestrales n1 y n2 son suficientemente grandes para aplicar 
el teorema central del límite, el test de la t de Student permite realizar inferencias acerca de la 
diferencia de medias entre ambas poblaciones. Sin embargo, si la distribución subyacente dista 
mucho de ser normal y las muestras son muy pequeñas, las medias muestrales no se distribuirán 
de forma normal y la anterior prueba paramétrica no será aplicable. Bajo estas circunstancias, 
ha de utilizarse el equivalente no paramétrico al test de la t de Student para muestras 
independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento 
permite contrastar globalmente la igualdad de distribuciones bajo la única asunción de que la 
variable a estudio tenga una distribución subyacente continua.
Si no se asume nada sobre la forma de la distribución, parece razonable basar el contraste en 
el orden de las observaciones de ambas muestras y no en sus verdaderos valores. Para ello, se 
combinan las dos muestras ordenando los valores de menor a mayor. A continuación, se asigna 
el rango ri o posición que ocupa cada observación dentro de la muestra combinada. Si existen 
varias observaciones con el mismo valor de la variable (empates), se asigna a cada una de ellas 
la media de los rangos correspondientes. Finalmente, se suman los rangos de una cualquiera de 
las dos muestras, seleccionemos por ejemplo la primera muestra,
 4
la variable (empates), se asigna a cada una de ellas la media de los rangos 
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos 
muestras, seleccionemos por ejemplo la primera muestra, 
U = 
=
1
1
n
i
ir . 
El estadístico del test de Wilcoxon se basa en esta suma de rangos. 
Ejemplo 8.1 Supongamos que la muestra consiste en n1 = 10 casos de infarto de 
miocardio y n2 = 10 controles seleccionados aleatoriamente del estudio 
EURAMIC. La Tabla 8.1 muestra los niveles de β-caroteno en tejido adiposo para 
estos 20 sujetos. Al menor valor de ambas muestras 0,04 μg/g se le asigna el 
rango 1, al siguiente valor 0,05 μg/g se le otorga el rango 2 y así sucesivamente 
hasta asignar el rango 20 al mayor valor 0,57 μg/g. A los dos sujetos con idéntico 
nivel 0,13 μg/g de β-caroteno les corresponden las posiciones 7 y 8 y, en 
consecuencia, se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones. 
Así, la suma de rangos en los casos de infarto es 

=
10
1i
ir  = 1 + 9 + ... + 19 = 96,5 
y en los controles 

=
10
1j
jr  = 13 + 2 + ... + 6 = 113,5. 
Notar que la elección entre una u otra suma de rangos es irrelevante. La suma 
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de 
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la 
otra queda determinada por 210 - 96,5 = 113,5. 
El estadístico del test de Wilcoxon se basa en esta suma de rangos.
Ejemplo 8.1 Supongamos que la muestra consiste en n1 = 10 casos de infarto de 
miocardio y n2 = 10 controles seleccionados aleatoriamente del estudio EURAMIC. La 
Tabla 8.1 muestra l s niveles d β-caroteno en tejido adiposo para estos 20 sujetos. Al 
menor valor de ambas muestras 0,04 μg/g se le asigna el rango 1, al siguiente valor 0,05 
μg/g se le otorga el rang  2 y así ucesivamente has a asignar el rango 20 al mayor valor 
0,57 μg/g. A los dos sujetos con idéntico nivel 0,13 μg/g de β-caroteno les corresponden 
las posiciones 7 y 8 y, en consecuencia, se asigna l rango medio (7 + 8)/2 = 7,5 a mbas 
observaciones. Así, la suma de rangos en los casos de infarto es
 4
la variable (empates), se asigna a cada una de ellas la media de los rangos 
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos 
muestras, seleccionemos por ejemplo la primera muestra, 
U = 
=
1
1
n
i
ir . 
El estadístico del test de Wilcoxon se basa en esta suma de rangos. 
Ejemplo 8.1 Supongamos que la muestra consiste en n1 = 10 casos de infarto de 
miocardi  y n2 = 10 controles seleccion dos al atoriamente d l estudio 
EURAMIC. La Tabla 8.1 muestra los niveles de β-caroteno en tejido adiposo para 
estos 20 sujetos. Al menor valor de ambas muestras 0,04 μg/g se le asigna el 
rango 1, al siguiente valor 0,05 μg/g se le otorga el rango 2 y así sucesivamente 
hasta asignar el rango 20 al mayor valor 0,57 μg/g. A los dos sujetos con idéntico 
nivel 0,13 μg/g de β-caroteno les corresponden las posiciones 7 y 8 y, en 
consecuencia, se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones. 
Así, la suma de rangos en los casos de infarto es 

=
10
1i
ir  = 1 + 9 + ... + 19 = 96,5 
y en los controles 

=
10
1j
jr  = 13 + 2 + ... + 6 = 113,5. 
Notar que la elección entre una u otra suma de rangos es irrelevante. La suma 
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de 
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la 
otra queda determinada por 210 - 96,5 = 113,5. 
y en los controles
 4
la variable (empates), se asigna a cada una de ellas la media de los rangos 
correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos 
mu stras, seleccion mos por ejemplo la primera muestra, 
U = 
=
1
1
n
i
ir . 
El estadístico del test de Wilcoxon se basa en esta suma de rangos. 
Ejemplo 8.1 Supongamo  que la muestr  consiste en n1 = 10 casos de infarto de 
miocardio y n2 = 10 controles seleccionados aleatoriamente del estudio 
EURAMIC. La Tab a 8.1 mue tra los niveles de β-caroteno en teji o adiposo para 
stos 20 sujetos. Al menor valor de mbas muestras 0,04 μg/g se le asigna el 
rango 1, al siguiente valor 0,05 μg/g se le otorga el rango 2 y así sucesivamente 
hasta asignar el rango 20 al mayor valor 0,57 μg/g. A los dos sujetos con idéntico 
nivel 0,13 μg/g de β-caroteno le  corresponden las posicio es 7 y 8 y, en 
consecuencia, se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones. 
Así, la suma de rangos en los casos de infarto es 

=
10
1i
ir  = 1 + 9 + ... + 19 = 96,5 
y en los controles 

=
10
1j
jr  = 13 + 2 + ... + 6 = 113,5. 
Notar que la elección entre una u otra suma de rangos es irrelevante. La suma 
total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de 
tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la 
otra queda determinada por 210 - 96,5 = 113,5. 
Notar que la elección ent e u a u otra suma  rangos es arbitraria. La suma total de 
rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 20⋅21/2 = 210, de tal forma que una 
vez calculada l  suma de rangos 96,5 en la primera muestr , la otra queda det rminada 
por 210 – 96,5 = 113,5.
123Pastor-Barriuso R.
Test de la suma de rangos de Wilcoxon
Tabla 8.1 β-caroteno en tejido adiposo en 10 casos de infarto de 
miocardio y 10 controles seleccionados aleatoriamente del estudio 
EURAMIC.
Caso Control
β-caroteno (μg/g) Rango (ri) β-caroteno (μg/g) Rango (rj)
0,04 1 0,25 13
0,14 9 0,05 2
0,20 11 0,36 17
0,08 3 0,09 4
0,21 12 0,33 16
0,10 5 0,37 18
0,28 14 0,13 7,5
0,29 15 0,17 10
0,13 7,5 0,57 20
0,48 19 0,12 6
 27
Tabla 8.1 β-caroteno en tejido adiposo en 10 casos de infarto de miocardio y 10 
controles seleccionados aleatoriamente del estudio EURAMIC. 
 Caso Control 
 β-caroteno (μg/g) Rango (ri) β-caroteno (μg/g) Rango (rj) 
 0,04 1 0,25 13 
 0,14 9 0,05 2 
 0,20 11 0,36 17 
 0,08 3 0,09 4 
 0,21 12 0,33 16 
 0,10 5 0,37 18 
 0,28 14 0,13 7,5 
 0,29 15 0,17 10 
 0,13 7,5 0,57 20 
 0,48 19 0,12 6 
 
=
10
1i
ir  = 96,5 
=
10
1j
jr  = 113,5 
 
 27
Tabla 8.1 β-caroteno en t jido adiposo en 10 casos de infarto de mi cardio y 10 
controles seleccionados aleat ri mente del estu io EURAMIC. 
 Caso Control 
 β-caroteno (μg/g) Rango (ri) β-caroteno (μg/g) Rango (rj) 
 0,04 1 0,25 13 
 0,14 9 0,05 2 
 0,20 11 0,36 17 
 0,08 3 0,09 4 
 0,21 12 0,33 16 
 0,10 5 0,37 18 
 0,28 14 0,13 7,5 
 0,29 15 0,17 10 
 0,13 7,5 0,57 20 
 0,48 19 0,12 6 
 
=
10
1i
ir  = 96,5 
=
10
1j
jr  = 113,5 
 
El objetivo es contrastar si las distribuciones F1 y F2 en ambas poblaciones son iguales 
H0: F1 = F2 frente a la hipótesis alternativa bilateral H1: F1 ≠ F2. Bajo esta hipótesis nula, la suma 
de rangos esperada en la primera muestra sería igual a la suma total de rangos por la proporción 
de sujetos en dicha muestra,
 5
 [Tabla 8.1 aproximadamente aquí] 
El objetivo es contrastar si las distribuciones F1 y F2 en ambas poblaciones son 
iguales  H0: F1 = F2 frente a la hipótesis alternativa bilateral H1: F1 ≠ F2. Bajo esta 
hipótesis nula, la suma de rangos esperada en la primera muestr  sería igual a la suma 
total de rangos por opo ción de suj tos en dich  muestra, 
E(U) = 
2
)1(
2
)1)(( 211
21
12121 ++
=
+
+++ nnn
nn
nnnnn . 
Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor 
exacto de P vendría determinado por la probabilidad bajo H0 de obtener una suma de 
rangos tanto o más distante de E(U) que el valor observado u; es decir, 
P = 2P(U ≥ u | H0), 
si u > E(U), o alternativamente  
P = 2P(U ≤ u | H0), 
si u ≤ E(U). Esta probabilidad puede calcularse teniendo en cuenta que bajo la hipótesis 
nula de igualdad de distribuciones, cualquier combinación de rangos en la primera 
muestra es igualmente probable. Así, como el número de combinaciones de los n1 + n2 
posibles rangos tomados de n1 en n1 es 


 +
1
21
n
nn
, la probabilidad bajo H0 para 
cualquier combinación r1, ..., 1nr  viene dada por 



 +
1
21
1
n
nn . 
El cálculo del valor exacto de P se ilustra en el siguiente ejemplo. 
Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor exacto de P 
vendría determinado por la probabilidad bajo H0 de obtener una su a de rangos tanto o más 
distante de E(U) que el valor observado u; es decir,
 5
 [Tabla 8.1 aproximadamente aquí] 
El objetivo es contrastar si las distribuciones F1 y F2 en ambas poblaciones son 
iguales  H0: F1 = F2 frente a la hipótesis alternativa bilateral H1: F1 ≠ F2. Bajo esta 
hipótesis nula, la suma de rangos esperada en la primera muestra sería igual a la suma 
total de rangos por la proporción de sujetos e  dicha mu stra, 
E(U) = 
2
)1(
2
)1)(( 211
21
12121 ++
=
+
+++ nnn
nn
nnnnn . 
Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor 
exacto de P vendría determinado por la probabilidad bajo H0 de obtener una suma de 
rangos anto o más dist nte de E(U) que el valor observado u; es decir, 
P = 2P(U ≥ u | H0), 
si u > E(U), o alternativamente  
P = 2P(U ≤ u | H0), 
si u ≤ E(U). Esta probabilidad puede calcularse teniendo en cuenta que bajo la hipótesis 
nula de igualdad de distribuciones, cualquier combinación de rangos en la primera 
m estra es igualmente prob ble. Así, como el número de combi aciones de los n1 + n2 
posibles rangos tomados de n1 en n1 es 


 +
1
21
n
nn
, la probabilidad bajo H0 para 
cualquier combinación r1, ..., 1nr  viene dada por 



 +
1
21
1
n
nn . 
El cálculo del valor exacto de P se ilustra en el siguiente ejemplo. 
si u > E(U), o alternativamente 
 5
 [Tabla 8.1 aproximadamente aquí] 
El objetivo es contrastar si las distribuciones F1 y F2 en ambas poblaciones son 
igua es  H0: F1 = F2 frente a la hipótes s alternativa bilat ral H1: F1 ≠ F2. Bajo esta
hipót is nula, la suma de rangos esperada n la primera muestra sería igual a la suma 
total de rangos por la proporción de sujetos en dicha muestra, 
E(U) = 
2
)1(
2
)1)(( 211
21
12121 ++
=
+
+++ nnn
nn
nnnnn . 
Por tanto, si u denot  la sum  de rangos observ d  en la primera muestra, el valor 
exacto de P vendría determina o por la probabilidad bajo H0 de obtene  una suma de 
rangos tanto o más distante de E(U) que el v lor observado u; s decir, 
P = 2P(U ≥ u | H0), 
si u > E(U), o alternativamente  
P = 2P(U ≤ u | H0), 
si u ≤ E(U). Esta probabilidad puede calcularse teniendo en cuenta que bajo la hipótesis 
nula de igualdad de distribuciones, cualq ier comb nación de ra gos en l  primera 
muestra es igu lm nte probable. Así, como el número de combi aciones de los n1 + n2 
posibles rangos tomados de n1 en n1 es 


 +
1
21
n
nn
, la probabilidad bajo H0 para 
cualquier combinación r1, ..., 1nr  viene dada por 



 +
1
21
1
n
nn . 
El cálculo del valor exacto de P se ilustra en el siguiente ejemplo. 
si u ≤ E(U). Esta probabilidad puede calcularse teniendo en cuenta que bajo la hipótesis nula de 
igualdad de distribuciones, cualquier combinación de rangos en la primera muestra es gualmente 
probable. Así, c mo el número d  combinaciones de los n1 + n2 posibles rangos tomados de n1 
en n1 es 
 5
 [Tabla 8.1 aproximadamente aquí] 
El objetivo es contrastar si las distribuciones F1 y F2 en ambas poblaciones son 
iguales  H0: F1 = F2 frente a la hipótesis alternativa bilateral H1: F1 ≠ F2. Bajo esta 
hipótesis nula, la suma de rangos esperada en la primera muestra sería igual a la suma 
total de rangos por la proporción de sujetos en dicha muestra, 
E(U) = 
2
)1(
2
)1)(( 211
21
12121 ++
=
+
+++ nnn
nn
nnnnn . 
Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor 
exacto de P vendría determinado por la probabilidad bajo H0 de obtener una suma de 
rangos tanto o más distante de E(U) que el valor observado ; es decir, 
P = 2P(U ≥ u | H0), 
si u > E(U), o alternativamente  
P = 2P(U ≤ u | H0), 
si u ≤ E(U). Esta probabilidad puede calcularse te ien o e  cuenta que bajo la hipótesis 
nula de igualdad de distribuciones, cualquier combinación de rangos en la primera 
muestra es igualmente probable. Así, como el número de combinaciones de los n1 + n2 
posibles rangos tomados de n1 e  1  


 +
1
21
n
nn
, la probabilidad bajo H0 para 
cualquier combinación r1, ..., 1nr  viene dada por 



 +
1
21
1
n
nn . 
El cálculo del valor exacto de P se ilustra en el siguiente ejemplo. 
   j  0 para cualquier combinación r1, ..., rn1 viene dada por
 5
 [Tabla 8.1 aproximadamente aquí] 
El objetivo es contrastar si las distribuciones F1 y F2 en ambas poblaciones son 
iguales  H0: F1 = F2 frente a la hipótesis alternativa bilateral H1: F1 ≠ F2. Bajo esta 
hipótesis nula, la suma de rangos esperada en la primera muestra sería igual a la suma 
total de rangos por  p oporción de sujetos n dicha muestra, 
E(U) = 
2
)1(
2
)1)(( 211
21
12121 ++
=
+
+++ nnn
nn
nnnnn . 
Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor 
exacto de P vendría determinado por la probabilidad bajo H0 de obtener una suma de 
rangos tanto  más distante de E(U) q e el valor observado u; es decir, 
P = 2P(U ≥ u | H0), 
i u > E(U), o alternativ mente  
P = 2P(U ≤ u | H0), 
si u ≤ E(U). Esta probabilidad pue e calcularse t ni do en cu nta que b jo la hipótesis 
nula de igualdad de distribuciones, cualquier combinación de rangos en la primer  
muestra es igualmente probable. Así, como el número de combinaciones de los n1 + n2 
posibles rangos tomados de n1 en n1 es 


 +
1
21
n
nn
, la probabilidad bajo H0 para 
cualquier combinación r1, ..., 1nr  viene dada por 



 +
1
21
1
n
nn . 
El cálculo del valor exacto de P se ilustra e  el siguiente ejemplo. 
El cálculo del valor exacto de P se ilustra en el siguiente ejemplo.
124
Métodos no paramétricos
Pastor-Barriuso R.
Ejemplo 8.2 Si la distribución del b-caroteno fuera igual en los casos de infarto y en los 
controles libres de enfermedad, la suma de rangos esperada en los 10 casos de infarto del 
ejemplo anterior sería igual a
 6
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y 
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos 
de infarto del ejemplo ant rior sería igual a 
E(U) = 2
)11010(10 ++  = 105. 
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado, 
el valor P se obtiene mediante 
P = 2P(U ≤ 96,5 | H0) = 2 
=
=
96
55
0 )|(
k
HkUP . 
Notar que la suma arranca en el valor mínimo posible 1 + 2 + ... + 10 = 55 y sólo 
toma valores enteros (se excluyen posibles empates para facilitar los cálculos). La 
probabilidad bajo H0 para cualquier combinación de rangos en la primera muestra 
es 
756.184
1
!20
)!1020(!10
10
20
1
=
−
=



 , 
de lo cual se sigue que 
 P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756, 
 P(U = 56 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 11 | H0) = 1/184.756, 
 P(U = 57 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 12 | H0) 
  + P(1, 2, 3, 4, 5, 6, 7, 8, 10, 11 | H0) = 2/184.756 
y así sucesivamente. Como puede intuirse, el procedimiento resulta muy laborioso 
incluso para estas pequeñas muestras de tamaño 10, ya que se requiere determinar 
el número de combinaciones con igual suma de rangos. Después de múltiples 
cálculos, se tiene que 
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado, el valor 
P se btiene mediante
 6
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y 
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos 
de infarto del ejemplo anterior sería igual a 
E(U) = 2
)11010(10 ++  = 105. 
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado, 
el valor P se obtiene mediante 
P = 2P(U ≤ 96,5 | H0) = 2 
=
=
96
55
0 )|(
k
HkUP . 
Notar que la suma arranca en el valor mínimo posible 1 + 2 + ... + 10 = 55 y sólo 
toma valores enteros (se excluyen posibles empates para facilitar los cálculos). La 
probabilidad bajo H0 para cualquier combinación de rangos en la primera muestra 
es 
756.184
1
!20
)!1020(!10
10
20
1
=
−
=



 , 
de lo cual se sigue que 
 P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756, 
 P(U = 56 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 11 | H0) = 1/184.756, 
 P(U = 57 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 12 | H0) 
  + P(1, 2, 3, 4, 5, 6, 7, 8, 10, 11 | H0) = 2/184.756 
y así sucesivamente. Como puede intuirse, el procedimiento resulta muy laborioso 
incluso para estas pequeñas muestras de tamaño 10, ya que se requiere determinar 
el número de combinaciones con igual suma de rangos. Después de múltiples 
cálculos, se tiene que 
Notar que la suma arranca en el valor mínimo posible 1 + 2 + ... + 10 = 55 y sólo toma 
valores enteros (se excluyen posibles e pates para facilitar los cálculos). La probabilidad 
bajo H0 para cualquier combinación de rangos en la primera muestra es
 6
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y 
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos 
de infarto del ejemplo anterior sería igual a 
E(U) = 2
)11010(10 ++  = 105. 
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado, 
el valor P se obtiene mediante 
P = 2P(U ≤ 96,5 | H0) = 2 
=
=
96
55
0 )|(
k
HkUP . 
Notar que la suma arranca en el valor mínimo posible 1 + 2 + ... + 10 = 55 y sólo 
toma valores enteros (se excluyen posibles empates para facilitar los cálculos). La 
probabilidad bajo H0 para cualquier combinación de rangos en la primera muestra 
es 
756.184
1
!20
)!1020(!10
10
20
1
=
−
=



 , 
de lo cual se sigue que 
 P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756, 
 P(U = 56 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 11 | H0) = 1/184.756, 
 P(U = 57 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 12 | H0) 
  + 10, 11 | H0) = 2/184.756 
y así sucesivamente. Como puede intuirse, el procedimiento resulta muy laborioso 
incluso para estas pequeñas muestras de tamaño 10, ya que se requiere determinar 
el número de combinaciones con igual suma de rangos. Después de múltiples 
cálculos, se tien  que 
de lo cual se sigue que
 6
Ejemplo 8.2 Si la distribución del β-caroteno fuera igual en los casos de infarto y 
en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos 
de infarto del ejemplo anterior s rí  igual a 
E(U) = 2
)11010(10 ++  = 105. 
Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado, 
el valor P se obtiene mediante 
P = 2P(U ≤ 96,5 | H0) = 2 
=
=
96
55
0 )|(
k
HkUP . 
Notar que la suma arranca en el valor mínimo posible 1 + 2 + ... + 10 = 55 y sólo 
toma valores enteros (se excluyen posibles empates para facilitar los cálculo ). La 
probabi idad bajo H0 para ualquier combinación de rangos en la primera muestra 
es 
756.184
1
!20
)!1020(!10
10
20
1
=
−
=



 , 
de lo cual se sigue que 
 P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756, 
 P(U = 56 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 11 | H0) = 1/184.756, 
 
P(U = 57 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 12 | H0) 
  + P(1, 2, 3, 4, 5, 6, 7, 8, 10, 11 | H0) = 2/184.756 
y así s cesivamente. Como puede intuirse, el procedimiento resulta muy laborioso 
inclu o para estas pequeñas muestras de tamañ  10, ya que s  requiere determinar
el número d  combinaciones con igual suma de rangos. D spués de múltiples 
cálculos, se tiene que 
y así sucesivamente. Como puede intuirse, el procedimiento resulta muy laborioso incluso 
para estas pequeñas muestras de tamaño 10, ya que requiere determinar el número de 
combinaciones con igual suma de rangos. Después de múltiples cálculos, se tiene que
 7
 P = 2 
=
=
96
55
0 )|(
k
HkUP  = 2(1 + 1 + 2 + ... + 4.397)/184.756 
  = 97.708/184.756 = 0,529. 
Aunque los casos de infarto muestran niveles inferiores de β-caroteno que los 
controles (la suma de rangos observada en los casos es menor que la esperada), no 
se alcanzan diferencias estadísticamente significativas. No obstante, dado el 
reducido tamaño muestral, cabe esperar que la potencia de este contraste sea uy 
pequeña para detectar cualquier posible diferencia en los niveles subyacentes de 
β-caroteno entre los casos de infarto y los sujetos libres de la enfermedad. 
Para simplificar los cálculos de este test, la Tabla 8 del Apéndice facilita los 
percentiles de la distribución de la suma de rangos de Wilcoxon bajo la hipótesis nula 
de igualdad de distribuciones, cuando la menor de las dos muestras es de tamaño 
inferior o igual a 8. Para un nivel de significación α bilateral, la hipótesis nula se 
rechazará si la suma de rangos en la muestra de menor tamaño es inferior al percentil 
α/2 o superior al percentil 1 - α/2 de dicha tabla. 
Ejemplo 8.3 En un estudio hipotético a partir de dos muestras independientes de 
tamaños n1 = 5 y n2 = 10, la suma de rangos en la muestra más pequeña es 23. 
Como la distribución bajo H0 de la suma de rangos es simétrica alrededor de E(U) 
= n1(n1 + n2 + 1)/2 = 5(5 + 10 + 1)/2 = 40, se tiene que 
P = 2P(U ≤ 23 | H0) = 2P(U ≥ 57 | H0). 
Utilizando la Tabla 8 del Apéndice con n1 = 5 y n2 = 10, puede comprobarse que 
el valor u = 57 está comprendido entre los percentiles u0,975 = 56 y u0,99 = 58, de lo 
cual se deduce la desigualdad 0,01 < P(U ≥ 57 | H0) < 0,025, que corresponde a 
0,02 < P < 0,05. 
Aunque los casos de infarto muestran niveles inferiores de b-caroteno que los controles 
(la suma de rangos observada en los casos es menor que la esperada), no se alcanzan 
diferencias estadísticamente significativas. No obstante, dado el reducido tamaño 
muestral, cabe esperar que la potencia de este contraste sea muy pequeña para detectar 
cualquier posible diferencia en los niveles subyacentes de b-caroteno entre los casos de 
infarto y los sujetos libres de la enfermedad.
Para simplificar los cálculos de este test, la Tabla 8 del Apéndice facilita los percentiles de la 
distribución de la suma de rangos de Wilcoxon bajo la hipótesis nula de igualdad de distribuciones, 
cuando la enor de las dos muestras es de tamaño inferior o igual a 8. Para un nivel de 
significación α bilateral, la hipótesis nula se rechazará si la suma de rangos en la muestra de 
menor tamaño es inferior al percentil α/2 o superior al percentil 1 – α/2 de dicha tabla.
125Pastor-Barriuso R.
Test de la suma de rangos de Wilcoxon
Ejemplo 8.3 En un estudio hipotético a partir de dos muestras independientes de 
tamaños n1 = 5 y n2 = 10, la suma de rangos en la muestra más pequeña es 23. Como la 
distribución bajo H0 de la suma de rangos es simétrica alrededor de E(U) = n1(n1 + n2 + 1)/2 
= 5(5 + 10 + 1)/2 = 40, se tiene que
 7
 P = 2 
=
=
96
55
0 )|(
k
HkUP  = 2(1 + 1 + 2 + ... + 4.397)/184.756 
  = 97.708/184.756 = 0,529. 
Aunque los casos de infarto muestran niveles inferiores de β-caroteno que los 
controles (la suma de rangos observada en los casos es menor que la esperada), no 
se alcanzan diferencias estadísticamente significativas. No obstante, dado el 
reducido tamaño muestral, cabe esperar que la potencia de este contraste sea muy 
pequeña para detectar cualquier posible diferencia en los niveles subyacentes de 
β-caroteno entre los casos de infarto y los sujetos libres de la enfermedad. 
Para simplificar los cálculos de este test, la Tabla 8 del Apéndice facilita los 
percentiles de la distribución de la suma de rangos de Wilcoxon bajo la hipótesis nula 
de igualdad de distribuciones, cuando la menor de las dos muestras es de tamaño 
inferior o igual a 8. Para un nivel de significación α bilateral, la hipótesis nula se 
rechazará si la suma de rangos en la muestra de menor tamaño es inferior al percentil 
α/2 o superior al percentil 1 - α/2 de dicha tabla. 
Ejemplo 8.3 En un estudio hipotético a partir de dos muestras independientes de 
tamaños n1 = 5 y n2 = 10, la suma de rangos en la muestra más pequeña es 23. 
Co o la distribución bajo H0 de la suma de rangos es simétrica al ededor d  E(U) 
= n1(n1 + n2 + 1)/2 = 5(5 + 10 + 1)/2 = 40, se tiene que 
P = 2P(U ≤ 23 | H0) = 2P(U ≥ 57 | H0). 
Utilizando la Tabla 8 del Apéndice con n1 = 5 y n2 = 10, puede comprobarse que 
el valor u = 57 está comprendido entre los percentiles u0,975 = 56 y u0,99 = 58, de lo 
cual se deduce la desigualdad 0,01 < P(U ≥ 57 | H0) < 0,025, que corresponde a 
0,02 < P < 0,05. 
Utilizando la Tabla 8 del Apéndice con n1 = 5 y n2 = 10, puede comprobarse que el valor 
u = 57 está comprendido entre los percentiles u0,975  56 y u0,99 = 58, de lo cual se deduce 
la desigualdad 0,01 < P(U ≥ 57 | H0) < 0,025, que corresponde a 0,02 < P < 0,05.
En el caso de que ambos tamaños muestrales sean superiores a 8, puede emplearse el siguiente 
método aproximado. Como el contraste para la igualdad de distribuciones se basa en el rango o 
posición de las observaciones, resulta lícito sustituir los valores observados xi por sus 
correspondientes rangos ri en el estadístico de la t de Student para muestras independientes con 
igual varianza (Apartado 6.3.1), obteniéndose  
 8
En el caso de que mbos tamaños muestrales sean superiores a 8, puede emplears  el 
siguiente método aproximado. Como el contraste para la igualdad de distribuciones se 
basa en el rango o posición de las observaciones, resulta lícito sustituir los valores 
observados xi por sus correspondientes rangos ri en el estadístico de la t de Student para 
muestras independientes con igual varianza (Apartado 6.3.1), obteniéndose   
21
21
11
nns
rrz
r +
−
= , 
donde la diferencia de rangos medios es 




 ++
−


+=





−
+++
−=
−=−



=
==
==
2
)1(11
2
)1)((11
11
211
121
1
2121
211
1211
21
1
11
21
nnnrnn
rnnnnnrn
rnrnrr
n
i
i
n
i
i
n
i
i
n
j
j
n
i
i
 
y, si no hay empates, la varianza de los rangos en la muestra combinada es 
.
12
)1)((
2
1
1
1
)(
1
1
2121
1
2
21
21
1
2
21
2
21
21
+++
=


 ++
−
−+
=
−
−+
=


+
=
+
=
nnnn
nninn
rrnns
nn
i
nn
i
ir
 
Sustituyendo en la expresión anterior, se tiene 
)(
)(
12
)1(
2
)1(
2121
211
1
1
USE
UEU
nnnn
nnnr
z
n
i
i
−
=
++
++
−
=

= , 
donde la diferencia de rangos medios es
 8
En el caso de que ambos tamaños muestrales sean superiores a 8, puede emplearse el 
siguiente método aproximado. Como el contraste para la igualdad de distribuciones se 
basa en el rango o posición de las observaciones, resulta lícito sustituir los valores 
observados xi por sus correspondientes rangos ri en el estadístico de la t de Student para 
muestras independientes con igual varianza (Apartado 6.3.1), obteniéndose   
21
21
11
nns
rrz
r +
−
= , 
donde la diferencia de rangos medios es 




 ++
−


+=





−
+++
−=
−=−



=
==
==
2
)1(11
2
)1)((11
11
211
121
1
2121
211
1211
21
1
11
21
nnnrnn
rnnnnnrn
rnrnrr
n
i
i
n
i
i
n
i
i
n
j
j
n
i
i
 
y, si no hay empates, la varianza de los rangos en la muestra combinada es 
.
12
)1)((
2
1
1
1
)(
1
1
2121
1
2
21
21
1
2
21
2
21
21
+++
=


 ++
−
−+
=
−
−+
=


+
=
+
=
nnnn
nninn
rrnns
nn
i
nn
i
ir
 
Sustituyendo en la expresión anterior, se tiene 
)(
)(
12
)1(
2
)1(
2121
211
1
1
USE
UEU
nnnn
nnnr
z
n
i
i
−
=
++
++
−
=

= , 
y, si no hay empates, la varianza de los rangos en la muestra combinada es
 8
En el caso de que ambos tamaños muestrales sean superiores a 8, puede emplearse el 
siguiente método aproximado. Como el contraste para la igualdad de distribuciones se 
basa en el rango o posición de las observaciones, resulta lícito sustituir los valores 
observados xi por sus correspondientes rangos ri en el estadístico de la t de Student para 
muestras independientes con igual varianza (Apartado 6.3.1), obteniéndose   
21
21
11
nns
rrz
r +
−
= , 
donde la diferencia de rangos medios es 




 ++
−


+=





−
+++
−=
−=−



=
==
==
2
)1(11
2
)1)((11
11
211
121
1
2121
211
1211
21
1
11
21
nnnrnn
rnnnnnrn
rnrnrr
n
i
i
n
i
i
n
i
i
n
j
j
n
i
i
 
y, si no hay empates, la varianza de los rangos en la muestra combinada es 
.
12
)1)((
2
1
1
1
)(
1
1
2121
1
2
21
21
1
2
21
2
21
21
+++
=


 ++
−
−+
=
−
−+
= 
+
=
+
=
nnnn
nninn
rrnns
nn
i
nn
i
ir
 
Sustituyendo en la expresión anterior, se tiene 
)(
)(
12
)1(
2
)1(
2121
211
1
1
USE
UEU
nnnn
nnnr
z
n
i
i
−
=
++
++
−
=

= , 
Sustituyendo en la expresión anterior, se tiene
 8
En el caso de que ambos tamaños muestrale sean sup riores a 8, puede emplearse el 
siguiente método aproximado. Como l contraste para la igualdad de distribuciones se 
basa en el rango o posición de las observaciones, resulta lícito sustituir los valores 
observados xi por sus corr spondientes ra gos ri en el estadístico de la t de Student para 
mu str s independientes con igual varianza (Apartado 6.3.1), obteniéndose   
21
21
11
nns
rrz
r +
−
= , 
donde la diferencia de rangos medios es 




 ++
−


+=





−
+++
−=
−=−



=
==
==
2
)1(1
2
)1)((11
11
211
21
2121
21
121
21
1
11
21
nnnrnn
rnnnnnrn
rnrnrr
n
i
i
n
i
i
n
i
i
n
j
j
n
i
i
 
y, si no hay empates, la varianza de los rangos en la muestra combinada es 
.
12
)1)((
2
1
1
1
)(
1
1
2121
1
2
21
21
1
2
21
2
21
21
+++
=


 ++
−
−+
=
−
−+
= 
+
=
+
=
nnnn
nninn
rrnns
nn
i
nn
i
ir
 
Sustituyendo en la expresión anterior, se tiene 
)(
)(
12
)1(
2
)1(
2121
211
1
USE
UEU
nnnn
nnnr
z
n
i
i
−
=
++
++
−
=

= , 
126 Pastor-Barriuso R.
Métodos no paramétricos
que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la 
suma de rangos observada y esperada en la primera muestra dividida por su error estándar bajo 
la hipótesis nula de igualdad de distribuciones. Bajo H0, este estadístico seguirá aproximadamente 
una distribución normal estandarizada si n1, n2 > 8. Notar que, en general, este tamaño muestral 
es muy inferior al que se requeriría para aplicar la prueba paramétrica de la t de Student en dos 
muestras independientes.
Ejemplo 8.4 A partir del estudio EURAMIC, se seleccionan 1000 muestras aleatorias 
simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas 
muestras, se calcula la diferencia de niveles medios de b-caroteno entre casos y controles, así 
como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las 
distribuciones muestrales de la diferencia de medias 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central d  la muestra sirven tanto p ra resumir los resultados observ dos como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 – 
 
 5
1.2 MEDI AS DE T DEN IA CENTRAL 
Las medidas de tendencia central informan cerca de cuá es el valor más r presentativo 
de una determin da variable o, dicho de forma equival n e, estos estimadores i dican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
centr l de la muestra sirven tanto para resumi  los resulta os observados como para 
realiza  i ferencias cerca de los parámetros pobl cionales correspondientes. A 
cont nuación e describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Me ia aritmética 
La media ar tmética, denot da por x , se define como la suma e cada un  de los 
valores mu trales dividida por el núm r  d  observaciones realizadas. Si den tamos 
por n el tamaño muestral y por xi el valor observ do para l sujeto i-és mo, i = 1, ..., n, 
la media vendrí dada por   
n
xxx
x
n
x n
n
i
i
++
== 
=
...1 21
1
. 
La medi es la me ida de tendencia central más utiliza a y de más fácil 
interpretación. Corresponde al “centro de grave ad” de los datos de la muestra. Su 
princ pal limitación s que está muy i fluenciada por los valores extremos y, en este 
caso, puede no ser un fiel refl jo d  la tendencia central e la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores mu trales, se 
utilizarán los valores d l colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardi l Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y cont oles realizado 
entre 1991 y 1992 en ocho países Europeos  Israel para evaluar el efect  de los 
2 y de la suma de rangos U, 
respectivamente. Como la distribución poblacional del b-caroteno es marcadamente asimétrica 
(ver Figura 4.3) y l s muestra  son muy pequeñas, la dif encia de medias muestrales se 
distribuye de forma asimétrica alrededor de la diferencia subyacente μ1 – μ2 = – 0,09 mg/g, de 
tal forma que no se cum le l condición de normalidad necesaria para aplic  el te t de la t de 
Student. Por el contrario, la suma de rangos sí se distribuye de forma aproximadamente normal 
en torno a su valor esp r do  est  población E(U) = 96,9. Así, aun cuando se disponga de 
muestras tan reducidas, se podría aplicar la aproximación normal al test de la suma de rangos 
de Wilcoxon.
 Figura 8.1
 
-0,9 -0,6 -0,3 0 0,3 0,6
0
5
10
15
20
25
30
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
50 70 90 110 130 150
0
5
10
15
20
25
30
(a) (b)
U21 xx −
Figura 8.1 Distribución muestral de la diferencia de niveles medios de β-caroteno 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alred d r  qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inf ren ias acerca de los parámetr s poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por , se define como la suma de cada uno de los 
valores muestrales dividida por l número de obs rv ciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
x 1 – 
 
 5
1.2 MEDI AS DE T DEN IA CENTRAL 
Las me idas de tendencia ce tral informan cer a de cuál es el valor más r presentativo 
de una determin d  variable o, dich  de forma equival nte, os estimadores i dican 
al dedor de qué valor s  grup n l  datos observados. Las me idas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
r aliza  inferen ias cerca de los pa ámetros pobl cionales correspondientes. A 
cont nuación se d scriben los rincipales estimadores de la tendencia central de una 
variable. 
1.2.1 Media ar tmética 
La ia aritmética, denotada por , se define como l  sum  de cada un  de los 
valor  mu tral s ividida p r el núme o de observaciones re lizadas. Si den tamos 
por n el ta año muestral y por xi el valor observ do para l sujeto i-ésimo, i = 1 ..., n, 
la media vendrí  dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
in erpretación. Corresponde al “centro de grave ad” de l  atos de la muestra. Su 
rincipal limitación es que está muy influenciada por l s valores extremos y, n este 
caso, pued  no ser un i l reflejo de la tendencia central e la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimador  mu trales, se 
utilizarán l s valores d l colesterol HDL obtenidos en los 10 primeros suj tos del 
estudio “European Study on Antioxidants, Myocardi l Infarction d Cancer of 
the Breast“ (EURAMIC), n estudio mult éntri o de cas s y cont oles realizado 
entre 1991 y 1992 en ocho países Europeos  Israel para eva uar el efect  de los 
x 2 e tre cas  y 
controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias simples de 
n1 = 10 casos de infarto de miocardio y n2 = 10 controles obtenidos a p rtir d l est io EURAMIC. Las lín a  
verticales en trazo discontinuo corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(U) = 96,9.
127Pastor-Barriuso R.
Test de la suma de rangos de Wilcoxon
Si se producen empates en la asignación de rangos en la muestra combinada, la varianza de 
la suma de rangos es menor que la obtenida en ausencia de empates y el estadístico del test de 
la suma de los rangos de Wilcoxon resulta
 10
Si se producen empates en la asignación de rangos en la muestra combinada, la 
varianza de la suma de rangos es menor que la obtenida en ausencia de empates y el 
estadístico del test de la suma de los rangos de Wilcoxon resulta 
12
)1)(1(
2
)1(
2121
211
1
1
fnnnn
nnnr
z
n
i
i
−++
++
−
=

= , 
donde 
)1)(1)((
)1)(1(
212121
1
−++++
−+
=

=
nnnnnn
ttt
f
T
i
iii
, 
con ti el número de empates para el valor i-ésimo de la variable. Notar que, si no hay 
empates, f = 0 y este estadístico se reduce al citado anteriormente. Finalmente, como la 
suma de rangos es un variable discreta que se aproxima mediante una distribución 
normal continua, es frecuente aplicar la corrección por continuidad a estos estadísticos. 
La versión con corrección por continuidad del test de la suma de rangos de Wilcoxon 
(con o sin empates) se presenta en la Tabla 8.2. 
[Tabla 8.2 aproximadamente aquí] 
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10 
> 8, puede aplicarse la aproximación normal a la suma de rangos U = 96,5 en los 
casos de infarto. Bajo la hipótesis nula de una misma distribución del β-caroteno 
en casos y controles, el valor esperado de esta suma de rangos sería  
E(U) = 2
)11010(10 ++  = 105 
y su varianza  
donde
 10
Si se producen empates en la asignación de rangos en la muestra combinada, la 
varianza de la suma de rangos es menor que la obtenida en ausencia de empates y el
estadístico del test de la suma de los rangos de Wilcoxon resulta 
12
)1)(1(
2
)1(
2121
211
1
1
fnnnn
nnnr
z
n
i
i
−++
++
−
=

= , 
donde 
)1)(1)((
)1)(1(
212121
1
−++++
−+
=

=
nnnnnn
ttt
f
T
i
iii
, 
con ti el número de empates para el valor i-ésimo de la variable. Notar que, si no hay 
empates, f = 0 y este estadístico se reduce al citado anteriormente. Finalmente, como la 
suma de rangos es un variable discreta que se aproxima mediante una distribución 
normal continua, es frecuente aplicar la corrección por continuidad a estos estadísticos. 
La versión con corrección por continuidad del test de la suma de rangos de Wilcoxon 
(con o sin empates) se presenta en la Tabla 8.2. 
[Tabla 8.2 aproximadamente aquí] 
Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10 
> 8, puede aplicarse la aproximación normal a la suma de rangos U = 96,5 en los 
casos d  infarto. Bajo l  hipótesis nula de un  mi ma distribución del β-caroteno 
en casos y controles, el valor sperado  est  suma de rangos sería  
E(U) = 2
)11010(10 ++  = 105 
y su varianza  
con ti el número de empates para el valor i-ésimo de la variable. Notar que, si no hay empates, 
f = 0 y este estadístico se reduce al citado anteriormente. Finalm nte, como la uma de rangos 
es una variable discreta que se aproxima mediante una distribución normal continua, es frecuente 
aplicar la corrección por con nuidad a estos estadísticos. La v rsión con corrección por 
continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la 
Tabla 8.2.
Ejemplo 8.5 Como l  muestra de caso  y co troles d  la Tabla 8.1 es n1 = n2 = 10 > 8, 
puede aplicarse la aproximación normal a la suma de rangos U = 96,5 en los casos de 
infart . Bajo la hipót sis nu a de una misma distribución del b-caroteno en casos y 
controles, el valor esperado de esta suma de rangos sería 
 10
Si se producen empates en la asignación de rangos en la muestra combinada, la 
varianza de la suma de rangos es menor que la obtenida en ausencia de empates y el 
estadístico del test de la suma de los rangos de Wilcoxon resulta 
12
)1)(1(
2
)1(
2121
211
1
1
fnnnn
nnnr
z
n
i
i
−++
++
−
=

= , 
donde 
)1)(1)((
)1)(1(
212121
1
−++++
−+
=

=
nnnnnn
ttt
f
T
i
iii
, 
con ti el número de empates para el valor i-ésimo de la variable. Notar que, si no hay 
empates, f = 0 y este estadístico se reduce al citado anteriormente. Finalmente, como la 
suma de rangos es un variable discreta que se aproxima mediante una distribución 
normal continua, es frecuente aplicar la corrección por continuidad a estos estadísticos. 
La versión con corrección por continuidad del test de la suma de rangos de Wilcoxon 
(con o sin empates) se presenta en la Tabla 8.2. 
[Tabla 8.2 aproximadamente aquí] 
Ejemplo 8.5 Com  la muestra de casos y ontr les de la Tabla 8.1 es n1 = n2 = 10
> 8, puede aplicarse la prox mación norm l a la suma de rangos U = 96,5 en los 
c sos de i f rto. Bajo l  hipótesis nula de una misma istribución del β-caroteno
e  casos y c ntroles, el valor esper do de e ta suma de ra gos sería  
E(U) = 2
)11010(10 ++  = 105 
y su varianza  
y su varianza 
 11
var(U) = 
12
)00075,01)(11010(1010 −++⋅  = 174,87, 
donde 
f = 
)11010)(11010)(1010(
)12)(12(2
−++++
−+  = 0,00075 
es el factor de corrección de la varianza debido a la presencia de t1 = 2 
observaciones empatadas para el valor 0,13 μg/g. Por tanto, el estadístico de la 
suma de rangos de Wilcoxon con corrección por continuidad es 
z = 
87,174
2/1|1055,96| −−  = 0,60, 
que corresponde a un valor P = 2P(Z ≥ 0,60) = 2{1 - Φ(0,60)} = 0,549 a partir de 
la distribución normal estandarizada de la Tabla 3 del Apéndice. Este valor 
aproximado de P es muy similar al valor exacto calculado en el Ejemplo 8.2, no 
habiendo así suficiente evidencia para rechazar la hipótesis de igualdad de 
distribuciones del nivel de β-caroteno en los casos de infarto de miocardio y los 
sujetos libres de la enfermedad. 
El test de la suma de rangos de Wilcoxon es también conocido como el test de 
Mann-Whitney. Aunque este último se deriva siguiendo un procedimiento distinto, 
ambas pruebas de hipótesis son completamente equivalentes, obteniéndose el mismo 
valor P con cualquiera de ellas. La comparación no paramétrica de distribuciones 
continuas en más de dos muestras independientes se conoce como el test de Kruskal-
Wallis. Este procedimiento es una generalización del test de la suma de rangos de 
Wilcoxon y puede consultarse en los textos sobre métodos no paramétricos 
referenciados en este tema. 
donde
 11
var(U) = 
12
)00075,01)(11010(1010 −++⋅  = 174,87, 
donde 
f = 
)11010)(11010)(1010(
)12)(12(2
−++++
−+  = 0,00075 
es el factor de corrección de la varianza debido a la presencia de t1 = 2 
observaciones empatadas par el v lor 0,13 μg/g. Po  tanto, el stadístico de la 
suma de ra gos de Wilcoxon con corrección por continuidad es 
z = 
87,174
2/1|1055,96| −−  = 0,60, 
que corresponde a un valor P = 2P(Z ≥ 0,60) = 2{1 - Φ(0,60)} = 0,549 a partir de 
la dist ibución normal estandarizada de la Tabla 3 del Apéndice. Este valor 
proximado de P es muy similar al valor ex cto calculado en el Ejemplo 8.2, no 
habiendo así suficiente evidencia para rech zar la hipótesis d  igualdad de 
distribucione  del niv l de β-caroteno en los casos de infarto de miocardio y los 
sujetos l bres de a enfermedad. 
El test de la suma de rangos de Wilcoxon es también conocido como el test de 
Mann-Whitney. Aunque este último se deriva siguiendo un procedi iento distinto, 
ambas pruebas de hipótesis son compl tamente eq ivalentes, obt niéndose el mismo 
valor P con cualquiera de ellas. La comparación no p ramétrica de distribucione  
continuas en más d  dos mue tras independientes se conoce como el test de Kruskal-
Wallis. Este procedimiento s una generalización del test de la suma de rangos de 
ilcoxon y ued  consultarse e  los t xtos sobre métodos no paramétricos 
referenciados en ste tema. 
es el factor de corrección de la varianza debido a la presencia de t1 = 2 observaciones 
mpat das para el valor 0,13 mg/g. Por tanto, el estadístico e la suma de rangos de 
Wilcoxon con corrección por continuidad es
 11
var(U) = 
12
)00075,01)(11010(1010 −++⋅  = 174,87, 
donde 
f = 
)11010)(11010)(1010(
)12)(12(2
−++++
−+  = 0,00075 
es el factor de corrección de la varianza debido a la presencia de t1 = 2 
observaciones empatadas para el valor 0,13 μg/g. Por tanto, el estadístico de la 
sum  de rangos de Wilcoxon con correcció  por continuidad es 
z = 
87,174
2/1|1055,96| −−  = 0,60, 
q e correspo de a un valor P = 2P(Z ≥ 0,60) = 2{1 - Φ(0,60)} = 0,549 a partir de 
la distribución normal estandarizada de la Tabla 3 del Apéndice. Este valor 
aproximado de P es muy similar al valor exacto calculado en el Ejemplo 8.2, no 
habiendo así suficiente evidencia para rechazar la hipótesis de igualdad de 
distribuciones del nivel de β-caroteno en los casos de infarto de miocardio y los 
sujetos libres de la enfermedad. 
El test de la suma de rangos de Wilcoxon es también conocido como el test de 
Mann-Whitney. Aunque este último se deriva siguiendo un procedimiento distinto, 
ambas pruebas de hipótesis son completamente equivalentes, obteniéndose el mismo 
valor P con cualquiera de ellas. La comparación no paramétrica de distribuciones 
continuas en más de dos muestras independientes se conoce como el test de Kruskal-
Wallis. Este procedimiento es una generalización del test de la suma de rangos de 
Wilcoxon y puede consultarse en los textos sobre métodos no paramétricos 
referenciados en este tema. 
que corresponde a un valor P = 2P(Z ≥ 0,60) = 2{1 – F(0,60)} = 0,549 a partir de la 
distribució  ormal est ndarizada de la Tabla 3 del Apén ice. Este valor aproximado de 
P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo así suficiente 
evidencia para rechazar la hipótesis de igualdad de istribucion s del nivel de b-caroteno 
en los casos de infarto de miocardio y los sujetos libres de la enfermedad.
128
Métodos no paramétricos
Pastor-Barriuso R.
Ta
bl
a 
8.
2 
Es
ta
dí
st
ic
os
 p
ar
a 
el
 te
st
 d
e 
la
 su
m
a 
de
 r
an
go
s y
 d
e 
lo
s r
an
go
s c
on
 si
gn
o 
de
 W
ilc
ox
on
 c
on
 c
or
re
cc
ió
n 
po
r c
on
tin
ui
da
d.
Si
n 
em
pa
te
s
C
on
 e
m
pa
te
s
Te
st
 d
e 
la
 su
m
a 
de
 ra
ng
os
 
28
Ta
bla
 8.
2 E
sta
dís
tic
os 
pa
ra 
el 
tes
t d
e l
a s
um
a d
e r
an
go
s y
 de
 lo
s r
an
go
s c
on
 si
gn
o d
e W
ilc
ox
on
 co
n c
orr
ecc
ión
 po
r c
on
tin
uid
ad
. 
 
Sin
 em
pa
tes
 
Co
n e
mp
ate
s 
Te
st 
de
 la
 su
ma
 de
 ra
ng
os 
12
)1
(
21
2
)1
(
2
1
2
1
2
1
1
11
+
+
−
+
+
−
=
 =
n
n
nn
n
n
n
r
z
n i
i
 
12
)
1)(1
(
21
2
)1
(
2
1
2
1
2
1
1
11
f
n
n
nn
n
n
n
r
z
n i
i
−
+
+
−
+
+
−
=
 =
 
 
 
co
n 
)1
)(1
)(
(
)1
)(1
(
2
1
2
1
2
1
1
−
+
+
+
+
−
+
=
 =
n
n
n
n
n
n
t
t
t
f
T i
i
i
i
 
Te
st 
de
 lo
s r
an
go
s c
on
 si
gn
o 
24
)1
2)(1
(
21
4
)1
(
1
+
+
−
+
−
=
 =
n
nn
nn
r
z
m i
i
 
24
)1
2)(1
(
21
4
)1
(
1
f
n
nn
nn
r
z
m i
i
−
+
+
−
+
−
=
 =
 
 
 
co
n 
2
)1
)(1
(
1 =
−
+
=
T i
i
i
i
t
t
t
f
 
  
 
28
Ta
bla
 8.
2 E
sta
dís
tic
os 
pa
ra 
el 
tes
t d
e l
a s
um
a d
e r
an
go
s y
 de
 lo
s r
an
go
s c
on
 si
gn
o d
e W
ilc
ox
on
 co
n c
orr
ecc
ión
 po
r c
on
tin
uid
ad
. 
 
Sin
 em
pa
tes
 
Co
n e
mp
ate
s 
Te
st 
de
 la
 su
ma
 de
 ra
ng
os 
12
)1
(
21
2
)1
(
2
1
2
1
2
1
1
11
+
+
−
+
+
−
=
 =
n
n
nn
n
n
n
r
z
n i
i
 
12
)
1)(1
(
21
2
)1
(
2
1
2
1
2
1
1
11
f
n
n
nn
n
n
n
r
z
n i
i
−
+
+
−
+
+
−
=
 =
 
 
 
co
n 
)1
)(1
)(
(
)1
)(1
(
2
1
2
1
2
1
1
−
+
+
+
+
−
+
=
 =
n
n
n
n
n
n
t
t
t
f
T i
i
i
i
 
Te
st 
de
 lo
s r
an
go
s c
on
 si
gn
o 
24
)1
2)(1
(
21
4
)1
(
1
+
+
−
+
−
=
 =
n
nn
nn
r
z
m i
i
 
24
)1
2)(1
(
21
4
)1
(
1
f
n
nn
nn
r
z
m i
i
−
+
+
−
+
−
=
 =
 
 
 
co
n 
2
)1
)(1
(
1 =
−
+
=
T i
i
i
i
t
t
t
f
 
  
 
28
Ta
bla
 8.
2 E
sta
dís
tic
os 
pa
ra 
el 
tes
t d
e l
a s
um
a d
e r
an
go
s y
 de
 lo
s r
an
go
s c
on
 si
gn
o d
e W
ilc
ox
on
 co
n c
orr
ecc
ión
 po
r c
on
tin
uid
ad
. 
 
Sin
 em
pa
tes
 
Co
n e
mp
ate
s 
Te
st 
de
 la
 su
ma
 de
 ra
ng
os 
12
)1
(
21
2
)1
(
2
1
2
1
2
1
1
11
+
+
−
+
+
−
=
 =
n
n
nn
n
n
n
r
z
n i
i
 
12
)
1)(1
(
21
2
)1
(
2
1
2
1
2
1
1
11
f
n
n
nn
n
n
n
r
z
n i
i
−
+
+
−
+
+
−
=
 =
 
 
 
co
n 
)1
)(1
)(
(
)1
)(1
(
2
1
2
1
2
1
1
−
+
+
+
+
−
+
=
 =
n
n
n
n
n
n
t
t
t
f
T i
i
i
i
 
Te
st 
de
 lo
s r
an
go
s c
on
 si
gn
o 
24
)1
2)(1
(
21
4
)1
(
1
+
+
−
+
−
=
 =
n
nn
nn
r
z
m i
i
 
24
)1
2)(1
(
21
4
)1
(
1
f
n
nn
nn
r
z
m i
i
−
+
+
−
+
−
=
 =
 
 
 
co
n 
2
)1
)(1
(
1 =
−
+
=
T i
i
i
i
t
t
t
f
 
  
Te
st 
de
 lo
s r
an
go
s c
on
 si
gn
o
 
 
28
Ta
bla
 8.
2 E
sta
dís
tic
os 
pa
ra 
el 
tes
t d
e l
a s
um
a d
e r
an
go
s y
 de
 lo
s r
an
go
s c
on
 si
gn
o d
e W
ilc
ox
on
 co
n c
orr
ecc
ión
 po
r c
on
tin
uid
ad
. 
 
Sin
 em
pa
tes
 
Co
n e
mp
ate
s 
Te
st 
de
 la
 su
ma
 de
 ra
ng
os 
12
)1
(
21
2
)1
(
2
1
2
1
2
1
1
11
+
+
−
+
+
−
=
 =
n
n
nn
n
n
n
r
z
n i
i
 
12
)
1)(1
(
21
2
)1
(
2
1
2
1
2
1
1
11
f
n
n
nn
n
n
n
r
z
n i
i
−
+
+
−
+
+
−
=
 =
 
 
 
co
n 
)1
)(1
)(
(
)1
)(1
(
2
1
2
1
2
1
1
−
+
+
+
+
−
+
=
 =
n
n
n
n
n
n
t
t
t
f
T i
i
i
i
 
Te
st 
de
 lo
s r
an
go
s c
on
 si
gn
o 
24
)1
2)(1
(
21
4
)1
(
1
+
+
−
+
−
=
 =
n
nn
nn
r
z
m i
i
 
24
)1
2)(1
(
21
4
)1
(
1
f
n
nn
nn
r
z
m i
i
−
+
+
−
+
−
=
 =
 
 
 
co
n 
2
)1
)(1
(
1 =
−
+
=
T i
i
i
i
t
t
t
f
 
  
 
28
Ta
bla
 8.
2 E
sta
dís
tic
os 
pa
ra 
el 
tes
t d
e l
a s
um
a d
e r
an
go
s y
 de
 lo
s r
an
go
s c
on
 si
gn
o d
e W
ilc
ox
on
 co
n c
orr
ecc
ión
 po
r c
on
tin
uid
ad
. 
 
Sin
 em
pa
tes
 
Co
n e
mp
ate
s 
Te
st 
de
 la
 su
ma
 de
 ra
ng
os 
12
)1
(
21
2
)1
(
2
1
2
1
2
1
1
11
+
+
−
+
+
−
=
 =
n
n
nn
n
n
n
r
z
n i
i
 
12
)
1)(1
(
21
2
)1
(
2
1
2
1
2
1
1
11
f
n
n
nn
n
n
n
r
z
n i
i
−
+
+
−
+
+
−
=
 =
 
 
 
co
n 
)1
)(1
)(
(
)1
)(1
(
2
1
2
1
2
1
1
−
+
+
+
+
−
+
=
 =
n
n
n
n
n
n
t
t
t
f
T i
i
i
i
 
Te
st 
de
 lo
s r
an
go
s c
on
 si
gn
o 
24
)1
2)(1
(
21
4
)1
(
1
+
+
−
+
−
=
 =
n
nn
nn
r
z
m i
i
 
24
)1
2)(1
(
21
4
)1
(
1
f
n
nn
nn
r
z
m i
i
−
+
+
−
+
−
=
 =
 
 
 
co
n 
2
)1
)(1
(
1 =
−
+
=
T i
i
i
i
t
t
t
f
 
  
129Pastor-Barriuso R.
Test de los rangos con signo de Wilcoxon
El test de la suma de rangos de Wilcoxon es también conocido como el test de Mann-
Whitney. Aunque este último se deriva siguiendo un procedimiento distinto, ambas pruebas de 
hipótesis son completamente equivalentes, obteniéndose el mismo valor P con cualquiera de 
ellas. La comparación no paramétrica de distribuciones continuas en más de dos muestras 
independientes se conoce como el test de Kruskal-Wallis. Este procedimiento es una 
generalización del test de la suma de rangos de Wilcoxon y puede consultarse en los textos 
sobre métodos no paramétricos referenciados en este tema.
8.3 TEST DE LOS RANGOS CON SIGNO DE WILCOXON
En este apartado se describe el procedimiento de contraste no paramétrico equivalente al test de 
la t de Student para muestras dependientes. Como se discutió en el Apartado 6.4, la prueba t 
para datos emparejados permite comparar dos medias poblacionales a partir de las diferencias 
observadas en cada pareja de datos dependientes. Esta prueba paramétrica requiere que el 
número de parejas sea suficientemente grande para asegurar que la media de las diferencias se 
distribuya de forma normal. En aquellas circunstancias donde se produzcan violaciones claras 
de este supuesto de normalidad (particularmente cuando el número de parejas sea muy reducido), 
resulta más apropiado utilizar el test no paramétrico de los rangos con signo de Wilcoxon. Bajo 
la asunción de que la variable a estudio sea continua, este procedimiento permite contrastar si 
las diferencias se distribuyen simétricamente alrededor de 0. La hipótesis nula establece, por 
tanto, que las diferencias de cualquier magnitud a favor de los sujetos de una población son 
igualmente probables que a favor de los sujetos de la otra población.
Con objeto de preservar el emparejamiento, se calculan las diferencias di en cada pareja de 
datos dependientes. La asignación de rangos a estas diferencias se realiza mediante el siguiente 
procedimiento. En primer lugar, se excluyen las parejas donde di = 0 y se asignan rangos ri a las 
restantes n diferencias no nulas, comenzando en 1 para la diferencia con menor valor absoluto 
hasta n para aquella con mayor valor absoluto. Si existen diferencias con el mismo valor 
absoluto (empates), se asigna a cada una de ellas la media de los rangos correspondientes. 
Finalmente, a cada rango se le otorga el signo correspondiente a su diferencia. Estos rangos 
con signo constituyen así una representación estandarizada de las diferencias, que preserva 
tanto el orden de magnitud como el signo de las mismas. El test de los rangos con signo de 
Wilcoxon se basa en la suma de los rangos positivos (o, equivalentemente, de los rangos 
negativos)
 13
W = 
=
m
i
ir
1
, 
donde m denota el número de rangos positivos. 
Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 
casos de infarto de miocardio y 20 controles emparejados por grupos 
quinquenales de edad. Los niveles de β-caroteno para estas 20 parejas de casos y 
controles se presentan en la Tabla 8.3. Una vez excluida la pareja con di = 0, el 
número efectivo de parejas es n = 19. A partir de estas parejas con diferencias no 
nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia absoluta 
0,01 μg/g hasta la mayor diferencia absoluta 1,00 μg/g. A las dos parejas con 
diferencia absoluta 0,27 μg/g se les otorga el rango medio (9 + 10)/2 = 9,5, y a 
otras dos parejas con diferencia absoluta 0,38 μg/g se les asigna su rango medio 
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos 
correspondientes a diferencias positivas y un signo negativo a los rangos 
correspondientes a diferencias negativas. La suma de rangos positivos resulta 

=
9
1i
ir  = 17 + 12,5 + ... + 3 = 91 
y la suma de rangos negativos 

=
10
1j
jr  = (-4) + (-14) + ... + (-9,5) = -99. 
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 19⋅20/2 = 
190. Así, una vez determinada la suma de rangos positivos 91, la suma de rangos 
negativos viene dada por 91 - 190 = -99. 
donde m denota el número de rangos positivos.
Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 casos 
de infarto de miocardio y 20 controles emparejados por grupos quinquenales de edad. 
Los niveles de b-caroteno para estas 20 parejas de casos y controles se presentan en la 
Tabla 8.3. Una vez excluida la pareja con di = 0, el número efectivo de parejas es n = 19. 
A partir de estas parejas con diferencias no nulas, se asignan rangos del 1 al 19 comenzando 
en la menor diferencia absoluta 0,01 mg/g hasta la mayor diferencia absoluta 1,00 mg/g. A las 
dos parejas con diferencia absoluta 0,27 mg/g se les otorga el rango medio (9 + 10)/2 = 9,5, 
y a otras dos parejas con diferencia absoluta 0,38 mg/g se les asigna su rango medio 
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos correspondientes 
130
Métodos no paramétricos
Pastor-Barriuso R.
a diferencias positivas y un signo negativo a los rangos correspondientes a diferencias 
negativas. La suma de rangos positivos resulta
 13
W = 
=
m
i
ir
1
, 
donde m denota el número de rangos positivos. 
Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 
casos de infarto de miocardio y 20 controles emparejados por grupos 
quinquenales de edad. Los niveles de β-caroteno para estas 20 parejas de casos y 
controles se presentan en la Tabla 8.3. Una vez excluida la pareja con di = 0, el 
número efectivo de parejas es n = 19. A partir de estas parejas con diferencias no 
nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia absoluta 
0,01 μg/g hasta la mayor diferencia absoluta 1,00 μg/g. A las dos parejas con 
diferencia absoluta 0,27 μg/g se les otorga el rango medio (9 + 10)/2 = 9,5, y a 
otras dos parejas con diferencia absoluta 0,38 μg/g se les asigna su rango medio 
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos 
correspondientes a diferencias positivas y un signo negativo a los rangos 
correspondiente  a diferencias negativas. La suma de rangos positivos resulta 

=
9
1i
ir  = 17 + 12,5 + ... + 3 = 91 
y la suma de rangos negativos 

=
10
1j
jr  = (-4) + (-14) + ... + (-9,5) = -99. 
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 19⋅20/2 = 
190. Así, una vez determinada la suma de rangos positivos 91, la suma de rangos 
negativos viene dada por 91 - 190 = -99. 
y la suma de rangos negativos
 13
W = 
=
m
i
ir
1
, 
donde m denota el n  rangos positivos. 
Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 
casos de infarto de miocardio y 20 controles emparejados por grupos 
quinquenales de edad. Los niveles de β-caroteno para estas 20 parejas de casos y 
controles se presentan en la Tabla 8.3. Una vez excluida la pareja con di = 0, el 
número efectivo de parejas es n = 19. A partir de estas parejas con diferencias no 
nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia absoluta 
0,01 μg/g hasta la mayor diferencia absoluta 1,00 μg/g. A las dos parejas con 
diferencia absoluta 0,27 μg/g se les otorga el rango medio (9 + 10)/2 = 9,5, y a 
otras dos parejas con diferencia absoluta 0,38 μg/g se les asigna su rango medio 
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos 
correspondientes a diferencias positivas y un signo negativo a los rangos 
correspondientes a diferencias negativas. La suma de rangos positivos resulta 

=
9
1i
ir  = 17 + 12,5 + ... + 3 = 91 
y la suma de rangos negativos 

=
10
1j
jr  = (− 4) + (− 14) + ... + (− 9,5) = − 99. 
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 19⋅20/2 = 
190. Así, una vez determinada la suma de rangos positivos 91, la suma de rangos 
negativos viene dada por 91 - 190 = -99. 
En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 19∙20/2 = 190. Así, 
una vez determinada la suma de rangos positivos 91, la suma de rangos negativos viene 
dada por 91 – 190 = – 99.
Tabla 8.3 β-caroteno en tejido adiposo en 20 casos y controles del estudio 
EURAMIC emparejados según grupos quinquenales de edad.
β-caroteno (μg/g)
Pareja Caso Control
Diferencia 
(di)
Diferencia 
absoluta
Rango 
absoluto
Rango con 
signo (ri)
1 0,47 0,55 – 0,08 0,08 4 – 4
2 0,75 0,09 0,66 0,66 17 17
3 0,78 0,40 0,38 0,38 12,5 12,5
4 0,66 0,13 0,53 0,53 15 15
5 0,09 0,49 – 0,40 0,40 14 – 14
6 0,20 0,31 – 0,11 0,11 5 – 5
7 0,08 0,28 – 0,20 0,20 7 – 7
8 0,08 0,46 – 0,38 0,38 12,5 – 12,5
9 0,31 0,16 0,15 0,15 6 6
10 0,30 0,87 – 0,57 0,57 16 – 16
11 0,16 1,16 – 1,00 1,00 19 – 19
12 0,13 0,13 0 0 — —
13 0,06 0,37 – 0,31 0,31 11 – 11
14 0,25 0,04 0,21 0,21 8 8
15 0,39 0,37 0,02 0,02 2 2
16 0,95 0,14 0,81 0,81 18 18
17 0,33 0,06 0,27 0,27 9,5 9,5
18 0,53 0,50 0,03 0,03 3 3
19 0,16 0,17 – 0,01 0,01 1 – 1
20 0,23 0,50 – 0,27 0,27 9,5 – 9,5
Suma de rangos positivos 
Tabla 8.3 β-caroteno en tejido adiposo en 20 casos y controles del estudio EURAMIC 
emparejados según grupos quinquenales de edad. 
 
 β-caroteno (μg/g) 
    Diferencia Diferencia Rango Rango con 
 Pareja Caso Control (di) absoluta absoluto signo (ri) 
 1 0,47 0,55 - ,08 0,08 4 -4 
 2 0,75 0,09 66 0,66 17 17 
 3 0,78 0,40 ,38 0,38 12,5 12,5 
 4 0,66 0,13 0,53 0,53 15 15 
 5 0,09 0,49 -0,40 0,40 14 -14 
 6 0,20 0,31 -0,11 0,11 5 -5 
 7 0,08 0,28 -0,20 0,20 7 -7 
 8 0,08 0,46 -0,38 0,38 12,5 -12,5 
 9 0,31 0,16 0,15 0,15 6 6 
 10 0,30 0,87 -0,57 0,57 16 -16 
 11 0,16 1,16 -1,00 1,00 19 -19 
 12 0,13 0,13 0 0 − − 
 13 0,06 0,37 -0,31 0,31 11 -11 
 14 0,25 0,04 0,21 0,21 8 8 
 15 0,39 0,  , 2 0,0  2 2 
 16 0,95 0,  1 0,8  18 18 
 17 0,33 0,  , 7 0,2  9,5 9,5 
 18 0,53 0,50 0,03 0,03 3 3 
 19 0,16 0,17 -0,01 0,01 1 -1 
 20 0,23 0,50 -0,27 0,27 9,5 -9,5 
 Suma de rangos posit vos 
=
9
1i
ir  = 91 
 Suma de rangos negativos 
=
10
1j
jr  = -99 
 
Suma de rangos negativos 
l  .  t   t ji  i      t l  l t i   
j    i l   . 
 
 t  /  
    i i  i i     
 j   t l i  l t  l t  i  i  
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  0,  ,  ,  ,  
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  ,  ,  ,  ,  
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,      
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,06 0,2  , 7 ,  ,  
  ,  ,  ,  ,    
  ,  ,  ,  ,    
  ,  ,  ,  ,  ,  ,  
    iti
9
i
i  = 91 
    ti  
=
10
1j
j =  99 
 
–  
131Pastor-Barriuso R.
Test de los rangos con signo de Wilcoxon
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 0, se 
esperaría la misma suma de rangos positivos que negativos y, por consiguiente, la suma esperada 
de rangos positivos sería la mitad de la suma total de rangos absolutos
 14
 [Tabla 8.3 aproximadamente aquí] 
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor 
de 0, se esperaría la misma suma de rangos positivos que negativos y, por consiguiente, 
la suma esperada de rangos p sitivos sería la mit d de la suma total d  rango  absolutos 
E(W) = 
4
)1(
2
)1(
2
1 +
=
+ nnnn , 
donde n indica el número de diferencias no nulas. Al igual que en el apartado anterior, 
el valor exacto de P para el contraste bilateral vendrá dado por la probabilidad bajo H0 
de obtener una suma de rangos positivos tanto o más distante de E(W) que su valor 
observado w; esto es, si w > E(W), 
P = 2P(W ≥ w | H0) 
y, si w ≤ E(W), 
P = 2P(W ≤ w | H0). 
Bajo dicha hipótesis nula, cualquier combinación de un número arbitrario de rangos 
positivos r1, ..., rm es igualmente probable y su probabilidad viene determinada por 
n2
1 , 
donde 2n es el número de subconjuntos de cualquier tamaño que pueden obtenerse a 
partir de las n parejas con diferencias no nulas. Haciendo uso de este resultado, la Tabla 
9 del Apéndice facilita los percentiles de la distribución de la suma de rangos positivos 
bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 
0, cuando el número de diferencias no nulas es n ≤ 16. Para un nivel de significación α 
donde n indica el número de diferencias no nulas. Al igual que en el apartado anterior, el valor 
exacto de P para el contraste bilateral vendrá dado por la probabilidad bajo H0 de obtener una 
suma de rangos positivos tanto o más distante de E(W) que su valor observado w; esto es, 
si w > E(W),
 14
 [Tabla 8.3 aproximadamente aquí] 
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor 
de 0, se esperaría la misma suma de rangos positivos que negativos y, por consiguiente, 
la suma esperada de rangos positivos sería la mitad de la suma total de rangos absolutos 
E(W) = 
4
)1(
2
)1(
2
1 +
=
+ nnnn , 
donde n indica el número de iferencias no nu as. Al igual que en el apartado anterior, 
el valor exacto de P para el contraste bilateral vendrá dado por la probabilidad bajo H0 
de obtener una su a de rangos positivos tanto o más distant  d  E(W) que su val  
observado w; esto es, si w > E(W), 
P = 2P(W ≥ w | H0) 
y, i w ≤ E(W), 
   ≤  | . 
Bajo dicha hipótesis nula, cualquier combinación de un número arbitrario de rangos 
positivos r1, ..., rm es igualmente probable y su probabilidad viene determinada por 
n2
1 , 
donde 2n es el número de subconjuntos de cualquier tamaño que pueden obtenerse a 
partir de las n parejas con diferencias no nulas. Haciendo uso de este resultado, la Tabla 
9 del Apéndice facilita los percentiles de la distribución de la suma de rangos positivos 
bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 
0, cuando el número de diferencias no nulas es n ≤ 16. Para un nivel de significación α 
y, si w ≤ E(W),
 14
 [Tabla 8.3 aproximadamente aquí] 
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor 
de 0, se esperaría la misma suma de rangos positivos que negativos y, por consiguiente, 
la suma es erada de rangos positivos sería la mitad de la suma total de rang s absolutos 
E(W) = 
4
)1(
2
)1(
2
1 +
=
+ nnnn , 
donde n ndica el número d  diferencias no nula . Al igual que en el apart do anterior, 
el valor exacto de P para el contraste bil teral vendrá dado p r la probabili ad bajo H0 
de obtener una suma de rang s positivos tanto o más distante de E(W) que su valor 
observa o w; esto es, si w > E(W), 
P = 2P(W ≥ w | H0) 
y, si w ≤ E(W), 
P = 2P(W ≤ w | H0). 
Bajo dicha hipótesis nula, cualquier combinación de un número arbitrario de rangos 
po itivos r1, ..., rm es igualmente probable y su probabilidad viene determinada por 
n2
1 , 
donde 2n es el número de subconjuntos de cualquier tamaño que pueden obtenerse a 
partir de las n parejas con diferencias no nulas. Haciendo uso de este resultado, la Tabla 
9 del Apéndice facilita los perce tiles de la distribución de la suma de rangos positivos 
bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 
0, cuando el número de diferencias no nulas es n ≤ 16. Para un nivel d  significación α 
Bajo dicha hipótesis nula, cualquier combinación de un número arbitrario de rangos positivos 
r1, ..., rm es igualmente probable y s  probabilidad viene deter inada po
 14
 [Tabla 8.3 aproximadamente aquí] 
Bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor 
de 0, se esperaría la misma suma de rangos positivos que negativos y, por consiguiente, 
la suma esperada de rangos positivos sería la mitad de la suma total de rangos absolutos 
E(W) = 
4
)1(
2
)1(
2
1 +
=
+ nnnn , 
donde n indica el número de diferencias no nulas. Al igual que en el apartado nt rior, 
el valor xacto de P para el contraste bilateral vendrá dado por la probabilidad bajo H0 
de obten r un  suma de r s siti s tanto o más distante de E(W) que su valor 
observado w; esto es, si w > E(W), 
P = 2P(W ≥ w | H0) 
y, si w ≤ E(W), 
P = 2P(  ≤  | 0). 
Bajo dicha hipótesis nula, cualquier combinación de un número arbitrario de rangos 
positivos r1, ..., rm es igualment  pr bable y su probabilidad viene determinada por 
n2
1 , 
donde 2n es el número de subconjuntos de cualquier tamaño que pueden obtenerse a 
partir de l s n parejas con diferencias no nul s. Haciendo uso de este resultado, la Tabla 
9 del Apéndice facilita los p rc ntiles de la distribución e la suma de angos positivos 
bajo la hipótesis nula de que las diferencias se distribuyen simétricamente alrededor de 
0, cuando el número de diferencias no nulas es n ≤ 16. Para un nivel de significación α 
donde 2n es el número de subco juntos de cualq ier tamaño que pue en obtenerse a partir de 
las n parejas con difer ncias no nulas. Haciendo uso de este resultado, la Tabla 9 del Apéndice 
facilita los percentiles de la distribución de la suma de rangos positivos bajo la hipótesis nula de 
que l s dif rencias s  distribuyen simét i a ente alrededor de 0, cuando l número de diferencias 
no nulas es n ≤ 16. Para un nivel de sig ificación α pre s blecido, la hipótesis nula se rechazará 
si la suma de rangos pos tivos es infe ior al percent l α/2 o superior al perce til 1 – α/2.
Ejemplo 8.7 Como ilustración, supongamos que la suma de rangos positivos es w = 25 
a partir de n = 12 parejas de datos dependientes o  iferencias no nulas. La distri ución 
bajo H0 de la suma de rangos positivos es simétrica alrededor de E(W) = n(n + 1)/4 = 
12(12 + 1)/4 = 39, de lo cual se deduce que
 15
preestablecido, la hipótesis nula se rechazará si la suma de rangos positivos es inferior 
al perc ntil α/2 o superior al perce til 1 - α/2. 
Ejemplo 8.7 Como ilustración, supongamos que la suma de rangos positivos es w 
= 25 a partir de n = 12 parejas de datos dependientes con diferencias no nulas. La 
distribución bajo H0 de la suma de rangos positivos es simétrica alrededor de 
E(W) = n(n + 1)/4 = 12(12 + 1)/4 = 39, de lo cual se deduce que 
w0,05 = n(n + 1)/2 – w0,95 = 78 – 60 = 18, 
donde w0,95 = 60 se obtiene de la Tabla 9 del Apéndice para n = 12. Como la suma 
observada w = 25 > w0,05 = 18, se sigue que P(W ≤ 25 | H0) > 0,05. Así, el 
contraste bilateral arroja un valor P > 0,10. 
En aquellas muestras donde el número de diferencias no nulas sea superior a 16, 
puede utilizarse la siguiente aproximación normal. Dado que los rangos con signo 
constituyen una representación estandarizada de las diferencias observadas en cada 
pareja de datos dependientes, podría construirse un estadístico sustituyendo las 
diferencias no nulas di por los rangos con signo ri en el test de la t de Student para 
muestras dependientes (Apartado 6.4). Así, el estadístico resulta   
n
s
rz
r
= , 
donde la media de los m rangos positivos y n - m rangos negativos es 
donde w0,95 = 60 se obtiene de la T bla 9 del Apéndice para n = 12. Como la suma observada 
w = 25 > w0,05 = 18, se sigue que P(W ≤ 25 | H0) > 0,05. Así, el contraste bil teral arroja 
un valor P > 0,10.
En aquell s muest s donde el número de diferencias no nulas sea superior a 16, puede 
utilizarse la siguiente aproximación normal. Dado que los rangos con signo constituyen una 
representación estandarizada de las diferencias observadas en cada pareja de datos dependientes, 
podría construirse un estadístico sustituyendo las diferencias no nulas di por los rangos con 
signo ri en el test de la t de Student para muestras dependientes (Apartado 6.4). Así, el estadístico 
resulta  
 15
preestablecido, la hipótesis nula se r chazará si la suma e rangos p sitivos es inferior 
al perce til α/2 o superior al percentil 1 - α/2. 
Ejemplo 8.7 Como ilustración, supongamos que la suma de rangos positivos es w 
= 25 a partir de n = 12 parejas de datos ependie t s co  iferencias no nulas. La 
istribución bajo H0 de la suma de ra gos p sitivos es simétrica alre or de 
E(W) = n(n + 1)/4 = 12(12 + 1)/4 = 39, de lo cual se educe que 
w0,05 = n(n + 1)/2 - w0,95 = 78 – 60 = 18, 
d nde w0,95 = 60 se obtiene de la Tabla 9 del Apén ic  para n = 12. C mo la suma 
observada w = 25 > w0,05 = 18, se s gue que P(W ≤ 25 | H0) > 0,05. Así, el 
contraste bilateral arroja un val r P > 0,10. 
En aquellas uestras donde el número de diferencias no nulas sea superior a 16, 
puede utilizarse la siguien e aproximación normal. Dado que los rangos c n signo 
constituyen una representación estandarizada de las diferencias observadas en cada 
pareja de datos dependientes, podría construirse un estadístico sustituyendo las 
diferencias no nulas di por los rangos con igno i en el test de la t de Stu ent para 
muestras d pendientes (Apartado 6.4). Así, el stadístico resulta   
n
s
rz
r
= , 
donde la media de los m rangos positivos y n - m rangos negativos es 
132
Métodos no paramétricos
Pastor-Barriuso R.
donde la media de los m rangos positivos y n – m rangos negativos es
 16




 +
−=



 



 +
−+=




+==



=
==
−
===
4
)1(2
2
)1(1
11
1
11
111
nnrn
nnrrn
rrnrnr
m
i
i
m
i
i
m
i
i
mn
j
j
m
i
i
n
i
i
 
y, en el caso de que no haya empates, la varianza bajo H0 de los rangos con signo se 
estima mediante 
.
6
)12)(1(11
1
2
1
22 ++
=== 
==
nninrns
n
i
n
i
ir  
Aplicando ambas resultados, se tiene el estadístico 
)(
)(
24
)12)(1(
4
)1(
1
WSE
WEW
nnn
nnr
z
m
i
i
−
=
++
+
−
=

= , 
que representa la diferencia entre el valor observado y esperado de la suma de rangos 
positivos, dividida por su error estándar bajo H0. Si el número de parejas con diferencias 
no nulas es n > 16, este estadístico sigue aproximadamente una distribución normal 
estandarizada bajo la hipótesis nula de simetría de las diferencias alrededor de 0. 
Ejemplo 8.8 A partir del estudio EURAMIC, se seleccionan 1000 muestras 
aleatorias de 20 parejas de casos y controles agrupados según quinquenios de 
edad. La Figura 8.2 presenta la distribución muestral de la diferencia media de β-
caroteno d  entre casos y controles, así como la distribución muestral de la suma 
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso 
presenta un nivel superior de β-caroteno que el control). Debido al reducido 
número de parejas, la media de las diferencias de β-caroteno presenta una 
y, en el caso de que no haya empates, la varianza bajo H0 de los rangos con signo se estima 
mediante
 16




 +
−



 



 +
−+=




+==


=
==
−
===
4
)1(2
2
)1(1
11
1
11
111
nnr
nnrrn
rrrnr
m
i
i
m
i
i
m
i
i
mn
j
j
m
i
i
n
i
i
 
y, en el caso de que no haya empates, la varianza bajo H0 de los rangos con signo se 
estima mediante 
.
6
)12)(1(11
1
2
1
22 ++
=== 
==
nninrns
n
i
n
i
ir  
Aplicando ambas resultados, se tiene el estadístico 
)(
)(
24
)12)(1(
4
)1(
1
WSE
WEW
nnn
nnr
z
m
i
i
−
=
++
+
−
=

= , 
que representa la diferencia entre el valor observado y esperado de la suma de rangos 
positivos, dividida por su error estándar bajo H0. Si el número de parejas con diferencias 
no nulas es n > 16, este estadístico sigue aproximadamente una distribución normal 
estandarizada bajo la hipótesis nula de simetría de las diferencias alrededor de 0. 
Ejemplo 8.8 A partir del estudio EURAMIC, se seleccionan 1000 muestras 
aleatorias de 20 parejas de casos y controles agrupados según quinquenios de 
edad. La Figura 8.2 presenta la distribución muestral de la diferencia media de β-
caroteno d  entre casos y controles, así como la distribución muestral de la suma 
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso 
presenta un nivel superior de β-caroteno que el control). Debido al reducido 
número de parejas, la media de las diferencias de β-caroteno presenta una 
Aplicando ambos resultados, se tiene el estadístico
 16




 +
−=



 



 +
−+=




+==



=
==
−
===
4
)1(2
2
)1(1
11
1
11
111
nnrn
nnrrn
rrnrnr
m
i
i
m
i
i
m
i
i
mn
j
j
m
i
i
n
i
i
 
y, en el caso de que no haya empates, la varianza bajo H0 de los rangos con signo se 
estima mediante 
.
6
)12)(1(11
1
2
1
22 ++
=== 
==
nninrns
n
i
n
i
ir  
Aplicando ambas resultados, se tiene el estadístico 
)(
)(
24
)12)(1(
4
)1(
1
WSE
WEW
nnn
nnr
z
m
i
i
−
=
++
+
−
=

= , 
que representa la diferencia entre el valor observado y esperado de la suma de rangos 
positivos, dividida por su error estándar bajo H0. Si el número de parejas con diferencias 
no nulas es  > 16, est  est dís ico sigue aproximadam nte una distribución no mal 
estandarizada bajo la hipótesis nula de simetría de las difer ncias alrededor de 0. 
Ejemplo 8.8 A partir del estudio EURAMIC, se seleccionan 1000 muestras 
aleatorias de 20 parejas de casos y controles agrupados según quinquenios de 
edad. La Figura 8.2 presenta la distribución mu tral de la diferencia media de β-
caroteno d  entre casos y controles, así como la distribución muestral de la suma 
de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso 
presenta un nivel superior de β-caroteno que el control). Debido al reducido 
número de parejas, la media de las diferencias de β-caroteno presenta una 
que representa la diferencia entre el valor observado y esperado de la suma de rangos positivos, 
dividida or u error estándar bajo H0. Si e  número de parejas con diferencias no nul s es n > 16, 
este estadístico sigue aproxim dam nte una distribución normal estandarizad  bajo la hipótesis 
nula de simetría de las diferencias alrede or de 0.
Ejemplo 8.8 A partir del estudio EURAMIC, se seleccionan 1000 muestras aleatorias de 20 
parejas de casos y controles agrupados según quinquenios de edad. La Figura 8.2 presenta la 
distribución muestral de la diferencia media de b-caroteno 
 24
Para concretar el problem , supongamos que se disp ne de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primera muestra y la otra observación x2 a la segunda 
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta 
situación, ya que las medias de ambas muestras no son independientes por provenir de 
observacion  co elacio adas. Sin mbarg , la c mpar ción se simplifica notablemente 
si se calculan las iferencias d = x1 - x2 n cada una de las n observacion s emparejadas. 
Por un lado, como l s di tintas parejas no están relacionada  ntre sí, sta  diferencias 
son independientes. Por otro lado, la media de las diferencias d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos muestras 
dependientes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
 entre asos y controles, así como 
la distribución muestral de la suma de rangos positivos W (esto es, la suma de rangos en las 
parejas donde el ca o presenta un nivel superior de b-caroteno que el control). Debido al 
reducido número de parejas, la media de las diferencias de b-caroteno presenta una distribución 
asimétrica y, en consecuencia, la utilización de la prueba de la t de Student para muestras 
dependientes resulta cuestionable. Sin embargo, a pesar de contar únicamente con 20 parejas, 
la distribución de la suma de rangos positivos presenta un aspecto mucho más normal, 
permitiendo así el uso de la aproximación normal al test de los rangos con signo de Wilcoxon.
En el caso de existir diferencias con el mismo valor absoluto, ha de utilizarse la siguiente 
versión corregid del estadístico del test e los rangos con signo
 17
distribución asimétrica y, en consecuencia, la utilización de la prueba de la t de 
Student para muestras dependientes resulta cuestionable. Sin embargo, a pesar de 
contar únicamente con 20 parejas, la distribución de la suma de rangos positivos 
pre enta un aspecto mucho más normal, permiti do así el uso de la aproximación 
normal al test de los rangos con signo de Wilcoxon. 
[Figura 8.2 aproximadamente aquí] 
En l caso de existir difer ncias con el mismo valor absoluto, ha de utilizarse la 
siguiente versión corregida del estadístico del test de los rangos con signo 
24
)12)(1(
4
)1(
1
fnnn
nnr
z
m
i
i
−++
+
−
=

= , 
cuya varianza incluye el término de corrección por empates 
2
)1)(1(
1

=
−+
=
T
i
iii ttt
f , 
donde ti es el número de empates para la i-ésima diferencia absoluta. Esta corrección 
conlleva una reducción de la varianza y su efecto sobre el estadístico será apreciable 
cuando el número de empates sea elevado (tal es el caso de las variables cualitativas 
ordinales). Dado el carácter discreto de la suma de rangos y el reducido tamaño 
muestral inherente a las pruebas no paramétricas, la aproximación normal a estos 
estadísticos suele incorporar además la corrección por continuidad de la Tabla 8.2 para 
reducir la probabilidad de incurrir en un error de tipo I. 
133Pastor-Barriuso R.
Test de los rangos con signo de Wilcoxon
 Figura 8.2
 
-0,6 -0,3 0 0,3
0
5
10
15
20
25
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
0 30 60 90 120 150 180
0
5
10
15
20
25
(a)
W
(b)
d
Figura 8.2 Distribución muestral de la diferencia media de β-caroteno 
 24
Para concretar el problema, supongamos que se dispone de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primera muestra y la otra observación x2 a la segunda 
muestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta 
situación, ya que las medias de ambas muestras no son independientes por provenir de 
observaciones correlacionadas. Sin embargo, la comparación se simplifica notablemente 
si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. 
Por un lado, como las distintas parejas no están relacionadas entre sí, estas diferencias 
on independientes. Por otro lado, la media de las diferencias d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos muestras 
dependientes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
entre casos y controles (a) y de la 
suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados 
según quinquenios de e ad a partir del tudio EURAMIC. Las líneas verticales en trazo discontinuo 
corresponden a los parámetros subyacentes μ1 – μ2 = – 0,09 μg/g y E(W) = 80,3.
cuya varianza incluye el término de corrección por empates
 17
distribución asimétrica y, en consecuencia, la utilización de la prueba de la t de 
Student para muestras dependientes resulta cuestionable. Sin embargo, a pesar de 
contar únicamente con 20 parejas, la distribución de la suma de rangos positivos 
presenta un aspecto mucho más normal, permitiendo así el uso de la aproximación 
normal al test de l s rangos con signo de Wilcoxon. 
[Figura 8.2 aproximadamente aquí] 
En el caso de existir diferencias con el ismo valor absoluto, ha de utilizarse la 
siguiente versión corregida del estadístico del test de los rangos con signo 
24
)12)(1(
4
)1(
1
fnnn
nnr
z
m
i
i
−++
+
−
=

= , 
cuya varianza incluye el término de corrección por empates 
2
)1)(1(
1

=
−+
=
T
i
iii ttt
f , 
donde ti es el número de empates para la i-ésima diferencia absoluta. Esta corrección 
conlleva una reducción de la varianza y su efecto sobre el estadístico será apreciable 
cuando el número de empates sea elevado (tal es el caso de las variables cualitativas 
ordinales). Dado el carácter discreto de la suma de rangos y el reducido tamaño 
muestral inherente a las pruebas no paramétricas, la aproximación normal a estos 
estadísticos suele incorporar además la corrección por continuidad de la Tabla 8.2 para 
reducir la probabilidad de incurrir en un error de tipo I. 
donde ti es el número de empates para la i-ésima diferencia absoluta. Esta corrección conlleva 
una re ucción de la v rianza y su efect  sobre el estadístico s rá apreciable cuando el úmero 
de empates sea elevado (tal es el caso de las variables cualitativas ordinales). Dado el carácter 
dis reto de la suma de rangos y el reducido tamaño muestral inherente  las pru bas no 
paramétricas, la aproximación normal a estos estadísticos suele incorporar además la corrección 
por co tinuidad d  la Tabla 8.2 para reducir la probabilidad  incurrir en un error de tipo I.
Ejemplo 8.9 En la Tabla 8.3 se obtuvieron n = 19 > 16 parejas de casos y controles con 
diferencias no nulas de b-caroteno y, en consecuencia, puede utilizarse la aproximación 
normal a la suma de rangos positivos W = 91. Bajo la hipótesis nula de simetría de las 
diferencias alrededor de 0, el valor esperado de la suma de rangos positivos es
 18
Ejemplo 8.9 En la Tabla 8.3 se obtuvieron n = 19 > 16 parejas de casos y 
controles con diferencias no nulas de β-caroteno y, en consecuencia, puede 
utilizarse la aproximación normal a la suma de rangos positivos W = 91. Bajo la 
hipótesis nula de simetría de las diferencias alrededor de 0, l valor esperado de la 
suma de rangos positivos e  
E(W) = 
4
)119(19 +  = 95 
y la varianza 
var(W) = 
24
6)1192)(119(19 −+⋅+  = 617,25, 
donde el término de corrección de la varianza por los t1 = 2 empates con 
diferencia absoluta 0,27 μg/g y los t2 = 2 empates con diferencia absoluta 0,38 
μg/g es 
f = 
2
)12)(12(2)12)(12(2 −++−+  = 6. 
Aplicando la corrección por continuidad, el test estadístico de los rangos con 
signo de Wilcoxon resulta entonces 
z = 
25,617
2/1|9591| −−  = 0,14, 
con un valor P = 2P(Z ≥ 0,14) = 2{1 - Φ(0,14)} = 0,889. Notar que el resultado 
del test sería idéntico de utilizar la suma de rangos negativos W = -99, ya que su 
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. Así, 
una vez controladas las diferencias de edad, las diferencias de β-caroteno a favor 
y la varianza
 18
Ejemplo 8.9 En la Tabla 8.3 se obtuvieron n = 19 > 16 parejas de casos y 
controles con diferencias no nulas de β-caroteno y, en consecuencia, puede 
utilizarse la aproximación normal a la suma de rangos positivos W = 91. Bajo la 
hipótesis nula de simetría de las diferencias alrededor de 0, el valor esperado de la 
suma de rangos positivos es 
E(W) = 
4
)119(19 +  = 95 
y la varianza 
var(W) = 
24
6)1192)(119(19 −+⋅+  = 617,25, 
donde el término de corrección de la varianza por los t1 = 2 empates con 
diferencia absoluta 0,27 μg/g y los t2 = 2 empates con diferencia absoluta 0,38 
μg/g es 
f = 
2
)12)(12(2)12)(12(2 −++−+  = 6. 
Aplicando la corrección por continuidad, el test estadístico de los rangos con 
signo de Wilcoxon resulta entonces 
z = 
25,617
2/1|9591| −−  = 0,14, 
con un valor P = 2P(Z ≥ 0,14) = 2{1 - Φ(0,14)} = 0,889. Notar que el resultado 
del test sería idéntico de utilizar la suma de rangos negativos W = -99, ya que su 
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. Así, 
una vez controladas las diferencias de edad, las diferencias de β-caroteno a favor 
donde el término de corrección de la varianza por los t1 = 2 empates con diferencia 
absoluta 0,27 mg/g y l s t2 = 2 empates con diferencia absoluta 0,38 mg/g es
 18
Ejemplo 8.9 En la Tabla 8.3 se obtuvieron n = 19 > 16 parejas de casos y 
controles con diferencias no nulas de β-caroteno y, en consecuencia, puede 
utilizarse la aproximación normal a la suma de rangos positivos W = 91. Bajo la 
hipótesis nula de simetría de las diferencias alrededor de 0, el valor esperado de la 
suma de ra gos positivos es 
E(W) = 
4
)119(19 +  = 95 
y la varianza 
var(W) = 
24
6)1192)(119(19 −+⋅+  = 617,25, 
donde el término de corrección de la varianza por los t1 = 2 empates con 
diferencia absoluta 0,27 μg/g y los t2 = 2 empates con diferencia absoluta 0,38 
μg/g es 
f = 
2
)2)(12(2)12)(12(2 −++−+  = 6. 
Aplicando la corrección por continuidad, el test estadístico de los rangos con 
signo de Wilcoxon resulta entonces 
z = 
25,617
2/1|9591| −−  = 0,14, 
con un valor P = 2P(Z ≥ 0,14) = 2{1 - Φ(0,14)} = 0,889. Notar que el resultado 
del test sería idéntico de utilizar la suma de rangos negativos W = -99, ya que su 
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. Así, 
una vez controladas las diferencias de edad, las diferencias de β-caroteno a favor 
134
Métodos no paramétricos
Pastor-Barriuso R.
Aplicando la corrección por continuidad, el test estadístico de los rangos con signo de 
Wilcoxon resulta entonces
 18
Ejemplo 8.9 En la Tabla 8.3 se obtuvieron n = 19 > 16 parejas de casos y 
controles con diferencias no nulas de β-caroteno y, en consecuencia, puede 
utilizarse la aproximación normal a la suma de rangos positivos W = 91. Bajo la 
hipótesis nula de simetría de las diferencias alrededor de 0, el valor esperado de la 
suma de rangos positivos es 
E(W) = 
4
)119(19 +  = 95 
y la varianza 
var(W) = 
24
6)1192)(119(19 −+⋅+  = 617,25, 
donde el término de corrección de la varianza por los t1 = 2 empates con 
diferencia absoluta 0,27 μg/g y los t2 = 2 empates con diferencia absoluta 0,38 
μg/g es 
f = 
2
)12)(12(2)12)(12(2 −++−+  = 6. 
Aplicando la corrección por continuidad, el test estadístico de los rangos con 
signo de Wilcoxon resulta entonces 
z = 
25,617
2/1|9591| −−  = 0,14, 
con un valor P = 2P(Z ≥ 0,14) = 2{1 - Φ(0,14)} = 0,889. Notar que el resultado 
del test sería idéntico de utilizar la suma de rangos negativos W = -99, ya que su 
valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. Así, 
una vez controladas las diferencias de edad, las diferencias de β-caroteno a favor 
con un valor P = 2P(Z ≥ 0,14) = 2{1 – F(0,14)} = 0,889. Notar que el resultado del test 
sería idéntico de utilizar la suma de rangos negativos W = – 99, ya que su valor esperado 
es E(W) = – 95 y su varianza coincide con var(W) = 617,25. Así, una vez controladas las 
ifer ncias de edad, las diferenci s de b-caroten  a favor de los casos de infarto no son 
significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad.
La comparación no paramétrica de una variable continua en más de dos muestras dependientes 
puede realizarse mediante el test de Friedman. Bajo la asunción de que la variable sigue la 
misma distribución continua excepto posibles diferencias de localización (traslaciones), esta 
prueba permite contrastar la hipótesis nula de una misma localización de la variable en cada una 
de las poblaciones. Este procedimiento también se fundamenta en la definición de rangos y 
puede consultarse en los libros específicos de métodos no paramétricos.
8.4 TEST EXACTO DE FISHER
En el Apartado 7.4 se presentó el test χ2 de Pearson como un procedimiento general para evaluar 
la asociación estadística entre las variables de una tabla 2×2. Esta prueba se basa en la asunción 
de que el tamaño muestral es suficientemente grande para justificar la aproximación chi-
cuadrado a la distribución nula del estadístico χ2 de Pearson. En concreto, si los marginales de 
la tabla son pequeños, de tal forma que la frecuencia esperada en alguna de las celdas sea 
inferior a 5, esta aproximación puede resultar imprecisa. En tales circunstancias, es preferible 
utilizar métodos alternativos basados en la distribución exacta de las frecuencias de las celdas 
de una tabla 2×2. En este apartado se describe el más conocido de estos procedimientos, el test 
exacto de Fisher.
Ejemplo 8.10 La Tabla 8.4 presenta el número de sujetos con niveles de b-caroteno 
superiores e inferiores a 0,30 mg/g entre los 10 casos de infarto y los 10 controles del 
estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la 
hipótesis de independencia entre el nivel de b-caroteno y el riesgo de infarto de miocardio, 
la frecuencia esperada en cada celda sería
 20
Ejemplo 8.1. Bajo la hipótesis de independencia entre el nivel de β-caroteno y el 
riesgo de infarto de mio ardio, la frecuencia esperada en cada celda sería 
E11 = E12 = 
20
105 ⋅  = 2,5, 
E21 = E22 = 
20
1015 ⋅  = 7,5. 
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la 
prueba χ 2 de Pearson no será aplicable a esta tabla 2×2 y la asociación ha de 
contrastarse mediante otro procedimiento. 
[Tabla 8.4 aproximadamente aquí] 
El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una 
tabla cualquiera con frecuencias a, b, c y d, bajo la hipótesis nula de independencia y 
asumiendo que todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condición 
de marginales fijos se impone por conveniencia matemática, ya que los cálculos se 
simplifican notablemente y los marginales contienen poca información sobre la 
asociación a estudio. Bajo H0, la probabilidad de enfermar π es común en los sujetos 
expuestos y los no expuestos. Así, el número de enfermos entre los expuestos sigue una 
distribución binomial de parámetros n1 y π, mientras que entre los no expuestos sigue 
una distribución binomial de parámetros n2 y π. Como las muestras de expuestos y no 
expuestos son independientes, la probabilidad de obtener una tabla con frecuencias a, b, 
c y d es el producto de las probabilidades binomiales de observar a sujetos enfermos 
entre los expuestos y c entre los no expuestos, 
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba χ2 de 
Pearson no será aplicable a esta tabla 2×2 y la asociación ha de contrastarse mediante otro 
procedimiento.
135Pastor-Barriuso R.
Test exacto de Fisher
Tabla 8.4 β-caroteno en tejido adiposo en 
10 casos de infarto de miocardio y 10 controles 
seleccionados aleatoriamente del estudio 
EURAMIC.
β-caroteno  
(μg/g)
Infarto de miocardio
Caso Control Total
> 0,30 1 4 5
≤ 0,30 9 6 15
Total 10 10 20
El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla 
cualquiera con frecuencias a, b, c y d, bajo la hipótesis nula de independencia y asumiendo que 
todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condición de marginales fijos se 
impone por conveniencia matemática, ya que los cálculos se simplifican notablemente y los 
marginales contienen poca información sobre la asociación a estudio. Bajo H0, la probabilidad 
de enfermar π es común en los sujetos expuestos y los no expuestos. Así, el número de enfermos 
entre los expuestos sigue una distribución binomial de parámetros n1 y π, mientras que entre los 
no expuestos sigue una distribución binomial de parámetros n2 y π. Como las muestras de 
expuestos y no expuestos son independientes, la probabilidad de obtener una tabla con 
frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos 
enfermos entre los expuestos y c entre los no expuestos,
 21
 P(a, b, c, d | H0) = cncana c
n
a
n
−−
−



−


 21 )1( )1( 21 ππππ  
  = 21 )1(  
1
21 mm
am
n
a
n
ππ −



−



 . 
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el número de 
casos expuestos varía entre k1 = max(0, m1 - n2) y k2 = min(n1, m1). Por tanto, la 
probabilidad de obtener una tabla con frecuencias a, b, c y d condiciona a unos 
marginales n1, n2, m1 y m2 fijos viene dada por 
 P(a, b, c, d | n1, n2, m1, m2; H0) = 

=
−



−




−



−




2
1
21
21
)1(  
)1(  
1
21
1
21
k
kk
mm
mm
km
n
k
n
am
n
a
n
ππ
ππ
 
  = 



 +




−




=




−








−





= 1
21
1
21
1
21
1
21  
 
 
2
1 m
nn
am
n
a
n
km
n
k
n
am
n
a
n
k
kk
, 
donde el denominador de la última igualdad se obtiene de las propiedades de los 
coeficientes binomiales. Esta distribución de probabilidades entre todas las posibles 
tablas con los mismos marginales se conoce como distribución hipergeométrica y 
determina la distribución bajo H0 del número de casos expuestos y no expuestos en una 
muestra de m1 casos obtenidos a partir de un total de n1 sujetos expuestos y n2 sujetos 
no expuestos. Notar que esta probabilidad depende únicamente del número a de casos 
expuestos, dado que una vez conocido a las frecuencias de las restantes celdas quedan 
determinadas por los marginales de la tabla. Cabe destacar también que aunque los 
cálculos se han derivado de un estudio prospectivo, se obtendría el mismo resultado a 
partir de un estudio retrospectivo en términos del número de sujetos expuestos entre 
casos y controles,  
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el número de casos 
expuestos varía entre k1 = max(0, m1 – n2) y k2 = min(n1, m1). Por tanto, la probabilidad de 
obtener una tabla con frecuencias a, b, c y d condicionada a unos marginales n1, n2, m1 y m2 fijos 
viene dada por
 21
 P(a, b, c, d | H0) = cncana c
n
a
n
−−
−



−


 21 )1( )1( 21 ππππ  
  = 21 )1(  
1
21 mm
am
n
a
n
ππ −



−



 . 
Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el número de 
casos expuestos varía entre k1 = max(0, m1 - n2) y k2 = min(n1, m1). Por tanto, la 
probabilidad de obtener una tabla con frecuencias a, b, c y d condiciona a unos 
marginales n1, n2, m1 y m2 f jos viene dada por 
 P(a, b, c, d | n1, n2, m1, m2; H0) = 

=
−



−




−



−




2
1
21
21
)1(  
)1(  
1
21
1
21
k
kk
mm
mm
km
n
k
n
am
n
a
n
ππ
ππ
 
  = 



 +




−




=




−








−





= 1
21
1
21
1
21
1
21  
 
 
2
1 m
nn
am
n
a
n
km
n
k
n
am
n
a
n
k
kk
, 
donde el denominador de la última igualdad se obtiene de las propiedades de los 
coeficientes binomiales. Esta distribución de probabilidades entre todas las posibles 
tablas con los mismos marginales se conoce como distribución hipergeométrica y 
determina la distribución bajo H0 del número de casos expuestos y no expuestos en una 
muestra de m1 casos obtenidos a partir de un total de n1 sujetos expuestos y n2 sujetos 
no expuestos. Notar que esta probabilidad depende únicamente del número a de casos 
expuestos, dado que una vez conocido a las frecuencias de las restantes celdas quedan 
determinadas por los marginales de la tabla. Cabe destacar también que aunque los 
cálculos se han derivado de un estudio prospectivo, se obtendría el mismo resultado a 
partir de un estudio retrospectivo en términos del número de sujetos expuestos entre 
casos y controles,  
donde el denominador de la última igualdad se obtiene de las propiedades de los coeficientes 
binomiales. Esta distribución de probabilidades ntre todas las posibles tablas con los mismos 
marginales se conoce como distribución hipergeométrica y determina la distribución bajo H0 
136
Métodos no paramétricos
Pastor-Barriuso R.
del número de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de 
un total de n1 sujetos expuestos y n2 sujetos no expuestos. Notar que esta probabilidad depende 
únicamente del número a de casos expuestos, dado que una vez conocido a las frecuencias de 
las restantes celdas quedan determinadas por los marginales de la tabla. Cabe destacar también 
que aunque los cálculos se han derivado de un estudio prospectivo, se obtendría el mismo 
resultado a partir de un estudio retrospectivo en términos del número de sujetos expuestos entre 
casos y controles, 
 22
 P(a | n1, n2, m1, m2; H0) = 



 +




−




=



 +




−




1
21
1
21
1
21
1
21   
m
nn
am
n
a
n
n
mm
an
m
a
m
 
  = !!!!!
! ! ! ! 2121
dcban
mmnn , 
lo cual confirma que la probabilidad condicional asociada a una determinada tabla no 
varía en función del diseño prospectivo o retrospectivo del estudio. 
Ejemplo 8.11 Bajo la hipótesis nula de independencia entre el nivel de β-caroteno 
y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la 
Tabla 8.4 manteniendo los marginales fijos es 
P(1 | 5, 15, 10, 10; H0) = !6 !9 !4 !1 !20
!01 !01 !51 !5
5
20
4
10 1
10
=












 = 0,136, 
que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles 
de β-caroteno superiores a 0,30 μg/g, 1 sea caso y los restantes 4 sean controles. 
Notar que la tabla se refiere por la frecuencia a = 1 observada en la primera celda, 
dado que las demás frecuencias b = 4, c = 9 y d = 6 vienen entonces dadas por los 
marginales. 
Para contrastar la independencia entre las variables de una tabla 2×2, el test exacto 
de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que 
la tabla observada, para a continuación calcular la probabilidad exacta asociada a cada 
una de estas tablas bajo la hipótesis nula de independencia. El valor P bilateral del test 
exacto de Fisher corresponde entonces a la suma de probabilidades para todas aquellas 
lo cual confirma que la probabilidad condicional asociada a una determinada tabla no varía en 
función del diseño prospectivo o retrospectivo del estudio.
Ejemplo 8.11 Bajo la hipótesis nula de independencia entre el nivel de b-caroteno y el 
riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la Tabla 8.4 
manteniendo los marginales fijos es
 22
 P(a | n1, n2, m1, m2; H0) = 



 +




−




=



 +




−




1
21
1
21
1
21
1
21   
m
nn
am
n
a
n
n
mm
an
m
a
m
 
  = !!!!!
! ! ! ! 2121
dcban
mmnn , 
lo cual confirma que la probabilidad condicional asociada a una determinada tabla no 
varía en función del diseño prospectivo o retrospectivo del estudio. 
Ejemplo 8.11 B jo la hipótesis nula de i dependenci  e tre l nivel de β-caroteno 
y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la 
Tabla 8.4 manteniendo los marginales fijos es 
P(1 | 5, 15, 10, 10; H0) = !6 !9 !4 !1 !20
!01 !01 !51 !5
5
20
4
10 1
10
=












 = 0,136, 
que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles 
de β-caroteno superiores a 0,30 μg/g, 1 sea caso y los restantes 4 sean controles. 
Notar que la tabla se refiere por la frecuencia a = 1 observada en la primera celda, 
dado que las demás frecuencias b = 4, c = 9 y d = 6 vienen entonces dadas por los 
marginales. 
Para contrastar la independencia entre las variables de una tabla 2×2, el test exacto 
de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que 
la tabla observada, para a continuación calcular la probabilidad exacta asociada a cada 
una de estas tabl  bajo la hi ótesis nula de independencia. El valor P bilateral del test 
exacto de Fisher corresponde entonces a la suma de probabilidades para todas aquellas 
que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles de 
b-car teno sup riores a 0,30 mg/g, 1 sea caso y los res antes 4 se n controles. Notar que 
la tabla se refiere por la frecuencia a = 1 observada en la primera celda, dado que las 
más frecuencias b = 4, c = 9 y d = 6 vi nen entonces dadas por los marginales.
Para contrastar la independencia entre las variables de una tabla 2×2, el test exacto de Fisher 
consiste en enumerar todas las posibles tablas con los mismos marginales que la tabla observada, 
para a continuación calcular la probabilidad exacta asociada a cada una de estas tablas bajo la 
hipótesis nula de independencia. El valor P bilateral del test exacto de Fisher corresponde 
entonces a la suma de probabilidades para todas aquellas tablas con probabilidad inferior o 
igual a la de la tabla observada (esto es, la suma de probabilidades de las tablas tanto o menos 
compatibles con la hipótesis nula que la tabla observada). 
Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos marginales 
n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la asociación entre el 
b-caroteno y el infarto de miocardio. Bajo la hipótesis nula de independencia entre ambas 
variables, la probabilidad exacta asociada a cada tabla viene dada por la distribución 
hipergeométrica
137Pastor-Barriuso R.
Test exacto de Fisher
Tabla 8.5 Todas las posibles tablas con los mismos 
marginales que la Tabla 8.4, junto con sus probabilidades 
asociadas bajo la hipótesis nula de independencia.
Tabla Probabilidad bajo H0 Odds ratio
0 5
10 5 0,016 0
1 4
9 6 0,136 0,17
2 3
8 7 0,348 0,58
3 2
7 8 0,348 1,71
4 1
6 9 0,136 6
5 0
5 10 0,016 ∞
 23
tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de 
probabilidades de las tablas tanto o menos compatibles con la hipótesis nula que la tabla 
observada).  
Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos 
marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la 
asociación entre el β-caroteno y el infarto de miocardio. Bajo la hipótesis nula de 
independencia entre ambas variables, la probabilidad exacta asociada a cada tabla 
viene dada por la distribución hipergeométrica 
P(0) = P(5) = 
!5!01!5!0!20
!01 !01 !51 !5  = 0,016, 
P(1) = P(4) = 
!6!9!4!1!20
!01 !01 !51 !5  = 0,136, 
P(2) = P(3) = 
!7!8!3!2!20
!01 !01 !51 !5  = 0,348, 
cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 
tienen asociadas probabilidades menores o iguales que la probabilidad P(1) = 
0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es 
 P = P(0) + P(1) + P(4) + P(5) 
  = 0,016 + 0,136 + 0,136 + 0,016 = 0,304. 
Notar que se obtendría el mismo valor P si se sumaran las probabilidades 
asociadas a todas aquellas tablas con un odds ratio tanto o más alejado del valor 
nulo 1 que el OR = 1⋅6/(4⋅9) = 0,17 de la tabla observada; es decir, las 
probabilidades de las tablas con OR ≤ 0,17 ó OR ≥ 1/0,17 = 6. Así, a partir de esta 
muestra tan reducida, no puede concluirse que exista una asociación significativa 
entre el nivel de β-caroteno y el riesgo de infarto de miocardio. 
cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 tienen 
asociadas probabilidades menores o iguales que la probabilidad P(1) = 0,136 de la tabla 
observada, el valor P bil teral del test exact  de Fi her es
 23
tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de 
probabilidades de las tablas tanto o menos compatibles con la hipótesis nula que la tabla 
observada).  
Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos 
marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la 
asociación entre el β-caroteno y el infarto de miocardio. Bajo la hipótesis nula de 
independencia entre ambas variables, la probabilidad exacta asociada a cada tabla 
viene dada por la distribución hipergeométrica 
P( ) = P(5) = 
!5!01!5!0!20
!01 !01 !51 !5  = 0,016, 
P(1) = P(4) = 
!6!9!4!1!20
!01 !01 !51 !5  = 0,136, 
P(2) = P(3) = 
!7!8!3!2!20
!01 !01 !51 !5  = 0,348, 
cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 
tienen asociadas probabilidades menores o iguales que la probabilidad P(1) = 
0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es 
 P = P(0) + P(1) + P(4) + P(5) 
  = 0,016 + 0,136 + 0,136 + 0,016 = 0,304. 
Notar que se obtendría el mismo valor P si se sumaran las probabilidades 
asociadas a todas aquellas tablas con un odds ratio tanto o más alejado del valor 
nulo 1 que el OR = 1⋅6/(4⋅9) = 0,17 de la tabla observada; es decir, las 
probabilidades de las tablas con OR ≤ 0,17 ó OR ≥ 1/0,17 = 6. Así, a partir de esta 
muestra tan reducida, no puede concluirse que exista una asociación significativa 
entre el nivel de β-caroteno y el riesgo de infarto de miocardio. 
Notar que se obtendría el mismo valor P si se sumaran las probabilidades asociadas a 
todas aquellas tablas con un odds ratio tanto o más alejado del valor nulo 1 que el OR = 
1∙6/(4∙9) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR ≤ 0,17 
o OR ≥ 1/0,17 = 6. Así, a partir de esta muestra tan reducida, no puede concluirse que exista 
una asociación significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio.
Cuando el tamaño muestral es muy pequeño, el número de posibles tablas con los mismos 
marginales será muy reducido, de tal forma que el valor P del test exacto de Fisher podrá tomar 
muy pocos valores, siendo así particularmente difícil obtener resultados significativos. Para un 
nivel de significación α preestablecido, el test exacto de Fisher tenderá a ser conservador con 
una verdadera probabilidad de error de Tipo I menor que el valor nominal α. Un contraste 
alternativo menos conservador consiste en calcular el valor id-P bilateral, que se define como 
la probabilidad de la tabla observada más la probabilidad de las tablas menos verosímiles bajo H0. 
Este valor mid-P será siempre inferior o igual al valor exacto de P, obteniéndose resultados 
muy similares si el tamaño muestral es grande.
138
Métodos no paramétricos
Pastor-Barriuso R.
Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, sólo las tablas 
con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de 
la tabla observada, así que el valor mid-P bilateral se calcula como
mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168,
que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo 
anterior. No obstante, ambos valores de P arrojan resultados no significativos para el 
nivel de significación estándar α = 0,05.
El test exacto de Fisher puede generalizarse para evaluar la asociación estadística entre las 
variables categóricas de una tabla r×c, cuando algunas frecuencias esperadas sean muy bajas y 
no pueda aplicarse el test χ2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas 
mayores de 2×2 se define igualmente como la suma de probabilidades para aquellas tablas tanto 
o menos probables que la tabla observada, su cálculo requiere de algoritmos de computación 
dado el elevado número de posibles tablas con los mismos marginales. 
8.5 REFERENCIAS
 1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002.
 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Englewood Cliffs, NJ: Prentice Hall, 1977.
 3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of 
Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980.
 4. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
 5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley 
& Sons, 1998.
 6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & 
Sons, 1986.
 7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition. 
New York: John Wiley & Sons, 2003.
 8. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York: 
John Wiley & Sons, 1999.
 9. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco: 
Holden and Day, 1975.
 10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 
1999.
 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State 
University Press, 1989.
139Pastor-Barriuso R.
TEMA 9
DETERMINACIÓN DEL TAMAÑO MUESTRAL
9.1 INTRODUCCIÓN
Las inferencias poblacionales derivadas a partir de una muestra conllevan indefectiblemente un 
margen de error. Así, en el diseño de un estudio epidemiológico o clínico, es necesario plantearse 
de antemano el número de sujetos que deben ser estudiados para responder a la pregunta de 
investigación con un grado razonable de certidumbre. La determinación a priori del tamaño 
muestral es una parte importante del diseño de un estudio por distintos motivos:
 y Permite concretar la hipótesis de trabajo. El investigador ha de precisar la hipótesis 
principal del estudio y, en función de su experiencia, investigaciones previas o estudios 
piloto, especificar la magnitud de efecto clínica o biológicamente relevante que se pretende 
detectar.
 y Permite evaluar la factibilidad del estudio. Una de las limitaciones más frecuentes en los 
estudios epidemiológicos es la imposibilidad de reclutar un número suficiente de pacientes, 
bien sea por limitaciones en los recursos económicos, en el número de pacientes disponibles 
o en el tiempo de duración del estudio.
 y Previene la obtención de resultados no concluyentes. Como se describió en el Tema 5, la 
precisión de una estimación y la potencia estadística de un contraste de hipótesis aumentan 
conforme aumenta el tamaño muestral, de tal forma que una muestra insuficiente dará 
lugar a estimaciones imprecisas y contrastes de baja potencia.
Desde un punto de vista puramente teórico, basta con aumentar el tamaño muestral para 
obtener estimaciones arbitrariamente precisas o para detectar como estadísticamente significativo 
cualquier efecto por pequeño que sea. Aun cuando esto sea posible en la práctica, la utilización 
de muestras excesivamente grandes es ineficiente, ya que la posible detección de efectos 
trivialmente pequeños y de escasa utilidad práctica no justificaría los recursos empleados. En 
último término, el objetivo de la determinación a priori del tamaño muestral consiste en estimar 
la muestra mínima necesaria para asegurar estimaciones razonablemente precisas o para tener 
una potencia suficiente en la detección de efectos clínicamente relevantes.
Con cierta frecuencia, el número de sujetos disponibles para un estudio viene dictado de 
antemano por las limitaciones económicas o temporales. En tales circunstancias, es importante 
determinar qué magnitudes de efecto tendrían una probabilidad razonable de ser detectadas con 
la muestra disponible, para contar así con una idea aproximada de las posibilidades que ofrecería 
la realización de dicho estudio.
Como se verá a continuación, el cálculo del tamaño muestral requiere de información previa 
a la realización del estudio. Estos datos suelen proceder de investigaciones previas relacionadas 
y, en la medida de lo posible, han de ajustarse a unas hipótesis de trabajo verosímiles. En 
cualquier caso, las asunciones realizadas en el cálculo del tamaño muestral pueden diferir de los 
resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como 
guía orientativa más que como norma rígida para la estimación del tamaño muestral. Conviene 
apuntar también que la muestra resultante se refiere al número de sujetos necesarios para el 
140
Determinación del tamaño muestral
Pastor-Barriuso R.
análisis y no a los inicialmente incluidos. Así, la muestra estimada ha de incrementarse en 
previsión de las posibles pérdidas de sujetos que pudieran ocurrir en el estudio.
En este tema se revisan las fórmulas del tamaño muestral más frecuentemente utilizadas en 
el diseño de estudios epidemiológicos y clínicos, tanto para la estimación de una media y una 
proporción en una única muestra, como para la comparación de medias y proporciones en muestras 
dependientes e independientes. En adelante, se asume que las muestras se obtienen mediante un 
muestreo aleatorio simple a partir de una población de tamaño esencialmente infinito. La 
corrección de las fórmulas del tamaño muestral para otros tipos de muestreo y para poblaciones 
finitas puede consultarse en los libros sobre muestreos complejos citados al final del tema.
9.2  TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UN PARÁMETRO 
POBLACIONAL
En esta sección se presentan las fórmulas para determinar el tamaño muestral necesario para 
obtener estimaciones fiables de un parámetro poblacional (típicamente la media de una variable 
continua o la proporción de sujetos con una determinada característica) a partir de una única 
muestra. Esta situación concierne esencialmente a los estudios descriptivos o transversales. El 
objetivo se centra en calcular el tamaño muestral mínimo necesario para estimar el parámetro 
poblacional con un determinado grado de precisión, que suele cuantificarse mediante la amplitud 
del intervalo de confianza.
9.2.1 Tamaño muestral para la estimación de una media
A partir de la aproximación normal N(μ, σ 2/n) a la distribución de una media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
La medidas de ten encia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de a muestra sirven tanto p a resumir los resultados observados como para 
realizar inferencias cerca de los parámetros poblacionales correspondientes. A 
co tinuación se desc iben los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, pue  
construirse un intervalo de confianza al 100(1 – α)% para la media poblacional μ como 
 3
inicialmente incluidos. Así, la muestra estimada ha de incrementarse en previsión de las 
posibles perdidas de sujetos que pudieran ocurrir en el estudio. 
En este tema se revisan las fórmulas del tamaño muestral más frecuentemente 
utilizadas en el diseño de estudios epidemiológicos y clínicos, tanto para la estimación 
de una media y una proporción en una única muestra, como para la comparación medias 
y proporciones en muestras dependientes e independientes. En adelante, se asume que 
las muestras se obtienen mediante un muestreo aleatorio simple a partir de una 
población de tamaño esencialmente infinito. La corrección de las fórmulas del tamaño 
muestral para otros tipos de mu s reo y para poblaciones finitas puede consultarse en 
los libros sobre muestreos complejos citados al final del tema. 
9.2 TAMAÑO MUESTRAL PARA LA ESTIMACIÓN DE UN PARÁMETRO 
POBLACIONAL 
En esta sección se presentan las fórmulas para determinar el tamaño muestral necesario 
para obtener estimaciones fiables de un parámetro poblacional (típicamente la media de 
una variable continua o la proporción de sujetos con una determinada característica) a 
partir de una única muestra. Esta situación concierne esencialmente a los estudios 
descriptivos o transversales. El objetivo se centra en calcular el tamaño muestral 
mínimo necesario para estimar el parámetro poblacional con un determinado grado de 
precisión, que puede cuantificarse mediante la amplitud del intervalo de confianza. 
9.2.1 Tamaño muestral para la estimación de una media 
A partir de la aproximación normal N(μ, σ 2/n) a la distribución de una media muestral 
x , puede construirse un intervalo de confianza al 100(1 - α)% para la media 
poblacional μ como x  ± z1 α /2σ / n . Notar que este intervalo incluye la desviación 
típica poblacional σ en lugar de su estimación muestral, ya que la determinación del 
– i l  l  s iaci  típica poblacional σ en luga  de 
su estimación muestral, ya que la determinación del tamaño de una muestra precede a su 
selección y, en consecuencia, no se dispone de información muestral. La prec sión de la 
estimación δ queda entonces determinada por la amplitud del intervalo de confianza o, más 
concretamente, por la distancia del centro a los límites del intervalo
 4
tamaño de una muestra precede a su selección y, en consecuencia, no se dispone de 
informació  muestral. La precisión de la estimación δ queda entonces determinada por 
la a plitud del intervalo de confianza o, más concretamente, por la distancia del centro 
a los límites del intervalo 
n
z σδ α 2/1−= , 
de donde puede despejarse el tamaño muestral n para obtener 
2
22
2/1
δ
σα−
=
z
n . 
De esta expresión se desprende que el tamaño muestral para la estimación de una 
media poblacional depende de tres elementos, que deben ser determinados de antemano 
para poder aplicar la fórmula: 
• El nivel de confianza 100(1 - α)%. Cuanto mayor sea este nivel de confianza, 
mayor será el tamaño muestral. En la práctica, suele utilizarse por convenio una 
confianza del 95% (α = 0,05), de tal forma que el percentil de la distribución 
normal estandarizada es z1-α/2 = z0,975 = 1,96. 
• La varianza poblacional σ 2. Cuanto más dispersa sea una variable, mayor será la 
muestra necesaria para describirla aceptablemente. Se requiere, por tanto, de un 
valor aproximado de la varianza de la variable a estudio, que suele obtenerse a 
partir de trabajos similares ya realizados o de un estudio piloto. 
• La precisión deseada δ. El tamaño muestral será tanto mayor cuanto mayor sea la 
precisión exigida a la estimación (esto es, cuanto menor sea δ). El criterio para 
establecer la precisión de una estimación ha de fundamentarse en el conocimiento 
previo sobre la magnitud aproximada del parámetro. Así, por ejemplo, una 
de donde puede despejarse el tamaño muestral n para obtener
 4
tamaño de una muestra precede a su selección y, en consecuencia, no se dispone de 
información muestral. La precisión de la estimación δ queda entonces determinada por 
la amplitud del intervalo de confianza o, más concretamente, por la distancia del centro 
a los límites del intervalo 
n
z σδ α 2/1−= , 
de donde puede despejarse el tamaño muestral n para obtener 
2
22
2/1
δ
σα−
=
z
n . 
De esta expresión se desprende que el tamaño muestral para la estimación de una 
media poblacional depende de tres elementos, que deben ser determinados de antemano 
para poder aplicar la fórmula: 
• El nivel de confianza 100(1 - α)%. Cuanto mayor sea este nivel de confianza, 
mayor será el tamaño muestral. En la práctica, suele utilizarse por convenio una 
confianza del 95% (α = 0,05), de tal forma que el percentil de la distribución 
normal estandarizada es z1-α/2 = z0,975 = 1,96. 
• La varianza poblacional σ 2. Cuanto más dispersa sea una variable, mayor será la 
muestra necesaria para describirla aceptablemente. Se requiere, por tanto, de un 
valor aproximado de la varianza de la variable a estudio, que suele obtenerse a 
partir de trabajos similares ya realizados o de un estudio piloto. 
• La precisión deseada δ. El tamaño muestral será tanto mayor cuanto mayor sea la 
precisión exigida a la estimación (esto es, cuanto menor sea δ). El criterio para 
establecer la precisión de una estimación ha de fundamentarse en el conocimiento 
previo sobre la magnitud aproximada del parámetro. Así, por ejemplo, una 
De esta expresión se desprende que el tamaño muestral para la estimación de una media 
poblacional depende de tres elementos, que deben ser determinados de antemano para poder 
aplicar la fórmula:
 y El nivel de confianza 100(1 – α)%. Cuanto mayor sea este nivel de confianza, mayor 
será el tamaño muestral. En la práctica, suele utilizarse por convenio una confianza del 
95% (α = 0,05), de tal forma que el percentil de la distribución normal estandarizada es 
z1–α/2 = z0,975 = 1,96.
 y La varianza poblacional σ 2. Cuanto más dispersa sea una variable, mayor será la muestra 
neces ria para describirla aceptab emente. Se requier , por tanto, de un valor aproximado 
141
Tamaño muestral para la estimación de un parámetro poblacional
Pastor-Barriuso R.
de la varianza de la variable a estudio, que suele obtenerse a partir de trabajos similares ya 
realizados o de un estudio piloto.
 y La precisión deseada δ. El tamaño muestral será tanto mayor cuanto mayor sea la precisión 
exigida a la estimación (esto es, cuanto menor sea δ). El criterio para establecer la precisión 
de una estimación ha de fundamentarse en el conocimiento previo sobre la magnitud 
aproximada del parámetro. Así, por ejemplo, una precisión de un kilogramo puede ser 
aceptable para estimar el peso medio en personas adultas, pero resulta claramente 
insuficiente en recién nacidos.
Ejemplo 9.1 En un pequeño estudio piloto realizado en personas adultas de una 
determinada población, la media y la desviación típica de la presión arterial sistólica 
resultaron ser 130 y 20 mm Hg, respectivamente. Utilizando esta información preliminar, 
se planea obtener una muestra aleatoria simple de mayor tamaño para estimar el nivel 
medio de presión arterial sistólica con una precisión de ±2 mm Hg. Asumiendo un nivel 
de confianza del 95% y una desviación típica similar a la del estudio piloto, se tiene
 5
precisión de un kilogramo puede ser aceptable para estimar el peso medio en 
personas adultas, pero resulta claramente insuficiente en recién nacidos. 
Ejemplo 9.1 En un pequeño estudio piloto realizado en personas adultas de una 
determinada población, la media y la desviación típica de la presión arterial 
sistólica resultaron ser 130 y 20 mm Hg, respectivamente. Utilizando esta 
información preliminar, se planea obtener una muestra aleatoria simple de mayor 
tamaño para estimar el nivel medio de presión art rial sistólica con una precisión 
de ±2 mm Hg. Asumiendo un nivel de confia za del 95% y una desviación típica 
similar a la del estudio piloto, se tiene 
n = 2
22
2
2096,1  = 384,16; 
es decir, se requerirían aproximadamente 385 sujetos para estimar la presión 
arterial sistólica media de esta población con una precisión de ±2 mm Hg. 
Obsérvese que el tamaño muestral aumenta de forma cuadrática con la precisión 
deseada, de tal forma que para el doble de precisión δ = 1 mm Hg, el tamaño 
muestral mínimo necesario sería cuatro veces mayor 
n = 2
22
1
2096,1  = 1.536,64 ≈ 1.537. 
9.2.2 Tamaño muestral para la estimación de una proporción 
Siguiendo un argumento similar al del apartado anterior, puede utilizarse la 
aproximación normal N(π, π(1 - π)/n) a la distribución de una proporción muestral p 
para obtener un intervalo de confianza al 100(1 - α)% para la proporción poblacional π 
es decir, se requerirían aproximadamente 385 sujetos para estimar la presión arterial 
sistólica media de esta oblación con una precisión de ±2 mm Hg. Obsérvese que el 
tamaño muestral aumenta de forma cuadrática con la precisión deseada, de tal forma que 
para el doble de pr cisión δ = 1 mm Hg, el tamaño muestral mínimo necesario sería cuatro 
veces mayor
 5
precisión de un kilogramo puede ser aceptable para estimar el peso medio en 
personas adultas, pero resulta claramente insuficiente en recién nacidos. 
Ejemplo 9.1 En un pequeño estudio piloto realizado en personas adultas de una 
determinada población, la media y la desviación típica de la presión arterial 
sistólica resultaron ser 130 y 20 mm Hg, respectivamente. Utilizando esta 
información preliminar, se planea btener una muestra aleatoria simple de mayor 
tamaño par  estimar el nivel medio de presión arterial sistólica con una precisión 
de ±2 mm Hg. Asumiendo un nivel de confianza del 95% y una desviación típica 
similar a la del estudio piloto, s  tiene 
n = 2
22
2
2096,1  = 384,16; 
es decir, se r querirían aproximadamente 385 sujetos para estimar la presión 
arterial sistólica media de esta población con una precisión de ±2 mm Hg. 
Obsérvese que el tamaño muestral aumenta de forma cuadrática con la precisión 
des ad , d  tal form  que para el doble de precisión δ = 1 mm Hg, el tamaño 
muestral mínimo necesario sería cuatro veces m yor 
n = 2
22
1
2096,1  = 1.536,64 ≈ 1.537. 
9.2.2 Tamaño muestral para la estimación de una proporción 
Siguiendo un argumento similar al del apartado anterior, puede utilizarse la 
aproximación normal N(π, π(1 - π)/n) a la distribución de una proporción muestral p 
para obtener un interv lo de confianza l 100(1 - α)% para la proporción poblacional π 
9.2.2 Tamaño muestral para la estimación de una proporción
Siguiendo un argumento similar al del apartado anterior, puede utilizarse la aproximación normal 
N(π, π(1 – π)/n) a la distribución de una proporción muestral p para obtener un intervalo de 
confianza al 100(1 – α)% para la proporción poblacional π mediante 
 6
i t  p ± z1 α/2 n/)1( ππ − . Así, la precisión δ en la estimación de una proporción 
poblacional viene determinada por 
n
z )1(2/1
ππδ α
−
=
−
, 
y el tamaño muestral mínimo necesario para alcanzar dicha precisión es 
2
2
2/1 )1(
δ
ππα −
=
−
z
n . 
El cálculo del tamaño muestral para la estimación de una proporción precisa, por 
tanto, de los siguientes elementos: 
• El nivel de confianza 100(1 - α)%, que se establece habitualmente en el 95%. 
• La proporción poblacional π. 
• La precisión deseada δ o el error absoluto que se considere aceptable.  
El conocimiento previo del valor aproximado de la proporción objeto de estudio es 
necesario no sólo para sustituirlo explícitamente en la fórmula, sino también para 
establecer la precisión deseada en la estimación. Por ejemplo, un error absoluto del ±5% 
podría ser admisible en la estimación de una proporción próxima al 50%, mientras que 
este mismo error sería claramente inaceptable para una proporción pequeña, pongamos 
del 5% (o equivalentemente para una proporción muy grande, ya que cuando se estima 
una proporción también se está estimando su complementario). Así, para determinar de 
antemano qué error se considera admisible, ha de contarse con alguna información 
sobre la magnitud de π, bien sea a través de investigaciones previas o, en su defecto, de 
un estudio piloto. 
Ejemplo 9.2 En el estudio piloto del ejemplo anterior, la proporción de 
hipertensos (presión arterial sistólica ≥ 140 mm Hg) fue del 30%. En base a esta 
–  sí, 
la precisión δ en la estimación de una proporción poblacional viene determinada por
 6
mediante p ± z1-α/2 n/)1( ππ − . Así, la precisión δ en la estimación de una proporción 
poblacional viene determinada por 
n
z )1(2/1
ππδ α
−
=
−
, 
y el tamaño muestral mínimo necesario para alcanzar dicha precisión es 
2
2
2/1 )1(
δ
ππα −
=
−
z
n . 
El cálculo del tamaño muestral para la estimación de una proporción precisa, por 
tanto, de los siguientes elementos: 
• El nivel de confianza 100(1 - α)%, que se establece habitualmente en el 95%. 
• La proporción poblacional π. 
• La precisión deseada δ o el error absoluto que se considere aceptable.  
El conocimiento previo del valor aproximado de la proporción objeto de estudio es 
necesario no sólo para sustituirlo explícitamente en la fórmula, sino también para 
establecer la precisión deseada en la estimación. Por ejemplo, un error absoluto del ±5% 
podría ser admisible en la estimación de una proporción próxima al 50%, mientras que 
este mismo error sería claramente inaceptable para una proporción pequeña, pongamos 
del 5% (o equivalentemente para una proporción muy grande, ya que cuando se estima 
una proporción también se está estimando su complementario). Así, para determinar de 
antemano qué error se considera admisible, ha de contarse con alguna información 
sobre la magnitud de π, bien sea a través de investigaciones previas o, en su defecto, de 
un estudio piloto. 
Ejemplo 9.2 En el estudio piloto del ejemplo anterior, la proporción de 
hipertensos (presión arterial sistólica ≥ 140 mm Hg) fue del 30%. En base a esta 
y el tamaño muestral mínimo necesario para alcanzar dicha precisión es
 6
mediante p ± z1-α/2 n/)1( ππ − . Así, la precisió  δ en la est mación de una proporción 
poblacional viene determinada por 
n
z )1(2/1
ππδ α
−
=
−
, 
y el tamaño muestral mínimo necesario para alcanzar dicha precisión es 
2
2
2/1 )1(
δ
ππα −
=
−
z
n . 
El cálculo del tamaño muestral para la estimación de una proporción precisa, por 
tanto, de los siguientes elem n os: 
• El nivel de confianza 100(1 - α)%, que se establece habitualmente en el 95%. 
 La proporció  pobl cional π. 
  ecisión desead  δ o e  error absoluto que se considere aceptable.  
El conocimiento previo del valor ap oximado de la proporción objeto de estudio es 
necesario no sólo para sustituirlo explícitament en la fórmula, sino también para 
establecer la precisión de eada en la est mación. Por ejemplo, un error a soluto del ±5% 
podría s admisible en la stimación de una proporción próxima al 50%, mientras que 
este mi mo error sería c ramente inaceptable para una proporción equeña, pongamos 
del 5% (o equivalentemente para u  proporción m y grande, ya que c ando se esti a 
una proporción también se está estimando su complem ntario). Así, par  determinar de 
a teman  qué error se considera ad isible, ha de contarse con alguna informació  
sobre la magnitud de π, bien se  través de investigaciones previas o, en su defecto, de 
un estudio piloto. 
Ejemplo 9.2 En el estudio piloto del ejemplo anterior, la proporción de 
hipertensos (presión arterial sistólica ≥ 140 mm Hg) fue del 30%. En base a esta 
El cálculo del tamaño muestral para la estimación de una proporción precisa, por tanto, de 
los siguientes elementos:
 y El nivel de confianza 100(1 – α)%, que se establece habitualmente en el 95%.
 y La proporción poblacional π.
 y La precisión d sead  δ o el error absoluto que e considere aceptable. 
142
Determinación del tamaño muestral
Pastor-Barriuso R.
El conocimiento previo del valor aproximado de la proporción objeto de estudio es necesario 
no sólo para sustituirlo explícitamente en la fórmula, sino también para establecer la precisión 
deseada en la estimación. Por ejemplo, un error absoluto del ±5% podría ser admisible en la 
estimación de una proporción próxima al 50%, mientras que este mismo error sería claramente 
inaceptable para una proporción pequeña, pongamos del 5% (o equivalentemente para una 
proporción muy grande, ya que cuando se estima una proporción también se está estimando su 
complementario). Así, para determinar de antemano qué error se considera admisible, ha de 
contarse con alguna información sobre la magnitud de π, bien sea a través de investigaciones 
previas o, en su defecto, de un estudio piloto.
Ejemplo 9.2 En el estudio piloto del ejemplo anterior, la proporción de hipertensos 
(presión arterial sistólica ≥ 140 mm Hg) fue del 30%. En base a esta información, se 
pretende realizar un estudio transversal para estimar la prevalencia de hipertensión en 
esta población con un error absoluto del ±3% (error relativo del ±10%). Asumiendo el 
nivel de confianza estándar del 95%, π = 0,30 y δ = 0,03, se necesitaría una muestra 
mínima de
 7
información, se pretende realizar un estudio transversal para estimar la 
prevalencia de hipertensión en esta población con un error absoluto del ±3% 
(error relativo del ±10%). Asumiendo el nivel de confianza estándar del 95%, π = 
0,30 y δ = 0,03, se necesitaría una muestra mínima de 
n = 2
2
03,0
)30,01(30,096,1 −  = 896,37 ≈ 897. 
Si, por el contrario, el estudio se diseñara para estimar la prevalencia de diabetes, 
que se asume próxima al 5%, con un error absoluto del ±1% (error relativo del 
±20%), se requeriría un tamaño muestral considerablemente mayor 
n = 2
2
01,0
)05,01(05,096,1 −  = 1.824,76 ≈ 1.825. 
Como se desprende de este ejemplo, para estimar fiablemente una proporción 
extrema (muy pequeña o muy grande) se necesitará una muestra mayor que para 
estimar una proporción cercana al 50%. 
La fórmula del tamaño muestral presentada en este apartado se basa en la 
aproximación normal a la distribución muestral de una proporción. Aunque esta 
aproximación es razonable en la mayoría de las circunstancias, existen fórmulas 
alternativas, tales como las basadas en la aproximación normal con corrección por 
continuidad o en la aproximación de Poisson, que pueden ser útiles cuando se prevé 
trabajar con muestras de reducido tamaño o con proporciones muy extremas. Una 
descripción y comparación más detallada de los distintos métodos de cálculo del tamaño 
muestral puede encontrarse en la bibliografía de este tema. 
Si, por el contrario, el estudio se diseñara para estimar la prevalencia de diabetes, que se 
asume próxima al 5%, con un error bsoluto del ±1% (error rel tivo del ±20%), se 
requeriría un tamaño muestral considerablemente mayor
 7
información, se pretende realizar un estudio transversal para estimar la 
prevalencia de hipertensión en esta población con un error absoluto del ±3% 
(error relativo del ±10%). Asumiendo el nivel de confianza estándar del 95%, π = 
0,30 y δ = 0,03, se necesitaría una muestra mínima de 
n = 2
2
03,0
)30,01(30,096,1 −  = 896,37 ≈ 897. 
Si, por el contrario, el estudio se diseñara para estimar la prevalencia de diabetes, 
que se asume próxima al 5%, con un error absoluto del ±1% (error relativo del 
±20%), se requeriría un tamaño muestral considerablement  mayor 
n = 2
2
01,0
)05,01(05,096,1 −  = 1.824,76 ≈ 1.825. 
Como se desprende de este ejemplo, para estimar fiablemente una proporción 
extrema (muy pequeña o muy grande) se necesitará una muestra mayor que para 
estimar una proporción cercana al 50%. 
La fórmula del tamaño muestral presentada en este apartado se basa en la 
aproximación normal a la distribución muestral de una proporción. Aunque esta 
aproximación es razonable en la mayoría de las circunstancias, existen fórmulas 
alternativas, tales como las basadas en la aproximación normal con corrección por 
continuidad o en la aproximación de Poisson, que pueden ser útiles cuando se prevé 
trabajar con muestras de reducido tamaño o con proporciones muy extremas. Una 
descripción y comparación más detallada de los distintos métodos de cálculo del tamaño 
muestral puede encontrarse en la bibliografía de este tema. 
Como se desprende de este ejemplo, para estimar fiablemente una proporción extrema 
(muy pequ ña o muy grande) se necesitará una muestra mayor que para estimar una 
proporción cercana al 50%.
La fórmula del tamaño muestral presentada en este apartado se basa en la aproximación 
normal a la distribución muestral de una proporción. Aunque esta aproximación es 
razonable en la mayoría de las circunstancias, existen fórmulas alternativas, tales como 
las basadas en la aproximación normal con corrección por continuidad o en la aproximación 
de Poisson, qu  pueden ser útiles cuando se prevé trabajar con muestras de reducido 
tamaño o con proporciones muy extremas. Una descripción y comparación más detallada 
de l s distintos métodos de cálculo del tamaño muestral puede e contrarse en la bibliografía 
de este tema.
9.3 TAMAÑO MUESTRAL PARA LA COMPARACIÓN DE MEDIAS
Muchos iseños epidemiológicos, bien sean observacionales (estudios de cohortes o de casos y 
controles) o experimentales (ensayos clínicos), se realizan con un afán comparativo, donde el 
objetivo no es tan o estimar la magnitud de un determinado parámetro poblacional, sino más 
bien comparar parámetros entre distintas poblaciones. En tales diseños, el problema radica en 
terminar el tamaño muestral mínimo nec sario en cada grupo de comparación, de tal forma 
que el contraste de hipótesis que se pretende realizar tenga una potencia suficiente para detectar 
posibles dif rencias clínica o epidem lógicamente relevantes. En este apartado se presentan 
143
Tamaño muestral para la comparación de medias
Pastor-Barriuso R.
las fórmulas del tamaño muestral para contrastar diferencias en los niveles medios de una 
variable cuantitativa a partir de dos muestras dependientes o independientes.
9.3.1 Tamaño muestral para la comparación de medias en dos muestras independientes
Supongamos que se pretende contrastar la hipótesis nula H0: μ1 = μ2 de igualdad de medias 
frente a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 en dos distribuciones con igual varianza σ12 
= σ22  = σ2. Según los resultados del Apartado 6.3, la distribución muestral de la diferencia de 
medias 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacional  correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 – 
 
 5
1.2 MEDIDAS D  TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
centra  de la mue t a sirven tanto para resumir los resultados observados como para 
real zar inferencias acerca de los parámetr s poblacionales correspo dientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La med a aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el númer  de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media ven ría dada por   
n
xx
x
n
x n
n
i
i
++
== 
=
...1 21
1
. 
La m dia es la medida de tendencia central más utiliza a y de más fácil 
interpretación. Corresponde al “centro de gr vedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia centra  de la distr bución. 
Ejemplo 1.4 En este y en los uce ivos ejemplos sobre estimadores muestral s, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 p imeros sujetos del 
estudio “European Study on Antioxidants, Myoc rdial Infarction and Cancer of 
th  Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeo  e Isr el par  evaluar l efecto de los 
2 n muestras indepen ientes de tamaño n1 y n2 será aproximadamente normal con 
media μ1 – μ2 = 0 bajo H0 y μ1 – μ2 ≠ 0 bajo H1, y varianza σ12 /n1 + σ22 /n2 = σ 2(1/n1 + 1/n2) (Figura 
9.1). Para asegurar una probabilidad α de cometer un error de tipo I, la hipótesis nula se rechazará 
sólo si el estadístico
 8
9.3 TAMAÑO MUESTRAL PARA LA COMPARACIÓN DE MEDIAS 
Muchos diseños epidemiológicos, bien sean observacionales (estudios de cohortes o de 
casos y controles) o experimentales (ensayos clínicos), se realizan con un afán 
comparativo, donde el objetivo no es tanto estimar la magnitud de un determinado 
parámetro poblacional, sino más bien comparar parámetros entre distintas poblaciones. 
En tales diseños, el problema radica en determinar el tamaño muestral mínimo necesario 
en cada grupo de comparación, de tal forma que el contraste de hipótesis que se 
pretende realizar tenga una potencia suficiente para detectar posibles diferencias clínica 
o epidemiológicamente relevantes. En este apartado se presentan las fórmulas del 
tamaño muestral para contrastar diferencias en los niveles medios de una variable 
cuantitativa a partir de dos muestras dependientes o independientes. 
9.3.1 Tamaño muestral para la comparación de medias en dos muestras 
independientes 
Supongamos que se pretende contrastar la hipótesis nula H0: μ1 = μ2 de igualdad de 
medias frent  a la hipótesis alternativa bilateral H1: μ1 ≠ μ2 en dos distribucion s con 
igual v rianza 21σ  = 22σ  = σ 2. Según los resu tados del Apartado 6.3, la distribución 
muestral de la diferencia de medias 1x  - 2x  en muestras independientes de tamaño n1 y 
2 será aproximadame te norm l con media μ1 - μ2 = 0 bajo H0 y μ1 - μ2 ≠ 0 b jo H1, y 
varianza 21σ / 1 + 22σ /n2 = σ 2(1/n1 + 1/n2) (Figura 9.1). Para asegurar un  probabilidad 
α de comete  un erro  de tipo I, la hipótesis nula se rechazará sólo si el estadístico 
21
21
/1/1 nn
xx
+
−
σ
 ≤ z1 α /2 ó 
21
21
/1/1 nn
xx
+
−
σ
 ≥ z1 α /2 
o, equivalentemente, si la diferencia de medias 
  
o, equivalentemente, si la diferencia de medias
 9
1x 2x  ≤ z1 α /2σ 21 /1/1 nn +  ó 1x 2x  ≥ z1 α /2 σ 21 /1/1 nn + . 
Así, bajo la hipótesis alternativa, la poten ia del test para detectar una diferencia 
subya e μ1 - μ2 ndrá a  por 
 1 - β  = P( 1x  - 2x  ≤ -z1-α /2 σ 21 /1/1 nn +  | H1) 
  + P( 1x  - 2x  ≥ z1-α /2 σ 21 /1/1 nn +  | H1). 
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad 
de la expresión anterior, que representa el evento de que 1x  sea apreciablemente mayor 
que 2x , será virtualmente cero. La potencia se reduce entonces a   
 1 - β  = P( 1x  - 2x ≤ -z1-α /2 σ 21 /1/1 nn +  | H1) 
  = 



+
−−+−
≤
+
−−−
−
1
21
21212/1
21
2121
/1/1
)(/1/1
/1/1
)( H
nn
nnz
nn
xxP
σ
μμσ
σ
μμ α  
  = 



+
−
+−Φ
−
21
21
2/1 /1/1
||
nn
z
σ
μμ
α , 
donde la última igualdad se deriva de la distribución normal de 1x  - 2x  bajo la hipótesis 
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión 
permite determinar a posteriori la potencia de un contraste para detectar una diferencia 
de medias subyacente μ1 - μ2 a partir de dos muestras independientes de tamaños n1 y 
n2. 
[Figura 9.1 aproximadamente aquí] 
Ejemplo 9.3 En un ensayo clínico para evaluar la eficacia antihipertensiva de un 
nuevo fármaco en combinación con un tratamiento estándar, se asignaron 
  
Así, bajo la hipótesis alternativa, la potencia del test para detectar una diferencia subyacente 
μ1 – μ2 vendrá dada por
 9
1x  - 2x  ≤ -z1-α /2σ 21 /1/1 nn +  ó 1x  - 2x  ≥ z1-α /2 σ 21 /1/1 nn + . 
Así, bajo la hipótesis alternativa, la potencia del test para detectar una diferencia 
su yacente μ1 - μ2 vendrá dada por 
 1  β  = P( 1x 2x  ≤ z1 α /2 σ 21 /1/1 nn +  | H1) 
  + P( 1x 2  ≥ z1 α /2 σ 21 /1/1 nn +  | H1). 
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad 
de la expresión anteri r, que repr s nta el ev nto d  que 1x  sea apreciablemente mayor 
qu  2x , será virtualmen  c ro. La potencia se educe entonces a   
 1 - β  = P( 1x  - 2x  ≤ -z1-α /2 σ 21 /1/1 nn +  | H1) 
   



+
−−+−
≤
+
−−−
−
1
21
21212/1
21
2121
/1/1
)(/1/1
/1/1
)( H
nn
nnz
nn
xx
σ
μμσ
σ
μμ α  
  = 



+
−
+−Φ
−
21
21
2/1 /1/1
||
nn
z
σ
μμ
α , 
donde la última igualdad se deriva de la distribución normal de 1x  - 2x  bajo la hipótesis 
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión 
permite determinar a posteriori la potencia de un contraste para detectar una diferencia 
de medias subyacente μ1 - μ2 a partir de dos muestras independientes de tamaños n1 y 
n2. 
[Figura 9.1 aproximadamente aquí] 
Ejemplo 9.3 En un ensayo clínico para evaluar la eficacia antihipertensiva de un 
nuevo fármaco en combinación con un tratamiento estándar, se asignaron 
   
 
 Figura 9.1
  
))/1/1(,(~ 21
2
2121 nnNxx +−→− σμμ
α/2 α/2
1 - β
μ1 - μ2 0
H0: μ1 = μ2H1: μ1 ≠ μ2
))/1/1(,0(~ 21
2
21 nnNxx +→− σ
212/1 /1/1 nnz +− − σα 212/1 /1/1 nnz +− σα
Figura 9.1 Representación de la potencia del contraste bilateral de medias a partir de dos muestras 
indepe ientes. 
144
Determinación del tamaño muestral
Pastor-Barriuso R.
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad de la 
expresión anterior, que representa el evento de que 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
vari ble. 
1.2.1 Media aritmética 
La media aritmética, den tada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 a apreciablemente mayor que 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una det rmin da variable o, dicho d  forma equivalente, estos estimadores indican 
alreded r de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación s  describ  los principales stimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La m d a arit ética, denotada por x , s define como la suma de cada uno de los 
valores muestrales dividida por el núm r  de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corre ponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es qu  está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ej mplo 1.4 En ste y en l s ucesivos jemplos sobre estimadores muestrales, se 
utilizarán los valore  del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), u  estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
2,
será virtualmente cero. La potencia se reduce entonces a  
 9
1x  - 2x  ≤ -z1-α /2σ 21 /1/1 nn +  ó 1x  - 2x  ≥ z1-α /2 σ 21 /1/1 nn + . 
Así, bajo la hipótesis alternativa, la potencia del test para detectar una diferencia 
subyacente μ1 - μ2 vendrá dada por 
 1 - β  = P( 1x  - 2x  ≤ -z1-α /2 σ 21 /1/1 nn +  | H1) 
  + P( 1x  - 2x  ≥ z1-α /2 σ 21 /1/1 nn +  | H1). 
Asumiendo sin pérdida de generalidad que μ1 < μ2 (Figura 9.1), la segunda probabilidad 
de la expresión anterior, que representa el evento de que 1x  s a preciablemente mayor 
que 2x , será virtual ente cero. La potencia se reduce entonces a   
 1  β  = P( 1x 2x  ≤ z1 α /2 σ 21 /1/1 nn +  | H1) 
  = 



+
−−+−
≤
+
−−−
−
1
21
21212/1
21
2121
/1/1
)(/1/1
/1/1
)( H
nn
nnz
nn
xxP
σ
μμσ
σ
μμ α
 
  = 



+
−
+−Φ
−
21
21
2/1 /1/1
||
nn
z
σ
μμ
α , 
donde la última igualdad se deriva de la distribución normal de 1x  - 2x  bajo la hipótesis 
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión 
permite determinar a posteriori la potencia de un contraste para detectar una diferencia 
de medias subyacente μ1 - μ2 a partir de dos muestras independientes de tamaños n1 y 
n2. 
[Figura 9.1 aproximadamente aquí] 
Ejemplo 9.3 En un ensayo clínico para evaluar la eficacia antihipertensiva de un 
nuevo fármaco en combinación con un tratamiento estándar, se asignaron 
−−
−
−
donde la última igualdad se deriva de la distribución normal de  
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
L m dia ari méti a, denotada por x , se define como la suma de cada uno de los 
valores mue ales dividida por l número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 – 
 
 5
1.2 MEDI AS DE T DEN IA CENTRAL 
Las medidas de tendencia central informan cerca de cuál es el valor más r presentativo 
de una determin d  variable o, dich  de forma equival nte, tos estimadores i dican 
alrededor de qué valor se grupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realiza  i feren ias cerca de los pa ámetros pobl cionales correspondientes. A 
cont nuación se describen los principales estimadores de la tendencia central de una 
variable. 
.2.1 Media ar tmética 
La media aritmética, denotada por x , se define como la suma e cada un  de los 
va ores mu trales dividi a por el núm ro d  obs rvaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observ do para l sujeto i-ésimo, i = 1, ..., n, 
la media vendrí dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La medi  es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de grave ad” de los datos de la muestra. Su 
principal limitación s que está muy i fluenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central e la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores mu trales, se 
utilizarán los valores d l colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardi l Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multi éntrico de casos y cont oles realizado 
entre 1991 y 1992 en ocho países Europeos  Israel para eva uar el efect  de los 
2 bajo la hipótesis 
alternativa. Notar que se alcanzaría el mismo resultado si μ1 > μ2. Esta expresión permite 
determinar a posteriori la potencia de un contraste para detectar una diferencia de medias 
subyacente μ1 – μ2 a partir de dos muestras independientes de tamaños n1 y n2.
Ejemplo 9.3 En un ensayo clínico para evaluar la eficacia antihipertensiva de un nuevo 
fármaco en combinación c n un tratamient  estándar, se asignaron ale to iamente 50 
pacientes hipertensos al grupo de monoterapia estándar y otros 50 pacientes de similares 
características al grupo de tratamiento combinado con el nuevo fármaco. Después de 4 
semanas de tratamiento, la media y la desviación típ ca d  la re ión art rial sistólica 
fueron 155 y 22 mm Hg en el grupo de monoterapia, y 150 y 18 mm Hg en el grupo de 
tratamiento combinado. Como paso previo a la comparac ón de medias, s  contrasta la 
igualdad de varianzas mediante el estadístico
 10
aleatoriamente 50 pacientes hipertensos al grupo de monoterapia estándar y otros 
50 pacientes de similares características al grupo de tratamiento combinado con el 
nuevo fármaco. Después de 4 semanas de tratamiento, la media y la desviación 
típica de la presión arterial sistól a fueron 155 y 22 mm Hg en el g upo de 
monoterapia, y 150 y 18 mm Hg en el grupo de tratamiento combin do. Como 
paso previo a la comparación de medi s, s  contrasta la igualdad de vari nzas 
mediante el estadístic  
F = 2
2
2
2
2
1
18
22
=
s
s
 = 1,49, 
que bajo la distribución F de Fisher con n1 – 1 = 49 y n2 – 1 = 49 grados de 
libertad, corresponde a un valor P bilateral 2P(F49,49 ≥ 1,49) = 2⋅0,082 = 0,164. 
Así, la comparación del nivel medio de presión arterial sistólica entre ambos 
grupos puede realizarse mediante la prueba t de Student para muestras 
independientes asumiendo igualdad de varianzas, cuyo estadístico resulta 
t = 
50
1
50
11,20
150155
11
21
21
+
−
=
+
−
nn
s
xx
 = 1,24, 
donde la varianza combinada es s2 = {(50 - 1)222 + (50 - 1)182}/(50 + 50 - 2) = 
404. Utilizando la distribución t de Student con n1 + n2 – 2 = 98 grados de 
libertad, el valor P bilateral es 2P(t98 ≥ 1,24) = 2⋅0,108 = 0,216; es decir, los 
resultados del estudio no aportan suficiente evidencia para afirmar que el 
tratamiento combinado es más eficaz que la monoterapia. 
A partir de estos resultados cabría preguntarse si en realidad ambos tratamientos 
son igualmente eficaces o si, por el contrario, el estudio carece de potencia 
suficiente para detectar una diferencia que, aun siendo moderada o pequeña, sea 
que bajo la distribución F de Fisher con n1 – 1 = 49 y n2 – 1 = 49 grados de libertad, 
corresp nde a un valor P bilateral 2P(F49,49 ≥ 1,49) = 2∙0,082 = 0,164. Así, la comparación 
del ivel medio de presión arterial sistólica entre amb s grupos pu de realizarse mediante 
la p ueba t d  Student para muestras independientes asumiendo igualdad de varianzas, 
cuyo estadístico resulta
 10
aleatoriamente 50 pacientes hipertensos al grupo de monoterapia estándar y otros 
50 pacientes de similares características al grupo de tratamiento combinado con el 
nuevo fármaco. Después de 4 semanas de tratamiento, la media y la desviación 
típica de la presión arterial sistólica fueron 155 y 22 m Hg en el grupo de 
monoterapia, y 150 y 18 mm Hg en el grupo de tratamiento combinado. Como 
paso previo a la comparación de medias, se contrasta la igualdad de varianzas 
mediante el estadístico 
F = 2
2
2
2
2
1
18
22
=
s
s
 = 1,49, 
que bajo la distribución F de Fisher con n1 – 1 = 49 y n2 – 1 = 49 grados de 
libertad, corresponde a un valor P bilateral 2P(F49,49 ≥ 1,49) = 2⋅0,082 = 0,164. 
Así, la comparación del nivel medio de presión arterial sistólica entre ambos 
grupos puede realizarse mediante la prueba t de Stude t para muestras 
independientes asumiendo igualdad de varianzas, cuyo estadístico resulta 
t = 
50
1
50
11,20
150155
11
21
21
+
−
=
+
−
nn
s
xx
 = 1,24, 
donde la varianza combinada es s2 = {(50 - 1)222 + (50 - 1)182}/(50 + 50 - 2) = 
404. Utilizando la distribución t de Student con n1 + n2 – 2 = 98 grados de 
libertad, el valor P bilateral es 2P(t98 ≥ 1,24) = 2⋅0,108 = 0,216; es decir, los 
resultados del estudio no portan suficiente evidencia para afirmar que el 
tratamiento combinado es más eficaz qu  la monoterapia. 
A partir de est s resultados cabría preguntarse si en realidad ambos tratamientos 
son igualmente eficaces o si, por el contrario, el estudio carece de potencia 
suficiente para detectar una diferencia que, aun siendo moderada o pequeña, sea 
donde la varianza combinada es s2 = {(50 – 1)222 + (50 – 1)182}/(50 + 50 – 2) = 404. 
Utilizando la distribución t de Student con n1 + n2 – 2 = 98 grados de libertad, el valor P 
bilateral es 2P(t98 ≥ 1,24) = 2∙0,108 = 0,216; es decir, los resultados del estudio no aportan 
suficiente evidencia para afirmar que el tratamiento combinado es más eficaz que la 
monoterapia.
A partir de estos resultados cabría preguntarse si en realidad ambos tratamientos son 
igualmente eficaces o si, por el contrario, el estudio carece de potencia suficiente para 
detectar una diferencia que, aun siendo moderada o pequeña, sea importante en términos 
clínicos. Si se considera clínicamente relevante una diferencia absoluta de |μ1 – μ2| = 5 
mm Hg en la presión arterial sistólica media, y asumiendo un nivel de significación α = 
145
Tamaño muestral para la comparación de medias
Pastor-Barriuso R.
0,05 y una desviación típica σ = 20 mm Hg en ambos grupos, la potencia para detectar 
dicha diferencia en un estudio con n1 = n2 = 50 sería
 11
importante en términos clínicos. Si se considera clínicamente relevante una 
diferencia absoluta de |μ1 - μ2| = 5 mm Hg en la presión arterial sistólica media, y 
asumiendo un nivel de significación α = 0,05 y una desviación típica σ = 20 mm 
Hg en ambos grupos, la potencia para detectar dicha diferencia en un estudio con 
n1 = n2 = 50 serí  
1  β  = 



+
+−Φ
50/150/120
596,1  = Φ( 0,71) = 0,239. 
Es decir, únicamente un 23,9% de los estudios con este tamaño muestral 
detectarían como estadísticamente significativa una diferencia real de 5 mm Hg. 
Por tanto, no es sorprendente que el estudio anterior arrojara un resultado no 
significativo, aun cuando exista una diferencia subyacente de dicha magnitud 
entre ambos tratamientos. 
Como ilustra el ejemplo anterior, en el diseño de un estudio es importante determinar 
a priori qué tamaño muestral será necesario en cada grupo de comparación para evitar la 
obtención de resultados no concluyentes por falta de potencia. Supongamos, en el caso 
más general, que se pretende asignar distinto tamaño a ambas muestras n2 = kn1, donde 
k es un número positivo prefijado. A partir de la fórmula de la potencia con n2 = kn1, y 
recordando que Φ(z1-β) = 1 - β, se sigue que 
11
21
2/11 11
||
knn
zz
+
−
+−=
−−
σ
μμ
αβ , 
de donde puede despejarse n1 para obtener 
2
21
22
12/1
1 )(
))(1(
μμ
σβα
−
++
=
−−
k
zzk
n , 
− −
Es decir, únicamente un 23,9% de los estudios con este tamaño muestral detectarían como 
estadísticamente significativa una difer ncia real de 5 mm Hg. P r tanto, no es sorprendente 
que el estudio anterior arrojara un resultado no significativo, aun cuando exista una 
iferenci  subyacen e e dicha magnitud en re ambos tratam entos.
Com  ilustra el ejemplo a terior, en el diseño de un estudio es importante determinar a priori 
qué tamaño muestral será necesario en cada grupo de comparación para evitar la obtención de 
resultados no concluyentes por falta de potencia. Supongamos, n el caso ás general, que se 
pretende asignar distinto tamaño a ambas muestras n2 = kn1, donde k es un número positivo prefijado. 
A partir de l  fórmul  de la potencia con n2 = kn1, y recordando que Φ(z1–β) = 1 – β, se sigue que
 11
importante en términos clínicos. Si se considera clínicamente relevante una 
diferencia absoluta de |μ1 - μ2| = 5 mm Hg en la presión arterial sistólica media, y 
asumiendo un nivel de significación α = 0,05 y una desviación típica σ = 20 mm 
Hg en ambos grupos, la potencia para detectar dicha diferencia en un estudio con 
n1 = n2 = 50 sería 
1 - β  = 



+
+−Φ
50/150/120
596,1  = Φ(-0,71) = 0,239. 
Es decir, únicamente un 23,9% de los estudios con este tamaño muestral 
detectarían como estadísticamente significativa una diferencia real de 5 mm Hg. 
Por tanto, no es sorprendente que el estudio anterior arrojara un resultado no 
significativo, aun cuando exista una diferencia subyacente de dicha magnitud 
entre ambos tratamientos. 
Como ilustra el ejemplo anterior, en el diseño de un estudio es importante determinar 
a priori qué tamaño muestral será necesario en cada grupo de comparación para evitar la 
obtención de resultados no concluyentes por falta de potencia. Supongamos, en el caso 
más general, que se pretende asignar distinto tamaño a ambas muestras n2 = kn1, donde 
k es un nú ero positivo prefijado. A partir de la fórmula de la potencia con n2 = kn1, y 
r cordando que Φ(z1-β) = 1 - β, se sigue que 
11
21
2/11 11
||
knn
zz
+
−
+−=
−−
σ
μμ
αβ , 
de donde puede despejarse n1 para obtener 
2
21
22
12/1
1 )(
))(1(
μμ
σβα
−
++
=
−−
k
zzk
n , 
de donde puede despejarse n1 para obtener
 11
importante en términos clínicos. Si se considera clínicamente relevante una 
diferencia absoluta de |μ1 - μ2| = 5 mm Hg en l  presión arterial sistólica media, y 
asumiendo un nivel de significación α = 0,05 y una desviación típica σ = 20 mm 
Hg en ambos grupos, la poten ia para detectar dicha diferencia en un estudio con 
n1 = 2 = 50 sería 
1 - β  = 



+
+−Φ
50/150/120
596,1  = Φ(-0,71) = 0,239. 
Es decir, únicamente un 23,9% de los estudios con este tamaño muestral 
detectarían como estadísticamente significativa u a diferencia real de 5 mm Hg. 
Por tanto, no es sorprendente que el estudio anterior arrojara un resultado no 
significativ , aun cuando exista una diferencia subyacente de dicha magnitud 
entre ambos tratamientos. 
Como ilustra el ejemplo anterior, en el diseño de un estudio es importante determinar 
a pri ri qué tamaño muestral será necesario en ca a grupo de comparació  para evitar la 
obtención de resultados no concluyentes p r falta de potencia. Supongamos, en el caso 
más general, que se pretende asignar distinto tamaño a ambas m estras n2 = kn1, donde 
k es un número positivo prefijado. A partir de la fórmula de la potencia con n2 = kn1, y 
recorda do que Φ(z1-β) = 1 - β, se sigue que 
11
21
2/11 11
||
knn
zz
+
−
+−=
−−
σ
μμ
αβ , 
de donde puede despejarse n1 para obtener 
2
21
22
12/1
1 )(
))(1(
μμ
σβα
−
++
=
−−
k
zzk
n , 
que corresponde al tamaño necesario en la primera muestra y n2 = kn1 al de la segunda muestra. 
En el caso particular de que se desee un mismo tamaño muestral en ambos grupos k = 1, éste 
vendrá determinado por
 12
que corresponde al tamaño necesario en la primera muestra y n2 = kn1 al de la segunda 
muestra. En el caso particular de que se desee un mismo tamaño muestral en ambos 
grupos k = 1, éste v ndrá d terminado por 
2
21
22
12/1
21 )(
)(2
μμ
σβα
−
+
==
−−
zz
nn . 
La asignación de igual tamaño a ambas muestras es, en general, más eficiente ya que 
da lugar a un menor tamaño total del estudio. No obstante, hay situaciones prácticas en 
las que es preferible seleccionar muestras de distinto tamaño, aun cuando ello conlleve 
un aumento de la muestra total para alcanzar la misma potencia; tal es el caso de los 
estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o 
cuando se requieren estimaciones más precisas en uno de los grupos. Además de estas 
consideraciones, en el cálculo del tamaño muestral para la comparación de medias es 
necesario determinar previamente los siguientes elementos: 
• El nivel de significación α del contraste bilateral, que representa la probabilidad 
de rechazar erróneamente la hipótesis nula y se establece usualmente en α = 0,05. 
• La potencia 1 - β del contraste, que determina la probabilidad de detectar 
hipótesis alternativas ciertas y se fija habitualmente en 1 - β = 0,80 ó 0,90. 
• La varianza poblacional σ 2. En la determinación del tamaño muestral suele 
asumirse que la varianza es común para ambos grupos, ya que generalmente se 
carece de información previa suficiente para determinar una varianza específica 
en cada uno de los grupos. 
• La diferencia mínima detectable |μ1 - μ2|. El tamaño muestral será tanto mayor 
cuanto menor sea la diferencia que se pretende detectar. La magnitud de esta 
La asignación de igual tamaño a ambas muestras es, en general, más eficiente ya que da 
lugar a un me or tamaño total del estudio. No obstante, hay situaciones práct as en l s que es 
preferible seleccionar muestras de distinto tamaño, aun cuando ello conlleve un aumento de la 
muestra total para alcanzar la misma potencia; tal es el caso de los estudios d de la disponibilidad 
 sujetos o los costes difieren entre los grupos, o cuando se requieren estimaciones más precisas 
en uno de lo  g upos. Ad más de estas considerac ones, en el cálculo del tamaño muestral para 
la comparación de medias es necesario determinar previamente los siguientes elementos:
 y El nivel de significación α del contraste bilateral, que representa la probabilidad de 
rechazar erróneamente la hipótesis nula y se establece usualmente en α = 0,05.
 y La potencia 1 – β del contraste, que determina la probabilidad de detectar hipótesis 
alternativas ciertas y se fija habitualmente en 1 – β = 0,80 ó 0,90.
 y La varianza poblacional σ 2. En la determinación del tamaño muestral suele asumirse que 
la varianza es común para ambos grupos, ya que generalmente se carece de información 
previa suficiente para determinar una varianza específica en cada uno de los grupos.
 y La diferencia mínima detectable |μ1 – μ2|. El tamaño muestral será tanto mayor cuanto 
menor sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser 
146
Determinación del tamaño muestral
Pastor-Barriuso R.
un valor plausible basado en conocimientos previos, o bien relevante desde el punto de 
vista clínico o epidemiológico.
Ejemplo 9.4 Dado que el estudio descrito en el ejemplo anterior carecía de potencia 
suficiente para detectar una diferencia subyacente de 5 mm Hg en la presión arterial 
sistólica media de los hipertensos bajo monoterapia y tratamiento combinado, se planea 
realizar un nuevo ensayo clínico que tenga una potencia 1 – β = 0,80 para detectar posibles 
diferencias de dicha magnitud. Asumiendo que se pretende asignar el mismo número de 
pacientes a ambos brazos del ensayo clínico, un nivel de significación α = 0,05 y una 
desviación típica σ = 20 mm Hg similar a la del estudio anterior, el tamaño muestral 
necesario en cada uno de los grupos sería
 13
diferencia debe ser un valor plausible basado en conocimientos previos, o bien 
relevante desde el punto de vista clínico o epidemiológico. 
Ejemplo 9.4 Dado que el estudio descrito en el ejemplo anterior carecía de 
potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la 
presión arterial sistólica media de los hipertensos bajo monoterapia y tratamiento 
combinado, se planea realizar un nuevo ensayo clínico que tenga una potencia 1 - 
β = 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se 
pr tende asignar el mismo número de pacient s a ambos brazos del ensayo 
clínico, un nivel de significación α = 0,05 y una desviación típica σ = 20 mm Hg 
similar a la del estudio anterior, el tamaño muestral necesario en cada uno de los 
grupos sería 
n1 = n2 = 2
22
2
21
22
80,0975,0
5
20)84,096,1(2
)(
)(2 +
=
−
+
μμ
σzz
 = 250,88 ≈ 251, 
para una muestra total de 251 + 251 = 502 pacientes. Supongamos, por el 
contrario, que el tratamiento combinado con el nuevo fármaco es muy costoso y 
que se decide estudiar la mitad de sujetos bajo tratamiento combinado que bajo 
monoterapia estándar; esto es, n2 = 0,5n1. En tal caso, el tamaño muestral 
necesario en el grupo de monoterapia sería 
n1 = 2
22
55,0
20)84,096,1)(15,0(
⋅
++  = 376,32 ≈ 377 
y en el grupo de tratamiento combinado n2 = 0,5⋅376,32 = 188,16 ≈ 189. El 
número total de pacientes necesarios para el estudio sería entonces 377 + 189 = 
566; es decir, 64 pacientes más de los requeridos en el caso de igual tamaño 
muestral para alcanzar una misma potencia. 
para una muestra total de 251 + 251 = 502 pacientes. Supongamos, por el contrario, que 
el tratamiento combinado con el nuevo fármaco es muy costoso y que se decide estudiar 
la mitad de sujetos bajo tratamiento combinado que bajo monoterapia estándar; esto es, 
n2 = 0,5n1. En tal caso, el tamaño muestral necesario en el grupo de monoterapia sería
 13
diferencia debe ser un valor plausible basado en conocimientos previos, o bien 
relevante desde el punto de vista clínico o epidemiológico. 
Ejemplo 9.4 Dado que el estudio descrito en el ejemplo anterior carecía de 
potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la 
presión arterial sistólica media de los hipertensos bajo monoterapia y tratamiento 
combinado, se planea realizar un nuevo ensayo clínico que tenga una potencia 1 - 
β = 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se 
pretende asignar el mismo número de pacientes a ambos brazos del ensayo 
clínico, un nivel de significación α = 0,05 y una desviación típica σ = 20 mm Hg 
similar a la del estudio anterior, el tamaño muestral necesario en cada uno de los 
grupos sería 
n1 = n2 = 2
22
2
21
22
80,0975,0
5
20)84,096,1(2
)(
)(2 +
=
−
+
μμ
σzz
 = 250,88 ≈ 251, 
para una muestra total de 251 + 251 = 502 pacientes. Sup ngamos, por el 
contrario, que el tratamiento combinado con el nuevo fármaco es muy costoso y 
que se decide estudiar la mitad de sujetos bajo tratamiento combinado que bajo 
monoterapia estándar; esto es, n2 = 0,5n1. En tal caso, el tamaño muestral 
necesario n el grupo de monoterapia sería 
n1 = 2
22
55,0
20)84,096,1)(15,0(
⋅
++  = 376,32 ≈ 377 
y en el grupo de tratamient  c mbinado n2 = 0,5⋅376,32 = 188,16 ≈ 189. El 
número total de pacientes necesarios para el estudio sería entonces 377 + 189 = 
566; es decir, 64 pacientes más de los requeridos en el caso de igual tamaño 
muestral para alcanzar una misma potencia. 
y en el grupo de tratamiento combinado n2 = 0,5∙376,32 = 188,16 ≈ 189. El número total 
de pacientes n cesarios para el estu io sería entonces 377 + 189 = 566; es decir, 64 
pacientes más de los requeridos en el caso de igual tamaño muestral para alcanzar una 
misma p tencia.
9.3.2 Tamaño muestral para la comparación de medias en dos muestras dependientes
Supongamos que se planea seleccionar n parejas de datos dependientes procedentes de dos 
poblaciones para contrastar la hipótesis nula H0: μ1 = μ2 frente a la hipótesis alternativa bilateral 
H1: μ1 ≠ μ2. Como se discutió en el Apartado 6.4, la media de las diferencias en cada pareja 
 24
Para concretar el problema, supongamos que se dispone de n pares de observaciones 
de una variable aleatoria continua. En cada pareja de datos dependientes, una 
observación x1 corresponde a la primer  uestra y la otra observación x2 a la segunda 
uestra. El objetivo se centra en comparar las medias poblacionales μ1 y μ2 a partir de 
estas dos muestras dependientes. 
Los procedimientos desarr llados en el Apar ado 6.3 no pueden aplicarse a esta 
situación, y  que las medias de ambas muestras no son independientes por provenir de 
observaciones correlacionadas. Sin embargo, la comparación se simplifica notablemente 
si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. 
Por un lado, como las distintas parejas no están relacionadas entre sí, estas diferencias 
so inde endientes. Por otro lado, la media de las diferencias d  coincide con la 
diferencia de medias muestrales, 
21
1
2
1
1
1
21
1
11
)(11
xxxnxn
xxndnd
n
i
i
n
i
i
n
i
ii
n
i
i
−=−=
−==


==
==
 
y, en consecuencia, d  es un estimador insesgado de la diferencia de medias 
poblacionales μ1 - μ2. Así, el problema de la comparación de medias en dos muestras 
dependientes queda reducido a una simple inferencia sobre la media de una única 
muestra de n diferencias independientes. 
Los métodos del Apartado 6.2.1 para la media de una muestra pueden entonces  
utilizarse para calcular un intervalo de confianza al 100(1 - α)% para μ1 - μ2 como 
n
std dn 2/1,1 α−−± , 
 se 
distribuirá de forma aproximadamente normal N(0, σd2 /n) bajo H0 y N(μ1 – μ2, σd2 /n) bajo H1, 
donde σd2  es la va ianza de las diferencias. Para un niv l de significación α preestablecido, el 
contraste arrojará un resultado significativo cuando la media de las diferencias
 14
9.3.2 Tamaño muestral para la comparació  de m dias en dos muestras 
dependi nt s 
Supongamos que e planea sel ccionar n parejas de dat s dependientes procedentes de 
dos pobl c nes para contrastar la hipótesis nula H0: μ1 = μ2 frente a la hipótesis 
alternativa bilateral H1: μ1 ≠ μ2. Como se discutió en el Apartado 6.4, la media de las 
diferencias en cada pareja d  se distribuirá de forma aproximadamente normal N(0, 
2
dσ /n) bajo H0 y N(μ1 - μ2, 2dσ /n) bajo H1, donde 2dσ  es la varianza de las diferencias. 
Para un nivel de significación α preestablecido, el contraste arrojará un resultado 
significativo cuando la media de las diferencias 
d  ≤ z1 α/2 d / n  ó d  ≥  z1 α/2 d / n . 
Por tanto, asumiendo como en el apartado anterior que μ1 < μ2, la potencia para detectar 
una diferencia de medias μ1 - μ2 será aproximadamente igual a 
 1 - β = P( d  ≤ -z1-α/2σd / n  | H1) 
  = 



−−−
≤
−−
−
1
212/121
/
)(/
/
)(
H
n
nz
n
d
P
d
d
d σ
μμσ
σ
μμ α  
  = 



−
+−Φ
− n
z
d /
|| 21
2/1
σ
μμ
α . 
Como por definición Φ(z1-β) = 1 - β, se sigue que 
n
zz
d /
|| 21
2/11
σ
μμ
αβ
−
+−=
−−
, 
de donde puede despejarse n para obtener el número mínimo de parejas que serán 
necesarias para detectar una diferencia subyacente μ1 - μ2 con una potencia 1 - β, 
−
− −
σσ
Por tanto, asumiendo como en el apartado anterior que μ1 < μ2, la potencia para detectar una 
diferencia de medias μ1 – μ2 será aproximadamente igual a
 14
9.3.2 Tamaño muestral para la comparación de medias en dos muestras 
dependientes 
Supongamos que se planea seleccionar n parejas de datos dependientes procedentes de 
dos poblaciones para contrastar la hipótesis nula H0: μ1 = μ2 frente a la hipótesis 
alternativa bilateral H1: μ1 ≠ μ2. Como se discutió en el Apartado 6.4, la media de las 
diferencias en cada pareja d  se distribuirá de forma aproximadamente normal N(0, 
2
dσ /n) bajo H0 y N(μ1 - μ2, 2dσ /n) bajo H1, donde 2dσ  es la varianza de las diferencias. 
Para un nivel de significación α preestablecido, el contraste arrojará un resultado 
significativo cuando la media de las diferencias 
d  ≤ -z1-α/2σd / n  ó d  ≥ z1-α/2σd / n . 
Por tanto, asumiendo como en el apartado anterior que μ1 < μ2, la potencia para detectar 
un  diferencia de medias μ1 - μ2 será aproximadamente igual a 
 1  β  = P( d  ≤ z1 α /2σ d / n  | H1) 
  = 



−−−
≤
−−
−
1
212/121
/
)(/
/
)(
H
n
nz
n
d
P
d
d
d σ
μμσμμ α
 
  = 



−
+−Φ
− n
z
d /
|| 21
2/1
σ
μμ
α . 
Como por definición Φ(z1-β) = 1 - β, se sigue que 
n
zz
d /
|| 21
2/11
σ
μμ
αβ
−
+−=
−−
, 
de donde puede despejarse n para obtener el número mínimo de parejas que serán 
necesarias para detectar una diferencia subyacente μ1 - μ2 con una potencia 1 - β, 
−−
−
σ
147
Tamaño muestral para la comparación de medias
Pastor-Barriuso R.
Como por definición Φ(z1–β) = 1 – β, se sigue que
 14
9.3.2 Tamaño muestral para la comparación de medias en dos muestras 
dependientes 
Supongamos que se planea seleccionar n parejas de datos dependientes procedentes de 
dos poblaciones para contrastar la hipótesis nula H0: μ1 = μ2 frente a la hipótesis 
alternativa bilateral H1: μ1 ≠ μ2. Como se discutió en el Apartado 6.4, la media de las 
diferencias en cada pareja d  se distribuirá de forma aproximadamente normal N(0, 
2
dσ /n) bajo H0 y N(μ1 - μ2, 2dσ /n) bajo H1, donde 2dσ  es la varianza de las diferencias. 
Para un nivel de significación α preestablecido, el contraste arrojará un resultado 
significativo cuando la media de las diferencias 
d  ≤ -z1-α/2σd / n  ó d  ≥ z1-α/2σd / n . 
Por tanto, asumiendo como en el apartado anterior que μ1 < μ2, la potencia para detectar 
una diferencia de medias μ1 - μ2 será aproximadamente igual a 
 1 - β  = P( d  ≤ -z1-α /2σ d / n  | H1) 
  = 



−−−
≤
−−
−
1
212/121
/
)(/
/
)(
H
n
nz
n
d
P
d
d
d σ
μμσ
σ
μμ α  
  = 



−
+−Φ
− n
z
d /
|| 21
2/1
σ
μμ
α . 
Como por definición Φ(z1-β) = 1 - β, se sigue que 
n
zz
d /
|| 21
2/11
σ
μμ
αβ
−
+−=
−−
, 
de donde puede despejarse n para obtener el número mínimo de parejas que serán 
necesarias para detectar una diferencia subyacente μ1 - μ2 con una potencia 1 - β, 
de donde puede despejarse n para obtener el número mínimo de parejas que serán necesarias 
para detectar una dif rencia subyacente μ1 – μ2 con una potencia 1 – β,
 15
2
21
22
12/1
)(
)(
μμ
σβα
−
+
=
−− dzzn . 
En la práctica, resulta difícil determinar directamente la varianza de las diferencias 
2
dσ  ya que los datos de una misma pareja están correlacionados. Asumiendo igual 
varianza σ 2 en ambas poblaciones y un coeficiente de correlación ρ entre los valores de 
una misma pareja, la varianza de las diferencias viene determinada según los resultados 
del Apartado 3.4 por 
2
dσ  = σ
 2 + σ 2 - 2σ 2ρ = 2σ 2(1 - ρ). 
Así, el número de parejas necesarias también puede expresarse como 
2
21
22
12/1
)(
)1()(2
μμ
ρσβα
−
−+
=
−−
zz
n  
que, además de los parámetros descritos en el apartado anterior, depende de la 
correlación entre cada pareja de datos. Si el emparejamiento no es efectivo, de tal 
forma que ρ está próximo a 0, el número de parejas necesarias para un estudio 
emparejado será aproximadamente igual al número de sujetos por grupo para un estudio 
con muestras independientes (notar que si ρ = 0, la fórmula anterior se reduce a la 
obtenida en el caso de muestras independientes del mimo tamaño). Si, por el contrario, 
el emparejamiento es efectivo, los datos de cada pareja estarán correlacionados 
positivamente y, en consecuencia, el número de parejas será substancialmente inferior 
al número de sujetos requeridos en cada grupo de un estudio independiente bajo las 
mismas condiciones. 
Ejemplo 9.5 Con objeto de asegurar la comparabilidad de los pacientes 
hipertensos bajo monoterapia y tratamiento combinado, se decide diseñar un 
En la práctica, resulta difícil determinar directamente la varianza de las diferencias σd
2  ya que 
los datos de una misma pareja están correlacionados. Asumiendo igu l varianza σ 2 en ambas 
poblaciones y un coeficiente de correlación ρ entre los valores de una misma pareja, la varianza 
de las diferencia  viene terminada según los resultados del Apartado 3.4 por
 15
2
21
22
12/1
)(
)(
μμ
σβα
−
+
=
−− dzzn . 
En la práctica, resulta difícil determinar directamente la varianza de las diferencias 
2
dσ  ya que los datos de una misma pareja están correlacionados. Asumiendo igual 
varianza σ 2 en ambas poblaciones y un coeficiente de correlación ρ entre los valores de 
u a misma p reja, a varianza d  las diferen i s viene determina a según los resultados 
del Apartado 3.4 por 
2
dσ  = σ
 2 + σ  2  2σ  2ρ  = 2σ  2(1  ρ). 
Así, el número de parejas ecesarias también puede expresarse como 
2
21
22
12/1
)(
)1()(2
μμ
ρσβα
−
−+
=
−−
zz
n  
que, además de los parámetros descritos en el apartado anterior, depende de la 
correlación entre cada pareja de datos. Si el emparejamiento no es efectivo, de tal 
forma que ρ está próximo a 0, el número de parejas necesarias para un estudio 
emparejado será aproximadamente igual al número de sujetos por grupo para un estudio 
con muestras independientes (notar que si ρ = 0, la fórmula anterior se reduce a la 
obtenida en el caso de muestras independientes del mimo tamaño). Si, por el contrario, 
el emparejamiento es efectivo, los datos de cada pareja estarán correlacionados 
positivamente y, en consecuencia, el número de parejas será substancialmente inferior 
al número de sujetos requeridos en cada grupo de un estudio independiente bajo las 
mismas condiciones. 
Ejemplo 9.5 Con objeto de asegurar la comparabilidad de los pacientes 
hipertensos bajo monoterapia y tratamiento combinado, se decide diseñar un 
− −
Así, el número de parejas necesarias también puede expresarse como
 15
2
21
22
12/1
)(
)(
μμ
σβα
−
+
=
−− dzzn . 
En la práctica, resulta difícil determinar directamente la varianza de las diferencias 
2
dσ  ya que los datos de una misma pareja están correlacionados. Asumiendo igual 
varianza σ 2 en mbas poblaciones y un coeficiente de orrelación ρ entre l s valores de 
una misma pareja, la varianza de las diferencias viene determinada según los resultados 
del Apartado 3.4 por 
2
dσ  = σ
 2 + σ  2 - 2σ  2ρ  = 2σ  2(1 - ρ). 
Así, el número de parejas necesarias también puede expresarse como 
2
21
22
12/1
)(
)1()(2
μμ
ρσβα
−
−+
=
−−
zz
n  
que, además de los parámetros descritos en el apartado anterior, depende de la 
correlación entre cada pareja de datos. Si el emparejamiento no es efectivo, de tal 
forma que ρ está próximo a 0, el número de parejas necesarias para un estudio 
emparejado será aproximadamente igual al número de sujetos por grupo para un estudio 
con muestras independientes (notar que si ρ = 0, la fórmula anterior se reduce a la 
obtenida en el caso de muestras independientes del mi o tamaño). Si, por el contrario, 
el emparejamiento es efectivo, los datos de cada pareja estarán correlacionados 
positivamente y, en consecuencia, el número de parejas será substancialmente inferior 
al número de sujetos requeridos en cada grupo de un estudio independiente bajo las 
mismas condiciones. 
Ejemplo 9.5 Con objeto de asegurar la comparabilidad de los pacientes 
hipertensos bajo monoterapia y tratamiento combinado, se decide diseñar un 
que, además de los parámetros descritos en el apartado anterior, depende de la correlación entre 
cada pareja de datos. Si el emparejamiento no es efectivo, de tal forma que ρ está próximo a 0, el 
número de parejas necesarias para un estudio emparejado será aproximadamente igual al número 
de s j tos por grupo par  un studio con mu stras independientes (notar que si ρ = 0, la fórmula 
anterior se reduce a la obtenida en el caso de muestras independientes del mismo tamaño). Si, por 
el ntrario, el mparejamiento es efectivo, los datos de cada pareja estarán correlacionados 
positivamente y, en consecuencia, el número de parejas será substancialmente inferior al número 
de sujetos requeridos en cada grupo de un estudio indep ndiente bajo las mismas condiciones.
Ejempl 9.5 C n objeto de asegurar la comparabilidad de los acientes hipertensos 
bajo monoterapia y tratamiento combinado, se decide diseñar un ensayo clínico emparejado 
donde, en lugar de asignar dis intos pacientes a a bos grupos, cada paciente es sometido 
a la monoterapia estándar durante un primer periodo de 4 semanas y al tratamiento 
combinado on el nuevo fármaco durante un segundo periodo de igual duració . Se asume 
que la desviación típica de la presión arterial sistólica bajo ambos tratamientos es 20 mm 
Hg, y que el c eficiente de c rrelación entre las det rminaciones tomadas en un mismo 
sujeto con un intervalo de 4 semanas es aproximadamente 0,50. Para detectar una 
diferencia subyacente de 5 mm Hg en la presión arterial si tólic  media al final de ambos 
tratamientos con una potencia de 0,80 y un nivel de significación de 0,05, el número de 
parejas n cesarias sería
 16
ensayo clínico emparejado donde, en lugar de asignar distintos pacientes a ambos 
grupos, cada paciente es sometido a la monoterapia estándar durante un primer 
periodo de 4 semanas y al tratamiento combinado con el nuevo fármaco durante 
un segundo periodo de igual duración. Se asume que la desviación típica de la 
presión arterial sistólica bajo ambos tratamientos es 20 mm Hg, y que el 
coeficiente de correlación entre las determinaciones tomadas en un mismo sujeto 
con un i t rvalo de 4 sem nas es aproximadamente 0,50. Para detectar una 
diferencia subyacente de 5 mm Hg en la presión arterial sistólica media al final de 
ambos tratamientos con una potencia de 0,80 y un nivel de significación de 0,05, 
el nú ero de sujetos necesarios en este estudio emparejado sería 
n = 2
22
5
)50,01(20)84,096,1(2 −+  = 125,44 ≈ 126; 
es decir, la mitad de los sujetos que serían n cesarios en cada uno de los grupos de 
un diseño no mparejado (Ejemplo 9.4). 
La determinación del tamaño muestral para la comparación de medias en más de dos 
muestras dependientes  independi ntes sigue rgumentos similares a los d scritos en 
este apartado. No bst nte, para preservar la inc r idumbre global del proceso de 
inferencia, es necesario utilizar técnicas de corrección por las múltiples comparaciones 
que se pretendan realizar en el análisis (por ejemplo, un ensayo clínico en el que se 
comparan varios tratamientos frente a placebo). Estos métodos pueden consultarse en 
los libros de tamaño muestral referenciados al final del tema. 
9.4 TAMAÑO MUESTRAL PARA LA COMPARACIÓN DE PROPORCIONES 
En esta sección se aborda el problema de la determinación del tamaño muestral en 
estudios observacionales o ensayos clínicos donde se pretende contrastar diferencias 
es decir, la mitad de l s sujetos que serían necesarios en cada uno de los gr pos de un 
diseño no e parejado (Ejemplo 9.4).
La determinación del tamaño muestral para la comparación de medias en más de dos muestras 
dependientes o independientes sigue argumentos similares a los descritos en este apartado. No 
148
Determinación del tamaño muestral
Pastor-Barriuso R.
obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar 
técnicas de corrección por las múltiples comparaciones que se pretendan realizar en el análisis 
(por ejemplo, un ensayo clínico en el que se comparan varios tratamientos frente a placebo). Estos 
métodos pueden consultarse en los libros de tamaño muestral referenciados al final del tema.
9.4 TAMAÑO MUESTRAL PARA LA COMPARACIÓN DE PROPORCIONES
En esta sección se aborda el problema de la determinación del tamaño muestral en estudios 
observacionales o ensayos clínicos donde se pretende contrastar diferencias entre proporciones 
a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las 
fórmulas descritas a continuación se fundamentan en la aproximación normal a la distribución 
muestral de una proporción y, en consecuencia, serán válidas siempre que nπ(1 – π) ≥ 5 en 
ambos grupos de comparación. En las referencias de este tema pueden consultarse otros métodos 
alternativos de cálculo del tamaño muestral particularmente útiles para la comparación de 
proporciones muy extremas en muestras reducidas.
9.4.1  Tamaño muestral para la comparación de proporciones en dos muestras 
independientes
El propósito se centra en contrastar la hipótesis nula de igualdad de proporciones poblacionales 
H0: π1 = π2 frente a la hipótesis alternativa bilateral H1: π1 ≠ π2 a partir de dos muestras 
independientes de tamaños n1 y n2. Del Apartado 7.3 se desprende que la diferencia de 
proporciones muestrales p1 – p2 seguirá aproximadamente una distribución normal N(0, π(1 – π)
(1/n1 + 1/n2)) bajo H0 y N(π1 – π2, π1(1 – π1)/n1 + π2(1 – π2)/n2) bajo H1, donde π = (n1π1 + n2π2)/
(n1 + n2) es la proporción combinada que se asume común a ambos grupos bajo H0. El contraste 
resultará significativo para un nivel α cuando la diferencia de proporciones muestrales
 17
entre proporciones a partir de dos muestras dependientes o independientes. Al igual que 
en el Apartado 9.2.2, las fórmulas descritas a continuación se fundamentan en la 
aproximación normal a la distribución muestral de una proporción y, en consecuencia, 
serán válidas siempre que nπ(1 - π) ≥ 5 en ambos grupos de comparación. En las 
referencias de este tema pueden consultarse otros métodos alternativos de cálculo del 
tamaño muestral particularmente útiles para la comparación de proporciones muy 
extremas en muestras reducidas. 
9.4.1 Tamaño muestral para la comparación de proporciones en dos muestras 
independientes 
El propósito se centra en contrastar la hipótesis nula de igualdad de proporciones 
poblacionales H0: π1 = π2 frente a la hipótesis alternativa bilateral H1: π1 ≠ π2 a partir de 
dos muestras independientes de tamaños n1 y n2. Del Apartado 7.3 se desprende que la 
diferencia de proporciones muestrales p1 - p2 seguirá aproximadamente una distribución 
normal N(0, π(1 - π)(1/n1 + 1/n2)) bajo H0 y N(π1 - π2, π1(1 - π1)/n1 + π2(1 - π2)/n2) bajo 
H1, donde π = (n1π1 + n2π2)/(n1 + n2) es l propo ción combinada que se asume co ún a 
ambos grupos bajo H0. El contraste resultará significativo para un nivel α cuando la 
diferencia de roporciones muestrales 
p1 p2 ≤ z1 α /2 )/1/1)(1( 21 nn +− ππ  
o 
 p1 - p2 ≥ z1-α/2 )/1/1)(1( 21 nn +−ππ . 
Así, asumiendo sin pérdida de generalidad que π1 < π2, la potencia para detectar una 
diferencia de proporciones subyacente π1 - π2 vendrá determinada por 
−
− −
o
 17
entre proporciones a partir de dos muestras dependientes o independientes. Al igual que 
en el Apartado 9.2.2, las fórmulas descritas a continuación se fundamentan en la 
aproximación normal a la distribución mue tral de un  proporció  y, en co secuencia, 
serán válidas sie pre que nπ(1 - π) ≥ 5 en ambos gr pos de comparación. En las 
referencias de este tema pueden consultarse otros métodos alternativos de cálculo del 
tamaño muestral particularmente útiles para la c mparación de proporciones m y 
extremas en muestr s reducidas. 
9.4.1 Tamaño muestral para la comparación de proporciones en dos muestras 
independientes 
El propósito se centra en contrastar la hipótesis nula de igu ldad d  proporciones 
poblacionales H0: π1 = π2 fre te a la hipótesis altern tiva bil teral H1: π1 ≠ π2 a partir de 
dos muestr s independientes de t m ños n1 y n2. Del Ap rtado 7.3 se desprende que la 
diferencia de proporciones muestrales p1 - p2 seguirá aproximadamente una distrib ción 
normal N(0, π(1 - π)(1/n1 + 1/n2)) bajo H0 y N(π1 - π2, π1(1 - π1)/n1 + π2(1 - π2)/n2) bajo 
H1, donde π = n1π1 + n2π2)/(n1 + n2) es la proporción combinada que se asume común a
ambos grupos bajo H0. El contraste esult rá signif cativo para un nivel α c ando la 
diferencia de prop rciones muestrales 
p1 - p2 ≤ -z1-α /2 )/1/1)(1( 21 nn +− ππ  
o 
 p1 p2 ≥ z1 α /2 )/1/1)(1( 21 nn +− ππ . 
Así, asumiendo sin pérdida de generalidad que π1 < π2, la potencia para detectar una 
diferencia de proporciones subyacente π1 - π2 vendrá determinada por 
− −
Así, asumiendo sin pérdida de generalidad que π1 < π2, la potencia para detectar una diferencia 
de proporciones subyacente π1 – π2 vendrá determinada por
 18
 1  β  = P( p1 p2 ≤ z1 α /2 )/1/1)(1( 21 nn +− ππ  | H1) 
  = 

−+−
−−−
222111
121
/)1(/)1(
)(
nn
pp
P
ππππ
ππ
 
   


−+−
−−+−
≤ 1
222111
21212/
/)1(/)1(
)()/1/1)(1(
H
nn
nn
ππππ
ππππ
α
 
  = 



−+−
+−−−
Φ −
222111
212/121
/)1(/)1(
)/1/1)(1(||
nn
nnz
ππππ
ππππ α . 
Si las limitaciones prácticas determinan de antemano el tamaño muestral disponible 
para un estudio o si el estudio ya ha sido llevado a cabo, la fórmula anterior permitirá 
calcular la potencia estadística que tendría dicho estudio con la muestra disponible para 
detectar diferencias de una determinada magnitud. 
Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociación 
entre el uso de anticonceptivos orales y el riesgo de cáncer de mama en mujeres 
entre 40 y 49 años. Para ello, se dispone de una cohorte de 6.000 mujeres en este 
rango de edad sin evidencia basal de cáncer de mama, que serán seguidas durante 
un periodo de 5 años para determinar casos incidentes de la enfermedad. Se 
estima que un 40% de estas mujeres han utilizado regularmente anticonceptivos 
orales y que la tasa de incidencia de cáncer de mama en este grupo de edad es de I 
= 150 casos por 100.000 personas-año. Para un nivel de significación α = 0.05, 
¿cuál sería la potencia de este estudio para detectar un hipotético aumento del 
riesgo de cáncer de mama del 50% entre las usuarias de anticonceptivos orales? 
Asumiendo una tasa de incidencia constante en los 5 años de seguimiento, la 
incidencia acumulada o probabilidad de desarrollar un cáncer de mama en esta 
cohorte durante los próximos 5 años sería aproximadamente π = IA5 = 0,00150⋅5 
−
−
−
−
− 2/1z α
−
149
Tamaño muestral para la comparación de proporciones
Pastor-Barriuso R.
Si las limitaciones prácticas determinan de antemano el tamaño muestral disponible para un 
estudio o si el estudio ya ha sido llevado a cabo, la fórmula anterior permitirá calcular la potencia 
estadística que tendría dicho estudio con la muestra disponible para detectar diferencias de una 
determinada magnitud.
Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociación entre 
el uso de anticonceptivos orales y el riesgo de cáncer de mama en mujeres entre 40 y 49 
años. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin 
evidencia basal de cáncer de mama, que serán seguidas durante un periodo de 5 años para 
determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han 
utilizado regularmente anticonceptivos orales y que la tasa de incidencia de cáncer de 
mama en este grupo de edad es de I = 150 casos por 100.000 personas-año. Para un nivel 
de significación α = 0,05, ¿cuál sería la potencia de este estudio para detectar un hipotético 
aumento del riesgo de cáncer de mama del 50% entre las usuarias de anticonceptivos 
orales?
Asumiendo una tasa de incidencia constante en los 5 años de seguimiento, la incidencia 
acumulada o probabilidad de desarrollar un cáncer de mama en esta cohorte durante los 
próximos 5 años sería aproximadamente π = IA5 = 0,00150∙5 = 0,00750. Aplicando la 
regla de la probabilidad total (véase Apartado 2.4), la relación entre esta probabilidad 
combinada de cáncer de mama en toda la cohorte y las probabilidades específicas por 
grupo de exposición vendrá dada por
 19
= 0,00750. Aplicando la regla de la probabilidad total (véase Apartado 2.4), la 
relación entre esta probabilidad combinada de cáncer de mama en toda la cohorte 
y las probabilidades específicas por grupo de exposición vendrá dada por 
 π  = P(D) = P(E)P(D|E) + P(Ec)P(D|Ec) 
  = 0,40π1 + 0,60π2 = 0,40⋅1,50π2 + 0,60π2 = 1,20π2, 
ya que se estima que un 40% de las mujeres son usuarias de anticonceptivos 
orales y que la probabilidad π1 de padecer un cáncer de mama entre las usuarias es 
un 50% superior a la probabilidad π2 entre las no usuarias. Así, la probabilidad de 
desarrollar un cáncer de mama en los 5 años de seguimiento sería π2 = π/1,20 = 
0,00750/1,20 = 0,00625 entre las no usuarias y π1 = 1,50π2 = 1,50⋅0,00625 = 
0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 = 
0,40⋅6.000 = 2.400 mujeres de la muestra sean usuarias de estos anticonceptivos y 
las restantes n2 = 0,60⋅6.000 = 3.600 no usuarias, la potencia de este estudio sería 
 1 - β = 



−+−
+−−−
Φ
600.3/)00625,01(00625,0400.2/)00938,01(00938,0
)600.3/1400.2/1)(00750,01(00750,096,1|00625,000938,0|
 
  = 



 ⋅−Φ
00237,0
00227,096,100313,0  = Φ(-0,56) = 0,287; 
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer 
de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sería 
únicamente del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 
años. 
La expresión anterior de la potencia permite asimismo determinar a priori la muestra 
mínima que será necesaria en cada uno de los grupos para alcanzar una potencia 
preestablecida 1 - β en la detección de una diferencia subyacente de proporciones π1 - 
ya que se estima que un 40% de las mujeres son usuarias de anticonceptivos orales y que 
la probabilidad π1 de padecer un cáncer de mama entre las usuarias es un 50% superior a 
la probabilidad π2 entre las no usuarias. Así, la probabilidad de desarrollar un cáncer de 
mama en los 5 años de seguimiento sería π2 = π/1,20 = 0,00750/1,20 = 0,00625 entre las 
no usuarias y π1 = 1,50π2 = 1,50∙0,00625 = 0,00938 entre las usuarias de anticonceptivos 
orales. Como se espera que n1 = 0,40∙6.000 = 2.400 mujeres de la muestra sean usuarias 
de estos anticonceptivos y las restantes n2 = 0,60∙6.000 = 3.600 no usuarias, la potencia 
de este estudio sería
 19
= 0,00750. Aplicando la regla de la probabilidad total (véase Apartado 2.4), la 
relación entre esta probabilidad combinada de cáncer de mama en toda la cohorte 
y las probabilidades específicas por grupo de exposición vendrá dada por 
 π  = P(D) = P(E)P(D|E) + P(Ec)P(D|Ec) 
  = 0,40π1 + 0,60π2 = 0,40⋅1,50π2 + 0,60π2 = 1,20π2, 
ya que se estima que un 40% de las mujeres son usuarias de anticonceptivos 
orales y qu  la probabilid d π1 de padecer un cáncer de mama entre las usuarias es 
un 50% superior a la probabilidad π2 entre las no usuarias. Así, la probabilidad de 
desarrollar un cáncer de mama en los 5 años de seguimiento sería π2 = π/1,20 = 
0,00750/1,20 = 0,00625 entre las no usuarias y π1 = 1,50π2 = 1,50⋅0,00625 = 
0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 = 
0,40⋅6.000 = 2.400 mujeres de la muestra sean usuarias de estos anticonceptivos y 
las restantes n2 = 0,60⋅6.000 = 3.600 no usuarias, la potencia de este estudio sería 
 1  β  = 



−+−
+−−−
Φ
600.3/)00625,01(00625,0400.2/)00938,01(00938,0
)600.3/1400.2/1)(00750,01(00750,096,1|00625,000938,0|
 
  = 



 ⋅−Φ
00237,0
00227,096,100313,0  = Φ( 0,56) = 0,287; 
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer 
de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sería 
únicamente del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 
años. 
La expresión anterior de la potencia permite asimismo determinar a priori la muestra 
mínima que será necesaria en cada uno de los grupos para alcanzar una potencia 
preestablecida 1 - β en la detección de una diferencia subyacente de proporciones π1 - 
−
−
es decir, la probabilidad de detectar un hipotético incremento del riesgo de cáncer de 
mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sería únicamente 
del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 años.
La expresión anterior de la potencia permite asimismo determinar a priori la muestra mínima 
que será necesaria en cada uno de los grupos para alcanzar una potencia preestablecida 1 – β en 
la detección de una diferencia subyacente de proporciones π1 – π2. En general, si se prevé asignar 
distinto tamaño a ambas muestras n2 = kn1, se sigue a partir de la fórmula de la potencia que
150
Determinación del tamaño muestral
Pastor-Barriuso R.
 20
π2. En general, si se prevé asignar distinto tamaño a ambas muestras n2 = kn1, se sigue a 
partir de la fórmula de la potencia que 
 z1 β = 
1
22
1
11
11
2/121
)1()1(
11)1(||
knn
knn
z
ππππ
ππππ α
−
+
−




+−−−
−
 
  = 
1
2211
1
2/121
)1()1(
)1()1(||
kn
k
kn
kz
ππππ
ππ
ππ α
−+−
−+
−−
−
, 
de tal forma que el tamaño muestral requerido será 
2
21
2
221112/1
1 )(
))1()1()1()1((
ππ
ππππππ βα
−
−+−+−+
=
−−
k
kzkz
n  
en la primera muestra y n2 = kn1 en la segunda muestra, donde la proporción combinada 
en ambas muestras viene dada por π = (n1π1 + n2π2)/(n1 + n2) = (π1 + kπ2)/(1 + k). En el 
caso de asignar igual tamaño a ambos grupos de comparación k = 1, el tamaño muestral 
en cada una de las muestras se reduce a 
2
21
2
221112/1
21 )(
))1()1()1(2(
ππ
ππππππ βα
−
−+−+−
==
−−
zz
nn , 
donde la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la 
asignación de igual tamaño a las dos muestras es más eficiente al requerir un menor 
tamaño total del estudio para alcanzar una misma potencia. Sin embargo, en el diseño 
de determinados estudios (ver ejemplos posteriores), la selección de muestras de 
distinto tamaño puede resultar más factible en términos de coste o disponibilidad de 
−
de tal forma que el tamaño muestral requerido será
 20
π2. En general, si se prevé asignar distinto tamaño a ambas muestras n2 = kn1, se sigue a 
partir de la fórmula de la potenci  que 
 z1-β  = 
1
22
1
11
11
2/121
)1()1(
11)1(||
knn
knn
z
ππππ
ππππ α
−
+
−




+−−−
−
 
  = 
1
2211
1
2/121
)1()1(
)1()1(||
kn
k
kn
kz
ππππ
ππ
ππ α
−+−
−+
−−
−
, 
de tal forma que el tamaño muestral requerido será 
2
21
2
221112/1
1 )(
))1()1()1()1((
ππ
ππππππ βα
−
−+−+−+
=
−−
k
kzkz
n  
en la primera muestra y n2 = kn1 en la segunda muestra, donde la proporción combinada 
en ambas muestras viene dada por π = (n1π1 + n2π2)/(n1 + n2) = (π1 + kπ2)/(1 + k). E  el 
caso de ignar igual tamaño  ambos grupos de comparación k = , el tamaño muestral 
en cada una de las muestr s se reduce a 
2
21
2
221112/1
21 )(
))1()1()1(2(
ππ
ππππππ βα
−
−+−+−
==
−−
zz
nn , 
donde la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la 
asignación de igual tamaño a las dos muestras es más eficiente al requerir un menor 
t maño total del estudio para alcanzar una misma potenc a. Sin embargo, en el diseño 
de determinados t i s (ver ejemplos posteriores), la selecc ón de muestras de 
distinto tamaño puede re ultar más factible en términos d  coste o isponibilidad de 
en la primera muestra y n2 = kn1 en la segunda muestra, donde la proporción combinada en 
ambas muestras viene dada por π = (n1π1 + n2π2)/(n1 + n2) = (π1 + kπ2)/(1 + k). En el caso de 
asignar igual tamaño a ambos grupos de comparación k = 1, el tamaño muestral en cada una de 
las muestr  s  r duce a
 20
π2. En general, si se prevé asignar distinto tamaño a ambas muestras n2 = kn1, se sigue a 
partir de la fórmula de la potencia que 
 z1-β  = 
1
22
1
11
11
2/121
)1()1(
11)1(||
knn
knn
z
ππππ
ππππ α
−
+
−




+−−−
−
 
  = 
1
2211
1
2/121
)1()1(
)1()1(||
kn
k
kn
kz
ππππ
ππ
ππ α
−+−
−+
−−
−
, 
de tal forma que el tamaño muestral requerido será 
2
21
2
221112/1
1 )(
))1()1()1()1((
ππ
ππππππ βα
−
−+−+−+
=
−−
k
kzkz
n  
en la primera muestra y n2 = kn1 en la segunda muestra, donde la proporción combinada 
en ambas muestras viene dada por π = (n1π1 + n2π2)/(n1 + n2) = (π1 + kπ2)/(1 + k). En el 
c so de asignar igual tamaño a ambos gr pos de comparación k = 1, el tamaño muestral 
e  cada una de las muestras se reduce a 
2
21
2
221112/1
21 )(
))1()1()1(2(
ππ
ππππππ βα
−
−+−+−
==
−−
zz
nn , 
donde la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la 
asignación de igual tamaño a las dos muestras es más eficiente al requerir un menor 
tamaño total del estudio para alcanzar una misma potencia. Sin embargo, en el diseño 
de determinados estudios (ver ejemplos posteriores), la selección de muestras de 
distinto tamaño puede resultar más factible en términos de coste o disponibilidad de 
donde la proporción combinada es π = (π1 + π2)/2. Como se comentó anteriormente, la asignación 
de igual t maño a las d s muestras es más eficiente al requerir un me or tamaño tot l del 
estudio para alcanzar una misma potencia. Sin embargo, en el diseño de determinados estudios 
(ver ejemplos posteriores), la selección de muestras de disti to tamaño puede resultar más 
factible en términos de coste o disponibilidad de pacientes. En cualquier caso, la determinación 
del tamaño muestral para la comparación de proporci n s en muestras independientes precisa 
de los siguientes elementos:
 y El nivel de significación α del contraste bilateral, que suele establecerse por convenio en 
α = 0,05.
 y La potencia 1 – β para detectar hipótesis alternativas ciertas. La mayoría de los estudios 
se diseñan con una potencia 1 – β = 0,80 ó 0,90.
 y Las pr porciones pobl cionales π1 y π2. A diferencia de la co paració de medias, no 
es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino 
qu  s necesario especific la magnitud aproxi ada de esta pr porción en c a grupo de 
comparación, para contar así con un valor aproximado de las varianzas poblacionales 
π1(1 – π1) y π2(1 – π2).
Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece 
de potencia suficiente para detectar un hipotético incremento del 50% en la incidencia 
acumulada de cáncer de mama en 5 años entre las mujeres usuarias y no usuarias de 
anticonceptivos orales. Según los cálculos del ejemplo anterior, la incidencia acumulada 
en este periodo en una cohorte de mujeres entre 40 y 49 años será aproximadamente 
π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las respectivas incidencias acumuladas 
151
Tamaño muestral para la comparación de proporciones
Pastor-Barriuso R.
en usuarias y no usuarias. Como se prevé que la cohorte esté compuesta de un 40% de 
mujeres usuarias de anticonceptivos orales y un 60% de no usuarias, se tiene que 
n2 = 1,5n1. Asumiendo un nivel de significación α = 0,05 y una potencia 1 – β = 0,80, se 
necesitarían
 21
pacientes. En cualquier caso, la determinación del tamaño muestral para la comparación 
de proporciones en muestras independientes precisa de los siguientes elementos: 
• El nivel de significación α del contraste bilateral, que suele establecerse por 
convenio en α = 0,05. 
• La potencia 1 - β para detectar hipótesis alternativas ciertas. La mayoría de los 
estudios se diseñan con una potencia 1 - β = 0,80 ó 0,90. 
• Las proporciones poblacionales π1 y π2. A diferencia de la comparación de 
medias, no es suficiente con determinar la diferencia de proporciones que se 
pretende detectar, sino que es necesario especificar la magnitud aproximada de 
esta proporción en cada grupo de comparación, para contar así con un valor 
aproximado de las varianzas poblacionales π1(1 - π1) y π2(1 - π2). 
Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres 
carece de potencia suficiente para detectar un hipotético incremento del 50% en la 
incidencia acumulada de cáncer de mama en 5 años entre las mujeres usuarias y 
no usuarias de anticonceptivos orales. Según los cálculos del ejemplo anterior, la 
incidencia acumulada en este periodo en una cohorte de mujeres entre 40 y 49 
años será aproximadamente π = 0,00750, siendo π1 = 0,00938 y π2 = 0,00625 las 
respectivas incidencias acumuladas en usuarias y no usuarias. Como se prevé que 
la cohorte esté compuesta de un 40% de mujeres usuarias de anticonceptivos 
orales y un 60% de no u uarias, se tiene que n2 = 1,5n1. Asumiendo n nivel de 
significación α = 0,05 y u a potencia 1 - β = 0,80, se necesitarían 
 n1 = 2
2
)00625,000938,0(5,1
)00621,000929,05,184,000744,05,296,1(
−
+⋅+⋅
 
  = 10.202,55 ≈ 10.203 
mujeres usuarias de estos anticonceptivos y n2 = 1,5∙10.202,55 = 15.303,82 ≈ 15.304 no 
usuarias. Así, para detectar un aumento subyacente del riesgo de cáncer de mama del 50% 
entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisaría de una 
cohorte inicial de 25.507 mujeres seguidas durante un periodo de 5 años. 
El tamaño necesario de la cohorte se reduciría si el seguimiento del estudio se extendiera, 
por ejemplo, hasta los 10 años, ya que el número esperado de eventos aumentaría 
considerablemente. Siguiendo argumentos similares a los del ejemplo anterior, la incidencia 
acumulada en toda la cohorte durante 10 años sería π = 0,01500, y las incidencias 
acumuladas específicas entre las usuarias y no usuarias de anticonceptivos orales serían 
π1 = 0,01875 y π2 = 0,01250, respectivamente. La cohorte necesaria consistiría entonces en
 22
mujeres usuarias de estos anticonceptivos y n2 = 1,5⋅10.202,55 = 15.303,82 ≈ 
15.304 no usuarias. Así, para detectar un aumento subyacente del riesgo de cáncer 
de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de 
0,80, se precisaría de una cohorte inicial de 25.507 mujeres seguidas durante un 
periodo de 5 años.  
El tamaño necesario de la cohorte se reduciría si el seguimiento del estudio se 
extendiera, por ejemplo, hasta los 10 años, ya que el número esperado de eventos 
aumentaría considerablemente. Siguiendo argumentos similares a los del ejemplo 
anterior, la incidencia acumulada en toda la cohorte durante 10 años sería π = 
0,01500, y las incidencias acumuladas específicas entre las usuarias y no usuarias 
de anticonceptivos orales serían π1 = 0,01875 y π2 = 0,01250, respectivamente. La 
cohorte necesaria consistiría entonces en 
 n1 = 2
2
)01250,001875,0(5,1
)01234,001840,05,184,001478,05,296,1(
−
+⋅+⋅
 
  = 5.061,27 ≈ 5.062 
usuarias de anticonceptivos orales y n2 = 1,5⋅5.061,27 = 7.591,90 ≈ 7.592 no 
usuarias; es decir, 12.654 mujeres seguidas a lo largo de 10 años. 
Ejemplo 9.8 Dado que la realización de un estudio prospectivo requeriría de una 
gran cantidad de personas-año de seguimiento para obtener un número suficiente 
de casos de cáncer de mama, resultará más viable llevar a cabo un estudio de 
casos y controles. En tal caso, el propósito se centrará en seleccionar un número 
suficiente de casos y controles para detectar un odds ratio de cáncer de mama ω = 
1,50 entre las usuarias y no usuarias de anticonceptivos orales con una potencia 1 
- β = 0,80. Si los controles seleccionados constituyen una muestra representativa 
usuarias de anticonceptivos orales y n2 = 1,5∙5.061,27 = 7.591,90 ≈ 7.592 no usuarias; es 
decir, 12.654 mujeres seguidas a lo largo de 10 años.
Ejemplo 9.8 Dado que la realización e un estudi  prospectivo requeriría de una gran 
cantidad de personas-año de seguimiento para obtener un número suficiente de casos de 
cáncer de mama, resultará más viable llevar a cabo un estudio de casos y controles. En tal 
caso, el propósito se centrará en seleccionar un número suficiente de casos y controles 
para detectar un odds ratio de cáncer de mama ω = 1,50 entre las usuarias y no usuarias 
de anticonceptivos orales con una potencia 1 – β = 0,80. Si los controles seleccionados 
constituyen una muestra representativa de la población de referencia, la proporción de 
utilización de anticonceptivos orales entre las mujeres del grupo control será 
aproximadamente π2 = 0,40. A partir de la expresión del odds ratio en estudios de casos y 
controles (véase Apartado 7.6.2), se tiene que 
 23
de la población de referencia, la proporción de utilización de anticonceptivos 
orales entre las mujeres del grupo control será aproximadamente π2 = 0,40. A 
partir de la expresión del odds ratio en estudios de casos y controles (véase 
Apartado 7.6.2), se tiene que  
ω  = 
)1(
)1(
)|()|(
)|()|(
12
21
ππ
ππ
−
−
=
DEPDEP
DEPDEP
cc
cc
, 
de donde puede despejarse la proporción π1 de mujeres que han usado 
anticonceptivos orales entre los casos de cáncer de mama como 
π1 = 
40,050,01
40,050,1
)1(1
 
2
2
⋅+
⋅
=
−+ πω
πω
 = 0,50. 
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del 
mismo número de casos que controles, de tal forma que la proporción combinada 
π = (π1 + π2)/2 = (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles 
sería 
 n1 = n2 = 2
2
)40,050,0(
))40,01(40,0)50,01(50,084,0)45,01(45,0296,1(
−
−+−+−⋅
 
  = 386,90 ≈ 387, 
para una muestra total de 774 mujeres. 
Supongamos que, dada la baja incidencia de cáncer de mama, la disponibilidad de 
casos incidentes de esta enfermedad en la población es limitada y, por tanto, se 
decide reclutar el doble de controles que de casos. Así, n2 = 2n1 y la proporción 
combinada será π = (π1 + kπ2)/(1 + k) = (0,50 + 2⋅0,40)/3 = 0,43. La muestra 
necesaria estaría entonces compuesta por 
de donde puede despejarse la proporción π1 de mujeres que han usado anticonceptivos 
orales entre los casos de cáncer de mama como
 23
de la población de referencia, la proporción de utilización de anticonceptivos 
orales entre las mujeres del grupo control será aproximadamente π2 = 0,40. A 
partir de la expresión del odds ratio en estudios de casos y controles (véase 
Apartado 7.6.2), se tiene que  
ω  = 
)1(
)1(
)|()|(
)|()|(
12
21
ππ
ππ
−
−
=
DEPDEP
DEPDEP
cc
cc
, 
de donde puede despejarse la proporción π1 de mujeres que han usado 
antic c ptivos orales entre los cas s de cáncer de mama como 
π1 = 
40,050,01
40,050,1
)1(1
 
2
2
⋅+
⋅
=
−+ πω
πω
 = 0,50. 
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del 
mismo número de casos que controles, de tal forma que la proporción combinada 
π = (π1 + π2)/2 = (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles 
sería 
 n1 = n2 = 2
2
)40,050,0(
))40,01(40,0)50,01(50,084,0)45,01(45,0296,1(
−
−+−+−⋅
 
  = 386,90 ≈ 387, 
para una muestra total de 774 mujeres. 
Supongamos que, dada la baja incidencia de cáncer de mama, la disponibilidad de 
casos incidentes de esta enfermedad en la población es limitada y, por tanto, se 
decide reclutar el doble de controles que de casos. Así, n2 = 2n1 y la proporción 
combinada será π = (π1 + kπ2)/(1 + k) = (0,50 + 2⋅0,40)/3 = 0,43. La muestra 
necesaria estaría entonces compuesta por 
152
Determinación del tamaño muestral
Pastor-Barriuso R.
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del mismo 
número de casos que controles, de tal forma que la proporción combinada π = (π1 + π2)/2 
= (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles sería
 23
de la población de referencia, la proporción de utilización de anticonceptivos 
orales entre las mujeres del grupo control será aproximadamente π2 = 0,40. A 
partir de la expresión del odds ratio en estudios de casos y controles (véase 
Apartado 7.6.2), se tiene que  
ω  = 
)1(
)1(
)|()|(
)|()|(
12
21
ππ
ππ
−
−
=
DEPDEP
DEPDEP
cc
cc
, 
de donde puede despejarse la proporción π1 de mujeres que han usado 
anticonceptivos orales entre los casos de cáncer de mama como 
π1 = 
40,050,01
40,050,1
)1(1
 
2
2
⋅+
⋅
=
−+ πω
πω
 = 0,50. 
Para un nivel de significación estándar α = 0,05 y asumiendo la selección del 
mismo número de casos que controles, de tal forma que la proporción combinada 
π = (π1 + π2)/2 = (0,50 + 0,40)/2 = 0,45, el número necesario de casos y controles 
sería 
 n1 = n2 = 2
2
)40,050,0(
))40,01(40,0)50,01(50,084,0)45,01(45,0296,1(
−
−+−+−⋅
 
  = 386,90 ≈ 387, 
para una muestra total de 774 mujeres. 
Supongamos que, dada la baja incidencia de cáncer de mama, la disponibilidad de 
casos incidentes de esta enfermedad en la población es limitada y, por tanto, se 
decide reclutar el doble de controles que de casos. Así, n2 = 2n1 y la proporción 
combinada será π = (π1 + kπ2)/(1 + k) = (0,50 + 2⋅0,40)/3 = 0,43. La muestra 
necesaria estaría entonces compuesta por 
para una muestra total de 774 mujeres.
Suponga os que, dada la baja incidencia de cáncer de mama, la disponibilidad de casos 
incidentes de esta enfermedad en la población es limitada y, por tanto, se decide reclutar el 
doble de control s que de casos. Así, n2 = 2n1 y la proporción combinada será π = (π1 + kπ2)/
(1 + k) = (0,50 + 2∙0,40)/3 = 0,43. La muestra necesaria estaría entonces compuesta por
 24
 n1 = 2
2
)40,050,0(2
))40,01(40,0)50,01(50,0284,0)43,01(43,0396,1(
−
−+−⋅+−⋅
 
  = 289,17 ≈ 290 
casos de cáncer de mama y n2 = 2⋅289,17 = 578,33 ≈ 579 controles libres de la 
enfermedad. El tamaño total sería 290 + 579 = 869; es decir, 95 mujeres más de 
las requeridas en un estudio con el mismo número de casos que controles. 
9.4.2 Tamaño muestral para la comparación de proporciones en dos muestras 
dependientes 
Supongamos que se pretende contrastar la hipótesis nula H0: π1 = π2 frente a la hipótesis 
alternativa bilateral H1: π1 ≠ π2 a partir de n parejas de datos dependientes. Para 
simplificar la exposición, supondremos además que se trata de un estudio de casos y 
controles emparejados uno a uno, donde π1 y π2 representan las respectivas 
proporciones poblacionales de expuestos a un determinado factor antecedente entre 
casos y controles. Como las parejas concordantes reflejan una misma exposición en 
caso y control, la hipótesis nula de igualdad de proporciones en un diseño emparejado 
es equivalente a H0: πb = πc, donde πb es la proporción de parejas discordantes con el 
caso expuesto y πc es la proporción de parejas discordantes con el control expuesto. 
Según la notación de la Tabla 7.6, las proporciones muestrales de ambos tipos de pares 
discordantes serán pb = b/n y pc = c/n. Estas proporciones estarán obviamente 
correlacionadas, de tal forma que el valor esperado de la diferencia será E(pb - pc) = πb - 
πc y su varianza (véase Apartado 3.4) 
casos de cáncer de mama y n2 = 2∙289,17 = 578,33 ≈ 579 controles libres de la enfermedad. 
El tamaño total s ría 290 + 579 = 869; es decir, 95 mujeres más de las requeridas en un 
estudio con el mismo número de casos que controles.
9.4.2  Tamaño muestral para la comparación de proporciones en dos muestras dependientes
Supongamos que se pretende contrastar la hipótesis nula H0: π1 = π2 frente a la hipótesis alternativa 
bilateral H1: π1 ≠ π2 a partir de n parejas de datos dependientes. Para simplificar la exposición, 
supondremos además que se trata de un estudio de casos y controles emparejados uno a uno, 
donde π1 y π2 representan las respectivas proporciones poblacionales de expuestos a un determinado 
factor antecedente entre casos y controles. Como las parejas concordantes reflejan una misma 
exposición en caso y control, la hipótesis nula de igualdad de proporciones en un diseño emparejado 
es equivalente a H0: πb = πc, donde πb es la proporción de parejas discordantes con el caso expuesto 
y πc es la proporción de parejas discordantes con el control expuesto. Según la notación de la Tabla 
7.6, las proporciones muestrales de ambos tipos de pares discordantes serán pb = b/n y pc = c/n. 
Estas proporciones estarán obviamente correlacionadas, de tal forma que el valor esperado de la 
diferencia será E(pb – pc) = πb – πc y su varianza (véase Apartado 3.4)
 25
 var( pb pc) = var(pb) + var( pc)  2 cov( pb, pc) 
  = nnn
cbccbb ππππππ  2)1()1( +
−
+
−
 
  = 
n
cbcb
2)()( ππππ −−+
, 
donde la covarianza negativa entre pb y pc viene dada por cov(pb, pc) = -πbπc/n. Así, la 
diferencia en la proporción muestral de parejas discordantes pb - pc seguirá 
aproximadamente una distribución normal N(0, (πb + πc)/n) bajo H0 y N(πb - πc, {(πb + 
πc) - (πb - πc)2}/n) bajo H1. 
Para un nivel de significación α, el contraste arrojará un resultado significativo 
cuando 
pb - pc ≤ -z1-α/2 ncb /)( ππ +  ó pb - pc ≥ z1-α/2 ncb /)( ππ + . 
Asumiendo sin pérdida de generalidad que πb < πc, la probabilidad del segundo evento 
será despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse 
mediante 
 1 - β = P(pb - pc ≤ -z1-α/2 ncb /)( ππ +  | H1) 
  = 







−−+
−−+−
≤
−−+
−−−
−
12
2/1
2 /})(){(
)(/)(
/})(){(
)(
H
n
nz
n
pp
P
cbcb
cbcb
cbcb
cbcb
ππππ
ππππ
ππππ
ππ α  
  = 







−−+
+−−
Φ −
n
nz
cbcb
cbcb
/})(){(
/)(||
2
2/1
ππππ
ππππ α . 
A partir de esta expresión, se sigue que el número total de parejas necesarias para 
alcanzar una potencia 1 - β es 
−
−
donde la covarianza negativa entre pb y pc viene dada por cov(pb, pc) = – πbπc/n. Así, la diferencia 
en la proporción muestral de parejas discordantes pb – pc seguirá aproximadamente una 
distribución normal N(0, (πb + πc)/n) bajo H0 y N(πb – πc, {(πb + πc) – (πb – πc)2}/n) bajo H1.
Para un nivel de significación α, el contraste arrojará un resultado significativo cuando
 25
 var( pb - pc) = var(pb) + var( pc) - 2 cov( pb, pc) 
  = 
nnn
cbccbb ππππππ  2)1()1( +
−
+
−
 
  = 
n
cbcb
2)()( ππππ −−+
, 
donde la covarianza negativa entre pb y pc viene dada por cov(pb, pc) = -πbπc/n. Así, la 
diferencia en la proporción muestral de parejas discordantes pb - pc seguirá 
aproximadamente una distribución normal N(0, (πb + πc)/n) bajo H0 y N(πb - πc, {(πb + 
πc) - (πb - πc)2}/n) bajo H1. 
Para un nivel de significación α, el contraste arrojará un resultado significativo 
cuando 
pb pc  ≤ z1 α /2 ncb /)( ππ +  ó pb pc ≥ z1 α /2 ncb /)( ππ + . 
Asumiendo sin pérdid  de generalidad que πb < πc, la probabilidad del segundo evento 
será despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse 
mediante 
 1 - β = P(pb - pc ≤ -z1-α/2 ncb /)( ππ +  | H1) 
  = 







−−+
−−+−
≤
−−+
−−−
−
12
2/1
2 /})(){(
)(/)(
/})(){(
)(
H
n
nz
n
pp
P
cbcb
cbcb
cbcb
cbcb
ππππ
ππππ
ππππ
ππ α  
  = 







−−+
+−−
Φ −
n
nz
cbcb
cbcb
/})(){(
/)(||
2
2/1
ππππ
ππππ α . 
A partir de esta expresión, se sigue que el número total de parejas necesarias para 
alcanzar una potencia 1 - β es 
−
−
−
−
−
153
Tamaño muestral para la comparación de proporciones
Pastor-Barriuso R.
Asumiendo sin pérdida de generalidad que πb < πc, la probabilidad del segundo evento será 
despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse mediante
 25
 var( pb - pc) = var(pb) + var( pc) - 2 cov( pb, pc) 
  = 
nnn
cbccbb ππππππ  2)1()1( +
−
+
−
 
  = 
n
cbcb
2)()( ππππ −−+
, 
donde la covarianza negativa entre pb y pc viene dada por cov(pb, pc) = -πbπc/n. Así, la 
diferencia en la proporción muestral de parejas discordantes pb - pc seguirá 
aproximadamente una distribución normal N(0, (πb + πc)/n) bajo H0 y N(πb - πc, {(πb + 
πc) - (πb - πc)2}/n) bajo H1. 
Para un nivel de significación α, el contraste arrojará un resultado significativo 
cuando 
pb - pc ≤ -z1-α /2 ncb /)( ππ +  ó pb - pc ≥ z1-α /2 ncb /)( ππ + . 
Asumiendo sin pérdida de generalidad que πb < πc, la probabilidad del segundo evento 
será despreciable bajo la hipótesis alternativa y la potencia podrá entonces aproximarse 
mediante 
 1  β  = P(pb pc ≤ ncb /)( ππ +  | H1) 
  = 







−−+
−−+−
≤
−−+
−−−
−
12
2/1
2 /})(){(
)(/)(
/})(){(
)(
H
n
nz
n
pp
P
cbcb
cbcb
cbcb
cbcb
ππππ
ππππ
ππππ
ππ α  
  = 







−−+
+−−
Φ −
n
nz
cbcb
cbcb
/})(){(
/)(||
2
2/1
ππππ
ππππ α . 
A partir de esta expresión, se sigue que el número total de parejas necesarias para 
alcanzar una potencia 1 - β es 
−
−
−
− 2/1z α
A partir de esta expresión, se sigue que el número total de parejas necesarias para alcanzar una 
potencia 1 – β es
 26
2
22
12/1
)(
))()((
cb
cbcbcb zzn
ππ
ππππππ βα
−
−−+++
=
−− , 
para cuyo cálculo se precisa de una idea aproximada de las probabilidades de obtener 
ambos tipos de parejas discordantes πb y πc. Aunque son pocos los diseños 
emparejados donde se cuenta con información a priori de estas probabilidades, las 
siguientes consideraciones generales pueden resultar útiles en la práctica. Si el 
emparejamiento no fuera efectivo, pongamos por ejemplo un estudio de casos y 
controles donde las variables de emparejamiento no estuvieran asociadas con la 
exposición principal, el nivel de exposición sería entonces virtualmente independiente 
entre caso y control, de tal forma que la proporción esperada de parejas con el caso 
expuesto y el control no expuesto sería πb = π1(1 - π2) y con el control expuesto y el 
caso no expuesto πc = π2(1 - π1), para una proporción total de pares discordantes πb + πc 
= π1(1 - π2) + π2(1 - π1). En tal caso, puede probarse que el número necesario de parejas 
coincidiría aproximadamente con el número de sujetos por grupo en un estudio de casos 
y controles independientes; resultado esperable siempre que se empareje por 
características irrelevantes. Por el contrario, si el emparejamiento fuera efectivo, esto es, 
si los factores pronósticos empleados en el emparejamiento estuvieran asociados con la 
exposición a estudio, los casos y controles se asemejarían en su nivel de exposición, 
induciendo así una correlación positiva en la exposición de cada pareja de caso y 
control. Las parejas discordantes serían entonces menos probables πb + πc < π1(1 - π2) + 
π2(1 - π1) y, en consecuencia, para obtener un número suficiente de pares discordantes 
para el análisis, el número total de parejas habría de ser superior al número de sujetos 
por grupo en un estudio independiente. En general, la comparación de proporciones en 
muestras emparejadas tiene menor potencia que la comparación cruda de proporciones 
para cuyo cálculo se precisa de una idea aproximada de las probabilidades de obtener ambos 
tipos de parejas discordantes πb y πc. Aunque son pocos los diseños emparejad s donde se 
cuenta con información a priori de estas probabilidades, las siguientes consideraciones generales 
pueden resultar útiles n la práctic . Si el emparejamiento o fuera efectivo, pongamos por 
ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran 
asociadas con la exposición principal, el nivel de exposición sería entonc  virtualmente 
independiente entre caso y control, de tal forma que la proporción esperada de parejas con el 
caso expuesto y el control no expuesto sería πb = π1(1 – π2) y con el con rol expuesto y el caso 
no expuesto πc = π2(1 – π1), para una proporción total de pares discordantes πb + πc = π1(1 – π2) 
+ π2(1 – π1). En tal caso, puede probarse que el nú er necesario parejas coincidiría 
aproximadamente con el número de sujetos por grupo en un estudio de casos y controles 
independi ntes; r sultado esp rable siempre que se emparej  por características irrelevantes. 
Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronósticos 
empleados e el em rejam ento stuvieran asociados con la exposició  a estudio, los casos y 
controles se asemejarían en su nivel de exposición, induciendo así una correlación positiva en 
la exposición de cada par ja de caso y control. Las par jas discordantes serían entonces menos 
probables πb + πc < π1(1 – π2) + π2(1 – π1) y, en consecuencia, para obtener un número suficiente 
de pares discordantes para el análi is, el número total de parejas habría de s r s perior al número 
de sujetos por grupo en un estudio independiente. En general, la comparación de proporciones 
en muestras emparejadas tiene menor potencia que la comparación cruda de proporciones en 
muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados 
de los factores de confusión utilizados en el emparejamiento.
Ejemplo 9.9 En el estudio de casos y controles independientes del ejemplo anterior, 
cabría esperar que la edad media de los casos sea superior a la de los controles ya que la 
incidencia e cá cer de mama aumenta con la edad. Además, como la edad está inversamente 
relacionada con el uso de anticonceptivos orales, esta variable podría provocar una 
confusión negativa en la asociació  a estudio, de tal forma que el odds ratio obtenido de la 
comparación cruda de casos y controles independientes tendería a infraestimar el potencial 
efecto nocivo del uso de anticonceptivos orales en el riesgo de cáncer de mama.
154
Determinación del tamaño muestral
Pastor-Barriuso R.
Para evitar esta posible confusión, se decide diseñar un estudio de casos y controles 
emparejados, donde cada caso de cáncer de mama se empareja aleatoriamente con un 
control de su misma edad. Como consecuencia de este emparejamiento por edad, se 
induciría un cierto grado de correlación positiva en la utilización de anticonceptivos de 
cada pareja. Así, la proporción esperada de pares discordantes sería inferior a π1(1 – π2) + 
π2(1 – π1) = 0,50(1 – 0,40) + 0,40(1 – 0,50) = 0,50, donde π1 = 0,50 y π2 = 0,40 son las 
proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles 
obtenidas del ejemplo anterior. Asumiendo una correlación moderada, podría establecerse 
a priori una proporción aproximada de parejas discordantes πb + πc = 0,40. Para un 
hipotético odds ratio de cáncer de mama ω = πb/πc = 1,50, se esperaría entonces una 
proporción de parejas con el control usuario de anticonceptivos orales y el caso no usuario 
πc = (πb + πc)/(ω + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario 
πb = ωπc = 1,50∙0,16 = 0,24. Así, el número total de parejas necesarias para detectar dicho 
efecto con una potencia 1 – β = 0,80 y un nivel de significación α = 0,05 sería
 28
necesar as para d tectar dicho efecto con una potencia 1 - β = 0,80 y un nivel de 
significación α = 0,05 sería 
 n = 2
22
)16,024,0(
))16,024,0()16,024,0(84,016,024,096,1(
−
−−+++
 
  = 487,64 ≈ 488, 
con lo que se tendrían aproximadamente 0,40⋅488 = 195 pares discordantes para 
el análisis. Notar que el número de parejas requeridas para este estudio sería 
mayor que los 387 casos y controles necesarios en el correspondiente estudio 
independiente (Ejemplo 9.8). No obstante, el análisis emparejado de casos y 
controles de igual edad eliminaría la posibilidad de sesgos por diferencias de edad 
entre casos y controles. 
El cálculo del tamaño muestral puede extenderse a la comparación de tres o más 
proporciones en muestras dependientes o independientes. Aunque las fórmulas se 
derivan siguiendo procedimientos similares a los aquí descritos, suelen emplearse 
métodos de corrección del nivel de significación α para preservar la probabilidad global 
de obtener un resultado significativo entre las múltiples comparaciones que se 
pretendan realizar (ver referencias bibliográficas). 
9.5 REFERENCIAS 
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The 
Design and Analysis of Cohort Studies. Lyon: International Agency for Research 
on Cancer, 1987. 
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & 
Sons, 1977. 
con lo que se tendrían aproximadamente 0,40∙488 = 195 pares discordantes para el análisis. 
Notar que el número de parejas requeridas para este estudio sería mayor que los 387 casos 
y control s necesarios en el correspondiente estudio indep n iente (Ejem lo 9.8). No 
obstante, el análisis emparejado de casos y controles de igual edad eliminaría la posibilidad 
de sesgos por diferencias de edad entre casos y controles.
El cálculo del tamaño muestral puede extenderse a la comparación de tres o más proporciones 
en muestras dependientes o independientes. Aunque las fórmulas se derivan siguiendo 
procedimientos similares a los aquí descritos, suelen emplearse métodos de corrección del nivel 
de significación α para preservar la probabilidad global de obtener un resultado significativo 
entre las múltiples comparaciones que se pretendan realizar (ver referencias bibliográficas).
9.5 REFERENCIAS
1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and 
Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977.
3. Desu MM, Raghavarao D. Sample Size Methodology. Boston: Acade ic Press, 1990.
4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & 
Sons, 1986.
5. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition. 
New York: John Wiley & Sons, 2003.
6. L meshow S, Hosmer DW, Klar J, Lwanga SK. Adequacy of Sample Size in Health Studies. 
New York: John Wiley & Sons, 1990.
7. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third Edition. 
New York: John Wiley & Sons, 1999.
8. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999.
9. Silva LC. Diseño Razonado de Muestras y Captación de Datos para la Investigación 
Sanitaria. Madrid: Díaz de Santos, 2000. 
155Pastor-Barriuso R.
TEMA 10
CORRELACIÓN Y  
REGRESIÓN LINEAL SIMPLE
10.1 INTRODUCCIÓN
En el Tema 6 se discutieron las técnicas estadísticas adecuadas para comparar los niveles medios 
de una variable continua en dos grupos de sujetos definidos según la presencia o ausencia de 
una determinada característica dicotómica; esto es, la dependencia entre una variable continua 
y otra dicotómica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para 
determinar la existencia o no de asociación entre dos variables dicotómicas. Queda pendiente, 
por tanto, describir los métodos necesarios para evaluar la relación entre dos variables continuas.
En este tema se presentan el coeficiente de correlación y la regresión lineal simple como las 
dos técnicas estadísticas más utilizadas para investigar la relación entre dos variables continuas 
X e Y. Como veremos más adelante, ambos procedimientos están estrechamente relacionados, 
aunque obedecen a estrategias de análisis un tanto diferentes. Por un lado, el coeficiente de 
correlación determina el grado de asociación lineal entre X e Y, sin establecer a priori ninguna 
direccionalidad en la relación entre ambas variables. Por el contrario, la regresión lineal simple 
permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X, 
asumiendo implícitamente que X es la variable explicativa o independiente e Y es la variable 
respuesta o dependiente.
10.2 COEFICIENTE DE CORRELACIÓN
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la asociación 
lineal entre dos variables aleatorias X e Y es el coeficiente de correlación poblacional ρxy, que 
se define como
 2
10.2 COEFICIENTE DE CORRELACIÓN 
Como ya se anticipó en el Apartado 3.4, el parámetro más utilizado para medir la 
asociación lineal entre dos variables aleatorias X e Y es el coeficiente de correlación 
poblacional ρxy, que se define como 
ρ xy = 
yx
yx
yx
YXEYX
σσ
μμ
σσ
)})({(),cov( −−
= , 
donde μx y μy son las respectivas medias poblacionales de X e Y y σx y σy son sus 
correspondientes desviaciones típicas poblacionales. El numerador del coeficiente de 
correlación cov(X, Y) = E{(X - μx)(Y - μy)} es la covarianza poblacional entre ambas 
variables y se define como la esperanza del producto de las desviaciones de cada 
variable respecto de su media. Así, si valores altos (o bajos) de X tienden a asociarse 
con valores altos (o bajos) de Y, el producto de las desviaciones (x - μx)(y - μy) tenderá a 
ser positivo y la covarianza será positiva. Por el contrario, si valores altos de una 
variable se relacionan con valores bajos de la otra variable, el producto de las 
desviaciones tenderá a ser negativo y la covarianza será negativa. No obstante, resulta 
complicado determinar el grado de asociación lineal entre dos variables a partir de la 
magnitud de la covarianza, ya que ésta depende de las unidades de medida de las 
variables. 
Al dividir la covarianza por el producto de las desviaciones típicas de X e Y, el 
coeficiente de correlación poblacional carece de unidades y permanece inalterable ante 
cambios de origen o escala en cualquiera de las dos variables. Puede comprobarse, 
además, que la covarianza entre X e Y es menor en valor absoluto que el producto de sus 
desviaciones típicas y, en consecuencia, el coeficiente de correlación siempre está 
donde μx y μy son las respectivas medias poblacionales de X e Y y σx y σy son sus correspondientes 
desviaciones típicas poblacionales. El numerador del coeficiente de correlación cov(X, Y) = 
E{(X – μx)(Y – μy)} es la covarianza poblacional entre ambas variables y se define como la 
esperanza del producto de las desviaciones de cada variable respecto de su media. Así, si valores 
altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las 
desviaciones (x – μx)(y – μy) tenderá a ser positivo y la covarianza será positiva. Por el contrario, 
si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto 
de las desviaciones tenderá a ser negativo y la covarianza será negativa. No obstante, resulta 
complicado determinar el grado de asociación lineal entre dos variables a partir de la magnitud 
de la covarianza, ya que ésta depende de las unidades de medida de las variables.
Al dividir la covarianza por el producto de las desviaciones típicas de X e Y, el coeficiente de 
correlación poblacional carece de unidades y perm nece inalterable ante cambios de origen o 
escala en cualquiera de las dos variables. Puede comprobarse, además, que la covarianza entre 
X e Y es menor en valor absoluto que el producto de sus desviac ones típicas y, en consecuencia, 
156
Correlación y regresión lineal simple 
Pastor-Barriuso R.
el coeficiente de correlación siempre está comprendido entre – 1 y 1. En el caso extremo de que 
ρxy = 1, las variables estandarizadas Zx = (X – μx)/σx y Zy = (Y – μy)/σy verifican que (véase 
Apartado 3.4)
 3
comprendido entre -1 y 1. En el caso extremo de que ρxy = 1, las variables 
estand riz das Zx = (X - μx)/σx y Zy = (Y - μy)/σy verifican que (véase Apartado 3.4) 
var(Zx Zy) = var(Zx) + var(Zy)  2cov(Zx, Zy) = 2(1  ρ xy) = 0; 
es decir, Zx - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx 
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relación lineal 
positiva perfecta, Y = μy + σy/σx(X - μx). De igual forma, si ρxy = -1, se cumple que 
var(Zx + Zy) = var(Zx) + var(Zy) + 2cov(Zx, Zy) = 2(1 + ρxy) = 0 
y, por tanto, Zx + Zy es una variable aleatoria constante igual a su valor esperado, Zx + Zy 
= E(Zx + Zy) = 0, de donde se deduce que las variables X e Y presentan una relación 
lineal negativa perfecta, Y = μy - σy/σx(X - μx). Cuando ρxy = 0, se dice que las variables 
están linealmente incorrelacionadas ya que no existe relación lineal entre ambas 
variables. Notar que si dos variables son estadísticamente independientes, en el sentido 
de que el conocimiento del valor que toma una variable no aporta ninguna información 
sobre el valor de la otra variable, entonces están incorrelacionadas; pero que la 
incorrelación no implica necesariamente independencia, ya que las variables podrían 
presentar una dependencia no lineal aun cuando ρxy = 0. 
El coeficiente de correlación permite, por tanto, cuantificar el grado de asociación 
lineal entre dos variables, de tal forma que cuanto más próximo esté el coeficiente de 
correlación a 1 ó -1, mayor será la dependencia lineal positiva o negativa entre las 
variables. Este hecho se ilustra en los diagramas de dispersión de la Figura 10.1, 
donde se representan los valores de la variable X en el eje horizontal y los 
correspondientes valores de Y en el eje vertical. A medida que los puntos del diagrama 
de dispersión se desvían de una línea recta perfecta con pendiente positiva o negativa, el 
coeficiente de correlación se aleja de 1 ó -1. Aunque la interpretación de la magnitud 
−− −
es decir, Zx – Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx – Zy = 
E(Zx – Zy) = 0, lo que implica que las variables X e Y presentan una relación lineal positiva 
perfecta, Y = μy + σy/σx(X – μx). De igual forma, si ρxy = – 1, se cumple que
 3
comprendido entre -1 y 1. En el caso extremo de que ρxy = 1, las variables 
estandarizadas Zx = (X - μx)/σx y Zy = (Y - μy)/σy verifican que (véase Apartado 3.4) 
var(Zx - Zy) = var(Zx) + var(Zy) - 2cov(Zx, Zy) = 2(1 - ρxy) = 0; 
es decir, Zx - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx 
- Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relación lineal 
positiva perfecta, Y = μy + σy/σx(X - μx). De igual forma, si ρxy = -1, se cumple que 
var(Zx + Zy) = var(Zx) + var(Zy) + 2cov(Zx, Zy) = 2(1 + ρ xy) = 0 
y, por tanto, Zx + Zy es una variable aleatoria constante igual a su valor esperado, Zx + Zy 
= E(Zx + Zy) = 0, de donde se deduce que las variables X e Y presentan una relación 
lineal negativa perfecta, Y = μy - σy/σx(X - μx). Cuando ρxy = 0, se dice que las variables 
están linealmente incorrelacionadas ya que no existe relación lineal entre ambas 
variables. Notar que si dos variables son estadísticamente independientes, en el sentido 
de que el conocimiento del valor que toma una variable no aporta ninguna información 
sobre el valor de la otra variable, entonces están incorrelacionadas; pero que la 
incorrelación no implica necesariamente independencia, ya que las variables podrían 
presentar una dependencia no lineal aun cuando ρxy = 0. 
El coeficiente de correlación permite, por tanto, cuantificar el grado de asociación 
lineal entre dos variables, de tal forma que cuanto más próximo esté el coeficiente de 
correlación a 1 ó -1, mayor será la dependencia lineal positiva o negativa entre las 
variables. Este hecho se ilustra en los diagramas de dispersión de la Figura 10.1, 
donde se representan los valores de la variable X en el eje horizontal y los 
correspondientes valores de Y en el eje vertical. A medida que los puntos del diagrama 
de dispersión se desvían de una línea recta perfecta con pendiente positiva o negativa, el 
coeficiente de correlación se aleja de 1 ó -1. Aunque la interpretación de la magnitud 
y, por tanto, Zx + Zy es una variable aleatoria constante igual a su valor esperado, Zx + Zy = E(Zx 
+ Zy) = 0, de donde se deduce que las variables X e Y presentan na relación lineal negativa 
perfecta, Y = μy – σy/σx(X – μx). Cuando ρxy = 0, se dice que las variables están linealmente 
incorrelacionadas ya que no xiste r lación lineal entre ambas variables. Not r que si dos 
variables son estadísticamente independientes, en el sentido de que el conocimiento del valor 
que toma una variable no porta ninguna información sobre el valor de la otra variable, entonces 
están incorrelacionadas; pero que la incorrelación no implica necesariamente independencia, ya 
que las variab es podrían p sentar un  depende cia no lin al au cuando ρxy = 0.
El coeficiente de correlación permite, por tanto, cuantificar el grado de asociación lineal 
entre dos variables, de tal forma que cuanto más próximo esté el coeficiente de correlación a 1 
ó – 1, mayor será la dependencia lineal positiva o negativa entre las variables. Este hecho se 
ilustra en los diagramas de dispersión de la Figura 10.1, donde se representan los valores de 
la variable X en el eje horizontal y los correspondientes valores de Y en el eje vertical. A medida 
que los puntos del diagrama de dispersión se desvían de una línea recta perfecta con pendiente 
positiva o negativa, el coeficiente de correlación se aleja de 1 ó – 1. Aunque la interpretación de 
la magnitud del coeficiente de correlación depende del contexto particular de aplicación, en 
términos generales se considera que una correlación es baja por debajo de 0,30 en valor absoluto, 
moderada entre 0,30 y 0,50, y alta por encima de 0,50.
Notar, por último, que en la interpretación del coeficiente de correlación hay dos errores 
frecuentes que deben ser evitados:
 y El coeficiente de correlación entre X e Y no es una medida de la magnitud de la pendiente 
de la recta de regresión entre ambas variables. El coeficiente de correlación determina el 
grado de aproximación de los puntos del diagrama de dispersión a una línea recta, 
independientemente de cuál sea la magnitud de la pendiente de dicha recta. Como se 
ilustra en los paneles a y b de la Figura 10.2, el coeficiente de correlación es mayor en el 
panel a, a pesar de que la pendiente de la recta de regresión es mayor en el panel b. La 
pendiente de la recta de regresión no se determina mediante el coeficiente de correlación, 
sino mediante las técnicas de regresión lineal simple que se discutirán en la segunda parte 
de este tema.
 y El coeficiente de c rrelación no es una medida de la idoneidad del modelo lineal. El 
coeficiente de correlación sólo determina la existencia de una componente lineal en la 
relación entre dos variables, independientemente de la forma subyacente de dicha relación. 
Así, por ejemplo, el coeficiente de correlación es mayor en el panel d que en el panel c de 
la Figura 10.2, aun cuando la relación subyacente entre las variables del panel d es 
claramente no lineal (en este caso, cuadrática). Por ello, antes de analizar el grado de 
asociación lineal entre dos v riables, es aconsejable insp ccionar la naturaleza de la 
relación mediante un diagrama de dispersión.
157
Coeficiente de correlación
Pastor-Barriuso R.
 Figura 10.1
(a) ρxy = 0,70
y
(b) ρxy = 0,50
(d) ρxy = -0,70 (e) ρxy = -0,50
(c) ρxy = 0,30
(f) ρxy = -0,30
y
x x x
Figura 10.1 Diagramas de dispersión entre dos variables aleatorias X e Y con coeficientes de correlación 
positivos ρxy = 0,70 (a), 0,50 (b) y 0,30 (c), así como con coeficientes de correlación negativos ρxy = – 0,70 (d), 
– 0,50 (e) y – 0,30 (f).
 Figura 10.2
xx
(c) ρxy = -0,70 (d) ρxy = -0,80
(b) ρxy = 0,50(a) ρxy = 0,70
y
y
Figura 10.2 Diagramas de dispersión, coeficientes de correlación y rectas de regresión entre dos variables 
aleatorias X e Y con distintas pendientes de la recta de regresión (paneles a y b) y distintas formas de la 
relación subyacente (paneles c y d).
158
Correlación y regresión lineal simple 
Pastor-Barriuso R.
10.2.1 Coeficiente de correlación muestral de Pearson
Una vez descritas las propiedades e interpretación del coeficiente de correlación poblacional, 
en este apartado se presentan los métodos para estimar el coeficiente de correlación entre dos 
variables X e Y a partir de los valores observados de ambas variables (xi, yi) en una muestra de 
n sujetos mutuamente independientes, i = 1, ..., n.
El estimador muestral más utilizado para evaluar la dependencia lineal entre dos variables X 
e Y es el coeficiente de correlación muestral de Pearson, que se denota por rxy, o simplemente 
por r, y se define como la covarianza muestral entre X e Y dividida por el producto de sus 
desviaciones típicas muestrales,
 5
[Figura 10.2 aproximadamente aquí] 
10.2.1 Coeficiente de correlación muestral de Pearson 
Una vez descritas las propiedades e interpretación del coeficiente de correlación 
poblacional, en este apartado se presentan los métodos para estimar el coeficiente de 
correlación entre dos variables X e Y a partir de los valores observados de ambas 
variables (xi, yi) n una muestra de n sujetos mutu mente independientes, i = 1, ..., n. 
El estimador muestral más utilizado para evaluar la dependencia lineal entre dos 
variables X e Y es el coeficiente de correlación muestral de Pearson, que se denota por 
rxy, o simplemente por r, y se define como la covarianza muestral entre X e Y dividida 
por el producto de sus desviaciones típicas muestrales, 
r = 


==
==
−−
−−
=
−−
−
n
i
i
n
i
i
n
i
ii
yx
n
i
ii
yyxx
yyxx
ss
yyxx
n
1
2
1
2
11
)()(
))(())((
1
1
, 
donde x  y sx son la media y la desviación típica muestral de X y y  y sy son la media y 
la desviación típica muestral de Y. Así, el coeficiente de correlación muestral de 
Pearson se define de forma análoga al coeficiente de correlación poblacional, 
reemplazando la covarianza y las desviaciones típicas poblacionales por sus 
correspondientes estimadores muestrales. Al igual que el coeficiente de correlación 
poblacional, el coeficiente de correlación muestral siempre toma valores entre -1 y 1, de 
tal forma que cuanto más se aproxime a 1 ó -1, mayor será la dependencia lineal 
positiva o negativa entre las variables. 
Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersión entre el 
índice de masa corporal, medida de obesidad que se obtiene de dividir el peso en 
donde 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denota a por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 y sx son la media y la desvi ción típica muestral de X y y  y sy son la media y la
desviación típica muestral e Y. Así, el coeficiente de correlación muestral de Pe rson se define 
de forma análoga al coeficiente de correlación poblaci nal, reemplazando la covarianza y las 
desviaciones típicas poblacionales por sus correspondientes estimadores muestrales. Al igual 
que el coeficient  de correl ción poblacional el coeficiente de correlación muestral siempre 
toma valores entre – 1 y 1, de tal forma que cuanto más se aproxime a 1 ó – 1, mayor será la 
dependencia lineal positiva o negativa entre las variables.
Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersión entre el índice de 
masa corporal, medida de obesidad que se obtiene de dividir el peso en kilogramos por la 
 Figura 10.3
 
20 24 28 32 36
0,25
0,5
1
1,5
2
2,25
Indice de masa corporal (kg/m²)
C
ol
es
te
ro
l H
D
L 
(m
m
ol
/l)
Figura 10.3 Diagrama de dispersión entre el índice de masa corporal y el colesterol HDL en el gr po con-
trol del estudio EURAMIC.
159
Coeficiente de correlación
Pastor-Barriuso R.
altura en metros al cuadrado, y el colesterol HDL en los 533 controles del estudio 
EURAMIC con valores para ambas variables. A simple vista, se aprecia un cierto grado 
de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a 
decrecer conforme aumenta el índice de masa corporal. Esta apreciación visual se confirma 
mediante el cálculo del coeficiente de correlación muestral de Pearson,
 6
kilogramos por la altura en metros al cuadrado, y el colesterol HDL en los 533 
controles del estudio EURAMIC con valores para ambas variables. A simple 
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas 
variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el índice 
de masa corp ral. Esta a reci ción visual se confir a mediante el cál ulo del 
coefi i nte de correlación muestral de Pe rson, 
r = 
295,050,3
285,0
))((
532
1 533
1
⋅
−
=
−−
=
yx
i
ii
ss
yyxx
 =  0,276, 
que indica una asociación lineal negativa moderada entre el índice de masa 
corporal y el colesterol HDL. 
[Figura 10.3 aproximadamente aquí] 
El coeficiente de correlación r de Pearson tiene una distribución muestral tanto más 
asimétrica cuanto más distante esté la correlación subyacente ρ del valor 0. Cuando ρ 
está relativamente próximo a 1 ó -1, las estimaciones muestrales del coeficiente de 
correlación tenderán por fuerza a desviarse más del parámetro ρ en la cola que no está 
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con 
un marcado sesgo negativo o positivo. Por ello, el cálculo de un intervalo de confianza 
y un test de hipótesis para ρ no suele realizarse a partir de la distribución muestral de r, 
sino mediante la transformación z de Fisher 
z = 


−
+
r
r
1
1log
2
1 , 
cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede 
probarse que si las distribuciones poblaciones de las variables X e Y no distan mucho 
−
que indica una asociación lineal negativa moderada entre el índice de masa corporal y el 
colesterol HDL.
El coeficiente de correlación r de Pearson tiene una distribución muestral tanto más asimétrica 
cuanto más distante esté la correlación subyacente ρ del valor 0. Cuando ρ está relativamente 
próximo a 1 ó – 1, las estimaciones muestrales del coeficiente de correlación tenderán por fuerza 
a desviarse más del parámetro ρ en la cola que no está limitada por el rango [– 1, 1] de valores 
posibles de r, resultando en una distribución con un marc do sesgo negativo o positivo. Por 
ello, el cálculo de un intervalo de confianza y un test de hipótesis para ρ no suele realizarse a 
partir de la distribución muestral de r, sino mediante la transformación z de Fisher
 6
kilogramos por la altura en metros al cuadrado, y el colesterol HDL en los 533 
controles del estudio EURAMIC con valores para ambas variables. A simple 
vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas 
variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el índice 
de masa corporal. Esta apreciación visual se confirma mediante el cálculo del 
coeficiente de correlación muestral de Pearson, 
r = 
295,050,3
285,0
))((
532
1 533
1
⋅
−
=
−−
=
yx
i
ii
ss
yyxx
 = -0,276, 
que indica una asociación lineal negativa moderada entre el índice de masa 
corporal y el colesterol HDL. 
[Figura 10.3 aproximadamente aquí] 
El coeficie te de correlación r de Pearson tie e una distribución muestral t nto más 
asimétrica cuanto más distante esté la correlación subyacente ρ del valor 0. Cuando ρ 
está relativamente próximo a 1 ó -1, las estimaciones muestrales del coeficiente de 
correlación tenderán por fuerza a desviarse más del parámetro ρ en la cola que no está 
limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribución con 
un marca o sesgo negativ  o positivo. Por ello, el cálculo de un intervalo de confianza 
y un test de hipótesis para ρ no suele realizarse a partir de l distribución muestral de r, 
sino mediante la transformación z de Fisher 
z = 


−
+
r
r
1
1log
2
1 , 
cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede 
probarse que si las distribuciones poblaciones de las variables X e Y no distan mucho 
cuya distribución muestral presenta una mayor simetría para cualquier valor de ρ. Puede 
probarse que si las distribuciones poblacionales de las variables X e Y no distan mucho del 
modelo normal y el tamaño muestral no es muy pequeño, típicamente n > 50, la transformación 
z de Fisher se distribuye de forma aproximadamente nor al c n media log{(1 + ρ)/(1 – ρ)}/2 y 
varianza 1/(n – 3),
 7
del modelo nor al y el tamaño muestral no es muy pequeño, típicamente n > 50, la 
tr n formación z e Fisher se distri uye de forma aproximadamente normal co  edia 
log{(1 + ρ)/(1 - ρ)}/2 y varianz  1/(n - 3), 




−




−
+
→
3
1,
1
1log
2
1~
n
Nz
ρ
ρ . 
Notar que la varianza de z es inversamente proporcional al tamaño muestral e 
independiente de la correlación subyacente ρ. 
Ejemplo 10.2 Las Figuras 10.4(a) y (b) muestran las distribuciones del coeficiente 
de correlación r de Pearson y de la transformación z de Fisher entre el índice de 
masa corporal y el colesterol HDL en 1000 muestras aleatorias simples de tamaño 
50 obtenidas a partir de los controles del estudio EURAMIC. La distribución 
muestral de r presenta un leve sesgo positivo ya que el percentil 75 (-0,18) está 
ligeramente más alejado de la mediana (-0,28) que el percentil 25 (-0,36). Para 
corregir esta leve asimetría, la transformación z de Fisher aumenta la dispersión 
de los valores de r más distantes de 0 (cola inferior de la distribución) y mantiene 
virtualmente constantes los valores próximos a 0 (cola superior), dando lugar así a 
una distribución sensiblemente más simétrica. 
En este ejemplo, la distribución muestral del coeficiente de correlación r de 
Pearson presenta una leve asimetría ya que la correlación subyacente -0,276 en 
todos los controles del estudio EURAMIC es moderadamente baja. En otras 
situaciones donde la correlación subyacente ρ sea alta, la distribución muestral de 
r será notablemente asimétrica y, en consecuencia, el efecto normalizador de la 
transformación z de Fisher será mucho más marcado. 
Notar que la varianza de z es inversamente proporcional al tamaño muestral e independiente de 
la correlación subyacente ρ.
Ej mplo 10.2 Las Figuras 10.4( ) y (b) muestran las distribuciones del coeficiente de 
correlación r de Pearson y de la transformación z de Fisher entre el índice de masa corporal 
y el colesterol HDL en 1000 muestras aleatorias simples de tamaño 50 obtenidas a partir 
de los controles del estudio EURAMIC. La distribución muestral de r presenta un leve 
sesgo positivo ya que el percentil 75 (– 0,18) está ligeramente más alejado de la mediana 
(– 0,28) que el percentil 25 (– 0,36). Para corregir esta leve asimetría, la transformación z 
de Fisher aumenta la dispersión de los valores de r más distantes de 0 (cola inferior de la 
distribución) y mantiene virtualmente constantes los valores próximos a 0 (cola superior), 
dando lugar así a una distribución sensiblemente más simétrica.
En este ejemplo, la distribución muestral del coeficiente de correlación r de Pearson 
presenta una leve asimetría ya que la correlación subyacente – 0,276 en todos los controles 
del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlación 
subyacente ρ sea alta, la distribución muestral de r será notablemente asimétrica y, en 
consecuencia, el efecto normalizador de la transformación z de Fisher será mucho más 
marcado.
160
Correlación y regresión lineal simple 
Pastor-Barriuso R.
 Figura 10.4



−
+
=
r
rzb
1
1log
2
1   )((a)   r
-0,8 -0,6 -0,4 -0,2 0 0,2
0
5
10
15
20
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
-0,8 -0,6 -0,4 -0,2 0 0,2
0
5
10
15
20
Fr
ec
ue
nc
ia
 re
la
tiv
a 
(%
)
Figura 10.4 Distribución muestral del coeficiente de correlación r de Pearson (a) y de la transformación 
z de Fisher (b) entre el índice de masa corporal y el colesterol HDL en 1000 muestras aleatorias simples de 
tamaño 50 obtenidas a partir de los controles del estudio EURAMIC. Las líneas verticales en trazo discon-
tinuo representan los parámetros subyacentes ρ = – 0,276 y log{(1 + ρ)/(1 – ρ)}/2 = – 0,284.
 En base a la distribución muestral de la transformación z de Fisher, el intervalo de confianza 
al 100(1 – α)% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 viene dado por
 8
[Figura 10.4 aproximadamente aquí] 
 En base a la distribución muestral de la transformación z de Fisher, el intervalo de 
confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por 
(z1, z2) = 3
1
2/1
−
±
− n
zz α , 
donde z1-α/2 es el percentil 1 - α/2 de la distribución normal estandarizada. Así, el 
intervalo de confianza al 100(1 - α)% para el coeficiente de correlación poblacional ρ 
se obtiene de aplicar el inverso de la transformación de Fisher a ambos límites del 
intervalo, 




+
−
+
−
1)2exp(
1)2exp(
,
1)2exp(
1)2exp(
2
2
1
1
z
z
z
z
. 
Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r 
cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el 
contraste de la hipótesis nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ 
ρ0 se realiza mediante el estadístico 
3
1
1
1
log
2
1
0
0
−




−
+
−
n
z
ρ
ρ
, 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P 
del contraste se calcula, por tanto, como el área bajo la curva normal estandarizada para 
aquellos valores tanto o más distantes de 0 que el valor observado del estadístico. 
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación 
puntual del coeficiente de correlación entre el índice de masa corporal y el 
donde z1–α/2 es el percentil 1 – α/2 de la distribución normal estandarizada. Así, el intervalo de 
confianza al 100(1 – α)% para el coeficiente de correlación poblacional ρ se obtiene de aplicar 
el inverso de la transformación de Fisher a ambos límites del intervalo,
 8
[Figura 10.4 aproximadamente aquí] 
 En base a la distribución muestral de la transformación z de Fisher, el intervalo de 
confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por 
(z1, z2) = 
3
1
2/1
−
±
− n
zz α , 
d de z1-α/2 es el per entil 1 - α/2 de l  distribución normal estandarizada. Así, el
intervalo de confianza al 100(1 - α)% para el coeficiente de correlación poblacional ρ 
se obtiene de aplicar el inverso de la transformación de Fisher a ambos límites del 
interv lo, 




+
−
+
−
1)2exp(
1)2exp(
,
1)2exp(
1)2exp(
2
2
1
1
z
z
z
z
. 
Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r 
cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el 
contraste de la hipótesis nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ 
ρ0 se realiz  medi nte el es adístico 
3
1
1
1
log
2
1
0
0
−




−
+
−
n
z
ρ
ρ
, 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P 
del contraste se calcula, por tanto, como el área bajo la curva normal estandarizada para 
aquellos valores tanto o más distantes de 0 que el valor observado del estadístico. 
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación 
puntual del coeficiente de correlación entre el índice de masa corporal y el 
Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r cuanto mayor 
sea r en valor absoluto y menor sea el ta año muestral. Asimismo, el ontraste de la hipótesis 
nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ ρ0 se realiza mediante el estadístico
 8
[Figura 10.4 aproximadamente aquí] 
 En base a la distribución muestral de la transformación z de Fisher, el intervalo de 
confianza al 100(1 - α)% para el parámetro log{(1 + ρ)/(1 - ρ)}/2 viene dado por 
(z1, z2) = 
3
1
2/1
−
±
− n
zz α , 
d de z1-α/2 es el percentil 1 - α/2 de la distribución normal estandarizada. Así, el
intervalo de confianza al 100(1 - α)% para el coeficiente de correlación poblacional ρ 
se obtiene de aplicar el inverso de la transformación de Fisher a ambos límit s del 
intervalo, 




+
−
+
−
1)2exp(
1)2exp(
,
1)2exp(
1)2exp(
2
2
1
1
z
z
z
z
. 
Este intervalo para ρ es tanto más asimétrico alrededor de la estimación puntual r 
cuanto mayor sea r en valor absoluto y menor sea el tamaño muestral. Asimismo, el 
contraste de la hipótesis nula H0: ρ = ρ0 frente a la hipótesis alternativa bilateral H1: ρ ≠ 
ρ0 se realiz  medi nte el es adístico 
3
1
1
1
log
2
1
0
0
−




−
+
−
n
z
ρ
ρ
, 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P 
del contraste se calcula, por tanto, como el área bajo la curva normal estandarizada para 
aquellos valores tanto o más distantes de 0 que el valor observado del estadístico. 
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación 
puntual del coeficiente de correlación entre el índice de masa corporal y el 
que bajo H0 sigue aproximadamente una distribución normal estandarizada. El valor P del 
contraste se calcula, po  tanto, como l área bajo la curva normal estandariz da para aquellos 
valores tanto o más distantes de 0 que el valor observado del estadístico.
Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimación puntual del 
coeficiente de correlación entre el índice de masa corporal y el colest rol HDL fue r = – 0,276. 
La transformación z de Fisher de esta correlación es z = log{(1 – 0,276)/(1 + 0,276)}/2 = – 0,284. 
Para obtener una esti ación por intervalo de la correlación subyacente ρ entre ambas 
161
Coeficiente de correlación
Pastor-Barriuso R.
variables en la población de referencia del estudio EURAMIC, se calcula en primer lugar 
el IC al 95% para el parámetro log{(1 + ρ)/(1 – ρ)}/2 como
 9
colesterol HDL fue r = -0,276. La transformación z de Fisher de esta correlación 
es z = log{(1 - 0,276)/(1 + 0,276)}/2 = -0,284. Para obtener una estimación por 
intervalo de la correlación subyacente ρ entre ambas variables en la población de 
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el 
p ámetro log{(1 + ρ)/(1 - ρ)}/2 como 
3533
1284,0 975,0
−
±− z  =  0,284 ± 1,96⋅0,043 =  ( 0,369;  0,199) 
y, a continuación, se aplica el inverso de la transformación de Fisher a ambos 
límites del intervalo 




+−
−−
+−
−−
1)}199,0(2exp{
1)}199,0(2exp{,
1)}369,0(2exp{
1)}369,0(2exp{  = (-0,353; -0,196). 
Notar que el intervalo resultante es ligeramente asimétrico respecto a la 
estimación puntual r = -0,276. Para contrastar la hipótesis de ausencia de 
asociación lineal entre ambas variables H0: ρ = 0, se calcula el estadístico 
-0,284 3533 −  = -6,53, 
que corresponde a un valor P bilateral bajo la distribución normal estandarizada 
2P(Z ≤ -6,53) = 2Φ(-6,53) < 0,001. En conclusión, existe una asociación lineal 
moderada pero significativa entre el índice de masa corporal y el colesterol HDL 
con un coeficiente de correlación de -0,28 (IC al 95% -0,35 a -0,20; P < 0,001). 
10.2.2 Coeficiente de correlación de los rangos de Spearman 
Al igual que la media y la desviación típica muestral, el coeficiente de correlación de 
Pearson es sensible a la presencia de valores extremos en alguna de las variables, que 
podrían distorsionar la estimación resultante, no siendo entonces un buen reflejo de la 
− − −
y, a continuación, se aplica el inverso de la transformación de Fisher a ambos límites del 
intervalo
 9
colesterol HDL fue r = -0,276. La transformación z de Fisher de esta correlación 
es z = log{(1 - 0,276)/(1 + 0,276)}/2 = -0,284. Para obtener una estimación por 
intervalo de la correlación subyacente ρ entre ambas variables en la población de 
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el 
parámetro log{(1 + ρ)/(1 - ρ)}/2 como 
3533
1284,0 975,0
−
±− z  = -0,284 ± 1,96⋅0,043 = (-0,369; -0,199) 
y, a continuación, se aplica el inverso de la transformación de Fisher a ambos 
límites del intervalo 




+−
−−
+−
−−
1)}199,0(2exp{
1)}199,0(2exp{,
1)}369,0(2exp{
1)}369,0(2exp{  =  ( 0,353;  0,196). 
Notar que el intervalo resultante es ligeramente asimétrico respecto a la 
estimación puntual r = -0,276. Para contrastar la hipótesis de ausencia de 
asociación lineal entre ambas variables H0: ρ = 0, se calcula el estadístico 
-0,284 3533 −  = -6,53, 
que corresponde a un valor P bilateral bajo la distribución normal estandarizada 
2P(Z ≤ -6,53) = 2Φ(-6,53) < 0,001. En conclusión, existe una asociación lineal 
moderada pero significativa entre el índice de masa corporal y el colesterol HDL 
con un coeficiente de correlación de -0,28 (IC al 95% -0,35 a -0,20; P < 0,001). 
10.2.2 Coeficiente de correlación de los rangos de Spearman 
Al igual que la media y la desviación típica muestral, el coeficiente de correlación de 
Pearson es sensible a la presencia de valores extremos en alguna de las variables, que 
podrían distorsionar la estimación resultante, no siendo entonces un buen reflejo de la 
− −
Notar que el intervalo resultante es ligeramente asimétrico respecto a la estimación 
puntual r = – 0,276. Para co trastar la hipótesis de ausencia de asoci ción lineal entre 
ambas variables H0: ρ = 0, se calcula el estadístico
 9
colesterol HDL fue r = -0,276. La transformación z de Fisher de esta correlación 
es z = log{(1 - 0,276)/(1 + 0,276)}/2 = -0,284. Para obtener una estimación por 
int rval  de la correlación subyacente ρ entre ambas variables n la población de 
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el 
parámetro log{(1 + ρ)/(1 - ρ)}/2 omo 
3533
1284,0 975,0
−
±− z  = -0,284 ± 1,96⋅0,043 = (-0,369; -0,199) 
y, a continuación, se aplica el inverso de la transformación de Fisher a ambos 
límites del intervalo 




+−
−−
+−
−−
1)}199,0(2exp{
1)}199,0(2exp{,
1)}369,0(2exp{
1)}369,0(2exp{  = (-0,353; -0,196). 
Notar que el intervalo resultante es ligeramente asimétrico respecto a la 
estimación puntual r = -0,276. Para contrastar la hipótesis de ausencia de 
as ciación lineal entre ambas v riables H0: ρ = 0, s  cal ula el st dístico 
0,284 3533 −  =  6,53, 
que corresponde a un valor P bilateral bajo la distribución normal estandarizada 
2P(Z ≤ -6,53) = 2Φ(-6,53) < 0,001. En conclusión, existe una asociación lineal 
moderada ero signific tiva entre l índice de masa corporal y el colesterol HDL 
con un coeficiente de correlación de -0,28 (IC al 95% -0,35 -0,20; P < 0,001). 
10.2.2 Coeficiente de correlación de los rangos de Spearman 
Al igual que la media y la desviación típica muestral, el coeficiente de correlación de 
Pearson es sensible a la presencia de valores extremos en algu a de las variables, que 
podrían distorsionar la estimación resultante, no siendo enton es un buen r flejo de la 
− −
que correspo de a un valor P bilateral bajo la distribución normal estandarizada 2P(Z ≤ 
– 6,53) = 2F(– 6,53) < 0,001. En conclusión, exi te una asociación lineal moderada pero 
significativa entre el índice de masa corporal y el colesterol HDL con un coeficiente de 
correlación de – 0,28 (IC al 95% – 0,35 a – 0,20; P < 0,001).
10.2.2 Coeficiente de correlación de los rangos de Spearman
Al igual que la media y la desviación típica muestral, el coeficiente de correlación de Pearson es 
sensible a la presencia de valores extremos en alguna de las variables, que podrían distorsionar la 
estimación resultante, no siendo entonces un buen reflejo de la asociación lineal subyacente entre 
ambas variables. Además, las inferencias basadas en la transformación de Fisher del coeficiente 
de correlación muestral asumen que las variables se distribuyen de forma aproximadamente 
normal y que el tamaño muestral es suficientemente grande. En aquellas situaciones donde exista 
una clara evidencia en contra de la normalidad, o bien cuando la muestra sea muy pequeña, estas 
inferencias pueden resultar engañosas y es preferible utilizar métodos no paramétricos. En este 
apartado se presenta el coeficiente de correlación de los rangos de Spearman como un procedimiento 
no paramétrico para detectar la existencia de una relación monótona (creciente o decreciente, 
aunque no necesariamente lineal) entre dos variables cualesquiera, que pueden ser variables 
continuas con distribuci nes subyacentes no ormales o incluso variables cualitativas ordinales.
Si se desea determinar el grado en que dos variables se relacionan de forma monótona sin 
realizar ninguna asunción sobre la distribución poblacional de ambas variables, basta con 
utilizar el orden de las observaciones de cada variable en lugar de sus verdaderos valores. Así, 
a cada sujeto se le asignan los rangos ri y si en función de la posición que ocupan sus respectivos 
valores observados xi e yi dentro de la muestra ordenada ascendentemente por X e Y. En el caso 
de que existan varias observaciones con el mismo valor de una variable (empates), se asigna a 
cada una de ellas la media de los rangos correspondientes. El coeficiente de correlación rs de 
Spearman se calcula simplemente como el coeficiente de correlación de Pearson reemplazando 
los valores observados (xi, yi) por sus correspondientes rangos (ri, si),
 10
asociación lineal subyacente entre ambas variables. Además, las inferencias basadas en 
la transformación de Fisher del coeficiente de correlación muestral asumen que las 
variables se distribuyen de forma aproximadamente normal y que el tamaño muestral es 
suficientemente grande. En aquellas situaciones donde exista una clara evidencia en 
contra de la normalidad, o bien cuando la muestra sea muy pequeña, estas inferencias 
pueden resultar engañosas y es preferible utilizar métodos no paramétricos. En este 
apartado se presenta el coeficiente de correlación de los rangos de Spearman como un 
procedimiento no paramétrico para detectar la existencia de una relación monótona 
(creciente o decreciente, aunque no necesariamente lineal) entre dos variables 
cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no 
normales o incluso variables cualitativas ordinales. 
Si se desea determinar el grado en que dos variables se relacionan de forma 
monótona sin realizar ninguna asunción sobre la distribución poblacional de ambas 
variables, basta con utilizar el orden de las observaciones de cada variable en lugar de 
sus verdaderos valores. Así, a cada sujeto se le asignan los rangos ri y si en función de 
la posición que ocupan sus respectivos valores observados xi e yi dentro de la muestra 
ordenada ascendentemente por X e Y. En el caso de que existan varias observaciones 
con el mismo valor de una variable (empates), se asigna a cada una de ellas la media de 
los rangos correspondientes. El coeficiente de correlación rs de Spearman se calcula 
simplemente como el coeficiente de correlación de Pearson reemplazando los valores 
observados (xi, yi) por sus correspondientes rangos (ri, si), 
rs = 


==
=
−−
−−
n
i
i
n
i
i
n
i
ii
ssrr
ssrr
1
2
1
2
1
)()(
))((
, 
162
Correlación y regresión lineal simple 
Pastor-Barriuso R.
donde los rangos medios son 
 11
donde los rangos medios son r  = s  = (n + 1)/2. El coeficiente de correlación de 
Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente 
idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X 
verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden 
yi < yj; es decir, los valores observados de las variables X e Y presentan una relación 
monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 
1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación 
monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no 
existe relación monótona alguna entre los valores de ambas variables. 
En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el 
cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la 
varianza de los rangos es  
12
)1(
2
1
1
1
)(
1
1)(
1
1
1
2
1
2
1
2
+
=

 +
−
−
=
−
−
=−
−


=
==
nnni
n
ss
n
rr
n
n
i
n
i
i
n
i
i
 
y su covarianza es 
.)(
)1(2
1
12
)1(
})()(){(
)1(2
1))((
1
1
1
2
1
222
1


=
==
−
−
−
+
=
−−−+−
−
=−−
−
n
i
ii
n
i
iiii
n
i
ii
sr
n
nn
srssrr
n
ssrr
n
 
Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a 
rs = 
=
−
−
−
n
i
ii srnn 1
2
2 )()1(
61 , 
fórmula que sólo puede emplearse cuando no hay empates. 
 = 
 11
donde los rangos medios son r  = s  = (n + 1)/2. El coeficiente de correlación de 
Spearman siem re toma valores entre -1 y 1. Si rs = 1, los rangos son necesariame te 
idénticos si = ri, de tal forma qu si d s observaciones cualesquiera de la variable X 
verifican que xi < xj, sus correspondientes valores de la variable Y preserv n dicho orden 
yi < yj; es decir, los valor s observad s de la  variables X e Y presentan una relación 
monótona creciente perfecta. De igual forma, s  rs = -1, los rangos verifican que si = n + 
1 - ri, de donde se deduce que los valores de la  riables X e Y presentan una relación 
monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacio ados y no 
existe relación monótona alguna entre los valores de amb s variables. 
En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el 
cálculo del coefi iente de correlación de Spearma  se simplifica notablemente ya que la 
varianza de los rangos es  
12
)1(
21
1
)(
1
1)(
1
1
1
2
1
2
1
2
+
=

 +
−
−
=
−
−
=−
−


=
==
nnni
n
ss
n
rr
n
n
i
n
i
i
n
i
i
 
y su covarianza es 
.)(
)(2
1
12
)1(
})()(){(
)1(2
1))((
1
1
1
2
1
222
1


=
==
−
−
−
+
=
−−−+−
−
=−−
−
n
i
ii
n
i
iiii
n
i
ii
sr
n
nn
srssrr
n
ssrr
n
 
Aplicando ambos resultados, el coeficiente de correlación de Spearma  se reduce a 
rs = 
=
−
−
−
n
i
ii srnn 1
2
2 )()1(
61 , 
fórmula que sólo p ede emplearse cuando no hay empates. 
 = (n + 1)/2. El coeficiente de correlación de Spearman 
siempre toma valores entre – 1 y 1. Si rs = 1, los rangos son necesariamente idénticos si = ri, de 
tal forma que si dos observaciones cualesquiera de la variable X verifican que xi < xj, sus 
correspondientes valores de la variable Y preservan dicho orden yi < yj; es decir, los valores 
observados de las variables X e Y presentan una relación monótona creciente perfecta. De igual 
forma, si rs = – 1, los rangos verifican que si = n + 1 – ri, de donde se deduce que los valores de 
las variables X e Y presentan una relación monótona decreciente perfecta. Cuando rs = 0, los 
rangos están incorrelacionados y no existe relación monótona alguna entre los valores de ambas 
variables.
En el caso de que o haya valores idénticos (empates) en ninguna de las variables, el cálculo 
del coeficiente de correlación de Spearman se simplifica notablemente ya que la varianza de los 
rangos es 
 11
donde los rangos medios son r  = s  = (n + 1)/2. El coeficiente de correlación de 
Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente 
idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X 
verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden 
yi < yj; es decir, los va ores observados de las variables X e Y presentan una relación 
monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 
1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación 
monótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no 
existe relación monótona alguna entre los valores de ambas variables. 
En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el 
cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la 
varianza de los rangos es  
12
)1(
2
1
1
1
)(
1
1)(
1
1
1
2
1
2
1
2
+
=

 +
−
−
=
−
−
=−
−


=
==
nnni
n
ss
n
rr
n
n
i
n
i
i
n
i
i
 
y su covarianza es 
.)(
)1(2
1
12
)1(
})()(){(
)1(2
1))((
1
1
1
2
1
222
1


=
==
−
−
−
+
=
−−−+−
−
=−−
−
n
i
ii
n
i
iiii
n
i
ii
sr
n
nn
srssrr
n
ssrr
n
 
Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a 
rs = 
=
−
−
−
n
i
ii srnn 1
2
2 )()1(
61 , 
fórmula que sólo puede emplearse cuando no hay empates. 
y su covarianza es
 11
donde los rangos medios son r  = s  = (n + 1)/2. El coeficiente de correlación de 
Spearman siempre toma valores entre -1 y 1. Si rs = 1, los rangos son necesariamente 
idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X 
verif an que xi < xj, sus correspondientes valores de la v riable Y preservan dicho orden 
yi < yj; es decir, los valores ob ervados de l s variables X e Y presentan una relación 
monótona creci nte perfecta. De igual forma, si s = -1, los rangos verifican que si = n + 
1 - ri, de donde se deduc  que los valores de las variables X e Y pres ntan una relación 
monótona decreciente perfecta. Cu ndo rs = 0, los ango  están incorrelacionados y no 
existe rel ción monótona alguna entre los valores de ambas variables. 
En el caso de que no h ya valores idénticos (empates) en ninguna de las variables, el 
cálculo del coeficiente de correlación e Spearman se simplifica notablemente ya que la 
varianza de l s rangos es  
12
)1(
2
1
1
1
)(
1
1)(
1
1
1
2
1
2
1
2
+
=

 +
−
−
=
−
−
=−
−


=
==
nnni
n
ss
n
rr
n
n
i
n
i
i
n
i
i
 
y su covarianza es 
.)(
)1(2
1
12
)1(
})()(){(
)1(2
1))((
1
1
1
2
1
222
1


=
==
−
−
−
+
=
−−−+−
−
=−−
−
n
i
ii
n
i
iiii
n
i
ii
sr
n
nn
srssrr
n
ssrr
n
 
Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a 
rs = 
=
−
−
−
n
i
ii srnn 1
2
2 )()1(
61 , 
fórmula que sólo puede emplearse cuando no hay empates. 
Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a
 11
donde los rangos medios son r  = s  = (n + 1)/2. El coeficiente de correlación de 
Spearman siempre toma valores entre -1 y 1. Si rs = 1, los ra gos son necesariamente 
idénticos si = ri, de tal forma que si dos observaciones cualesquiera de la variable X 
verifican que xi < xj, sus correspondientes valores de la variable Y preservan dicho orden 
yi < yj; es decir, los valores observados de las variables X e Y presentan una relación 
monótona creciente perfecta. De igual forma, si rs = -1, los rangos verifican que si = n + 
1 - ri, de donde se deduce que los valores de las variables X e Y presentan una relación 
onótona decreciente perfecta. Cuando rs = 0, los rangos están incorrelacionados y no 
existe relación monótona alguna entre los valores de ambas variables. 
En el caso de que no haya valores idénticos (empates) en ninguna de las variables, el 
cálculo del coeficiente de correlación de Spearman se simplifica notablemente ya que la 
varianza de los rangos es  
12
)1(
2
1
1
1
)(
1
1)(
1
1
1
2
1
2
1
2
+
=

 +
−
−
=
−
−
=−
−


=
==
nnni
n
ss
n
rr
n
n
i
n
i
i
n
i
i
 
y su covarianza es 
.)(
)1(2
1
12
)1(
})()(){(
)1(2
1))((
1
1
1
2
1
222
1


=
==
−
−
−
+
=
−−−+−
−
=−−
−
n
i
ii
n
i
iiii
n
i
ii
sr
n
nn
srssrr
n
ssrr
n
 
Aplicando ambos resultados, el coeficiente de correlación de Spearman se reduce a 
rs = 
=
−
−
−
n
i
ii srnn 1
2
2 )()1(
61 , 
fórmula que sólo puede emplearse cuando no hay empates. 
fórmula que sólo puede emplearse cuando no hay empates.
Ejemplo 10.4 En la Tabla 10.1 se presentan los niveles de a-tocoferol y b-caroteno en 
tejido adipos en una muestra aleatoria de 10 controles del estudio EURAMIC, junto con 
los rangos correspondientes a los valores de ambas variables. A partir de estos rangos, el 
coeficiente de correlación de Spearman se c lcula como
 12
Ejemplo 10.4 En la Tabla 10.1 se presentan los niveles de α-tocoferol y β-
caroteno en tejido adiposo en una muestra aleatoria de 10 controles del estudio 
EURAMIC, junto con los rangos c rrespondientes a los valores de ambas 
variab es. A partir de estos rango , el co ficiente de correlación de Spearman se 
calcula com  
rs = 
03,303,3
06,5
)(
9
1)(
9
1
))((
9
1
10
1
2
10
1
2
10
1
⋅
=
−−
−−


==
=
i
i
i
i
i
ii
ssrr
ssrr
 = 0,552, 
o de forma equivalente mediante la fórmula simplificada en ausencia de empates 
rs = 
)110(10
7461})66(...)37{(
)110(10
61 2
22
2
−
⋅
−=−++−
−
−  = 0,552, 
que refleja una fuerte relación monótonamente creciente entre los niveles de α-
tocoferol y β-caroteno. Cabe destacar que esta estimación no esta influenciada por 
el valor extremo 1,46 μg/g de β-caroteno ya que el rango de esta observación 
continuaría siendo 10 para cualquier valor arbitrariamente mayor que los demás. 
[Tabla 10.1 aproximadamente aquí] 
Al igual que otros procedimientos no paramétricos, el coeficiente de correlación de 
los rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación 
monótona entre dos variables. Bajo esta hipótesis nula, se ha comprobado que el 
coeficiente de correlación rs de Spearman tiende a distribuirse de forma normal o, más 
concretamente, que el estadístico 
o de forma equivalente mediante la fórmula simplificada en ausencia de empates
 12
Ejemplo 10.4 En la Tabla 10.1 se presentan los niveles de α-tocoferol y β-
caroten en tejido diposo en una muestra aleatoria d  10 controles del estudio 
EURAMIC, junt con los ra gos corr pondientes a los val res d  amba  
variables. A par ir de estos rangos, el coeficiente de c rrelación Spearman se 
c lcula como 
rs = 
03,303,3
06,5
)(
9
1)(
9
1
))((
9
1
10
1
2
10
1
2
10
1
⋅
=
−−
−−


==
=
i
i
i
i
i
ii
ssrr
ssrr
 = 0,552, 
o de forma equivalente mediante la fórmula simplificada en ausencia de empates 
rs = 
)110(10
7461})66(...)37{(
)110(10
61 2
22
2
−
⋅
−=−++−
−
−  = 0,552, 
que refleja una fuerte relación monótonamente creciente entre los niveles de α-
tocof rol y β-caroteno. Cabe destacar que sta estimación o esta influenciada por 
el valor extremo 1,46 μg/g de β-c roteno ya qu  el r ngo de esta observa ión 
continuaría siendo 10 para cualquier val r rbitrariamente mayor que los demás. 
[Tabla 10.1 aproximadamente aquí] 
Al igual que otros procedimientos no paramétricos, el coeficiente de correlación de 
los ran os de Spearman permite contrastar l  hipótesis nula de ausencia de aso iación 
monótona entre dos v riables. Baj  esta hipótesis nula, se ha comprobado que el 
coeficie te de correlación rs de Spearman tiende a distribuirse de form  normal o, más 
ncretamente, que el estadístico 
que refleja una fuerte relación monótonamente creciente entre los niveles de a-tocoferol 
y b-caroteno. Cabe destacar que esta esti ación no esta influenciada por el valor extremo 
1,46 mg/g de b-caroteno ya que el rango de esta observación continuaría siendo 10 para 
cualquier valor arbitrariamente mayor que los demás.
163
Coeficiente de correlación
Pastor-Barriuso R.
Tabla 10.1 α-tocoferol y β-caroteno en tejido adiposo en una muestra aleatoria 
de 10 controles del estudio EURAMIC.
α-tocoferol β-caroteno
Control Valor (μg/g) Rango (ri) Valor (μg/g) Rango (si)
1 163,8 7 0,14 3
2 331,9 10 0,45 8
3 125,1 4 0,07 1
4  42,9 1 0,44 7
5 211,0 8 1,46 10
6 115,9 2 0,18 4
7 128,6 5 0,37 5
8 271,0 9 0,66 9
9 118,8 3 0,11 2
10 128,7 6 0,40 6
Al igual que otros procedimientos no paramétricos, el coeficiente de correlación de los 
rangos de Spearman permite contrastar la hipótesis nula de ausencia de asociación monótona 
entre dos variables. Bajo esta hipótesis nula, se ha comprobado que el coeficiente de correlación 
rs de Spearman tiende a distribuirse de forma normal o, más concretamente, que el estadístico
 13
t = 
2
1 2
−
−
n
r
r
s
s  
sigue aproximadamente una distribución t de Student con n - 2 grados de libertad, 
siempre que el tamaño muestral sea n > 10. Así, el valor P bilateral del contraste puede 
aproximarse mediante el área bajo la distribución tn-2 para valores tanto o más alejados 
de 0 que el valor observado del estadístico t. Aparte del mínimo requerimiento muestral, 
este contraste tiene la ventaja adicional de poder aplicarse a cualquier distribución 
subyacente de las variables X e Y, a diferencia del contraste paramétrico basado en el 
coeficiente de correlación de Pearson que requiere de distribuciones poblacionales 
aproximadamente normales. 
Ejemplo 10.5 Como las distribuciones subyacentes del α-tocoferol y el β-
caroteno (Figura 4.3) son marcadamente asimétricas en los controles del estudio 
EURAMIC, el contraste bilateral de la hipótesis de no asociación entre ambas 
variables a partir de los 10 controles de la Tabla 10.1 ha de realizarse mediante el 
estadístico basado en la correlación de los rangos de Spearman 
t = 
8
552,01
552,0
2
1 22 −
=
−
−
n
r
r
s
s  = 1,87, 
que bajo la distribución t de Student con 8 grados de libertad corresponde a un 
valor aproximado de P = 2P(t8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de 
correlación de Spearman rs = 0,55 estima una fuerte relación monótonamente 
creciente entre los valores observados de α-tocoferol y β-caroteno, esta 
asociación no llega a ser estadísticamente significativa, probablemente debido a la 
sigue aproximadamente una distribución t de Student con n – 2 grados de libertad, siempre que 
el tamaño muestral sea n > 10. Así, el valor P bilateral del contraste puede aproximarse mediante 
el área bajo la distribución tn–2 para valores tanto o más alejados de 0 que el valor observado del 
estadístico t. Aparte del mínimo requerimiento muestral, este contraste tiene la ventaja adicional 
de poder aplicarse a cualquier distribución subyacente de las variables X e Y, a diferencia del 
contraste paramétrico basado en el coeficiente de correlación de Pearson que requiere de 
distribuciones poblacionales aproximadamente normales.
Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno 
(Figura 4.3) son marcadamente asimétricas en los controles del estudio EURAMIC, el 
contraste bilateral de la hipótesis de no asociación entre ambas variables a partir de los 10 
controles de la Tabla 10.1 ha de realizarse mediante el estadístico basado en la correlación 
de los rangos de Spearman
 13
t = 
2
1 2
−
−
n
r
r
s
s  
sigue aproximadamente una distribución t de Student con n - 2 grados de libertad, 
siempre que el tamaño muestral sea n > 10. Así, el valor P bilateral del contraste puede 
aproximarse mediante el área bajo la distribución tn-2 para valores tanto o más alejados 
de 0 que el valor observado del estadístico t. Aparte del mínimo requerimiento muestral, 
este contraste tiene la ventaja adicional de poder aplicarse a cualquier distribución 
subyacente de las variables X e Y, a diferencia del contraste paramétrico basado en el 
coeficiente de correlación de Pearson que requiere de distribuciones poblacionales 
aproximada ente normales. 
Ejemplo 10.5 Co o las distribuciones subyacentes d l α-tocoferol y el β-
caroteno (Figura 4.3) s n marcadamente asimétricas en los controle  del estudio 
EURAMIC, el contraste bilateral de la hipótesis de no asociación entre ambas 
variables a partir de los 10 controles de la Tabla 10.1 ha de realizarse mediante el 
estadístico basado en la correlación de los rangos d  Spe rman 
t = 
8
552,01
552,0
2
1 22 −
=
−
−
n
r
r
s
s  = 1,87, 
que bajo la distribución t de Student con 8 grados de libertad corresponde a un 
valor aproximado de P = 2P(t8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de 
correlación de Spearman rs = 0,55 estima una fuerte relación monótonamente 
creciente entre los valores observados de α-tocoferol y β-caroteno, esta 
asociación no llega a ser estadísticamente significativa, probablemente debido a la 
que bajo la distribución t de Student con 8 grados de libertad corresponde a un valor 
aproximado de P = 2P(t8 ≥ 1,87) = 0,098. Así, aunque el coeficiente de correlación de 
Spearman rs = 0,55 estima una fuerte relación monótonamente creciente entre los valores 
observados de a-tocoferol y b-caroteno, esta asociación no llega a ser estadísticamente 
significativa, probablemente debido a la escasa potencia del test para detectar cualquier 
asociación subyacente con tan reducido tamaño muestral.
Cuando el tamaño muestral es inferior o igual a 10, la distribución t de Student no es una 
buena aproximación a la distribución muestral del estadístico t y, en consecuencia, el contraste 
164
Correlación y regresión lineal simple 
Pastor-Barriuso R.
debe basarse en la distribución exacta del coeficiente de correlación de Spearman bajo la 
hipótesis nula. Si no existe ninguna relación monótona entre las variables, y los rangos ri de la 
variable X se asumen constantes, cualquier permutación s1, ..., sn de los rangos de la variable Y 
es igualmente probable y su probabilidad viene dada por 1/n!. Haciendo uso de este resultado, 
es posible derivar la distribución bajo la hipótesis nula del coeficiente de correlación de 
Spearman, cuyos percentiles en muestras de tamaño n ≤ 10 se presentan en la Tabla 10 del 
Apéndice. Para un contraste bilateral con un nivel de significación α preestablecido, la hipótesis 
de no asociación se rechazará si el coeficiente de correlación rs de Spearman es inferior al 
percentil α/2 o superior al percentil 1 – α/2 de dicha tabla.
Ejemplo 10.6 El valor exacto de P para el contraste bilateral de la hipótesis de no 
asociación entre el a-tocoferol y el b-caroteno viene dado por
 14
escasa potencia del test para detectar cualquier asociación subyacente con tan 
reducido tamaño muestral. 
Cuando el tamaño muestral es inferior o igual a 10, la distribución t de Student no es 
una buena aproximación a la distribución muestral del estadístico t y, en consecuencia, 
el contraste debe basarse en la distribución exacta del coeficiente de correlación de 
Spearman bajo la hipótesis nula. Si no existe ninguna relación monótona entre las 
variables, y los rangos ri de la variable X se asumen constantes, cualquier permutación 
s1, ..., sn de los rangos de la variable Y es igualmente probable y su probabilidad viene 
dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribución bajo la 
hipótesis nula del coefici nte de correlación de Spearman, cuyos percentiles en 
muestras de tamaño n ≤ 10 se presentan en la Tabla 10 del Apéndice. Para un contraste 
bilateral con un nivel de significación α preestablecido, la hipótesis de no asociación se 
rechazará si l c efici nte de c rrelación rs de Spearman es inferior al percentil α/2 o 
supe ior al percentil 1 - α/2 de dicha tabla. 
Ejempl  10.6 El valor exacto de P para el ontraste bilateral de la hipótesis de no 
asociación entre el α-tocoferol y el β-caroteno viene dado por 
P = P(rs ≥ 0,552|H0) + P(rs ≤  0,552|H0) = 2P(rs ≥ 0,552|H0), 
ya que la distribución bajo H0 del coeficiente de correlación de Spearman es 
simétrica alrededor de 0. Utilizando la Tabla 10 del Apéndice para n = 10, se tiene 
que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs ≥ 0,552|H0) ≥ 
2⋅0,05 = 0,10. Este valor exacto de P es similar al valor aproximado mediante la 
distribución t de Student en el ejemplo anterior. 
−
ya que la distribución bajo H0 del coeficiente de correlación de Spearman es simétrica 
alrededor e 0. Utilizando la Tab a 10 del Apéndice para n = 10, se tiene que el percentil 
rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs ≥ 0,552|H0) ≥ 2⋅0,05 = 0,10. Este valor 
exacto de P s similar al valor aproxim do mediante la istribución t de Student en el 
ejemplo anterior.
10.3 REGRESIÓN LINEAL SIMPLE
Las técnicas de regresión evalúan la relación entre dos variables siguiendo una estrategia de 
análisis distinta a la correlación. Mientras que el coeficiente de correlación determina el grado 
de asociación lineal entre X e Y tratando ambas variables de forma simétrica, la regresión lineal 
estudia la variación en el nivel medio de la variable respuesta Y a medida que cambia la variable 
explicativa X, estableciendo así una direccionalidad en la relación entre dichas variables. 
Aunque en ocasiones la elección entre la variable respuesta y explicativa es un tanto arbitraria 
(por ejemplo, en la asociación entre el a-tocoferol y el b-caroteno), la direccionalidad suele 
establecerse de forma natural por el propio diseño del estudio o la naturaleza de las variables 
(por ejemplo, los cambios medios en el colesterol HDL conforme aumenta el índice de masa 
corporal).
El modelo de regresión lineal asume que la media de la variable respuesta Y cambia 
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable explicativa, 
el valor esperado de la variable respuesta es
 15
10.3 REGRESIÓN LINEAL SIMPLE 
Las técnicas de regresión evalúan la relación entre dos variables siguiendo una 
estrat gia de análisis distinta a la corr lación. Mientras qu el co ficiente de corr lación 
determina el grado de asociación lineal entre X e Y tratando ambas variables de forma 
simétrica, regresión li eal estudia a variación en el nivel medio de la vari bl  
respuesta Y a me ida que cambia la variable explicativa X, estableciendo así una
dir ccionalidad en la relación entre dichas variables. Aunque en ocasiones la elección 
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la 
asociación entre el α-tocoferol y el β-caroteno), la direccionalidad suele establecerse de 
forma natural por el propio diseño del estudio o la naturaleza de las variables (por 
ejemplo, los cambios medios en el colesterol HDL conforme aumenta el índice de masa 
corporal). 
El modelo de regresión lineal asume que la media de la variable respuesta Y cambia 
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable 
explicativa, el valor esperado de la variable respuesta es 
E(Y|x) = β0 + β1x, 
donde β0 y β1 son la constante y la pendiente de la recta de regresión, respectivamente. 
La constante β0 determina la media de Y cuando X = 0, E(Y|0) = β0 + β10 = β0, y la 
pendiente β1 corresponde al cambio en el valor medio de Y por cada aumento de una 
unidad en X, E(Y|x + 1) - E(Y|x) = β0 + β1(x + 1) - (β0 + β1x) = β1. La especificación del 
modelo se completa asumiendo que los valores individuales de la variable respuesta se 
distribuyen de forma normal alrededor del valor esperado definido por la recta de 
regresión. Así, la estructura general del modelo de regresión lineal es 
Y = β0 + β1x + ε, 
donde β0 y β1 son la constante y la pendiente de la recta de regresión, respectivamente. La 
constant  β0 determin  la media de Y cuando X = 0, E(Y|0) = β0 + β10 = β0, y la pendiente β1 
corresponde al cambio en el valor medio de Y por cada aumento de una unidad en X, E(Y|x + 1) 
– E(Y|x) = β0 + β1(x + 1) – (β0 + β1x) = β1. La especificación del modelo se completa asumiendo 
que los valores individuales de la variable respuesta se distribuyen de forma normal alrededor 
del valor esperado definido por la recta de regresión. Así, la estructura general del modelo de 
regresión lineal es
 15
10.3 REGRESIÓN LINEAL SIMPLE 
Las técnicas de regresión evalúan la relación entre dos variables siguiendo una 
estrategia de análisis distinta a la correlación. Mientras que el coeficiente de correlación 
determina el grado de asociación lineal entre X e Y tratando ambas variables de forma 
simétrica, la regresión lineal estudia la variación en el nivel medio de la variable 
respuesta Y a medida que cambia la variable explicativa X, estableciendo así una 
direccionalidad en la relación entre dichas variables. Aunque en ocasiones la elección 
entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la 
asociación entre el α-tocoferol y el β-caroteno), la direccionalidad suele establecerse de 
forma natural por el propio diseño del estudio o la naturaleza de las variables (por 
ejemplo, los cambios medios en el colesterol HDL conforme aumenta el índice de masa 
corporal). 
El modelo de regresión lineal asume que la media de la variable respuesta Y cambia 
linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable 
explicativa, el valor esperado de la variable respuesta es 
E(Y|x) = β0 + β1x, 
donde β0 y β1 son la constante y la pendiente de la recta de regresión, respectivamente. 
La constante β0 determina la media de Y cuando X = 0, E(Y|0) = β0 + β10 = β0, y la 
pendiente β1 corresponde al cambio en el valor medio de Y por cada aumento de una 
unidad en X, E(Y|x + 1) - E(Y|x) = β0 + β1(x + 1) - (β0 + β1x) = β1. La especificación del 
modelo se completa asu ie do que los valores individuales de la variable r spu sta se 
distribuyen de forma normal alrededor del valor esperado definido por la recta de 
regresión. Así, la structura general del modelo de regresión lineal es 
Y = β0 + β1x + ε, 
donde el término de error aleatorio ε, que representa la desviación de cada respuesta individual 
Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal con media 0 y 
165
Regresión lineal simple
Pastor-Barriuso R.
varianza σ 2. Por tanto, la regresión lineal establece que para un valor fijo x de la variable 
explicativa, la variable respuesta Y sigue una distribución normal con media E(Y|x) = β0 + β1x + 
E(ε) = β0 + β1x y varianza var(Y|x) = var(ε) = σ 2,
 16
donde el término de error aleatorio ε, que representa la desviación de cada respuesta 
individual Y respecto de la recta de regresión β0 + β1x, se distribuye de forma normal 
con media 0 y varianza σ 2. Por tanto, la regresión lineal establece que para un valor fijo 
x de la variable explicativa, la variable respuesta Y sigue una distribución normal con 
media E(Y|x) = β0 + β1x + E(ε) = β0 + β1x y varianza var(Y|x) = var(ε) = σ 2, 
Y|x ~ N(β0 + β1x, σ 2 ), 
de donde se derivan las siguientes asunciones:  
• Linealidad: El valor esperado de la variable respuesta Y es una función lineal de 
la variable explicativa X, de tal forma que cambios de magnitud constante a 
distintos niveles de X se asocian con un mismo cambio en el valor medio de Y. 
• Homogeneidad de la varianza: La varianza de la variable respuesta Y es la 
misma para cualquier valor de la variable explicativa X; es decir, a diferencia de la 
media, la varianza de Y no está relacionada con X. 
• Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta 
Y sigue una distribución normal.  
Las asunciones subyacentes al modelo de regresión lineal se representan gráficamente 
en la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de 
regresión y su idoneidad debe ser evaluada utilizando técnicas diagnósticas, algunas de 
las cuales se presentan al final de este tema. 
[Figura 10.5 aproximadamente aquí] 
En regresión lineal simple se estudia la distribución condicional de una variable 
respuesta continua en función de una única variable explicativa. Esta variable 
explicativa puede ser tanto continua como categórica ya que el modelo de regresión 
de donde se derivan las siguientes asunciones: 
 y Linealidad: El valor esperado de la variable respuesta Y es una función lineal de la variable 
explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se 
asocian con un mismo cambio en el valor medio de Y.
 y Homogeneidad de la varianza: La varianza de la variable respuesta Y es la misma para 
cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza 
de Y no está relacionada con X.
 y Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue 
una distribución normal. 
Las asunciones subyacentes al modelo de regresión lineal se representan gráficamente en la 
Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresión y su 
idoneidad debe ser evaluada utilizando técnicas diagnósticas, algunas de las cuales se presentan 
al final de este tema.
En regresión neal simple se estudia la distribución condicional de una variable r puesta 
continua en función de una única variable explicativa. Esta variable explicativa puede ser tanto 
continua como categórica ya que el modelo de regresión lineal no establece ninguna asunción 
respecto a su distribución. La extensión de estos modelos al análisis de regresión lineal múltiple, 
donde se consideran simultán amente dos o más var ables xplicativas, se tratará en el Tema 11.
 Figura 10.5
Recta de regresión:
E(Y|x) = β0 + β1x
Y
β0 + β1x2
β0 + β1x1
β0 + β1x3
β0 + β1x4
x1 x2 x3 x4
X
Figura 10.5 Asunciones estadísticas subyacentes al modelo de regresión lineal simple.
166
Correlación y regresión lineal simple 
Pastor-Barriuso R.
10.3.1 Estimación de la recta de regresión
El primer objetivo de la regresión lineal es obtener estimaciones puntuales b0 y b1 de la constante 
β0 y la pendiente β1 de la recta de regresión que mejor se ajuste a los valores observados (xi, yi) 
de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes. 
Intuitivamente, se trataría de identificar la línea recta que más se aproxime al conjunto de todos 
los puntos del diagrama de dispersión entre ambas variables. Para formalizar esta idea, es 
preciso calcular la distancia de cada punto observado (xi, yi) respecto al punto correspondiente 
(xi, iyˆ ) = (xi, b0 + b1xi) sobre la recta de regresión estimada en xi. Esta distancia, que se representa 
en la Figura 10.6, viene dada por el error de estimación en la variable respuesta ei = yi – iyˆ  = yi – b0 
– b1xi. Así, la recta de regresión vendrá determinada por aquellos valores b0 y b1 que hagan este 
error lo más pequeño posible para todas las observaciones o, equivalentemente, que minimicen 
la suma de cuadrados del error
 17
lineal no establece ninguna asunción respecto a su distribución. La extensión de estos 
modelos al análisis de regresión lineal múltiple, donde se consideran simultáneamente 
dos o más variables explicativas, se tratará en el Tema 11. 
10.3.1 Estimación de la recta de regresión 
El primer objetivo de la regresión lineal es obtener estimaciones puntuales b0 y b1 de la 
constante β0 y la pendiente β1 de la recta de regresión que mejor se ajuste a los valores 
observados (xi, yi) de las variables explicativa y respuesta en una muestra de n sujetos 
mutuamente independientes. Intuitivamente, se trataría de identificar la línea recta que 
más se aproxim  al conjunto de todos los puntos del diagrama de dispersión entre 
ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto 
observado (xi, yi) respecto al punto correspondiente (xi, iyˆ ) = (xi, b0 + b1xi) sobre la 
recta de r gresión estimada en xi. E ta distancia, que se representa en la Figura 10.6, 
viene dada por el error de estima ión en la variable respue ta ei = yi - iyˆ  = yi - b0 - b1xi. 
Así, la recta de regresión vendrá determinada por aquellos valores b0 y b1 que hagan 
este error lo más pequeño posible para todas las observaciones o, equivalentemente, que 
mini icen la suma de cuadr dos del error 
SSE = 
===
−−=−=
n
i
ii
n
i
ii
n
i
i xbbyyye
1
2
10
1
2
1
2 )()ˆ( ,  
también llamada suma de cuadrados residual. Notar que los errores se elevan al 
cuadrado para evitar que se compensen los errores positivos y negativos. Este 
procedimiento para estimar los parámetros de la recta de regresión se conoce como el 
método de mínimos cuadrados. 
[Figura 10.6 aproximadamente aquí] 
también llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado 
para evitar que se co pensen los errores positivos y n gativos. Est  procedimiento para 
estimar los parámetros de la recta de regresión se conoce como el método de mínimos 
cuadrados.
 Figura 10.6
Recta de regresión estimada:
(xi, yi)
),()ˆ,( 10 iiii xbbxyx +=
iii yye ˆ−=
y
xbby 10ˆ +=
x
Figura 10.6 Error o desviación del valor observado de la variable respuesta respecto a su valor estimado 
por la recta de regresión.
167
Regresión lineal simple
Pastor-Barriuso R.
Para obtener los valores b0 y b1 que minimizan la suma de cuadrados del error, se calculan 
las derivadas parciales de SSE respecto a b0 y b1 y se igualan a cero, resultando el sistema de 
ecuaciones lineales
 18
Para obtener los valores b0 y b1 que minimizan la suma de cuadrados del error, se 
calculan las derivadas parciales de SSE respecto a b0 y b1 y se igualan a cero, resultando 
el sistema de ecuaciones lineales 

==
−−−=−=
∂
∂ n
i
ii
n
i
i xbbyeb 1
10
10
)(22SSE  = 0, 

==
−−−=−=
∂
∂ n
i
iii
n
i
ii xbbyxexb 1
10
11
)(22SSE  = 0, 
cuya solución es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
, 
b0 = y  - b1 x . 
La pendiente estimada b1 de la recta de regresión es igual al producto del coeficiente de 
correlación r de Pearson por el cociente entre las desviaciones típicas muestrales de Y y 
X. Así, aunque los signos de b1 y r coinciden, la magnitud de la pendiente b1 no sólo 
depende del coeficiente de correlación r, sino también de las desviaciones típicas sy y sx 
de las variables. Una vez estimada la pendiente, la constante b0 = y  - b1 x  corresponde 
simplemente al valor que fuerza a la recta de regresión a atravesar el punto ( x , y ) 
correspondiente a la media muestral de ambas variables. Si la relación subyacente entre 
las variables es lineal (asunción de linealidad), b0 y b1 son estimadores insesgados de la 
constante β0 y la pendiente β1 de la recta de regresión. 
La recta de regresión estimada viene entonces determinada por 
yˆ  = b0 + b1x = y  + b1(x - x ), 
cuya solución es
 18
Para obtener los valores b0 y b1 que minimizan la suma de cuadrados del error, se 
calculan las derivadas parciales de SSE respecto a b0 y b1 y se igualan a cero, resultando 
el sistema de ecuaciones lineales 

==
−−−=−=
∂
∂ n
i
ii
n
i
i xbbyeb 1
10
10
)(22  = 0, 

==
−−−=−=
∂
∂ n
i
iii
n
i
ii xbbyxexb 1
10
11
)(22SSE  = 0, 
cuya solución es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
, 
b0 = y   b1 x . 
La pendiente estimada b1 de la recta de regresión es igual al producto del coeficiente de 
correlación r de Pearson por el cociente entre las desviaciones típicas muestrales de Y y 
X. Así, aunque los signos de b1 y r coinciden, la magnitud de la pendiente b1 no sólo 
depende del coeficiente de correlación r, sino también de las desviaciones típicas sy y sx 
de las variables. Una vez estimada la pendiente, la constante b0 = y  - b1 x  corresponde 
simplemente al valor que fuerza a la recta de regresión a atravesar el punto ( x , y ) 
correspondiente a la media muestral de ambas variables. Si la relación subyacente entre 
las variables es lineal (asunción de linealidad), b0 y b1 son estimadores insesgados de la 
constante β0 y la pendiente β1 de la recta de regresión. 
La recta de regresión estimada viene entonces determinada por 
yˆ  = b0 + b1x = y  + b1(x - x ), 
−
−
La pendiente estimada b1 de la recta de regresión es igual al producto del coeficiente de 
correlación r de Pearson por el cociente entre las desviaciones típicas muestrales de Y y X. Así, 
aunque los signos de b1 y r coinciden, la magnitud de la pendiente b1 no sólo depende del 
coeficiente de correlación r, sino también de las desviaciones típicas sy y sx de las variables. Una 
vez estimada la pendiente, la constante b0 = 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
est s 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los dat s 
de una muestra, la media de la muestr  resultante es igual a la media i icial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 – b1
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media arit ética 
La media aritmética, de otada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la med da de tendencia central más utilizada y de más fácil 
int rpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
p incipal limitación es q e está muy influenciada por los valores extremos y, en este 
caso, pu de no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol L obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 corresponde simplem te al valor que 
fuerza a la recta de regresión a atravesar el punto (
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alr dedor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritméti a 
La m dia aritmétic , den tada p r x , se define como la suma de cada uno de los 
valores mu strales dividida por el número e ob ervaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el v lor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma un  c stante a cada uno de los datos 
de una muestra, la medi  de la muestra resultante es igu l a la media inicial más la 
const nte utiliz da; si yi = xi + c, entonces y  = x  + c. Un c mbio de origen que 
se r aliza con fr cuencia es el centrad  de la variable, que consiste en restar a 
c d  valor de la muestra su media. La media de una ariable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y scala. Si se multiplic  ca a uno de los datos d  
una muestra por un  co stante y al resultado se le suma tra constante, la media 
de la muestra resultante es igual a la medi inicial por la p imera con ante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
) correspondiente a la m di  muestral de 
ambas v riables. Si a lación subyacente entre las v riables es lineal (asu ción de linealidad), 
b0 y b1 son estimadores insesgados de la con tante β0 y l p ndiente β1 de la recta de regresión.
La recta de regresión estimada viene entonces determinada por
 18
Para obtener los valores b0 y b1 que minimizan la suma de cuadrados del error, se 
calculan las derivadas parciales de SSE respecto a b0 y b1 y se igualan a cero, resultando 
el sistema de ecuaciones lineales 

==
−−−=−=
∂
∂ n
i
ii
n
i
i xbbyeb 1
10
10
)(22SSE  = 0, 

==
−−−=−=
∂
∂ n
i
iii
n
i
ii xbbyxexb 1
10
11
)(22SSE  = 0, 
uya solución es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
, 
b0 = y  - b1 x . 
La pendiente estimada b1 de la recta de regr sión es igual al product  del co ficiente de 
correla i   de Pear on por el cociente entre las desviaciones típicas muestrales de Y y 
X. Así, aunque los signos de b1 y r coinciden, la magnitud de la pendiente b1 no sólo 
depende del coeficiente de correlación r, sino también de las desviaciones típicas sy y sx 
de las variables. Una vez estimada la pendiente, la constante b0 = y  - b1 x  corresponde 
simplemente al valor que fuerza a la recta de regresión a atravesar el punto ( x , y ) 
correspondiente a la media muestral de ambas variables. Si la relación subyacente entre 
las variables es lineal (asunción de linealidad), b0 y b1 son estimadores insesgados de la 
constante β0 y la pendiente β1 de la recta de regresión. 
La recta de regresión estimada viene entonces determinada por 
yˆ  = b0 + b1x = y  + b1(x  x ), −
que facilita una estimación del valor esperado o predicho de la variable respuesta para cada 
valor fijo de la variable explicativa. Para completar la estimación de los parámetros del 
modelo lineal, ha de estimarse también la varianza σ 2 de la variable respuesta alrededor de 
dicha recta. A partir de la suma de cuadrados del error, esta varia za residual puede estimarse 
mediante
 19
que facilita una estimación del valor esperado o predicho de la variable respuesta para 
cada valor fijo de la variable explicativa. Para completar la estimación de los 
parámetros del modelo lineal, ha de estimarse también la varianza σ 2 de la variable 
respuesta alrededor de dicha recta. A partir de la suma de cuadrados del error, esta 
varianza residual puede estimarse mediante 
s2 = 
=
−−
−
=
−
n
i
ii xbbynn 1
2
10 )(2
1
2
SSE . 
Cabe destacar que la suma de cuadrados del error se divide por n - 2 ya que, una vez 
estimadas la constante y la pendiente de la recta de regresión, los n errores o 
desviaciones de la variable respuesta respecto de la recta contienen n - 2 grados de 
libertad (conocidos b0, b1 y n - 2 errores, los 2 errores restantes se derivan 
automáticamente). Asumiendo que se cumplen las hipótesis de linealidad y 
homogeneidad de la varianza, la varianza residual s2 es un estimador insesgado del 
parámetro poblacional σ 2. 
Ejemplo 10.7 En el estudio de la relación entre el índice de masa corporal y el 
colesterol HDL, resulta natural considerar el índice de masa corporal como 
variable explicativa y el colesterol HDL como variable respuesta. El objetivo es, 
por tanto, estimar los cambios en el nivel medio del colesterol HDL conforme 
aumenta el índice de masa corporal utilizando un modelo de regresión lineal 
simple. En este caso, tanto la variable respuesta como la variable explicativa son 
continuas. 
En n = 533 controles del estudio EURAMIC, la media y la desviación típica del 
índice de masa corporal fueron x  = 26,0 y sx = 3,50 kg/m2, y los correspondientes 
valores del colesterol HDL fueron y  = 1,09 y sy = 0,295 mmol/l. Además, en el 
Cabe destacar que la suma de cua rados del error se divide por n – 2 ya que, una vez estimadas 
la constant  y l  pendiente de la recta de regr sión, los n errores o desviacion s de la variable 
respuesta respecto de la recta contienen n – 2 grados de libertad (conocidos b0, b1 y n – 2 errores, 
los 2 errores restantes se derivan automáticamente). Asumiendo que e cumplen las hipótesis de 
linealidad y homogeneidad de la varianza, la varianza residual s2 es un estimador insesgado del 
parámetro p blacion l σ 2.
Ejemplo 10.7 En e  estudio de l  relación entre l índice de masa corporal y el colesterol 
HDL, resulta na ural consider r el ín ice de masa corporal como variable ex licativa y el 
colesterol HDL como variable respuesta. El objetiv  es, por tant , estimar los ambios en 
168
Correlación y regresión lineal simple 
Pastor-Barriuso R.
el nivel medio del colesterol HDL conforme aumenta el índice de masa corporal utilizando 
un modelo de regresión lineal simple. En este caso, tanto la variable respuesta como la 
variable explicativa son continuas.
En n = 533 controles del estudio EURAMIC, la media y la desviación típica del índice de 
masa corporal fueron 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada p r x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 26,0 y sx = 3,50 kg/m2, y los c rresp ndientes valores del 
colesterol HDL fueron 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la media de la muestra resultante es igual a la media in cial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 1,09 y sy = 0,295 mmol/l. Además, en el Ejemplo 10.1 se 
obtuvo un coeficiente de co relación de Pearson ntre ambas variables de r = – 0,276. A 
partir de estos datos, las estimaciones de la pendiente y la constante de la recta de regresión 
por el mé odo de mínimos cuadrados s n
 20
Ejemplo 10.1 se obtuvo un coeficiente de correlación de Pearson entre ambas 
variables de r = -0,276. A partir de estos datos, las estimaciones de la pendiente y 
la constante de l  recta de regresión por el método d  mínimos cuadrados son 
b1 = 
50,3
295,0276,0−=
x
y
s
s
r  =  0,023 
y 
b0 = y  - b1 x  = 1,09 + 0,023⋅26,0 = 1,69. 
La constante b0 = 1,69 mmol/l es una estimación del valor esperado de colesterol 
HDL para un sujeto con un índice de masa corporal igual a 0 kg/m2, extrapolación 
que carece de sentido biológico. La pendiente b1 = -0,023 estima que, por cada 
incremento de 1 kg/m2 en el índice de masa corporal, el nivel medio de colesterol 
HDL disminuye en 0,023 mmol/l. En general, la pendiente puede utilizarse para 
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable 
explicativa, 
yˆ (x + c) - yˆ (x) = b0 + b1(x + c) - (b0 + b1x) = cb1. 
Así, por ejemplo, incrementos de una desviación típica c = 3,50 kg/m2 en el índice 
de masa corporal se asocian con una disminución media en el colesterol HDL de 
cb1 = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de la hipótesis 
de linealidad, esta disminución se asume constante a lo largo de todo el rango 
observado del índice de masa corporal; esto es, el modelo de regresión lineal 
estima una misma reducción de 0,081 mmol/l en el colesterol HDL entre 25 y 
28,5 kg/m2 del índice de masa corporal que entre 28,5 y 32 kg/m2. 
La recta de regresión estimada del colesterol HDL sobre el índice de masa 
corporal es 
−
y
 20
Ejemplo 10.1 se obtuvo un coeficiente de correlación de Pearson entre ambas 
variables de r = -0,276. A partir de estos datos, las estimaciones de la pendiente y 
la constante de la recta de regresión por el método de mínimos cuadrados son 
b1 = 
50,3
295,0276,0−=
x
y
s
s
r  = -0,023 
y 
b0 = y   b1 x  = 1,09 + 0,023⋅26,0 = 1,69. 
La constante b0 = 1,69 mmol/l es una estimación del valor esperado de colesterol 
HDL para u  sujeto con un índice de masa c rporal igual a 0 kg/m2, extrapolación 
que carece de s ntido biológico. La pendiente b1 = -0,023 estima qu , por cada 
incr me to de 1 kg/m2 en el índice de masa corporal, el nivel medio de colesterol 
HDL disminuye en 0,023 mmol/l. En general, la pendiente puede utilizarse para 
calcular el efecto asociado a incrementos de cualquier magnitud c en la variable 
explicativa, 
yˆ (x + c) - yˆ (x) = b0 + b1(x + c) - (b0 + b1x) = cb1. 
Así, por ejemplo, incrementos de una desviación típica c = 3,50 kg/m2 en el índice 
de masa corporal se asocian con una disminución media en el colesterol HDL de 
cb1 = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de la hipótesis 
de linealidad, esta disminución se asume constante a lo largo de todo el rango 
observado del índice de masa corporal; esto es, el modelo de regresión lineal 
estima una misma reducción de 0,081 mmol/l en el colesterol HDL entre 25 y 
28,5 kg/m2 del índice de masa corporal que entre 28,5 y 32 kg/m2. 
La recta de regresión estimada del colesterol HDL sobre el índice de masa 
corporal es 
−
La constante b0 = 1,69 mmol/l es una estimación del valor esperado de colesterol HDL 
para un sujeto con un índice de masa corporal igual a 0 kg/m2, extrapolación que carece 
de sentido biológico. La pendiente b1 = – 0,023 estima que, por cada incremento de 1 kg/
m2 en el índice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023 
mmol/l. En general, la pendiente puede utilizarse para calcular el efecto asociado a 
incrementos de cualquier magnitud c en la variable explicativa,
 20
Ejemplo 10.1 se obtuvo un coeficiente de correlación de Pearson entre ambas 
variables de r = -0,276. A partir de estos datos, las estimaciones de la pendiente y 
la constante de la recta de regresión por el método de mínimos cuadrados son 
b1 = 
50,3
295,0276,0−=
x
y
s
s
r  = -0,023 
y 
b0 = y  - b1 x  = 1,09 + 0,023⋅26,0 = 1,69. 
La constante b0 = 1,69 mm l/l e  un  estimación d l valor esperado de colesterol 
HDL par  un sujeto con un índice de masa corporal igual a 0 kg/m2, extrapolación 
que carece de sentido biológico. La pendiente b1 = -0,023 estima que, por cada 
incremento de 1 kg/m2 en el índice de masa corporal, el nivel medio de colesterol 
HDL disminuye en 0,023 mmol/l. En general, la pendiente puede utilizarse para 
calcular el efecto asociado a incrementos de ualquier magnitud c en la variable 
explicativa, 
yˆ (x + c)  yˆ (x) = b0 + b1(x + c)  (b0 + b1x) = cb1. 
Así, por ejemplo, incrementos de una desviación típica c = 3,50 kg/m2 en el índice 
de masa corporal se asocian con una disminución media en el colesterol HDL de 
cb1 = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de la hipótesis 
de linealidad, esta disminución se asume constante a lo largo de todo el rango 
observado del índice de masa corporal; esto es, el modelo de regresión lineal 
estima una isma reducción de 0,081 mmol/l en el colesterol HDL entre 25 y 
28,5 kg/m2 del índice de masa corporal que entre 28,5 y 32 kg/m2. 
La recta de regresión estimada de  coles e ol HDL s bre el índice de masa 
corporal es 
− −
Así, por ejemplo, incrementos de una desviación típica c = 3,50 kg/m2 en el índice de 
masa corporal s  aso ian con una disminución medi  en el colesterol HDL de cb1 = 
3,50(– 0,023) = – 0,081 mmol/l. Notar que, como cons cuencia de la hipótesis de linealidad, 
esta disminución se asume constante a lo largo de todo el rango observa o del índice de 
ma a corporal; esto es, el modelo de regresión lineal estima una misma reducción de 
0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m2 del índice de masa corporal que 
ent e 28,5 y 32 kg/m2.
La recta de regresión estimada del colesterol HDL sobre el índice de masa corporal es
 21
yˆ  = 1,69  0,023x, 
que se muestra en la Figura 10.7. Esta recta de regresión puede utilizarse para 
estimar o predecir el valor esperado del colesterol HDL en función del índice de 
masa corporal. Por ejemplo, para un índice de masa corporal de 25 kg/m2, el 
modelo estima un nivel medio de colesterol HDL de yˆ (25) = 1,69 - 0,023⋅25 = 
1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de 
los valores medios predichos por la recta de regresión. La varianza residual del 
colesterol HDL respecto a la recta de regresión es 
s2 = 
531
42,63)}023,069,1({
531
1
531
SSE 533
1
2
=−−= 
=i
ii xy  = 0,080. 
Notar, por último, que debido a la hipótesis de homogeneidad de la varianza, la 
desviación típica residual del colesterol HDL s = 080,0  = 0,283 mmol/l se 
asume constante alrededor de cualquier punto de la recta de regresión. 
[Figura 10.7 aproximadamente aquí] 
10.3.2 Contraste del modelo de regresión lineal simple 
En general, el contraste de regresión lineal permite evaluar si el modelo en su conjunto 
explica una parte significativa de la variabilidad de la variable respuesta. En el caso 
particular de la regresión lineal simple, la hipótesis nula del contraste es simplemente 
que la pendiente β1 de la recta de regresión subyacente es 0, ya que en tal caso la 
variable respuesta no se relacionará linealmente con la única variable explicativa y, en 
consecuencia, el modelo lineal no aportará explicación alguna sobre la variabilidad de 
la variable respuesta. Es importante resaltar que este contraste de regresión asume 
linealidad y, por tanto, no debe interpretarse como un test de bondad del ajuste, en el 
−
que se muestra en la Figura 10.7. Esta recta de regresión puede utilizarse para estimar o 
predecir el valor esperado del colesterol HDL en funci  del índice de masa corporal. Por 
eje plo, para un índice de masa corporal de 25 kg/m2, el modelo estima un nivel medio 
de colesterol HDL de ŷ(25) = 1,69 – 0,023⋅25 = 1,11 mmol/l. Por supuesto, los valores 
observados del colesterol HDL difieren de los valores medios predichos por la recta de 
regresión. La varianza residual del colesterol HDL respecto a la recta de regresión es
 21
yˆ  = 1,69 - 0,023x, 
que se muestra en la Figura 10.7. Esta recta de regresión pu de utilizarse para 
estimar o predecir el valor esperado del colesterol HDL en función l índ ce de 
masa corporal. Por ejemplo, para un índi e de masa c rporal 25 kg/m2, el 
modelo estima un nivel edio de c lest rol HDL de yˆ (25) = 1,69 - 0,023⋅25 = 
1,11 m ol/l. Por upuesto, los valores observados d l colesterol HDL difieren de 
los valores medios predichos por la recta de r gresión. La varia za residual del 
colest rol HDL respecto a la recta de regresión es 
s2 = 
531
42,63)}023,069,1({
531
1
531
SSE 533
1
2
=−−= 
=i
ii xy  = 0,080. 
Notar, por último, que debido a la hipótesis de homogeneidad de la varianza, la 
desviación típica residual del colesterol HDL s = 080,0  = 0,283 mmol/l se 
asume constante alrededor de cualquier punto de la recta de regresión. 
[Figura 10.7 aproximadamente aquí] 
10.3.2 Contraste del modelo de regresión lineal simple 
En general, el contraste d  r gresión lineal permite eva uar si el modelo en su conjunto 
explica una parte significativa de la variabilidad de la variable respuesta. En el caso 
particular de la regresión lineal simple, la hipótesis nula del contraste es simplemente 
que la pendiente β1 de la recta de regresión subyacente es 0, ya que en tal caso la 
variable respuesta no se relacionará linealmente con la única variable explicativa y, en 
consecuencia, el modelo lineal no aportará explicación alguna sobre la variabilidad de 
la variable respuesta. Es importante resaltar que este contraste de regresión asume 
linealidad y, por tanto, no debe interpretarse como un test de bondad del ajuste, en el 
Notar, por último, que debido a la hipótesis de homogeneidad de la varianza, la desviación 
típica residual del colesterol HDL s = 
 21
yˆ  = 1,69 - 0,023x, 
que se muestra en la Figura 10.7. Esta r cta  regresión pued  utilizarse para 
estimar o pre cir l valor esperado d l colesterol HDL en fu ción del índi e de 
masa corporal. Por ejemplo, para un í dice de masa corporal de 25 kg/m2, el 
modelo estima un nivel medio de colesterol HDL de yˆ (25) = 1,69 - 0,023⋅25 = 
1,11 mmol/l. Por supu sto, los valores observados del colesterol HDL difieren de 
los valores medios predich s por la recta de regresión. La varianza residual del 
colesterol HDL respecto a la recta de regresión es 
s2 = 
531
42,63)}023,069,1({
531
1
531
SSE 533
1
2
=−−= 
=i
ii xy  = 0,080. 
Notar, por último, que debido a la hipótesis de homogeneidad de la varianza, la 
desviación típica residual del colesterol HDL s = 080,0  = 0,283 mmol/l se 
asume constante alrededor de cualquier punto de la recta de regresión. 
[Figura 10.7 aproximadamente aquí] 
10.3.2 Contraste del modelo de regresión lineal simple 
En general, el contraste de regresión lin al permite valuar si el modelo en su conjunto 
explica una parte significativa de la variabilidad de la variable respuesta. En el caso 
particular de la regresión lineal simple, la hipótesis nula del contr ste es simplem n e 
que la pendiente β1 de la recta de regresión subyac nte es 0, ya que en tal aso la 
variable respuesta no se r lacionará linealmente con la única variable explicativa y, en 
consecuencia, el modelo lin al no apo tará explicación alguna sobre la variabilidad de 
la variable respuesta. Es mportant  resaltar que este contraste de regresión asume 
linealidad y, por tanto, no deb  interpretarse como un test de bondad del ajust , n l 
 = 0,283 mmol/l se asume constante alrededor 
de cualquier punto d  la recta de regresión.
169
Regresión lineal simple
Pastor-Barriuso R.
 Figura 10.7
 
20 24 28 32 36
0,25
0,5
1
1,5
2
2,25
Indice de masa corporal (kg/m²)
C
ol
es
te
ro
l H
D
L 
(m
m
ol
/l)
Figura 10.7 Recta de regresión del colesterol HDL sobre el índice de masa corporal en el grupo control del 
estudio EURAMIC.
10.3.2 Contraste del modelo de regresión lineal simple
En general, el contraste de regresión lineal permite evaluar si el modelo en su conjunto explica 
una parte significativa de la variabilidad de la variable respuesta. En el caso particular de la 
regresión lineal simple, la hipótesis nula del contraste es simplemente que la pendiente β1 de la 
recta de regresión subyacente es 0, ya que en tal caso la variable respuesta no se relacionará 
linealmente con la única variable explicativa y, en consecuencia, el modelo lineal no aportará 
explicación alguna sobre la variabilidad de la variable respuesta. Es importante resaltar que este 
contraste de regresión asume linealidad y, por tanto, no debe interpretarse como un test de 
bondad del ajuste, en el sentido de que no facilita ninguna información sobre la idoneidad del 
modelo lineal para describir la relación subyacente entre las variables explicativa y respuesta.
La realización del contraste de regresión se basa en el análisis de la varianza de la variable 
respuesta. Una vez estimada la recta de regresión, la desviación de cada valor observado yi 
respecto a la media muestral 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valor s obtenido  fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la m dia de la muestra e ultante es igual a la media inicia  más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 puede separarse en dos componentes: el error o desviación del 
valor observado yi respecto a su valor estimado por la recta de regresión ŷi = b0 + b1xi, y la 
distancia entre di ho val r estimado ŷi y la media muestral 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la media de la uestra resultante es igual a la media inicial más la 
constante util zada; si i = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se ultiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
; esto es,
 22
sentido de que no facilita ninguna información sobre la idoneidad del modelo lineal 
para describir la relación subyacente entre las variables explicativa y respuesta. 
La realización del contraste de regresión se basa en el análisis de la varia za de la 
variable respuesta. Una vez estimada la recta de regresión, la desviación de cada valor 
observado yi respecto a la media muestral y  puede separarse en dos componentes: el 
error o desviación del valor observado yi respecto a su valor estimado por la recta de 
regresión iyˆ  = b0 + b1xi, y distancia ent  dicho valor estimado iyˆ  y la media 
muestral y ; esto s, 
yi  y  = iyˆ   y  + yi  iyˆ . 
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se 
tiene que la suma de cuadrados total es 
 SST = 
=
−
n
i
i yy
1
2)(  = 
===
−−+−+−
n
i
iii
n
i
ii
n
i
i yyyyyyyy
11
2
1
2 )ˆ)(ˆ(2)ˆ()ˆ(  
  = 
==
−+−
n
i
ii
n
i
i yyyy
1
2
1
2 )ˆ()ˆ(  = SSR + SSE, 
ya que ambas compon ntes están incorrelacion das 

====
−=−=−−
n
i
i
n
i
ii
n
i
ii
n
i
iii exbexbexxbyyyy
1
1
1
1
1
1
1
)()ˆ)(ˆ(  = 0 
según las ecuaciones de regresión derivadas del método de mínimos cuadrados. Así, la 
suma de cuadrados total SST se descompone en dos términos independientes: la suma 
de cuadrados de la regresión SSR, que representa la variabilidad de la variable 
respuesta explicada por la única variable independiente del modelo de regresión, y la 
suma de cuadrados del error SSE, que corresponde a la variabilidad residual de la 
variable respuesta que queda sin explicar. Conviene recordar que la recta de regresión 
− − −
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se tiene que 
la suma de cuadr os t tal es
 22
sentido de que o facilita ninguna información sobre la idoneidad del modelo lineal 
para describir la relación subyacente entre las variables explicativa y respuesta. 
La realización del contraste de regresión se basa en el análisis de la varianza de la 
variable respuesta. Una vez estimada la r ct de regr sión, la desviación de cada valo
observado yi respecto a la m dia muestral y  puede separ se en dos componentes: el 
error o desviación del valor observa o yi respecto a su valor estimado por la recta de 
regresión iyˆ  = b0 + b1xi, y la distancia entre dicho valor estimado iyˆ  y la media 
muestral y ; esto es, 
yi - y  = iyˆ  - y  + yi - iyˆ . 
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se 
tiene que la suma d  cua rados total es 
 SST = 
=
−
n
i
i yy
1
2)(  = 
===
−−+−+−
n
i
iii
n
i
ii
n
i
i yyyyyyyy
11
2
1
2 )ˆ)(ˆ(2)ˆ()ˆ(  
  = 
==
−+−
n
i
ii
n
i
i yyyy
1
2
1
2 )ˆ()ˆ(  = SSR + SSE, 
ya que ambas componentes están incorrelacionadas 

====
−=−=−−
n
i
i
n
i
ii
n
i
ii
n
i
iii exbexbexxbyyyy
1
1
1
1
1
1
1
)()ˆ)(ˆ(  = 0 
según las ecuaciones de regresión derivadas del método de mínimos cuadrados. Así, la 
sum  de cuadrados total SST se descompone en dos términos independientes: la suma 
de uadrad s d  la regresión SSR, que representa la variabilidad de la variable 
respuesta explicada por la única variable independiente del modelo de regresión, y la 
suma de cuadrados del rror SSE, que corresponde a la variabilidad r sidual de la 
variable respuesta que queda sin explicar. Conviene recordar que la recta de regresión 
170
Correlación y regresión lineal simple 
Pastor-Barriuso R.
ya que ambas componentes están incorrelacionadas
 22
sentido de que no facilita ninguna información sobre la idoneidad del modelo lineal 
para describir la relación subyacente entre las variables explicativa y respuesta. 
La realización del contraste de regresión se basa en el análisis de la varianza de la 
variable respuesta. Una vez estimada la recta de regresión, la desviación de cada valor 
observado yi respecto a la media muestral y  puede separarse en dos componentes: el 
error o desviación del valor observado yi respecto a su valor estimado por la recta de 
regresión iyˆ  = b0 + b1xi, y la distancia entre dicho valor estimado iyˆ  y la media 
muestral y ; esto es, 
yi - y  = iyˆ  - y  + yi - iyˆ . 
Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se 
tiene que la suma de cuadrados total es 
 SST = 
=
−
n
i
i yy
1
2)(  = 
===
−−+−+−
n
i
iii
n
i
ii
n
i
i yyyyyyyy
11
2
1
2 )ˆ)(ˆ(2)ˆ()ˆ(  
  = 
==
−+−
n
i
ii
n
i
i yyyy
1
2
1
2 )ˆ()ˆ(  = SSR + SSE, 
ya que ambas componentes están incorrelacionadas 

====
−=−=−−
n
i
i
n
i
ii
n
i
ii
n
i
iii exbexbexxbyyyy
1
1
1
1
1
1
1
)()ˆ)(ˆ(  = 0 
según las ecuaciones de regresión derivadas del método de mínimos cuadrados. Así, la 
suma de cuadrados total SST se descompone en dos términos independientes: la suma 
de cuadrados de la regresión SSR, que representa la variabilidad de la variable 
respuesta explicada por la única variable independiente del modelo de regresión, y la 
suma de cuadrados del error SSE, que corresponde a la variabilidad residual de la 
variable respuesta que queda sin explicar. Conviene recordar que la recta de regresión 
según las ecuaciones de regresión derivadas del método de mínimos cuadrados. Así, la suma 
de cuadrados tot l SST se descompone en dos términos independientes: la suma de cuadrados 
de la regresión SSR, que representa la variabilidad de la variable respuesta explicada por la 
única variable independiente del modelo de regresión, y la suma d  cuadrados del error 
SSE, que corresponde a la variabilidad residual de la variable respuesta que queda sin explicar. 
Conviene recordar que la recta de regr sión estimada por e  procedimiento de mínimos 
cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad 
predictiva o explicativa del modelo de r gresión. La Figura 10.8 ilust a gráficamente esta 
descomposición.
La descomposición de la variabilidad de la variable respuesta suele representarse mediante 
la denominada tabla del análisis de la varianza (Tabla 10.2). En primer lugar, esta tabla 
presenta las sumas de cuadrados junto con sus correspondientes grados de libertad. La suma de 
cuadrados de la regresión contiene únicamente 1 grado de libertad ya que, una vez conocida la 
media muestral 
 
 6
antioxidantes en el riesgo de desarrollar un pri er infarto agudo de mio ardio en
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se su a una constante  cada uno  os datos 
de una muestra, la media de la muestra resultante es igual a la media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
, los valores esti ados p r la recta de regresión ŷi = 
 
 6
antioxidantes en el r esgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una co stante a cada uno de los datos 
de una muestra, la m dia de la muestra resultante es igual a l  media inicial más la 
constante utilizad ; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
s realiza co frecuencia es el centrado de la variable, que consiste en restar a 
cada valo  e la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
mu stra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una mue ra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Par transformar los valores del colesterol HDL de mmol/l a mg/dl se 
mu ti lica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 + b1(xi – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
a rededor  qué valor se agrupan los tos observados. Las medidas de tendencia 
central de  m estra sirven anto para r sumir los resultados observados como para 
r alizar inferencias a rc  de l s parámetros poblacionales correspondientes. A 
cont nuación se describen los pri cipales imadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se def ne como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
r n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la med da de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
princip l limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
) quedan 
completamente determinados por su pendiente; mientras que, como se vio en el apartado 
anterior, la suma de cuadrados del error tiene n – 2 grados de liberta . A c ntinuación, los 
términos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad. 
Finalmente, la razón de varianzas se define co o el cociente entre la varianza explicada por la 
regresión y la varianza residual, que constituye el estadístico del contraste de regresión.
 Figura 10.8
Recta de regresión estimada:
(xi, yi)
)ˆ,( ii yx
iii yye ˆ−=
y
x
)(ˆ 110 xxbyxbby −+=+=
),( yx yyi −ˆ
yyi −
Figura 10.8 Descomposición de la variabilidad de la variable respuesta en la parte explicada y no explica-
da por la regresión.
171
Regresión lineal simple
Pastor-Barriuso R.
Tabla 10.2 Tabla genérica del análisis de la varianza en regresión lineal 
simple.*
Suma de 
cuadrados
Grados de 
libertad
Razón de 
varianzasVarianza
 Figura 10.1
Tabla 10.2 Tabla genérica del análisis de la varianza en regresión lineal simple.* 
 Suma de Grados de  Razón de 
 cuadrados libertad Varianza varianzas 
Regresión SSR = 
=
−
n
i
i yy
1
2)ˆ(  1 SSR F = 2
SSR
s
 
Error SSE = 
==
−=
n
i
ii
n
i
i yye
1
2
1
2 )ˆ(  n  2 s2 = 
2
SSE
−n
 
Total SST = 
=
−
n
i
i yy
1
2)(  n  1 
* Coeficiente de determinación R2 = SSR/SST.  
−
−
* Coeficiente de determinación R2 = SSR/SST.
Para realizar el contraste de regresión, es preciso conocer la distribución de la razón de 
varianzas bajo la hipótesis nula H0: β1 = 0. Por un lado, se tiene que
 23
estimada por el procedimiento de mínimos cuadrados minimiza la suma de cuadrados 
del error, maximizando entonces la capacidad predictiva o explicativa del modelo de 
regresión. La Figura 10.8 ilustra gráficamente esta descomposición. 
[Figura 10.8 aproximadamente aquí] 
La descomposición de la variabilidad de la variable respuesta suele representarse 
mediante la denominada tabla del análisis de la varianza (Tabla 10.2). En primer 
lugar, esta tabla presenta las sumas de cuadrados junto con sus correspondientes grados 
de libertad. La suma de cuadrados de la regresión contiene únicamente 1 grado de 
libertad ya que, una vez conocida la media muestral y , los valores estimados por la 
recta de regresión iyˆ  = y  + b1(xi - x ) quedan completamente determinados por su 
pendiente; mientras que, como se vio en el apartado anterior, la suma de cuadrados del 
error tiene n - 2 grados de liberta . A continuación, los términos de la varianza se 
obtienen de dividir las sumas de cuadrados por sus grados de libertad. Finalmente, la 
razón de varianzas se define como el cociente entre la varianza explicada por la 
regresión y la varianza residual, que constituye el estadístico del contraste de regresión. 
[Tabla 10.2 aproximadamente aquí] 
Para realizar el contraste de regresión, es preciso conocer la distribución de la razón 
de varianzas bajo la hipótesis nula H0: β1 = 0. Por un lado, se tiene que 
)var(
)1(
)()ˆ(1SSR
1
2
1
2
22
1
1
2
2
2
1
1
2
22 b
bsnb
xx
b
yy x
n
i
i
n
i
i =
−
=−=−= 
== σσσσ
, 
donde var(b1) = σ 2/{(n - 1) 2xs } es la varianza de la pendiente estimada. Como se 
comprobará en el siguiente apartado, si se cumplen las asunciones de la regresión lineal 
simple, la pendiente estimada b1 seguirá una distribución normal con media β1 y 
donde var(b1) = σ 2/{(n – 1)s2x  } es la varianza de la pendiente estimada. Como se comprobará en 
el sigui nte apartado, si se cumplen las asunciones de la regresión lineal simple, la pendiente 
estimada b1 seguirá una distribución normal con media β1 y varianza var(b1). Así, bajo la 
hipótesis nula H0: β1 = 0, el cociente SSR/σ 2 es el cuadrado de una distribución normal 
estandarizada, que corresponde por definición a una distribución chi-cuadrado con 1 grado de 
libertad. Por otra parte, basta con que se cumplan las asunciones subyacentes al modelo lineal 
para que la varianza residual s2 sea un estimador insesgado de σ 2 y el cociente
 24
varianza var(b1). Así, bajo la hipótesis nula H0: β1 = 0, el cociente SSR/σ 2 es el 
cuadrado de una distribución normal estandarizada, que corresponde por definición a 
una distribución chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se 
cumplan las asunciones subyacentes al modelo lineal para que la varianza residual s2 
sea un estimador insesgado de σ 2 y el cociente 
2
2)2(
σ
sn −  
siga una distribución chi-cuadrado con n - 2 grados de libertad. Combinando ambos 
resultados, se tiene que bajo la hipótesis nula H0: β1 = 0 la razón entre las varianzas 
explicada y residual 
F = 
)2/(
~
/
/SSRSSR
2
2
2
1
22
2
2
−
=
−
nss nχ
χ
σ
σ  
se distribuye como el cociente de dos chi-cuadrado independientes divididas por sus 
respectivos grados de libertad, que es una distribución F de Fisher con 1 grado de 
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del 
contraste de regresión de la hipótesis nula H0: β1 = 0 frente a la hipótesis alternativa 
bilateral H1: β1 ≠ 0 se calcula entonces como la probabilidad a la derecha del estadístico 
F bajo la distribución F1,n-2. 
La tabla del análisis de la varianza suele ir acompañada del coeficiente de 
determinación R2, que se define como la proporción de la variabilidad de la variable 
respuesta que se explica por el modelo de regresión, 
R2 = 2
2
2
1
1
2
1
22
1
1
2
1
2
)(
)(
)(
)ˆ(
SST
SSR
y
x
n
i
i
n
i
i
n
i
i
n
i
i
s
s
b
yy
xxb
yy
yy
=
−
−
=
−
−
=




=
=
=
=  = r2. 
siga una distribución chi-cuadrado con n – 2 grados de libertad. Combinando ambos resultados, 
se tiene que bajo la hipótesis nula H0: β1 = 0 la razón entre las varianzas explicada y residual
 24
varianza var(b1). Así, bajo la hipótesis nula H0: β1 = 0, el cociente SSR/σ 2 es el 
cuadrado de una distribución normal estandarizada, que corresponde por definición a 
una distribución chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se 
cumplan las asunciones subyacentes al modelo lineal para que la varianza residual s2 
sea un estimador insesgado de σ 2 y el cociente 
2
2)2( sn −  
siga una distribución chi-cuadrado con n - 2 grados de libertad. Combinando ambos 
resultados, se tiene que bajo la hipótesis nula H0: β1 = 0 la razón entre las varianzas 
explicada y residual 
F = 
)2/(
~
/
/SSRSSR
2
2
2
1
22
2
2
−
=
−
nss nχ
χ
σ
σ  
se distribuye como el cociente de dos chi-cuadrado independientes divididas por sus 
respectivos grados de libertad, que es una distribución F de Fisher con 1 grado de 
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del 
contraste de regresión de la hipótesis nula H0: β1 = 0 frente a la hipótesis alternativa 
bilateral H1: β1 ≠ 0 se calcula entonces como la probabilidad a la derecha del estadístico 
F bajo la distribución F1,n-2. 
La tabla del análisis de la varianza suele ir acompañada del coeficiente de 
determinación R2, que se define como la proporción de la variabilidad de la variable 
respuesta que se explica por el modelo de regresión, 
R2 = 2
2
2
1
1
2
1
22
1
1
2
1
2
)(
)(
)(
)ˆ(
SST
SSR
y
x
n
i
i
n
i
i
n
i
i
n
i
i
s
s
b
yy
xxb
yy
yy
=
−
−
=
−
−
=




=
=
=
=  = r2. 
se distribuye como el cociente de dos chi-cuadrado independientes divididas por sus respectivos 
grados de libertad, que es una distribución F de Fisher con 1 grado de liberta  en el numerador 
y n – 2 grados de libertad en el denominador. El valor P del contraste de regresión de la hipótesis 
nula H0: β1 = 0 f ente a la hipótesis alt rnativa bilateral H1: β1 ≠ 0 s  calcula entonc s como la 
probabilidad a la derecha del estadístico F bajo la distribución F1,n–2.
La tabla del análisis de la varianza suele ir acompañada del coeficiente de determinación R2, 
que se define como la proporción de la variabilidad de la variable respuesta que se explica por 
el modelo de regresión,
 24
varianza var(b1). Así, bajo la hipótesis nula H0: β1 = 0, el cociente SSR/σ 2 es el 
cuadrado de una distribución normal estandarizad , que corresponde por definición a 
una distribución chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se 
cumplan las asunciones subyacentes al modelo lineal para que la varianza residual s2 
sea un estimador insesgado de σ 2 y el cociente 
2
2)2(
σ
sn −  
siga una distribución chi-cuadrado con n - 2 grados de libertad. Combinando ambos 
resultados, se tiene que bajo la hipótesis nula H0: β1 = 0 la razón entre las varianzas 
explicada y residual 
F = 
)2/(
~
/
/SSRSSR
2
2
2
1
22
2
2
−
=
−
nss nχ
χ
σ
σ  
se distribuye c mo el cociente de dos chi-cuadrado independientes divididas por sus 
respectivos grados de libertad, que es una distribución F de Fisher con 1 grado de 
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del 
co traste de regresión de la hipótesis nula H0: β1 = 0 frente a la hipótesis alternativa 
bilateral H1: β1 ≠ 0 se calcula entonc  como la probabilidad a la derecha del estadístico 
F bajo la distribución F1,n-2. 
La tabla del análisis de la varianza suele ir acompañada del coeficiente de 
determinación R2, que se define como la proporció  de la variabilidad de la variable 
respuesta que se explica por el modelo de regresión, 
R2 = 2
2
2
1
1
2
1
22
1
1
2
1
2
)(
)(
)(
)ˆ(
SST
SSR
y
x
n
i
i
n
i
i
n
i
i
n
i
i
s
s
b
yy
xxb
yy
yy
=
−
−
=
−
−
=




=
=
=
=  = r2. 
172
Correlación y regresión lineal simple 
Pastor-Barriuso R.
En el caso de la regresión lineal simple, el coeficiente de determinación R2 coincide con el 
cuadrado del coeficiente de correlación r de Pearson entre las variables explicativa y respuesta.
Ejemplo 10.8 La Tabla 10.3 presenta el análisis de la varianza de la regresión lineal del 
colesterol HDL sobre el índice de masa corporal en 533 controles del estudio EURAMIC. 
La suma de cuadrados de las desviaciones de los valores observados del colesterol HDL 
respecto a la media muestral 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, a media de la mu stra resultante es igual a la media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
  1,09 mmol/l es
 25
En el caso de la regresión lineal simple, el coeficiente de determinación R2 coincide con 
el cuadrado del coeficiente de correlación r de Pearson entre las variables explicativa y 
respuesta. 
Ejemplo 10.8 La Tabla 10.3 presenta el análisis de la varianza de la regresión 
lineal del colesterol HDL sobre el índice de masa corporal en 533 controles del 
estudio EURAMIC. La suma de cuadrados de la sviaciones de los valores 
observados del colesterol HDL respecto a la media mu tral y  = 1,09 mm l/l es 
SST = 
=
−
533
1
2)1,09(
i
iy  = 46,15, 
que se descompone en la suma de cuadrados de las desviaciones del colesterol 
HDL respecto a la recta de regresión iyˆ  = 1,69 - 0,023xi 
SSE = 
=
−−
533
1
2)}023,069,1({
i
ii xy  = 42,63 
y la suma de cuadrados de las distancias entre los valores estimados por la recta 
de regresión y la media muestral 
SSR = 
=
−−
533
1
2)09,1023,069,1(
i
ix  = 3,53. 
Así, la proporción de la variabilidad del colesterol HDL que se explica 
únicamente con el índice de masa corporal viene dada por el coeficiente de 
determinación 
R2 = 3,53/46,15 = 0,076, 
que coincide con el cuadrado del coeficiente de correlación muestral entre el 
índice de masa corporal y el colesterol HDL r2 = (-0,276)2 = 0,076. Para 
determinar si esta variabilidad explicada por el índice de masa corporal es una 
que se descompone en la suma de cuadrados de las desviaciones del colesterol HDL 
respecto a la recta d  regresión ŷi = 1,69 – 0,023xi
 25
En el caso de la regresión lineal simple, el coeficiente de determinación R2 coincide con 
el cuadrado del coeficiente de correlación r de Pearson entre las variables explicativa y 
respuesta. 
Ejemplo 10.8 La Tabla 10.3 presenta el análisis de la varianza de la regresión 
lineal del colesterol HDL sobre el índice de masa corporal en 533 controles del 
estudio EURAMIC. La suma de cuadrados de las desviaciones de los valores 
observ dos del cole terol HDL respecto a l media muestral y  = 1,09 mmol/l es 
SST = 
=
−
533
1
2)1,09(
i
iy  = 46,15, 
que se descompone en la suma de cuadrados de las desviaciones del colesterol 
HDL respe to a la recta de regresión iyˆ  = 1,69 - 0,023xi 
SSE = 
=
−−
533
1
2)}023,069,1({
i
ii xy  = 42,63 
y la suma de cuadrados de las distancias entre los valores estimados por la recta 
de regresión y la media muestral 
SSR = 
=
−−
533
1
2)09,1023,069,1(
i
ix  = 3,53. 
Así, la proporción de la variabilidad del colesterol HDL que se explica 
únicamente con el índice de masa corporal viene dada por el coeficiente de 
determinación 
R2 = 3,53/46,15 = 0,076, 
que coincide con el cuadrado del coeficiente de correlación muestral entre el 
índice de masa corporal y el colesterol HDL r2 = (-0,276)2 = 0,076. Para 
determinar si esta variabilidad explicada por el índice de masa corporal es una 
y la suma de cuadrados de las distancias entre los valores estimados por la recta de 
regresión y la media muestr l
 25
En el caso de la regresión lineal simple, el coeficiente de determinación R2 coincide con 
el cuadrado del coeficiente de correlación r de Pearson entre las variables explicativa y 
respuesta. 
Ejemplo 10.8 La Tabla 10.3 presenta el análisis de la varianza de la regresión 
lineal del colesterol HDL sobre el índice de masa corporal en 533 controles del 
estudio EURAMIC. La suma de cuadrados de las desviaciones de los valores 
observados del colesterol HDL respecto a la me ia muestral y  = 1,09 mmol/l es 
SST = 
=
−
533
1
2)1,09(
i
iy  = 46,15, 
que se descompone en la suma de cuadrados de las desviaciones del colesterol 
HDL respecto a la recta de regresión iyˆ  = 1,69 - 0,023xi 
SSE = 
=
−−
533
1
2)}023,069,1({
i
ii xy  = 42,63 
y s ma de cuadrados de las distancias entre los valores estimados por la recta 
de regresión y la media muestral 
SSR = 
=
−−
533
1
2)09,1023,069,1(
i
ix  = 3,53. 
Así, l  proporción de la variabilidad del colester l HDL que s  explica 
únicament  con el índice de masa corporal vien  dada por el coeficiente de 
det rminación 
R2 = 3,53/46,15 = 0,076, 
que coincide con l cuadrado del coef ciente de correlación muestral entre el 
índice de m sa corporal y el colesterol HDL r2 = (-0,276)2 = 0,076. Para 
determinar si esta variabilidad explicada por el índice de masa corporal es una 
Así, la proporción de la variabilidad del colesterol HDL que se explica únicamente con el 
índice de masa corporal iene da  por el coefi iente d determinac ón
 25
En el caso de la regresión lineal simple, el coeficiente de determinación R2 coincide con 
el cuadrado del coeficiente de correlación r de Pearson entre las variables explicativa y 
respuesta. 
Ejemplo 10.8 La Tabla 10.3 presenta el análisis d  la varianza de la regresión 
lineal del colesterol HDL sobre el índice de masa corporal en 533 controles del 
estudio EURAMIC. La suma de cuadrados de las desviaciones de los valores 
observados del colesterol HDL respecto a la media muestral y  = 1,09 mmol/l es 
SST = 
=
−
533
1
2)1,09(
i
iy  = 46,15, 
que s  descompone n la suma de cuadrados d  las de vi cion  del colesterol 
HDL respecto a la recta de regresión iyˆ  = 1,69 - 0,023xi 
SSE = 
=
−−
533
1
2)}023,069,1({
i
ii xy  = 42,63 
y la suma de cuadrados de las distancias entre los valores estimados por la recta 
de regresión y la media muestral 
SSR = 
=
−−
533
1
2)09,1023,069,1(
i
ix  = 3,53. 
Así, la proporción de la var abilidad del colesterol HDL que se explica 
únicamente con el índice de masa corporal viene dada por el coeficiente de 
determinación 
R2 = 3,53/46,15 = 0,076, 
que coi cide con el cuadrado del coeficiente de correlación muestral entre el 
índice de masa corporal y el colesterol HDL r2 = (-0,276)2 = 0,076. Para 
deter inar si esta variabilidad explicada por el índice de masa corporal es una 
que coincide con el cuadrado del coeficiente de correlación muestral entre el índice de 
masa corporal y el colesterol HDL r2 = (– 0,276)2 = 0,076. Para determinar si esta 
variabilidad explicada por el índice de masa corporal es una parte significativa de la 
variabilidad total del colesterol HDL, se realiza el contraste de regresión de la hipótesis 
nula H0: β1 = 0 mediante la razón entre las varianzas explicada SSR = 3,53 y residual 
s2 = 42,63/531 = 0,080,
 26
parte significativa de la variabilidad total del colesterol HDL, se realiza el 
contraste de regresión de la hipótesis nula H0: β1 = 0 mediante la razón entre las 
varianzas explicada SSR = 3,53 y residual s2 = 42,63/531 = 0,080, 
F = 3,53/0,080 = 43,93. 
Bajo la hipótesis nula, este estadístico sigue una distribución F de Fisher con 1 
grado de libertad en el numerador y 531 grados de libertad en el denominador, 
luego el valor P bilateral del contraste es P(F1,531 ≥ 43,93) < 0,001. En conclusión, 
las diferencias en el índice de masa corporal explican el 7,6% de la variabilidad 
del colesterol HDL en la población de referencia del estudio EURAMIC (R2 = 
0,076, P < 0,001). 
[Tabla 10.3 aproximadamente aquí] 
10.3.3 Inferencia sobre los parámetros de la recta de regresión 
En el Apartado 10.3.1 se obtuvieron los estimadores b0 y b1 de la constante y la 
pendiente de la recta de regresión utilizando el método de mínimos cuadrados. A partir 
de las distribuciones muestrales de b0 y b1, se derivan a continuación los intervalos de 
confianza y tests de hipótesis para los parámetros subyacentes β0 y β1 del modelo de 
regresión lineal simple. 
El estimador de mínimos cuadrados de la pendiente de la recta de regresión puede 
reescribirse como una combinación lineal de los valores de la variable respuesta 
b1 = 




=
=
=
=
=
=
−
−
=
−
−− n
i
iin
i
i
n
i
ii
n
i
i
n
i
ii
yc
xx
yxx
xx
yyxx
1
1
2
1
1
2
1
)(
)(
)(
))((
, 
Bajo la hipótesis nula, este estadístico sigue una distribución F de Fisher con 1 grado de 
libertad en el numerador y 531 grad s de libertad en el denominador, luego el valor P 
bilateral del contraste es P(F1,531 ≥ 43,93) < 0,001. En conclusión, las diferencias en el 
índi e de masa corporal explican el 7,6% de la vari bilidad del colesterol HDL en la 
población de referenc  del estudio EURAMIC (R2 = 0,076, P < 0,001).
Tabla 10.3 Tabla del análisis de la varianza de la regresión lineal del colesterol HDL 
sobre el índice de masa corporal en el grupo control del estudio EURAMIC.*
Suma de 
cuadrados
Grados de 
libertad
Razón de 
varianzasVarianza
Regresión  3,53   1 3,53 43,93
Error 42,63 531 0,080
Total 46,15 532
* Coeficiente de determinación R2 = 3,53/46,15 = 0,076. 
173
Regresión lineal simple
Pastor-Barriuso R.
10.3.3 Inferencia sobre los parámetros de la recta de regresión
En el Apartado 10.3.1 se obtuvieron los estimadores b0 y b1 de la constante y la pendiente de la 
recta de regresión utilizando el método de mínimos cuadrados. A partir de las distribuciones 
muestrales de b0 y b1, se derivan a continuación los intervalos de confianza y tests de hipótesis 
para los parámetros subyacentes β0 y β1 del modelo de regresión lineal simple.
El estimador de mínimos cuadrados de la pendiente de la recta de regresión puede reescribirse 
como una combinación lineal de los valores de la variable respuesta
 26
parte significativa de la variabilidad total del colesterol HDL, se realiza el 
contraste de regresión de la hipótesis nula H0: β1 = 0 mediante la razón entre las 
varianzas explicada SSR = 3,53 y residual s2 = 42,63/531 = 0,080, 
F = 3,53/0,080 = 43,93. 
Bajo la hipótesis nula, este estadístico sigue una distribución F de Fisher con 1 
grado de libertad en el numerador y 531 grados de libertad en el denominador, 
luego el valor P bilateral del contraste es P(F1,531 ≥ 43,93) < 0,001. En conclusión, 
las diferencias en el índice de masa corporal explican el 7,6% de la variabilidad 
del colesterol HDL en la población de referencia del estudio EURAMIC (R2 = 
0,076, P < 0,001). 
[Tabla 10.3 aproximadamente aquí] 
10.3.3 Inferencia sobre los parámetros de la recta de regresión 
En el Apartado 10.3.1 se obtuvieron los estimadores b0 y b1 de la constante y la 
pendiente de la recta de regresión utilizando el método de mínimos cuadrados. A partir 
de las distribuciones muestrales de b0 y b1, se derivan a continuación los intervalos de 
confianza y tests de hipótesis para los parámetros subyacentes β0 y β1 del modelo de 
regresión lineal simple. 
El estimador de mínimos cuadrados de la pendiente de la recta de regresión puede 
reescribirse como una combinación lineal de los valores de la variable res sta 
b1 = 




=
=
=
=
=
=
−
−
=
−
−− n
i
iin
i
i
n
i
ii
n
i
i
n
i
ii
yc
xx
yxx
xx
yyxx
1
1
2
1
1
2
1
)(
)(
)(
))((
, 
donde los coeficientes ci = (xi – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
)/{(n – 1)sx2 } dependen únicamente de los valores de la variable 
explicativa que se asumen constantes. Bajo las asunciones de linealidad y homogeneidad de la 
varianza, el valor esperado de b1 es
 27
donde los coeficientes ci = (xi - x )/{(n - 1) 2xs } dependen únicamente de los valores de 
la variable explicativa que se asumen constantes. Bajo las asunciones de linealidad y 
homogeneidad de la varia za, el valor esper do de b1 es 
E(b1) = 
===
+=
n
i
ii
n
i
i
n
i
ii xccyEc
1
1
1
0
1
)( ββ  = β1 
y, como las observaciones yi son independientes (véase Apartado 3.4), su varianza es 
var(b1) = 2
2
1
22
1
2
)1(
)var(
x
n
i
i
n
i
ii sn
cyc
−
== 
==
σ
σ . 
Es decir, b1 es un estimador insesgado de β1 que será tanto más preciso cuanto menor 
sea la varianza de la variable respuesta alrededor de la recta de regresión y mayores 
sean el tamaño muestral y la dispersión de la variable explicativa. Además, si el tamaño 
muestral n es suficientemente grande, puede aplicarse una generalización del teorema 
central del límite (ver su versión más simple en el Apartado 4.3.3) para demostrar que 
b1 se distribuye de forma aproximadamente normal con la media y varianza descritas 
anteriormente, 
)1  ,0(~
1
11 N
ns
b
x
→
−
−
σ
β
. 
Para hacer uso de este resultado, el parámetro desconocido σ ha de sustituirse por la 
desviación típica residual s, que conlleva un error adicional de muestreo. La 
distribución resultante de b1 será entonces más dispersa que la normal, siguiendo 
aproximadamente una distribución t de Student con los n - 2 grados de libertad 
correspondientes a la estimación de la varianza residual, 
y, como las observaciones yi son independientes (véase Apartado 3.4), su varianza es
 27
donde los coeficientes ci = (xi - x )/{(n - 1) 2xs } dependen únicamente de los valores de 
la variable explicativa que se asumen constantes. Bajo las asunciones de linealidad y 
homogen idad de la varianza, el valor esperado de b1 es 
E(b1) = 
===
+=
n
i
ii
n
i
i
n
i
ii xccyEc
1
1
1
0
1
)( ββ  = β1 
y, como las observaciones yi son independientes (véase Apartado 3.4), su varianza es 
var(b1) = 2
2
1
22
1
2
)1(
)var(
x
n
i
i
n
i
ii sn
cyc
−
== 
==
σ
σ . 
Es decir, b1 es un estimador insesgado de β1 que será tanto más preciso cuanto menor 
sea la varianza de la variable respuesta alrededor de la recta de regresión y mayores 
s n el tamaño muestr l y la dispersión de la variable explicativa. Además, si el tamaño 
muestral n es suficientemente grande, pu de aplicarse una gener lización del t ore a 
central del límite (v r su versión más simpl  en el Apartado 4.3.3) p ra demostrar que 
b1 se distribuye de forma aproximadamente normal con la media y v rianza descritas 
anteriormente, 
)1  ,0(~
1
11 N
ns
b
x
→
−
−
σ
β
. 
Para hacer uso de este resultado, el parámetro desconocido σ ha de sustituirse por la 
desviación típica residual s, que conlleva un error adicional de muestreo. La 
istribución resultante de b1 será entonces más dispersa que la normal, siguiendo 
aproximadam nte una istribución t de Student con los n - 2 grados de libertad 
correspondientes a la estimación de la varianza residual, 
Es decir, b1 es un estimador insesgado de β1 que será tanto más preciso cuanto menor sea la 
varianz  de la var able respu sta lr dedor de la recta de regresión y mayores sean el tamaño 
muestral y la dispersión de la variable explicativa. Además, si el tamaño muestral n es 
suficientemente grande, pued  aplicarse una genera ización del teorema central del límite (ver 
su versión más simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma 
aproxi adamente normal con la media y varianza descritas ante iormente,
 27
d de los coeficientes ci = (xi - x )/{(n - 1) 2xs } dependen únicamente de los valores de 
la variable explicativa que se asumen constantes. Bajo las asunciones de linealidad y 
homogeneidad de la varianza, el v lor esperado e b1 s 
E(b1) = 
===
+=
n
i
ii
n
i
i
n
i
ii xccyEc
1
1
1
0
1
)( ββ  = β1 
y, como las observaciones yi son independientes (véase Apartado 3.4), su varianza es 
var(b1) = 2
2
1
22
1
2
)1(
)var(
x
n
i
i
n
i
ii sn
cyc
−
== 
==
σ
σ . 
Es decir, b1 es un estimador insesgado de β1 que será tanto más preciso cuanto menor 
sea la varianza de la variable respuesta alrededor de la recta de regresión y mayores 
sean el tamaño muestral y la dispersión de la variable explicativa. Además, si el tamaño 
muestral n es suficientemente grande, puede aplicarse una generalización del teorema 
central del límit  (ver su ver ión más simple en el Ap r ado 4.3.3) para demostrar que 
b1 se distribuye de forma aproximadamente normal con la media y varianza descritas 
anteriormente, 
)1  ,0(~
1
11 N
ns
b
x
→
−
−
σ
β
. 
Para hacer uso de este resultado, el parámetro desconocido σ ha de sustituirse por la 
desviación típica residual s, que conlleva un error adicional de muestreo. La 
distribución resultante de b1 será entonces más dispersa que la normal, siguiendo 
aproximadamente una distribución t de Student con los n - 2 grados de libertad 
correspondientes a la estimación de la varianza residual, 
Para hacer uso de este resultado, el par metro desconocido σ ha de sustituirs  p r la desviación 
típica residual s, que conlleva un error adicional e muestreo. La distribución resultante de b1 
será entonces más ispersa que la normal, siguiendo aproxi adamente una distribución t de 
Student con los n – 2 gra os de liberta  correspondientes a la estimación de la varianza residual,
 28
2
11 ~
1
−
→
−
−
n
x
t
ns
s
b β
. 
Cabe destacar que este resultado se ha derivado con independencia de la asunción de 
no malidad y, en consecuencia, es válido pa a cualquier istribución subyacente de la 
variable respuesta, siempre que el tamaño uestral sea suficientement  grande. 
A partir de la distribución muestral d  b1, el intervalo de confianz  al 100(1 - α)% 
pa a la pendiente s byacente β1 de la recta  regresión viene d  por 
12/1,21 −
±
−− ns
stb
x
n α . 
De igual forma, el contraste bilateral de la hipótesis de ausencia de asociación lineal 
entre las variables explicativa y respuesta H0: β1 = 0 se realiza mediante el estadístico 
t = 
1
1
−ns
s
b
x
, 
que se distribuye aproximadamente como una t de Student con n - 2 grados de libertad 
si la hipótesis nula es cierta. Este test es equivalente al contraste de regresión lineal 
simple presentado en el apartado anterior. De hecho, el estadístico F del contraste de 
regresión es igual al cuadrado del estadístico t de este contraste, 
F = 2
22
1
2
)1(SSR
s
snb
s
x−
=  = t2, 
de tal forma que ambos procedimientos facilitan siempre los mismos valores P (la 
distribución F de Fisher con 1 grado de libertad en el numerador y n - 2 grados de 
libertad en el denominador es, por definición, el cuadrado de la distribución t de Student 
con n - 2 grados de libertad). 
Cabe destacar que este resultado se ha derivado con independencia de la asunción de normalidad 
y, en cons cuencia, es válido p ra cualqui  distribució  subyacente  variable respuesta, 
siempre que el tamaño muestral sea suficientemente grande.
174
Correlación y regresión lineal simple 
Pastor-Barriuso R.
A partir de la distribución muestral de b1, el intervalo de confianza al 100(1 – α)% para la 
pendiente subyacente β1 de la recta de regresión viene dado por
 28
2
11 ~
1
−
→
−
−
n
x
t
ns
s
b β
. 
Cabe destacar que este resultado se ha derivado con independencia de la asunción de 
normalidad y, en consecuencia, es válido para cualquier distribución subyacente de la 
variable respuesta, siempre que el tamaño muestral sea suficientemente grande. 
A partir de la distribución muestral de b1, el intervalo de confianza al 100(1 - α)% 
para la pendiente subyacente β1 de la recta de regresión viene dado por 
12/1,21 −
±
−− ns
stb
x
n α . 
De igual forma, el contraste bilateral de la hipótesis de ausencia de asociación lineal 
entre las variables explicativa y respuesta H0: β1 = 0 se realiza mediante el estadístico 
t = 
1
1
−ns
s
b
x
, 
que se distribuye aproximadamente como una t de Student con n - 2 grados de libertad 
si la hipótesis nula es cierta. Este test es equivalente al contraste de regresión lineal 
simple presentado en el apartado anterior. De hecho, el estadístico F del contraste de 
regresión es igual al cuadrado del estadístico t de este contraste, 
F = 2
22
1
2
)1(SSR
s
snb
s
x−
=  = t2, 
de tal forma que ambos procedimientos facilitan siempre los mismos valores P (la 
distribución F de Fisher con 1 grado de libertad en el numerador y n - 2 grados de 
libertad en el denominador es, por definición, el cuadrado de la distribución t de Student 
con n - 2 grados de libertad). 
De igual forma, el contraste bilateral de la hipótesis de ausencia de asociación lineal entre las 
variables explicativa y respuesta H0: β1 = 0 se realiza medi nt  el estadí ti o
 28
2
11 ~
1
−
→
−
−
n
x
t
ns
s
b β
. 
Cabe destacar que este resultado se ha derivado con independencia de la asunción de 
normalidad y, en consecuencia, es válido para cualquier distribución subyacente de la 
variable respuesta, siempre que el tamaño muestral sea suficientemente grande. 
A partir de la distribución muestral de b1, el intervalo de confianza al 100(1 - α)% 
para la pendiente subyacente β1 de la recta de regresión viene dado por 
12/1,21 −
±
−− ns
stb
x
n α . 
De igual forma, el contraste bilateral de la hipótesis de ausencia de asociación lineal 
entre las variables explicativa y respuesta H0: β1 = 0 se realiza mediante el estadístico 
t = 
1
1
−ns
s
b
x
, 
que se distribuye aproximadamente como una t de Student con n - 2 grados de libertad 
si la hipótesis nula es cierta. Este test es equivalente al contraste de regresión lineal 
simple presentado en el apartado anterior. De hecho, el estadístico F del contraste de 
regresión es igual al cuadrado del estadístico t de este contraste, 
F = 2
22
1
2
)1(SSR
s
snb
s
x−
=  = t2, 
de tal forma que ambos procedimientos facilitan siempre los mismos valores P (la 
distribución F de Fisher con 1 grado de libertad en el numerador y n - 2 grados de 
libertad en el denominador es, por definición, el cuadrado de la distribución t de Student 
con n - 2 grados de libertad). 
que se distribuye aproximadamente como una t de Student con n – 2 grados de libertad si la 
hipót sis nula es cierta. Este test es quivalente al contraste de regresión lineal simple presentado 
en el apartado anterior. De hecho, el estadístico F del contraste de regresión es igual al cuadrado 
del estadístico t de est  cont aste,
 28
2
11 ~
1
−
→
−
−
n
x
t
ns
s
b β
. 
Cabe destacar que este resultado se ha derivado con independencia de la asunción de 
normalidad y, en consecuencia, es válido para cualquier distribución subyacente de la 
variable respuesta, siempre que el tamaño muestral sea suficientemente grande. 
A partir de la distribución muestral de b1, el intervalo de confianza al 100(1 - α)% 
p ra la pendiente subyacente β1 de la recta de regres ón vi e dado por 
12/1,21 −
±
−− ns
stb
x
n α . 
De igual forma, el contraste bilateral de la hipótesis de ausencia de asociación lineal 
entre las variables explicativa y respuesta H0: β1 = 0 se realiza mediante el estadístico 
t = 
1
1
−ns
s
b
x
, 
que se distribuye aproximadamente como una t de Student con n - 2 grados de libertad 
si la hipótesis nula es cierta. Este test es equivalente al contraste de regresión lineal 
simple presentado en el apartado anterior. De h cho, el estadístico F del contraste de 
regresión es igual al cuadrado del estadístico t de este contraste, 
F = 2
22
1
2
)1(SSR
s
snb
s
x−
=  = t2, 
de ta  fo ma que ambos procedimientos facilitan siempr  los m smos valores P (la 
distribución F de Fisher con 1 grado de liberta  en el numerador y n - 2 grados de 
libertad en el denominador es, por definición, el cuadrado de la distribución t de Student 
con n - 2 grados de libertad). 
de tal forma que ambos procedimientos facilitan siempre los mismos valores P (la distribución 
F de Fisher con 1 grado d  liberta  en l numerador y n – 2 grados de libertad en el denominador 
es, por definición, el cuadrado de la distribución t de Student con n – 2 grados de libertad).
Para completar la exposición, se presentan el intervalo de confianza y el test de hipótesis 
para la constante de la recta de regresión, aunque estas inferencias suelen tener escasa importancia 
porque la relación en x = 0 carece de sentido en la mayoría de las aplicaciones. El estimador 
mínimo-cuadrático de la constante b0 = 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la m dia de la muestra resultant   igual a la media inicial más l  
constante utilizada; si yi = xi + c, e onces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 – b1
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se d scribe  los pr ncipales estimadore  de la tendencia central de una 
var able. 
1.2.1 Media arit ética 
L  media aritmética, d otada por x , se define como la suma de cada uno de los 
valores muestrales divi ida por el número de bservaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
p incipal limitación es q e está muy influenciada por los v lores extremos y, en este 
ca o, pued  no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol L obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 e  una o nación lineal d  os estimadores 
independientes 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de mi cardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la media de la muestra resultante es igual a la m dia inicial más l  
constante utilizada; si yi = xi + c, tonc s y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2. 
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 y b1 que tie den a distribuirs  de forma normal conforme aumenta el tamaño
muestral, de lo cual se deduce que la istribución muestral de b0 también será aproximadamente 
normal con edia
 29
Para completar la exposición, se presentan el intervalo de confianza y el test de 
hipótesis para la constante de la recta de regresión, aunque estas inferencias suelen tener 
escasa importancia porque la relación en x = 0 carece de sentido en la mayoría de las 
aplicaciones. El estimador mínimo-c adrático de la constante b0 = y  - b1 x  es una 
combi ación lin l dos stim dores i d pendie t s y  y b1 qu  ti den a distribui se 
de forma normal conforme aumenta el tamaño muestral, de lo cual se deduce que la 
distribución muestral de b0 también será proximadame te normal con media 
E(b0) = E( y ) E(b1) x  = β0 + β1 x   β1 x  = β0 
y varianza 
var(b0) = var( y ) + var(b1) 2x  = 



−
+ 2
2
2
)1(
1
xsn
x
n
σ . 
Reemplazando el parámetro σ 2 por su estimación s2, el intervalo de confianza al 100(1 - 
α)% para la constante poblacional β0 es 
2
2
2/1,20 )1(
1
x
n sn
x
n
stb
−
+±
−− α  
y el estadístico del contraste de la hipótesis nula H0: β0 = 0 es 
t = 
2
2
0
)1(
1
xsn
x
n
s
b
−
+
, 
que bajo H0 seguirá aproximadamente una distribución t de Student con n - 2 grados de 
libertad. 
Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los 
parámetros de la regresión del colesterol HDL sobre el índice de masa corporal 
− −
y varianz
 29
Para completar la exposición, se presentan el intervalo de confianza y el test de 
hipótesis para la constante de la recta de regresió , aunque stas inferencias suelen tener 
escasa m ortancia porqu  la relación en x = 0 carece de sentido en la mayoría d  las 
aplic c ones. El estimador mínimo-cuadrático de la constante b0 = y  - b1 x  es una 
c mbinación lin al de s e timadores independi ntes y y b1 que tienden a distribuirse 
de form  nor al conforme au enta l tamaño m estral, de lo c al se deduce que la 
istrib ción uestral de b0 ta bién será aproxi adament  n rm  con m dia 
E(b0) = E( y ) - E(b1) x  = β0 + β1 x  - β1 x  = β0 
y varianza 
var(b0) = var( y ) + var(b1) 2x  = 



−
+ 2
2
2
)1(
1
xsn
x
n
σ . 
Reemplazando el parámetro σ 2 por su estimación s2, el intervalo de confianza al 100(1 - 
α)% para la c nstante poblacional β0 es 
2
2
2/1,20 )1(
1
x
n sn
x
n
stb
−
+±
−− α  
y el estadístico del contraste de la hipótesis nula H0: β0 = 0 es 
t = 
2
2
0
)1(
1
xsn
x
n
s
b
−
+
, 
que bajo H0 seguirá aproximadamente una distribución t de Student con n - 2 grados de 
lib rt d. 
Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los 
parámetros de l  regresión del colesterol HDL sobre el índice de masa corporal 
Reemplazando el parámetro σ 2 por su estimación s2, el intervalo de confianza al 100(1 – α)% 
para la constante poblacional β0 es
 29
Para completar la exposición, se presentan el intervalo de confianza y el test de 
hipótesis para la constante de la recta de regresión, aunque estas inferencias suelen tener 
escasa importancia porque la relación en x = 0 carece de sentido en la mayoría de las 
aplicaciones  El estimador mínimo-cuadrático de la constante b0 = y  - b1 x  es una 
combinación lineal de dos estimadores independientes y  y b1 que tienden a distribuirse 
de forma normal conforme aumenta el tamaño muestral, de lo cual se deduce que la 
distribución muestral de b0 tambié  será proximadament n rm l con media 
E(b0) = E( y ) - E(b1) x  = β0 + β1 x  - β1 x  = β0 
y varia za 
var(b0) = var( y ) + var(b1) 2x  = 



−
+ 2
2
2
)1(
1
xsn
x
n
σ . 
Reemplazan  el parámetro σ 2 por su estimación s2, el intervalo de confianza al 100(1 - 
α)% para la constante p blaci nal β0 es 
2
2
2/1,20 )1(
1
x
n sn
x
n
stb
−
+±
−− α  
y el estadístico del contraste de la hipótesis nula H0: β0 = 0 es 
t = 
2
2
0
)1(
1
xsn
x
n
s
b
−
+
,
que bajo H0 seguirá aproximadamente una distribución t de Student con n - 2 grados de 
libertad. 
Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los 
parámetros de la regresión del colesterol HDL sobre el índice de masa corporal 
y el estadístico del contraste de la hipótesis nula H0: β0 = 0 es
 29
Para completar la exposición, se presentan el intervalo de confianza y el test de 
hipótesis para la constante de la recta de regresión, aunque estas inferencias suelen tener 
escasa importancia porque la relación en x = 0 carece de sentido en la mayoría de las 
aplicaciones. El estimador mínimo-cuadrático de la constante b0 = y  - b1 x  es una 
combinación lin al de s estimadores independientes y  y b1 que tienden a distribuirse 
de form  normal conforme au enta l tamaño muestral, de lo c al s  deduce que la 
distribución u stral de b0 ta bién será aproxi adamente normal con media 
E(b0) = E( y ) - E(b1) x  = β0 + β1 x  - β1 x  = β0 
y varian  
var(b0) = var( y ) + var(b1) 2x  = 



−
+ 2
2
2
)1(
1
xsn
x
n
σ . 
Re mplazando el parámetro σ 2 por su estimación s2, el intervalo de confia za al 100(1 - 
α)% para la c nstante poblacional β0 es 
2
2
2/1,20 )1(
1
x
n sn
x
n
stb
−
+±
−− α  
y el estadístico del contraste de la hipótesis nula H0: β0 = 0 es 
t = 
2
2
0
)1(
1
xsn
x
n
s
b
−
+
, 
que bajo H0 seguirá aproximadament  una dist ibución t de Student con n - 2 grados de 
libertad.
Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los 
parámetros de la regresión del colesterol HDL sobre el índice de masa corporal 
que bajo H0 seguirá aproximadamente una distribución t de Student con n – 2 grados de libertad.
175
Regresión lineal simple
Pastor-Barriuso R.
Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los 
parámetros de la regresión del colesterol HDL sobre el índice de masa corporal fueron 
b0 = 1,69, b1 = – 0,023 y s = 0,283. El error estándar de la estimación de la constante es
 30
fueron b0 = 1,69, b1 = -0,023 y s = 0,283. El error estándar de la estimación de la 
constan e es 
SE(b0) = 2
2
2
2
50,3532
26,0
533
1283,0
)1(
1
⋅
+=
−
+
xsn
x
n
s  = 0,092 
y de la pendiente 
SE(b1) = 
5323,50
283,0
1
=
−ns
s
x
 = 0,0035. 
Los ICs al 95% para la constante y la pendiente de la recta de regresión 
poblacional son entonces 
b0 ± t531;0,975SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87) 
y 
b1 ± t531;0,975SE(b1) = -0,023 ± 1,96⋅0,0035 = (-0,030; -0,016). 
Del intervalo para la pendiente puede concluirse con una confianza del 95% que 
el nivel medio de colesterol HDL en la población de referencia del estudio 
EURAMIC disminuye entre 0,016 y 0,030 mmol/l por cada incremento de 1 
kg/m2 en el índice de masa corporal. En general, el intervalo de confianza para el 
efecto subyacente cβ1 asociado a cualquier incremento c en la variable explicativa 
se obtiene multiplicando los límites del intervalo para β1 por dicho incremento, 
cb1 ± tn-2,1-α/2SE(cb1) = c{b1 ± tn-2,1-α/2SE(b1)}. 
Así, por ejemplo, con un nivel de confianza del 95%, los incrementos de una 
desviación típica c = 3,50 kg/m2 en el índice de masa corporal se asocian con una 
disminución media poblacional en el colesterol HDL de entre 3,50⋅0,016 = 0,057 
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución es estadísticamente 
y de la pendiente
 30
fueron b0 = 1,69, b1 = -0,023 y s = 0,283. El error estándar de la estimación de la 
constante es 
SE(b0) = 2
2
2
2
50,3532
26,0
533
1283,0
)1(
1
⋅
+=
−
+
xsn
x
n
s  = 0,092 
y de la pendiente 
SE(b1) = 
5323,50
283,0
1
=
−ns
s
x
 = 0,0035. 
Los ICs al 95% para la constante y la pendiente de la recta de regresión 
poblacional son entonces 
b0 ± t531;0,975SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87) 
y 
b1 ± t531;0,975SE(b1) = -0,023 ± 1,96⋅0,0035 = (-0,030; -0,016). 
Del intervalo para la pendiente puede concluirse con una confianza del 95% que 
el nivel medio de colesterol HDL en la población de referencia del estudio 
EURAMIC disminuye entre 0,016 y 0,030 mmol/l por cada incremento de 1 
kg/m2 en el índice de masa corporal. En general, el intervalo de confianza para el 
efecto subyacente cβ1 asociado a cualquier incremento c en la variable explicativa 
se obtiene multiplicando los límites del intervalo para β1 por dicho incremento, 
b1 ± tn-2,1-α/2SE(cb1) = c{b1 ± tn-2,1-α/2SE(b1)}. 
Así, por ejemplo, on un nivel de confianza del 95%, los incrementos de una 
desviación típica c = 3,50 kg/m2 en el índice de masa corporal se asocian con una 
disminución media poblacional en el colesterol HDL de entre 3,50⋅0,016 = 0,057 
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución es estadísticamente 
Los ICs al 95% para la constante y la pendiente de la recta de regresión poblacional son 
entonces
 30
fueron b0 = 1,69, b1 = -0,023 y s = 0,283. El error estándar de la estimación de la 
constante es 
SE(b0) = 2
2
2
2
50,3532
26,0
533
1283,0
)1(
1
⋅
+=
−
+
xsn
x
n
s  = 0,092 
y de la pendiente 
SE(b1) = 
5323,50
283,0
1
=
−ns
s
x
 = 0,0035. 
Los ICs al 95% para la constante y la pendiente de la recta de regresión 
p blacional son entonces 
b0 ± t531;0,975 SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87) 
y 
b1 ± t531;0,975SE(b1) = -0,023 ± 1,96⋅0,0035 = (-0,030; -0,016). 
Del intervalo para la pendiente puede concluirse con una confianza del 95% que 
el nivel medio de colesterol HDL en la población de referencia del estudio 
EURAMIC disminuye entre 0,016 y 0,030 mmol/l por cada incremento de 1 
kg/m2 en el índice de masa corporal. En general, el intervalo de confianza para el 
efecto subyacente cβ1 asociado a cualquier incremento c en la variable explicativa 
se obtiene multiplicando los límites del intervalo para β1 por dicho incremento, 
cb1 ± tn-2,1-α/2SE(cb1) = c{b1 ± tn-2,1-α/2SE(b1)}. 
Así, por ejemplo, con un nivel de confianza del 95%, los incrementos de una 
desviación típica c = 3,50 kg/m2 en el índice de masa corporal se asocian con una 
disminución media poblacional en el colesterol HDL de entre 3,50⋅0,016 = 0,057 
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución es estadísticamente 
y
 30
fueron b0 = 1,69, b1 = -0,023 y s = 0,283. El error estándar de la estimación de la 
constante es 
SE(b0) = 2
2
2
2
50,3532
26,0
533
1283,0
)1(
1
⋅
+=
−
+
xsn
x
n
s  = 0,092 
y de la pendiente 
SE(b1) = 
5323,50
283,0
1
=
−ns
s
x
 = 0,0035. 
Los ICs al 95% para la constante y la pendiente de la recta de regresión 
p blacional son entonces 
b0 ± t531;0,975SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87) 
y 
b1 ± t531;0,975 SE(b1) =  0,023 ± 1,96⋅0,0035 =  ( 0,030; 0,016). 
Del intervalo para la pendiente puede concluirse con una confianza del 95% que 
el nivel medio de colesterol HDL en la población de referencia del estudio 
EURAMIC disminuye entre 0,016 y 0,030 mmol/l por cada incremento de 1 
kg/m2 en el índice de masa corporal. En general, el intervalo de confianza para el 
efecto subyacente cβ1 asociado a cualquier incremento c en la variable explicativa 
se obtiene multipli ando los límites del intervalo para β1 por dicho incr mento, 
cb1 ± tn-2,1-α/2SE(cb1) = c{b1 ± tn-2,1-α/2SE(b1)}. 
Así, por ejemplo, con un nivel de confianza del 95%, los incrementos d  una 
desviación típica c = 3,50 kg/m2 en el índice de masa c rporal se as cian con una 
ism nución media poblacional en el colest rol HDL de ent e 3,50⋅0,016 = 0,057 
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución es estadísticamente 
− −−
Del intervalo para la pendiente puede concluirse con una confianza del 95% que el nivel 
medio de colesterol HDL en la población de referencia del estudio EURAMIC disminuye 
entre 0,016 y 0,030 mmol/l por cada incremento de 1 kg/m2 en el índice de masa corporal. 
En gen ral, el intervalo de confianza para el ef ct  s byace te cβ1 asociado a cualquier 
incremento c en la variable explicativa se obtiene multiplicando los límites del intervalo 
para β1 por dicho incremento,
 30
fueron b0 = 1,69, b1 = -0,023 y s = 0,283. El error estándar de la estimación de la 
constante es 
SE(b0) = 2
2
2
2
50,3532
26,0
533
1283,0
)1(
1
⋅
+=
−
+
xsn
x
n
s  = 0,092 
y de la pendiente 
SE(b1) = 
5323,50
283,0
1
=
−ns
s
x
 = 0,0 35. 
Los ICs al 95% para la constante y la pendiente de la recta de regresión 
poblacional son entonces 
b0 ± t531;0,975SE(b0) = 1,69 ± 1,96⋅0,092 = (1,51; 1,87) 
y 
b1 ± t531;0,975SE(b1) = -0,023 ± 1,96⋅0,0035 = (-0,030; -0,016). 
Del intervalo para l  pendiente puede co cluirse con una confianza del 95% que 
el nivel medi  d  colesterol HDL en la población de referencia del estudio 
EURAMIC disminuye entre 0,016 y 0,030 mmol/l por cada incremento de 1 
kg/m2 n el índice de masa corporal. En gene al, el intervalo de confianza para l 
fecto subyacente cβ1 asociado a cualquier i cremento c en la variabl explicativa 
se obti e multiplicando os lím tes del intervalo para β1 por dich  incremento, 
cb1 ± tn 2,1 α/2SE(cb1) = c{b1 ± tn 2,1 α/2SE(b1)}. 
Así, por ejemplo, con un nivel de confianza del 95%, los incrementos de una 
d sviación típica c = 3,50 kg/m2 en el índice de asa cor ral se asocian con una 
disminución media poblacional en el colesterol HDL de ent e 3,50⋅0,016 = 0,057 
y 3,50⋅0,030 = 0,105 mmol/l. Por supuesto, esta disminución es estadísticamente 
− − − −
Así, por ejem lo, con u  nivel de confia za del 95%, los incrementos de una d sviación 
típica c = 3,50 kg/m2 en el índice de masa corporal se asocian con una disminución media 
poblacional en el colesterol HDL d  entre 3,50⋅0,016 = 0,057 y 3,50∙0,030 = 0,105 mmol/l. 
Por supuesto, esta disminución es estadísticamente significativa ya que el contraste de la 
hipótesis nula H0: β1 = 0 m diante el estadístico
 31
signifi ativa ya que el contraste de la hipótesis nula H0: β1 = 0 medi nte el 
estadístico 
t = 
0035,0
023,0
)( 1
1 −
=
bSE
b
=  6,63 
resulta en un valor P bilateral 2P(t531 ≤ -6,63) ≈ 2Φ(-6,63) < 0,001. Notar que este 
test arroja el ismo valor P que el contraste de regresión del ejemplo anterior ya 
que 2P(t531 ≤ -6,63) = P( 2531t  ≥ 6,63
2) = P(F1,531 ≥ 43,93). 
10.3.4 Bandas de confianza y predicción para la rect  de regresión
Además de realizar inferencias s bre los paráme ros β0 y β1, es a menudo interesante 
calcular intervalos de confianza para la propia recta de regresión β0 + β1x. Más 
concretamente, dado un determinado valor x0 de la variable explicativa, se pretende 
obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable 
respuesta. El estimador puntual de este valor esperado es 0yˆ  = b0 + b1x0 = y  + b1(x0 - 
x ) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una 
distribución aproximadamente normal en muestras suficientemente grandes, con media 
E( 0yˆ ) = E( y ) + E(b1)(x0 - x ) = β0 + β1 x  + β1(x0 - x ) = β0 + β1x0 
y varianza 
var( 0yˆ ) = var( y ) + var(b1)(x0 - x )
2 = 



−
−
+ 2
2
02
)1(
)(1
xsn
xx
n
σ . 
Por tanto, utilizando la distribución tn-2 resultante de sustituir σ 2 por la estimación s2, se 
tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es 
−
resulta en un valor P bilateral 2P(t531 ≤ – 6,63) ≈ 2F(– 6,63) < 0,001. Notar que este test 
arroja el mismo valor P que el contraste de regresión del ejemplo anterior ya que 2P(t531 
≤ – 6,63) = P(t25  31 ≥ 6,632) = P(F1,531 ≥ 43,93).
10.3.4 Bandas de c nfianza y pre ic ión par  la recta de regresión
Además de realizar nferencias sobre los parámetros β0 y β1, es a menudo interesante calcular 
intervalos de confianza para la propia recta de regresión β0 + β1x. Más concretamente, dado un 
determinado valor x0 e la variable explicativa, s  pretende obtener un intervalo de confianza 
para el valor esperado β0 + β1x0 de la variable respuesta. El estimador puntual de este valor 
esperado es ŷ0 = b0 + b1x0 = 
 
 6
antioxidantes en el riesgo de desarroll r u  prim r infarto agudo de miocardi  en 
hombres adultos. Los valores obtenid s fu r n 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niv l s del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta l siguientes propieda s: 
• Cambio de origen (trasl i ). Si se suma una constante a cada uno de los datos 
de una muestra, la media de la uestr  resultante es igual  la media inicial más la 
constante utilizad ; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 + b1(x0 – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media ari métic  
La media aritmética, denotada por x , e d fine c o la s ma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La me ia es la medida de tendencia central más utilizada y de más fácil 
interpr tación. Corresponde al “ entro de grav dad” de los datos de la muestra. Su 
pri cipal limitación es que está uy influe ci da por los v lores extremos y, en este 
caso, puede no ser un fiel ref ej  de la tenden ia ce tral de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
) que, iguiend un razonamien o nálog  al del 
apartado anterior, presenta una distribución aproximadamente normal en muestras 
suficientemente grandes, con me ia
 31
significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el 
estadístico 
t = 
0035,0
023,0
)( 1
1 −
=
bSE
b
 = -6,63 
resulta en un valor P bilateral 2P(t531 ≤ - ,63) ≈ 2Φ(-6,63) < 0,001. Notar e este 
test arroja el mismo valor P qu  el contraste de r gresió  del ejemplo anterior ya 
que 2P(t531 ≤ -6,63) = P( 2531t  ≥ 6,63
2) = P(F1,531 ≥ 43,93). 
10.3.4 Bandas de confianza y predic ión para la recta de regresión 
Además de realizar inferencias sobre los parámetros β0 y β1, es a menudo interesante 
calcular intervalos de confi nz  para la propia cta de regresión β0 + β1x. Más 
concretament , dado un determinado valor x0 de la va iable explicativa, se pretende 
obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable 
respuesta. El estimador puntual de este valor esperado es 0yˆ  = b0 + b1x0 = y  + b1(x0 - 
x ) que, siguiendo un razonamiento análogo al del ap rtado anterior, presenta una 
distribución aproximadamente normal en muestr s suf cientemente grandes, co media 
E( 0yˆ ) = E( y ) + E(b1)(x0 x ) = β0 + β1 x  + β1(x0 x ) = β0 + β1x0 
y varianza 
var( 0yˆ ) = var( y ) + var(b1)(x0 - x )
2 = 



−
−
+ 2
2
02
)1(
)(1
xsn
xx
n
σ . 
Por tanto, utilizando la distribución t -2 resultante de sustituir σ 2 por la estimación s2, se 
tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es 
− −
176
Correlación y regresión lineal simple 
Pastor-Barriuso R.
y varianza
 31
significativa ya que el contraste de la hipótesis nula H0: β1 = 0 mediante el 
estadístico 
t = 
0035,0
023,0
)( 1
1 −
=
bSE
b
 = -6,63 
resulta en un valor P bilateral 2P(t531 ≤ -6,63) ≈ 2Φ(-6,63) < 0,001. Notar que este 
test arroja el mismo valor P que el contraste de regresión del ejemplo anterior ya 
que 2P(t531 ≤ -6,63) = P( 2531t  ≥ 6,63
2) = P(F1,531 ≥ 43,93). 
10.3.4 Bandas de confianza y predicción para la recta de regresión 
Además de realizar inferencias sobre los parámetros β0 y β1, es a menudo interesante 
calcular intervalos de confianza para la propia recta de regresión β0 + β1x. Más 
concretamente, dado un determinado valor x0 de la variable explicativa, se pretende 
obtener un intervalo de confianza para el valor esperado β0 + β1x0 de la variable 
respuesta. El estimador puntual de este valor esperado es 0yˆ  = b0 + b1x0 = y  + b1(x0 - 
x ) que, siguiendo un razonamiento análogo al del apartado anterior, presenta una 
distribución aproximadamente normal en muestras suficientemente grandes, con media 
E( 0yˆ ) = E( y ) + E(b1)(x0 - x ) = β0 + β1 x  + β1(x0 - x ) = β0 + β1x0 
y varianza 
var( 0yˆ ) = var( y ) + var(b1)(x0  x )
2 = 



−
−
+ 2
2
02
)1(
)(1
xsn
xx
n
σ . 
Por tanto, utilizando la distribución tn-2 resultante de sustituir σ 2 por la estimación s2, se 
tiene que el intervalo de confianza al 100(1 - α)% para el valor esperado β0 + β1x0 es 
−
Por tanto, utilizando la distribución tn–2 resultante de sustituir σ 2 por la estimación s2, se tiene 
que el intervalo de confianza al 100(1 – α)% par  el valor esperado β0 + β1x0 es
 32
2
2
0
2/1,2010 )1(
)(1
x
n sn
xx
n
stxbb
−
−
+±+
−− α . 
La banda de confianza para la recta de regresión no es más que la representación 
gráfica de estos intervalos a lo largo de todo el rango observado de la variable 
explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su 
amplitud es mínima en x0 = x , aumentando a medida que x0 se aleja de su media 
muestral x , lo que confirma la intuición de que el valor esperado de la variable 
respuesta puede estimarse con mayor precisión en valores centrados que en valores 
extremos de la variable explicativa. 
Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de 
regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de 
2
2
0
0 50,3532
)0,26(
533
1283,096,1023,069,1
⋅
−
+⋅±−
x
x . 
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% 
para toda la recta de regresión del colesterol HDL sobre el índice de masa 
corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro 
del rango observado del índice de masa corporal. Los límites de esta banda de 
confianza tienen forma de hipérbola y su amplitud aumenta gradualmente 
conforme x0 se aleja de la media x  = 26,0 kg/m2 del índice de masa corporal. Así, 
por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos 
con un índice de masa corporal de 25 kg/m2, 
1,69 - 0,023⋅25  ± 1,96⋅0,013 = (1,09; 1,14), 
es sensiblemente más preciso que entre aquellos con un índice de masa corporal 
de 32 kg/m2, 
La banda de confianza para la recta de regresión no es más que la representación gráfica de 
estos interv los a lo largo de todo el rango observado de la variabl  explicativa. Esta banda de 
confianza está delimitada por las ramas de una hipérbola y su amplitud es mínima en x0 = 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmé ica 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
,
aumentando a med da que x0 se a eja de su media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media ritmética 
La media aritmética, d notada por x , se define como a suma de cada uno de los 
valores muestrales iv did  por el número de observaciones realizadas. Si denotamos 
por n el t maño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la medi vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
, lo que confi ma la intuición de 
que el valor esperado de la variable respuesta puede estim rse con mayor precisión en valores 
centrados que en v lores extremos d  la variable explicativa.
Ejemplo 10.10 Para cada valor fijo x0 del índice de masa c rporal, el modelo de regresión 
lineal estima un IC al 95% para el valor esperado del colesterol HDL de
 32
2
2
0
2/1,2010 )1(
)(1
x
n sn
xx
n
stxbb
−
−
+±+
−− α . 
La banda de confianza para la recta de regresión no es más que la representación 
gráfica de estos intervalos a lo largo de todo el rango observado de la variable 
explicativa. Est  band  e confianza está delimitada por las ramas de una hipérbola y su 
amplitud es mínima en x0 = x , aumentando a medida que x0 se aleja de su media 
muestral x , lo que confirma la intuición de que el valor esperado de la variable 
respuesta puede estimarse con mayor precisión en valores centrados que en valores 
extremos de la variable explicativa. 
Ejemplo 10.10 Par  cada valor fijo x0 del ín ice de masa corporal, el modelo de 
regresión lineal estima un IC al 95% para e val  esp rad  del colesterol HDL de 
2
2
0
0 50,3532
)0,26(
533
1283,096,1023,069,1
⋅
−
+⋅±−
x
x . 
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% 
para toda la recta de regresión del colesterol HDL sobre el índice de masa 
corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro 
del rango observado del índice de masa corporal. Los límites de esta banda de 
confianza tienen forma de hipérbola y su amplitud aumenta gradualmente 
conforme x0 se aleja de la media x  = 26,0 kg/m2 del índice de masa corporal. Así, 
por ejemplo, el IC al 95% para el valor medio del colesterol HDL entre los sujetos 
con un índice de masa corporal de 25 kg/m2, 
1,69 - 0,023⋅25  ± 1,96⋅0,013 = (1,09; 1,14), 
es sensiblemente más preciso que entre aq ellos con un índice de masa corporal 
de 32 kg/ 2, 
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% para toda 
la rect  de regre ión del colesterol HDL sobre el índice de masa corpor l, que se obtiene 
de calcular estos intervalos en sucesivos valores dentro del rango observado del índice de 
masa corporal. Los límites de esta banda de confianza tie en forma de hipérbola y su 
amplitud aumenta gradualmente conforme x0 se aleja de la media 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tend cia central i forman acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 26,0 kg/m2 del 
índice de masa c rporal. Así, por ejemplo, el IC al 95% ara el valor m dio del colesterol 
HDL entre los sujetos con un índice de masa corporal de 25 kg/m2,
 32
2
2
0
2/1,2010 )1(
)(1
x
n sn
xx
n
stxbb
−
−
+±+
−− α . 
La banda de confianza para la recta de regresión no es más que la representación 
gráfica de estos intervalos a lo largo de todo el rango observado de la variable 
explicativa. Esta banda de confianza está delimitada por las ramas de una hipérbola y su 
amplitud es mínima en x0 = x , aumentando a medida que x0 se aleja de su media 
muestral x , lo que confirma la intuición de que el valor esperado de la variable 
respuesta puede estimarse con mayor precisión e  valores centrados que en valores 
extremos de la variable explicativa. 
Ejemplo 10.10 Para cada valor fijo x0 del índice de masa corporal, el modelo de 
regresión lineal estima un IC al 95% para el valor esperado del colesterol HDL de 
2
2
0
0 50,3532
)0,26(
533
1283,096,1023,069,1
⋅
−
+⋅±−
x
x . 
El área en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% 
para toda la recta de regresión del colesterol HDL sobre el índice de masa 
corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro 
del rango observado del índice de masa corporal. Los límites de esta banda de 
confianza tienen forma de hipérbola y su amplitud aumenta gradualmente 
conforme x0 se aleja  la media x  = 26,0 kg/m2 del índice masa c rporal. Así, 
o  eje p , l IC al 95% para l valor medio del c lesterol HDL entre los sujet s 
n un índic de masa corporal d  25 kg/m2,
1,69  0,023⋅25  ± 1,96⋅0,013 = (1,09; 1,14), 
es sensiblemente más preciso que entr  aquellos con un índice de masa corporal 
de 32 kg/m2, 
−
es sensibleme te más preciso que entre aquellos con un índice de masa corporal de 32 kg/m2,
 33
1,69  0,023⋅32  ± 1,96⋅0,024 = (0,90; 1,00). 
[Figura 10.9 aproximadamente aquí] 
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la 
variable respuesta entre los sujetos con un determinado valor x0 de la variable 
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto 
dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente 
de la variable respuesta para un determinado sujeto c n x = x0 vi ne dad  por y0 = β0 + 
β1x0 + ε0, cuyo estimador insesgado es de nuevo 0yˆ  = b0 + b1x0 ya que 
E(y0 - 0yˆ ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0. 
Asimismo, como el valor estimado 0yˆ  por la recta de regresión en x0 es independiente 
de la nueva observación y0, se sigue que 
var(y0 - 0yˆ ) = var(ε0) + var( 0yˆ ) = 



−
−
++ 2
2
02
)1(
)(11
xsn
xx
n
σ ; 
es decir, la predicción de una nueva observación a partir de la recta de regresión 
estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta 
individual respecto a la recta de regresión subyacente y el error en la estimación de 
dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción 
de normalidad), la diferencia y0 - 0yˆ  también seguirá una distribución normal, de tal 
forma que el intervalo de predicción al 100(1 - α)% para una nueva observación 
individual y0 es 
2
2
0
2/1,2010 )1(
)(11
x
n sn
xx
n
stxbb
−
−
++±+
−− α . 
−
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la 
variable respuesta entre los sujetos con un determina o valor x0 de la variable explicativa, sino 
también para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Según la 
estructura del modelo de regresión l neal, el valor subyacente de la variable respuesta para un 
determinado sujeto con x = x0 viene dado por y0 = β0 + β1x0 + ε0, cuyo estimador insesgado  
de nuevo ŷ0 = b0 + b1x0 ya que
 33
1,69 - 0,023⋅32  ± 1,96⋅0,024 = (0,90; 1,00). 
[Figura 10.9 aproxima amente aquí] 
La recta de regresión puede utilizarse no sólo para est mar l media poblacional de la 
variable respuesta entre los sujetos con un determinado valor x0 de la vari ble 
explicativa, sino también para pred cir la respuesta in ividual y0 de un nuevo sujeto 
da o su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente 
de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + 
β1x0 + ε0, cuyo estimador insesgado es de nu vo 0yˆ  = b0 + b1x0 ya qu  
E(y0  0yˆ ) = β0 + β1x0 + E(ε0)  β0  β1x0 = E(ε0) = 0. 
Asimismo, como el valor estimado 0yˆ  por la recta de regresión en x0 es independiente 
de la nueva observación y0, se sigue que 
var(y0 - 0yˆ ) = var(ε0) + var( 0yˆ ) = 



−
−
++ 2
2
02
)1(
)(11
xsn
xx
n
σ ; 
es decir, la predicción de una nueva observación a partir de la recta de regresión 
esti ada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta 
individual respecto a la recta de regresión subyacente y el error en la estimación de 
dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción 
de normalidad), la diferencia y0 - 0yˆ  también seguirá u a distribución normal, de tal 
forma que el intervalo de predicción al 100(1 - α)% para una nueva observación 
individual y0 es 
2
2
0
2/1,2010 )1(
)(11
x
n sn
xx
n
stxbb
−
−
++±+
−− α . 
− − −
Asimismo, como el valor estimado ŷ0 por la recta de regresión en x0 es independiente de la 
nueva observación y0, se sigue que
 33
1,69 - 0,023⋅32  ± 1,96⋅0,024 = (0,90; 1,00). 
[Figura 10.9 proximadamente aquí] 
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la 
variable respuesta entre los sujetos con un determinado valor x0 de la variable 
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto 
dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente 
de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + 
β1x0 + ε0, cuyo estimador insesgado e  de nuev  0yˆ  = b0 + b1x0 y  que 
E(y0 - 0yˆ ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0. 
Asimismo, como el valor estimado 0yˆ  por la recta de regresión en x0 s independiente 
de la nueva obser ación y0, se sigue que 
var(y0  0yˆ ) = var(ε 0) + var( 0yˆ ) = 



−
−
++ 2
2
02
)1(
)(11
xsn
xx
n
σ ; 
es decir, la predicción de una nueva observación a partir de la recta de regresión 
estimada está sujeta a dos fuentes de error: la varianza inherente e cada respuesta 
individual respecto a la recta de regresión subyac nte y el error en la estimación de 
dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción 
de normalidad), la diferencia y0 - 0yˆ  también seguirá una distribución normal, de tal 
forma que el intervalo de predicción al 100(1 - α)% para una nueva observación 
individual y0 es 
2
2
0
2/1,2010 )1(
)(11
x
n sn
xx
n
stxbb
−
−
++±+
−− α . 
−
177
Regresión lineal simple
Pastor-Barriuso R.
 Figura 10.9
20 24 28 32 36
0,25
0,5
1
1,5
2
2,25
Indice de masa corporal (kg/m²)
C
ol
es
te
ro
l H
D
L 
(m
m
ol
/l)
Figura 10.9 Bandas de confianza (área en gris oscuro) y predicción (área en gris claro) al 95% para la recta 
de regresión del colesterol HDL sobre el índice de masa corporal en el grupo control del estudio EURAMIC.
es decir, la predicción de una nueva observación a partir de la recta de regresión estimada está 
sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la 
recta de regresión subyacente y el error en la estimación de dicha recta. Además, si el término 
de error ε0 se distribuye de forma normal (asunción de normalidad), la diferencia y0 – ŷ0 también 
seguirá una distribución normal, de tal forma que el intervalo de predicción al 100(1 – α)% para 
una nueva observación individual y0 es
 33
1,69 - 0,023⋅32  ± 1,96⋅0,024 = (0,90; 1,00). 
[Figura 10.9 aproximadamente aquí] 
La recta de regresión puede utilizarse no sólo para estimar la media poblacional de la 
variable respuesta entre los sujetos con un determinado valor x0 de la variable 
explicativa, sino también para predecir la respuesta individual y0 de un nuevo sujeto 
dado su valor x0. Según la estructura del modelo de regresión lineal, el valor subyacente 
de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = β0 + 
β1x0 + ε0, cuyo estimador insesgado es de nuevo 0yˆ  = b0 + b1x0 ya que 
E(y0 - 0yˆ ) = β0 + β1x0 + E(ε0) - β0 - β1x0 = E(ε0) = 0. 
Asimismo, como el valor estimado 0yˆ  por la recta de regresión en x0 es independiente 
de la nueva observación y0, se sigue que 
var(y0 - 0yˆ ) = var(ε0) + var( 0yˆ ) = 



−
−
++ 2
2
02
)1(
)(11
xsn
xx
n
σ ; 
es decir, la predicción de una nueva observación a partir de la recta de regresión 
estimada está sujeta a dos fuentes de error: la varianza inherente de cada respuesta 
individual respecto a la recta de regresión subyacente y el error en la estimación de 
dicha recta. Además, si el término de error ε0 se distribuye de forma normal (asunción 
 normalidad), la diferencia y0 - 0yˆ  tambié  seguirá una distribución normal, de tal 
forma que el intervalo de predicción al 100(1 - α)% para una nueva observación 
individual y0 es 
2
2
0
2/1,2010 )1(
)(11
x
n sn
xx
n
stxbb
−
−
++±+
−− α . 
La banda de predicción viene entonces determinada por estos intervalos de predicción en los 
distintos valores observados x0 de la variable explicativa. En general, la banda de predicción 
será substancialmente más amplia que la banda de confianza, particularmente cuando el tamaño 
muestral es grande, lo que refleja el hecho de que existe mucha más incertidumbre en la 
predicción de la respuesta individual de un único sujeto que en la estimación del valor medio de 
la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa.
Cabe destacar, por último, que los intervalos de confianza para el valor esperado de la 
variable respuesta se basan únicamente en las asunciones de linealidad y homogeneidad de la 
varianza, mientras que los intervalos de predicción para una nueva observación requieren 
además de la hipótesis de normalidad, siendo estos últimos incorrectos si la distribución 
subyacente de la variable respuesta no es normal.
Ejemplo 10.11  A partir del modelo de regresión lineal del colesterol HDL sobre el 
índice de masa corporal se tiene que el intervalo de predicción al 95% para el nivel de 
colesterol HDL de un sujeto con un índice de masa corporal x0 es
178
Correlación y regresión lineal simple 
Pastor-Barriuso R.
 34
La banda de predicción viene entonces determinada por estos intervalos de predicción 
en los distintos valores observados x0 de la variable explicativa. En general, la banda de 
predicción será substancialmente más amplia que la banda de confianza, 
particularmente cuando el tamaño muestral es grande, lo que refleja el hecho de que 
existe mucha más incertidumbre en la predicción de la respuesta individual de un único 
sujeto que en la estimación del valor medio de la variable respuesta para todos los 
sujetos con un mismo valor de la variable explicativa. 
Cabe destacar, por último, que los intervalos de confianza para el valor esperado de 
la variable respuesta se basan únicamente en las asunciones de linealidad y 
homogeneidad de la varianza, mientras que los intervalos de predicción para una nueva 
observación requieren además de la hipótesis de normalidad, siendo estos últimos 
incorrectos si la distribución subyacente de la variable respuesta no es normal. 
Ejemplo 10.11 A partir del modelo de regresión lineal del colesterol HDL sobre el 
índice de masa corporal se tiene que el intervalo de predicción al 95% para el 
nivel de colesterol HDL de un sujeto con un índice de masa corporal x0 es 
2
2
0
0 50,3532
)0,26(
533
11283,096,1023,069,1
⋅
−
++⋅±−
x
x . 
El cálculo de estos intervalos en distintos valores x0 del índice de masa corporal 
da lugar a la banda de predicción en gris claro de la Figura 10.9. Al igual que la 
banda de confianza, la banda de predicción está centrada alrededor de la recta de 
regresión estimada, pero su amplitud es notablemente mayor al incorporar la 
variabilidad de cada respuesta individual respecto a su valor esperado. Por 
ejemplo, el intervalo de predicción al 95% para el nivel de colesterol HDL de un 
sujeto con 25 kg/m2 de índice de masa corporal viene dado por 
El cálculo de estos intervalos en distintos valores x0 del índice de masa corporal da lugar 
a la banda predicción en gris claro de la Figura 10.9. Al igual que l  banda de confianza, 
la banda de predicción está centrada alrededor de la recta de regresión estimada, pero su 
amplitud es notablement  mayor al incorporar la variabilidad de cada respuesta individual 
respecto a su valor esperado. Por ejemplo, el intervalo de predicción al 95% para el nivel 
de colester l HDL de un sujeto con 25 kg/m2 de índice de masa corporal viene dado por
 35
1,69  0,023⋅25  ± 1,96⋅0,284 = (0,56; 1,67), 
que es mucho más impreciso que el intervalo de confianza calculado en el 
j l  anterior para l valor medio del colesterol HDL n todos l s sujetos co  
dich  valor del índice de masa corporal (IC al 95% 1,09−1,14 mmol/l). 
10.3.5 Evaluación de las asunciones del modelo de regresión lineal simple 
Los procedimientos de estimación e inferencia derivados en los apartados anteriores se 
basan en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La 
violación de estas asunciones puede dar lugar a conclusiones erróneas del modelo 
lineal, siendo así necesario evaluar su idoneidad en cada aplicación práctica. Aunque 
existen diversos tests para contrastar estadísticamente cada una de las hipótesis del 
modelo lineal (véase referencias al final del tema), en este apartado se presentan algunas 
técnicas diagnósticas basadas en el análisis gráfico de los residuos, proponiéndose 
asimismo extensiones básicas del modelo y transformaciones de los datos para 
acomodar posibles desviaciones de estas asunciones. En particular, se presta especial 
atención a las hipótesis de linealidad y homogeneidad de la varianza, ya que las 
principales inferencias relativas a la pendiente de la recta de regresión y al valor 
esperado de la variable respuesta son aproximadamente válidas en muestras 
moderadamente grandes aunque la distribución subyacente de la variable respuesta no 
sea normal. 
El gráfico más simple para evaluar el grado de cumplimiento de las asunciones de la 
regresión lineal simple es el diagrama de dispersión entre las variables explicativa y 
respuesta, junto con la recta de regresión estimada. Si se cumplen las hipótesis de 
linealidad y homogeneidad de la varianza, los puntos del diagrama de dispersión han de 
distribuirse aleatoriamente alrededor de la recta de regresión sin evidencia de relaciones 
−
que es mucho más impreciso que el intervalo de confianza calculado en el ejemplo anterior 
p a el valor medio d l colesterol HDL en todos los jetos con dich  valor del índice de 
masa corporal (IC al 95% 1,09-1,14 mmol/l).
10.3.5 Evaluación de las asunciones del modelo de regresión lineal simple
Los procedimientos de estimación e inferencia derivados en los apartados anteriores se basan 
en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violación de 
estas asunciones puede dar lugar a conclusiones erróneas del modelo lineal, siendo así necesario 
evaluar su idoneidad en cada aplicación práctica. Aunque existen diversos tests para contrastar 
estadísticamente cada una de las hipótesis del modelo lineal (véase referencias al final del 
tema), en este apartado se presentan algunas técnicas diagnósticas basadas en el análisis gráfico 
de los residuos, proponiéndose asimismo extensiones básicas del modelo y transformaciones de 
los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta 
especial atención a las hipótesis de linealidad y homogeneidad de la varianza, ya que las 
principales inferencias relativas a la pendiente de la recta de regresión y al valor esperado de la 
variable respuesta son aproximadamente válidas en muestras moderadamente grandes aunque 
la distribución subyacente de la variable respuesta no sea normal.
El gráfico más simple para evaluar el grado de cumplimiento de las asunciones de la regresión 
lineal simple es el diagrama de dispersión entre las variables explicativa y respuesta, junto con 
la recta de regresión estimada. Si se cumplen las hipótesis de linealidad y homogeneidad de la 
varianza, los puntos del diagrama de dispersión han de distribuirse aleatoriamente alrededor de 
la recta de regresión sin evidencia de relaciones curvilíneas y con similar dispersión a lo largo 
de toda la recta. Tal parece ser el caso del diagrama de dispersión entre el índice de masa 
corporal y el colesterol HDL de la Figura 10.7, donde no se aprecian desviaciones obvias de 
estas asunciones. En la Figura 10.2(d), sin embargo, se muestra un claro ejemplo de violación 
de la asunción de linealidad, ya que la relación subyacente es visiblemente cuadrática. No 
obstante, el gráfico más utilizado para chequear las asunciones de la regresión lineal es el 
diagrama de dispersión de los residuos ei = yi – ŷi frente a los valores predichos ŷi = b0 + b1xi por 
la recta de regresión. Este gráfico es equivalente al diagrama de dispersión entre xi e yi en 
regresión lineal simple, pero tiene la ventaja de ser directamente generalizable a la presencia de 
más de una variable explicativa en regresión lineal múltiple.
Antes de proceder al análisis gráfico de los residuos, es importante describir algunas de 
sus propiedades. Bajo las hipótesis de linealidad y homogeneidad de la varianza, los residuos 
ei = yi – ŷi tienen un valor esperado
 36
curvilíneas y con similar dispersión a lo largo de toda la recta. Tal parece ser el caso del 
diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la 
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura 
10.2(d), sin embargo, se muestra un claro ejemplo de violación de la asunción de 
linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el 
gráf co más utiliz do para chequ ar las asunciones de la regres ón lineal  el diagrama 
de dispersión de los residuos ei = yi - iyˆ  fre te a los valores pr dichos iyˆ  = b0 + b1xi por 
la recta de regresión. Este gráfico es equivalente al diagrama de dispersión entre xi e yi 
en regresión lineal simple, pero tiene la ventaja de ser directamente generalizable a la 
pres ncia de más de una variable explicativa en regresión li al múltiple. 
Ant s de proceder al análisis gráfico de los residuos, es importante describir algunas 
de sus propiedades. Bajo las hipótesis de linealidad y homogeneidad de la varianza, los 
residuos ei = yi - iyˆ  tienen un valor esperado 
E(ei) = E(yi)  E( iyˆ ) = 0 
y una varianza 
var(ei) = var(yi) + var( iyˆ ) - 2cov(yi, iyˆ ) = 



−
−
−− 2
2
2
)1(
)(11
x
i
sn
xx
n
σ . 
Así, aun cuando se cumpla la asunción de homogeneidad de la varianza, los residuos ei 
tendrán diferente varianza alrededor de los distintos puntos de la recta de regresión 
estimada. Más concretamente, los residuos tenderán a ser mayores en valores centrados 
que en valores extremos de la variable explicativa. Esto es debido a que los puntos (xi, 
yi) con xi muy distante de x  tienen mucha influencia en la estimación de la pendiente, 
de tal forma que la recta de regresión resultante tenderá a aproximarse a estos puntos 
que presentarán entonces pequeños residuos ei. Por ello, y con objeto de que los 
−
179
Regresión lineal simple
Pastor-Barriuso R.
y una varianza
 36
curvilíneas y con similar dispersión a lo largo de toda la recta. Tal parece ser el caso del 
diagrama de dispersión entre el índice de masa corporal y el colesterol HDL de la 
Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura 
10.2(d), sin embargo, se muestra un claro ejemplo de violación de la asunción de 
linealidad, ya que la relación subyacente es visiblemente cuadrática. No obstante, el 
gráfico más utilizado para chequear las asunciones de la regresión lineal es el diagrama 
de dispersión de los residuos ei = yi - iyˆ  frente a los valores predichos iyˆ  = b0 + b1xi por 
la recta de regresión. Este gráfico es equivalente al diagrama de dispersión entre xi e yi 
en regresión lineal simple, pero tiene la ventaja de ser directamente generalizable a la 
presencia de más de una variable explicativa en regresión lineal múltiple. 
Antes de proceder al análisis gráfico de los residuos, es importante describir algunas 
de sus propiedades. Bajo las hipótesis de linealidad y homogeneidad de la varianza, los 
residuos ei = yi - iyˆ  tienen un valor esperado 
E(ei) = E(yi) - E( iyˆ ) = 0 
y una varianza 
var(ei) = var(yi) + var( iyˆ )  2cov(yi, iyˆ ) = 



−
−
−− 2
2
2
)1(
)(11
x
i
sn
xx
n
σ . 
Así, aun cuando se cumpla la asunción de homogeneidad de la varianza, los residuos ei 
tendrán diferente varianza alrededor de los distintos puntos de la recta de regresión 
estimada. Más concretamente, los residuos tenderán a ser mayores en valores centrados 
que en valores extremos de la variable explicativa. Esto es debido a que los puntos (xi, 
yi) con xi muy distante de x  tienen mucha influencia en la estimación de la pendiente, 
de tal forma que la recta de regresión resultante tenderá a aproximarse a estos puntos 
que presentarán entonces pequeños residuos ei. Por ello, y con objeto de que los 
−
Así, aun cuando se cumpla la asunción de homogeneidad de la varianza, los residuos ei 
tendrán diferente varianza a rededor de los distintos puntos   rect  de regresión estimada. 
Más concretamente, los residuos tenderán a ser mayores en valores centrados que en valores 
extr mos de la variable explicativa. Esto s deb do a que los puntos (xi, yi) con xi muy distante 
de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estim dores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
.
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 tienen mu ha influencia en la estimación de la pendiente, de tal forma que la recta de 
regresión resultante tenderá a aproximarse a estos puntos que presentarán entonces pequeños 
residuos ei. Por ello, y c  objeto de que los residuos sean comparables a distintos niveles de la 
variable explicativa, es preferible realizar el diagnóstico del mo elo mediante los residuos 
estanda izados
 37
r iduos ean comparables  distintos niveles de la variabl  explicativa, s pref ribl  
realizar el di gnóstico d l modelo mediante los re iduos standarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para btener una representación más clara 
en tales circunstancias, es consejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos medios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El término hi 
se conoce como el leverage de una observación y es una medida estandarizada de la distancia entre 
cada valor xi de la variable explicativa y su media 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética
L media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 que s  tratará en el apartado siguie te. No 
obstante, si el tamaño muestral es grande y no hay valores muy extremos de la variable 
explicativa (observaciones con alto lever ge), ambos residu s i y ri se comportan de forma 
análoga.
En d terminados c sos el gráfico de los re iduos estandarizados ri frente a los valores 
predichos ŷi no permite apreciar claramente las posibles desviaciones de las asunciones de 
linealid d y h mogeneidad de la varianza. Para obtener una rep esentación más clara en tales 
circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk ordenados por 
valores crecientes de ŷi (por ejemplo, deciles) y calcula  la media
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obti n  de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce co o el leverage de una observación y es una medida 
estandarizada d  la distancia entre cada valor xi de la variabl  explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy xtremos de la va iable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos medios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la r lación, mientras que la existen ia e tenden ia en el 
y la varianza
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizad  d  la distanci  en re c da a or xi de la v riable xplicativa y su media x  
que se tratará e  el apa tado siguient . No obsta te, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
pr dich s iyˆ  no p rmite apreciar claramente las posibles d viaciones de las asuncion s 
de linealidad y homogeneid d de la v ria za. Par  obtener una representación más clar  
en t les circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curva ura en el gráfico de los 
residuos medios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los residuos 
me ios 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se co portan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y hom gen idad de la v rianz . Par  obten r representación má clar  
en tales circunstancias, es aconsejable dividir los  residu s ri en K grupos de ta año nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calc lar la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k n
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos kr  frente a los valores pr dichos medios kyˆ  en los istintos g upos 
indicará falta de lin alidad  la lación, mient as qu  l  exi tenc a de tendencia en el 
 l s valores p edichos medios 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos est ndarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como e  leverage de una obs rvació  y es una medida 
estandarizada de la distancia entre cada valor xi de la varia le explicativa y su e ia x  
que se tratará e  el ap rta o siguiente. No obstante, si el tamaño muestral es gr nde  
no hay valores muy extremos de la variable explic tiva (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfic  de los residuos esta arizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibl  esviacio es de las asunciones 
de linealidad y homogeneidad de la vari nza. Para obt ner una r pres n ción más clar  
en tales circu stancias, es aconsejable dividir los n residuos ri en K gr pos de tamañ  nk 
ordenados p r valores crecientes d  iyˆ  (por ejemplo, eciles) y calcula  la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La pres ncia de curvatura en el gráfico de los 
residuos medios k  frente a los v lores r i  i  kyˆ  en los d stintos grupos 
indicará falta de lineali ad en la relación, mientras que la exist ncia de t dencia e  el 
  l  isti t s grupos indicará falta de 
linealidad en la relación, mientras que la existencia de tendencia en el gráfico de las desviaciones 
típicas residuales sk frent  a los valores predichos medios 
 37
residuos sean comparables a distintos niv les de la v riable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos e tandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que s  btienen de ividir los residuos ei por una estimación d su desviac ón típica. El
término hi se conoce om  el l verage d una observación y es una medida 
est ndarizada e la distancia entre cada v lor xi de la v riabl  explicativa y su media x  
que s  tr tará en l aparta o sigu nt . No obstan e, si el tam ño muestral e grande y 
no hay valores muy extremos de la v riable explicativa (observaciones con alto 
leverage), ambos r siduos ei y ri se comportan de form  análoga. 
E  deter inados asos el gráfico de los residuos e t ndariza os ri f ent  a lo valores 
predic s iyˆ  no permite pr c r clarament  las posibl s desviac ones de l s uncio es 
de linealidad  ho geneid d e l  v i nza. Par  obte er una rep s n ación más clara 
e tales circunstancias, e  aconsejabl  dividir los n residuos ri en K grupos de tam ño nk 
ordenados por valores cre i nt s de iyˆ  (por ejemplo, deciles) y cal u ar l  media 

=
=
kn
i
i
k
k rn
r
1
1  
y la v rianza 

=
=
kn
ik
k rn
s
1
22 1  
de los residuos n cada un  d los grup . La presencia de curva ura en l gráfico de los 
residuos med os kr i  kyˆ  en los distintos grupos 
ind cará falta de linealidad n la relación, mi ntras que la existencia de tendencia en l 
 de cada grup  aportará evidencia 
de heterogeneidad en la varianza.
Ejemplo 10.12 En la Figura 10.10(a) se representa el gráfico de los residuos 
estandarizados ri frente a los valores predichos ŷi de la regresión lineal del colesterol HDL 
sobre el índice de masa corporal. Este gráfico, al igual que el diagrama de dispersión entre 
el índice de masa corporal y el colesterol HDL de la Figura 10.7, parece compatible con 
las asunciones de linealidad y homogeneidad de la varianza. Para realizar una evaluación 
más detallada, en la Tabla 10.4 se presentan las medias 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar l diagnóstico del mod l  mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtien n d  d vidir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce co o l leverage de una observación y es una medida 
est arizada de la distancia entre cada valor xi de la variable explicativa y su media x  
qu  se trata á e  el apartado siguiente. No obstante, si el tamaño muestral es grande y 
o hay valor s muy xtr mos e la variable explicativa (observaciones con alto 
lev rage , ambos siduos ei y ri se comporta  de forma análoga. 
En determ nado  casos el g áfico e los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos io  kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 y desvi ciones típicas sk de los 
180
Correlación y regresión lineal simple 
Pastor-Barriuso R.
residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los 
residuos medios 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos i s kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 frente a los valores predichos medios 
 37
residuos ean comparables a distintos nivel s de la variable xplicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medi a 
estandarizada de la distancia entre cada valor xi de la variable xplicativa y su media x  
que se trat rá en el apartado siguiente. No bstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable xplicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma náloga. 
En det rminados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad e la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ej mplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos medios kr  frente a los valores predichos edios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 de cada decil muest a indicios 
de una posible relación cuadrática entre el índice de masa corporal y el colesterol HDL, 
ya que los residuos del modelo lineal tienden a ser positivos para valores predichos altos 
y bajos del colesterol HDL y negativos para valores predichos intermedios. Por otra parte, 
en la Figura 10.10(c) no se aprecian desviaciones de la asunción de homogeneidad de la 
varianza, dado que las desviaciones típicas residuales sk son similares en los distintos 
deciles de los valores predichos.
La alternativa más simple para acomodar una relación cuadrática entre el índice de masa 
corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo 
orden E(Y|x) = β0 + β1x + β2x2, que incluye el término cuadrático x2 además del término lineal 
x del índice de masa corporal. La relación resultante entre ambas variables ya no será una 
línea recta sino una parábola, cuya curvatura vendrá determinada por el coeficiente β2 
asociado al término cuadrático. El ajuste de los modelos polinomiales se tratará en el Tema 
11 ya que estos modelos pueden considerarse como casos particulares de la regresión lineal 
múltiple cuyas variables explicativas son distintas potencias de una misma variable básica.
Ejemplo 10.13 Los niveles de a-tocoferol y b-caroteno en tejido adiposo presentan 
distribuciones asimétricas en los 700 controles del estudio EURAMIC, con un marcado 
sesgo positivo en el caso del b-caroteno (Figura 4.3). La media y la desviación típica del 
a-tocoferol son 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más repre e tativo 
de una determinada variable o, icho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmétic , den tada p r x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 = 146,1 y sx = 87,6 mg/g y del b-caroteno 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética pres nta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una mu stra, la media de la muestra resultante es igual a la media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra r sultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 = 0,37 y sy = 0,40 mg/g, y el 
coeficiente de correlación de Pearson entre ambas variables es r = 0,45. A partir de estos 
atos se estima que la recta de egresión d l b-caroteno sobre el a-tocoferol es
 39
modelos pueden considerarse como casos particulares de la regresión lineal 
múltiple cuyas variables explicativas son distintas potencias de una misma 
variable básica. 
[Fig ra 10.10 aproximadamente aquí] 
[Tabl  10.4 proxim dam nte aquí] 
Ejemplo 10.13 Los niveles de α-tocoferol y β-caroteno en tejido adiposo 
presentan distribuciones asimétricas en los 700 controles del estudio EURAMIC, 
con un marcado sesgo positivo en el caso del β-caroteno (Figura 4.3). La media y 
la desviación típica del α-tocoferol son x  = 146,1 y sx = 87,6 μg/g y del β-
caroteno y  = 0,37 y sy = 0,40 μg/g, y el coeficiente de correlación de Pearson 
entre ambas variables es r = 0,45. A partir de estos datos se estima que la recta de 
regresión del β-caroteno sobre el α-tocoferol es 
yˆ  = 0,072 + 0,0021x, 
con una desviación típica residual de los niveles de β-caroteno alrededor de dicha 
recta de s = 0,36 μg/g. El rror estándar de la constante es SE(b0) = 0,026 y de l  
pendiente SE(b1) = 0,00015. Así, se tiene que incrementos de una d viación 
típica (87,6 μg/g) en el α-tocoferol se asoc an con un aumento de 87,6⋅0,0021 = 
0,18 μg/g en el nivel med o e β-caroteno, con un IC al 95% comprendido entre 
87,6(0,0021 ± 1,96⋅0,00015) = (0,15; 0,21). 
Una simple inspección del diagrama de dispersión entre los niveles de α-tocoferol 
y β-caroteno de la Figura 10.11(a) evidencia una clara violación de la hipótesis de 
homogeneidad de la varianza, ya que hay mayor variabilidad de los puntos 
con una desviación típica residual de los niveles de b-caroteno alrededor de dicha recta de 
s = 0,36 mg/g. El error estándar de la constante es SE(b0) = 0,026 y de la pendiente SE(b1) = 
0,00015. Así, se tiene que incrementos de una desviación típica (87,6 mg/g) en el a-tocoferol 
se asocian con un aumento de 87,6 ∙ 0,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con 
un IC al 95% comprendido entre 87,6(0,0021 ± 1,96 ∙ 0,00015) = (0,15; 0,21).
 Figura 10.10
0,8 0,9 1 1,1 1,2 1,3
-3
-2
0
2
4
0,9 1 1,1 1,2
-0,5
0
0,5
0,9 1 1,1 1,2
0,5
1
1,5
(a)
iyˆ kyˆ
(c)
(b)
ri
kr
sk
Figura 10.10 Gráfico de los residuos estandarizados ri frente a los valores predichos ŷi (a), así como de las me-
dias 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico el modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de na observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variabl  explicativa (observaci nes con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico d  los 
residuos me o kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 (b) y desviaci nes típ as sk (c) de los residuos est ndarizados por deciles de l s valores predichos de la 
regresión lineal del colesterol HDL sobre el índice de masa corporal en el grupo control del estudio EURAMIC.
181
Regresión lineal simple
Pastor-Barriuso R.
Tabla 10.4 Media y desviación típica de los residuos estandarizados ri 
por deciles de los valores predichos ŷi de la regresión lineal del colesterol 
HDL sobre el índice de masa corporal en el grupo control del estudio 
EURAMIC.
Valores predichos (mmol/l) Residuos estandarizados
Decil (k) Media (
26
Correlación y regresión lineal simple
de una posible relación cuadrática entre el índice de masa corporal y el colesterol HDL, 
ya que los residuos del modelo lineal tienden a ser positivos para valores predichos altos 
y bajos del colesterol HDL y negativos para valores predichos intermedios. Por otra parte, 
en la Figura 10.10(c) no se aprecian desviaciones de la asunción de homogeneidad de la 
varianza, dado que las desviaciones típicas residuales sk son similares en los distintos 
deciles de los valores predichos.
La alternativa más simple para acomodar una relación cuadrática entre el índice de masa 
corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de 
segundo orden E(Y|x) = β0 + β1x + β2x2, que incluye el término cuadrático x2 además del 
término lineal x del índice de masa corporal. La relación resultante entre ambas variables 
ya no será una línea recta sino una parábola, cuya curvatura vendrá determinada por el 
coeficiente β2 asociado al término cuadrático. El ajuste de los modelos polinomiales se 
tratará en el Tema 11 ya que estos modelos pueden considerarse como casos particulares 
de la regresión lineal múltiple cuyas variables explicativas son distintas potencias de una 
misma variable básica.
 Figura 10.10
0,8 0,9 1 1,1 1,2 1,3
-3
-2
0
2
4
0,9 1 1,1 1,2
-0,5
0
0,5
0,9 1 1,1 1,2
0,5
1
1,5
(a)
iyˆ kyˆ
(c)
(b)
ri
kr
sk
Figura 10.10 Gráfico de los residuos estandarizados ri frente a los valores predichos ŷi (a), así como de las 
medias 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos medios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de lin alidad en la relación, mientras que la existencia d  tendencia e  l 
 (b) y desviaciones típicas sk (c) de los residuos estandarizados por deciles de los valores predichos 
de la regresión lineal del colesterol HDL sobre el índice de masa corporal en el grupo control del estudio 
EURAMIC.
Tabla 10.4 Media y desviación típica de los residuos estandarizados ri por deciles de los 
valores predichos ŷi de la regresión lineal del colesterol HDL sobre el índice de masa corporal 
en el grupo control del estudio EURAMIC.
Valores predichos (mmol/l) Residuos estandarizados
Decil (k) Media (
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverag  de una observación y es una medida 
estandarizada de la distancia ntre cada v l r xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tam ño muestral es gr nde y 
no hay valores muy extrem s de la variabl explic tiv  (observaciones con alto 
leverage), ambos resid o  ei y ri se comportan de forma análoga. 
En determinados casos e  gráfico d  los residuos estandarizados ri frente  los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rs
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos medios kr  frente a los valores predichos m ios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
) Media (
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
tér in  hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tr tará n el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos medios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
) Desviación típica (sk)
< 0,98 0,93 0,12 0,95
0,98–1,03 1,00 -0,03 1,00
1,03–1,05 1,04 0,05 1,05
1,05–1,07 1,06 0,08 0,90
) Media (
26
Correlación y regresión lineal simple
de una posible relación cuadrática ntre el índice de masa corporal y el colesterol HDL, 
ya que los residuos del m delo lineal tienden a ser positivos para valores predichos altos 
y bajos d l colesterol HDL y negativos para valores predichos int rmedios. Por otra parte, 
en la Figura 10.10(c) no se aprecian desviacion s de la asu ción de homogenei ad de la 
varianz , dado que las desviaciones típicas residuales sk son similares en los distintos 
decil s de los valores predichos.
La alternativa más simple para acomodar un  relación cuadrática ntre el índice de masa 
corporal y el colesterol HDL es extender el m delo lineal a un m delo p linomial de 
segundo orden E(Y|x) = β0 + β1x + β2x2, que incluye el término cuadrático x2 además del 
térmi o lineal x del índice de masa corporal. L  relación resultante ntre mb s variables 
ya no será u a lín a recta si o una parábola, cuya curv tura ven rá determinada por el 
co ficiente β2 asoci do al término cuadrático. El ajuste de los m del s p linomial s se 
tratará en el Tema 11 ya que estos m delos puede  considerarse como casos particulares 
de la regresión lineal múltiple cuy s variables explicativas son distintas potencias de una 
isma variable básica.
 Figura 10.10
0,8 0,9 1 1,1 1,2 1,3
-3
-2
0
2
4
0,9 1 1,1 1,2
-0,5
0
0,5
0,9 1 1,1 1,2
0,5
1
1,5
(a)
iyˆ kyˆ
(c)
(b)
ri
kr
sk
Figura 10.10 Gráfico de los residuos estandarizados ri frente a los valores predichos ŷi (a), así como de las 
medias 
 37
residuos sean comparables a distintos nivel s de la variable explicativa, es preferible 
realizar el diagnóstico del m delo mediante los residuos est nd rizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−
1
)1(
)(11 2
2
, 
que se obtien n de ividir los residuos ei por una estimación e su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la dist ncia ntre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
o h y valores muy xtr mos de la variable explicativa (observaciones con a to
lev rage), ambos residuos ei y ri se c mportan de fo a análoga. 
En determinados casos el gráfico de los residuos estandariz dos ri frente a los valores 
pr dichos iyˆ  no permite apre i r claramente las posibl s desviacion s de l s a u c o es
d  lin alidad y homogenei ad de la varianza. Para obt ner una representación más clara 
en tales circu st ncias, es aco sejable ividir los n residuos ri en K grupos de tamaño nk 
ordenad s por valores crecient s de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curv tura en el gráfico de los 
residuos medios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indic rá falta  lin ali ad en l  relación, mientras qu  la existencia d  tendencia en el 
 (b) y de vi ciones típicas sk (c) d  los residuos estandarizados por deciles de los valores predichos 
de la regresión lineal del colesterol HDL sobre el ín ice de masa corporal en el grupo control del estudio 
EURAMIC.
Tabla 10.4 Media y desviación típica de los residuos estandarizados ri por decil s de los 
valores predichos ŷi de la regresión lineal del colesterol HDL sobre el índice de masa corporal 
en el grupo c ntrol del estudio EURAMIC.
Valores predichos ( mol/l) Residuos estandarizados
Decil (k) Media (
 37
residuos sean comparables a distintos nivel s de la variable explicativa, es preferible 
realizar el diagnóstico del m delo mediante los residuos est nd rizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−
1
)1(
)(11 2
2
, 
que se obtien n de ividi  l s residuos ei po  una estimación de su desviación típica. El 
término hi se conoce como el lever g  de una obs rvación y es una medida 
estandarizada de la dist nc a re cada v l r xi de la variable explicativa y u m dia x  
que se tratará en el apartado siguiente. No obstante, si el tam ño muestral es gr nde y 
no h y valores muy xtrem s d  l  variabl explic tiv  (observaciones con alto 
lev rage), ambos resid o  ei y ri se c mportan de forma análoga. 
En det rminados casos g áfico d los residuos estandarizado  ri frente  los valores 
predichos iyˆ  no permite apre i r claramente las posibl s desviacion s de las asu ciones 
d  linealidad y homogenei ad de la varianza. Para obtener una representación más clara 
en tales circu st ncias, es aconsejable ividir los n residuos ri en K grupos de tamaño nk 
ordenad s por valores crecient s de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curv tura en el gráfico de los 
residuos medios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indic rá falta d  linealidad en l  relación, mientras qu  la existencia de tendencia en el 
) Media (
 37
residuos s an comparables a distintos nivel s de la variable explicativa, es preferible 
realizar el diagnóstico del m delo mediante los residuos est nd rizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−
1
)1(
)(11 2
2
, 
que se obtien n de ividir los residuos ei por una estimación de su desviación típica. El 
tér in  hi se conoce como el leverage de una observación y es una medida 
est ndarizada  la dist ncia ntre cada valor xi de la variable explicativa y su media x  
que s  tr t rá en el apar ado siguiente. No obstante, si el tamaño muestral es grande y 
no h y valores muy xtremos de la variable explicativa (observaciones con alto 
lev rage), ambos residuos ei y ri se c mportan de forma análoga. 
En determinado  c sos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  n  permite apre i r claramente las posibl s desviacion s de las asu ciones 
d  linealidad y homogenei ad de la varianza. Para obtener una representación más clara 
en tales circu st cias, es aconsejable ividir los n residuos ri en K grupos de tamaño nk 
ordenad s por valores crecient s de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los es duos en cada uno de los grupos. La presencia de curv tura en el gráfico de los 
residuos m ios kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indic rá falta d  inealidad en l  relación, mientras qu  la existencia de tendencia en el 
) Desviación típica (sk)
< 0,98 0,93 0,12 0,95
0,98–1,03 1,00 -0,03 1,00
1,03–1,05 1,04 0,05 1,05
1,05–1,07 1,06 0,08 0,90
Desviación típi a (sk)
< 0,98 0,93 0,12 0,95
0,98-1,03 1,00 – 0,03 1,00
1,03-1,05 1,04 0,05 1,05
1,05-1,07 1,06 0,08 ,90
1,07-1,10 1,09 – 0,05 1,04
1,10-1,12 1,11 – 0,21 0,99
1,12-1,13 1,12 – 0,12 1,02
1,13-1,16 1,14 0,09 1,15
1,16-1,19 1,17 – 0,15 0,85
≥ 1,19 1,22 0,20 1,01
Una simple inspección del diagrama de dispersión entre los niveles de a-tocoferol y 
b-caroteno de la Figura 10.11(a) evidencia una clara violación de la hipótesis de homogeneidad 
de la varianza, ya que hay mayor variabilidad de los puntos alrededor de la recta de regresión 
para valores altos del a-tocoferol que para valores bajos. Esta heterogeneidad se hace aún 
más evidente en la Figura 10.11(c), donde se observa cómo la desviación típica sk de los 
residuos estandarizados aumenta linealmente con los deciles de los valores predichos.
Por otro lado, la Figura 10.11(b) no muestra una curvatura clara en la relación, pero sí se 
aprecia una cierta tendencia lineal negativa de los residuos medios 
 37
resid os sean co parables a disti tos niveles d la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverag ), amb s residu s ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no per ite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
i  i  kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 conforme aumenta 
el valor predicho. Esto podría deberse a que algunas observaciones con valores extremos 
de a-tocoferol y b-caroteno tienen excesiva influencia en la estimación de la pendiente, 
produciendo una sobreestimación de la misma que da lugar a residuos positivos para 
valores predichos bajos y residuos negativos para valores predichos altos. La identificación 
de observaciones influyentes se abordará en mayor detalle en el siguiente apartado.  
 Figura 10.11
0 100 200 300 400
0
0,4
0,8
1,2
1,6
0,1 0,3 0,5 0,7
-0,5
0
0,5
0,1 0,3 0,5 0,7
0
1
2
sk
(c)(a)
β-c
ar
ot
en
o 
(μ
g/
g)
α-tocoferol (μg/g)
kr
kyˆ
(b)
Figura 10.11 Regresión lineal del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC (a), junto 
con las medias 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuo io kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 (b) y desviaciones tí icas sk (c) de l  residuos estandarizados por deciles de los valores predichos.
182
Correlación y regresión lineal simple 
Pastor-Barriuso R.
En presencia de heterogeneidad de la varianza, los estimadores puntuales b0 y b1, así como 
la propia recta de regresión estimada ŷ = b0 + b1x, continúan siendo insesgados, pero la varianza 
residual s2 está sesgada ya que infraestima la variabilidad de la variable respuesta alrededor de 
unos puntos de la recta de regresión y la sobreestima en otros. En consecuencia, los errores 
estándar de los estimadores no son correctos y sus correspondientes intervalos de confianza y 
tests de hipótesis dejan de ser válidos. En general, existen dos procedimientos alternativos para 
tratar con varianzas heterogéneas. El primer método consiste en realizar una regresión lineal 
ponderada, que es una extensión del modelo lineal ordinario donde cada observación de la 
variable respuesta recibe un peso inversamente proporcional a su varianza estimada alrededor 
de la recta de regresión. Así, cuanto más precisa sea una observación, mayor será su peso en la 
estimación de la recta de regresión. En el ejemplo anterior, la regresión lineal ponderada del 
b-caroteno sobre el a-tocoferol otorgaría más peso a los puntos con valores bajos del a-tocoferol 
que a aquellos con valores altos, ya que los primeros presentan menor variabilidad en el nivel 
de b-caroteno. Las técnicas de regresión lineal ponderada pueden consultarse en los textos 
específicos de regresión citados en este tema.
El segundo procedimiento para tratar con varianzas heterogéneas es encontrar una 
transformación de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a 
esta variable transformada. La selección de la transformación adecuada suele basarse en la 
relación existente entre la varianza residual y el valor esperado de la variable respuesta. En el 
caso más frecuente de que la desviación típica residual tienda a aumentar linealmente con el 
valor predicho (tal como ocurre en la regresión del b-caroteno sobre el a-tocoferol), la 
heterogeneidad de la varianza se resuelve utilizando la transformación logarítmica, dado que 
el logaritmo de la respuesta tendrá entonces una varianza aproximadamente constante. Esta 
transformación logarítmica produce el mismo efecto en cualquier base y sólo puede aplicarse a 
variables respuestas positivas. Además de homogeneizar la varianza, la transformación 
logarítmica también suele emplearse para normalizar variables respuestas sesgadas 
positivamente, así como para linealizar relaciones con pendiente monótonamente creciente.
Aun cuando el uso de una respuesta logarítmica esté plenamente justificado en términos 
estadísticos, los resultados del modelo transformado han de interpretarse en la escala original 
de la variable respuesta. El modelo en escala logarítmica asume que el valor esperado del 
logaritmo de la variable respuesta Y cambia linealmente con la variable explicativa X,
 41
de regresión. Así, cuanto más precisa sea una observación, mayor será su peso en la 
estimación de la recta de regresión. En el ejemplo anterior, la regresión lineal ponderada 
del β-caroteno sobre el α-tocoferol otorgaría más peso a los puntos con valores bajos 
del α-tocoferol que a aquellos con valores altos, ya que los primeros presentan menor 
variabilidad en el nivel de β-caroteno. Las técnicas de regresión lineal ponderada 
pueden consultarse en los textos específicos de regresión citados en este tema. 
El segundo procedimiento para tratar con varianzas heterogéneas es encontrar una 
transformación de la variable respuesta que estabilice la varianza y ajustar el modelo 
lineal a esta variable transformada. La selección de la transformación adecuada suele 
basarse en la relación existente entre la varianza residual y el valor esperado de la 
variable respuesta. En el caso más frecuente de que la desviación típica residual tienda a 
aumentar linealmente con el valor predicho (tal como ocurre en la regresión del β-
c roteno sobre el α-tocoferol), la heterogen idad de la v rianza se resuelve utilizando la 
transformación logarítmica, dado que l logaritmo de la respuesta tendrá ent c s una 
v rianza aproxim damente constant . E ta transformación logarítmic  produce el 
mism  efecto en cualquier base y sólo puede aplicarse a variables respuestas positivas. 
Además de homogeneizar la varianza, la transformación logarítmica también suele 
emplearse para normalizar variables respuestas sesgadas positivamente, así como para 
linealizar relaciones con pendiente monótonamente creciente. 
Aun cuando el uso de una respuesta logarítmica esté plenamente justificado en 
términos estadísticos, los resultados del modelo transformado han de interpretarse en la 
escala original de la variable respuesta. El modelo en escala logarítmica asume que el 
valor esperado del logaritmo de la variable respuesta Y cambia lin almente con la 
v riable explicativa X, 
E(logY|x) = β0 + β1x. 
Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, resultando 
que la media geométrica de la variable respuesta (definida como la exponencial de la media de los 
logaritmos; véase Apartado 1.2.3) es una función exponencial de la variable explicativa,
 42
Para v lver a la escala original, se toma la exponencial en ambos l dos de esta igualdad, 
resultando que la m dia geométri  de la variabl  respuest  (definida como la 
exponencial de la media de los logaritmos; véase Apartado 1.2.3) es una función 
exponencial de la variable explicativa, 
EG(Y|x) = exp{E(logY|x)} = exp(β0 + β1x). 
Así, el modelo en la escala original se interpreta en términos de la media geométrica de 
la variable respuesta, que varía exponencialmente con la variable explicativa. El 
coeficiente β1 asociado a la variable explicativa tiene entonces una interpretación 
distinta de la habitual ya que su exponencial corresponde a la razón de medias 
geométricas de Y cuando X aumenta una unidad, 
)|(
)1|(
xYE
xYE
G
G +  = exp{β0 + β1(x + 1) - (β0 + β1x)} = exp(β1); 
es decir, 100{exp(β1) - 1} representa el cambio porcentual en la media geométrica de Y 
por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo 
largo de todo el rango de la variable explicativa. 
Ejemplo 10.14 En el análisis de regresión lineal del β-caroteno sobre el α-
tocoferol del ejemplo anterior se observó un aumento lineal de la desviación típica 
residual conforme aumentaba el valor predicho, lo que sugiere la utilización de 
una transformación logarítmica de la variable respuesta. La Figura 10.12(a) 
muestra la recta de regresión estimada entre el logaritmo del β-caroteno y el α-
tocoferol, 
log Gy  = -1,91 + 0,0040x, 
Así, el modelo en la escala original se interpreta en términos de la media geométrica de la 
variable respuesta, que varía exponencialmente con la var able explicativ . El coefi iente β1 
asociado a la variable explicativa tiene entonces una interpretación distinta de la habitual ya que 
su exponencial corresponde a la azón de med s g ométricas de Y cuando X aumenta una unidad,
 42
Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, 
resultando que la media geométrica de la variable respuesta (definida como la 
exponencial de la media de los logaritmos; véase Apartado 1.2.3) es una función 
exponencial de la variable explicativ , 
EG(Y|x) = exp{E(logY|x)} = exp(β0 + β1x). 
Así, el modelo en la escala original se interpreta en términos de la medi  geométrica de 
la variable respuest , que varía exponencialmente con la variable explicativa. El 
coeficiente β1 asociado a la variable explicativa tiene entonces una interpretación 
distinta  la habitual ya que su exponencial corresponde a la razón d  medias 
geométricas de Y cuando X aum ta una unidad,
)|(
)1|(
xYE
xYE
G
G +  = exp{β0 + β1(x + 1)  (β0 + β1x)} = exp(β1); 
es decir, 100{exp(β1) - 1} representa el cambio porcentual en la media geométrica de Y 
por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo 
largo de todo el rango de la variable explicativa. 
Ejemplo 10.14 En el análisis de regresión lineal del β-caroteno sobre el α-
tocoferol del ejemplo anterior se observó un aumento lineal de la desviación típica 
residual conforme aument a el valor predicho, lo que sugiere la utilización de 
una transformación logarítmica de la variable respuesta. La Figura 10.12(a) 
muestra la recta de regresión estimada entre el logaritmo del β-caroteno y el α-
tocoferol, 
log Gy  = -1,91 + 0,0040x, 
−
es decir, 100{exp(β1) – 1} representa el cambio porcentual en la media geométrica de Y por 
cada incremento de una unidad en X. Este cambio relativo se asume constante a lo largo de todo 
el rango de la variable explicativa.
183
Regresión lineal simple
Pastor-Barriuso R.
Ejemplo 10.14 En el análisis de regresión lineal del b-caroteno sobre el a-tocoferol del 
ejemplo anterior se observó un aumento lineal de la desviación típica residual conforme 
aumentaba el valor predicho, lo que sugiere la utilización de una transformación 
logarítmica de la variable respuesta. La Figura 10.12(a) muestra la recta de regresión 
estimada entre el logaritmo del b-caroteno y el a-tocoferol,
 42
Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, 
resultando que la media geométrica de la variable respuesta (definida como la 
exponencial de la media de los logaritmos; véase Apartado 1.2.3) es una función 
exponencial de la variable explicativa, 
EG(Y|x) = exp{E(logY|x)} = exp(β0 + β1x). 
Así, el modelo en la escala original se interpreta en términos de la media geométrica de 
la variable respuesta, que varía exponencialmente con la variable explicativa. El 
coeficiente β1 asociado a la variable explicativa tiene entonces una interpretación 
distinta de la habitual ya que su exponencial corresponde a la razón de medias 
geométricas de Y cuando X aumenta una unidad, 
)|(
)1|(
xYE
xYE
G
G +  = exp{β0 + β1(x + 1) - (β0 + β1x)} = exp(β1); 
es decir, 100{exp(β1) - 1} representa el cambio porcentual en la media geométrica de Y 
por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo 
largo de todo el rango de la variable explicativa. 
Ejemplo 10.14 En el análisis de regresión lineal del β-caroteno sobre el α-
tocoferol del ejemplo anterior se observó un aumento lineal de la desviación típica 
residual conforme aumentaba el valor predicho, lo que sugiere la utilización de 
una transformación logarítmica de la variable respuesta. La Figura 10.12(a) 
muestra la recta de regresi n estimada entre el logaritmo del β-caroteno y el α-
tocoferol, 
log Gy  = 1,91 + 0,0040x, −
donde el error estándar de la constante es SE(b0) = 0,055 y de la pendiente SE(b1) = 
0,00032. Aunque el ajuste se ha realizado en escala logarítmica, el modelo tiene una 
interpretación directa en términos de la media geométrica de la variable respuesta. La 
razón de medias geométricas asociada a un aumento de c unidades en la variable explicativa 
viene dada por
 43
donde el error estándar de la constante es SE(b0) = 0,055 y de la p ndiente SE(b1) 
= 0,00032. Aunque el ajuste se ha realizado en escala logarítmica, el modelo tiene 
una interpretación directa en términos de la media geométrica de la variable 
respuesta. La razón de medias geométricas asociada a un aumento d  c unidades 
en la variable explicativa viene dada por 
)(
)(
xy
cxy
G
G +  = exp{b0 + b1(x + c)  (b0 + b1x)} = exp(cb1). 
Así, por ejemplo, por cada incremento de una desviación típica c = 87,6 μg/g en el 
nivel de α-tocoferol, la media geométrica de β-caroteno aumenta un 
100{exp(87,6⋅0,0040) - 1} = 100(1,42 - 1) = 42%. Este incremento porcentual en 
la media geométrica de β-caroteno permanece constante a través de todo el rango 
observado del α-tocoferol. Como consecuencia, la tendencia resultante en la 
escala original del β-caroteno es exponencial, tal como se muestra en la Figura 
10.12(b). 
El IC al 95% para la razón de medias geométricas asociada a un aumento de 87,6 
μg/g en el α-tocoferol se calcula multiplicando primero los límites del intervalo 
para β1 por dicho incremento y después exponenciando, 
 exp[c{b1 ± t698;0,975SE(b1)}] = exp{87,6(0,0040 ± 1,96⋅0,00032)} 
  = (1,34; 1,50), 
de donde se concluye con una confianza del 95% que la media geométrica de β-
caroteno aumenta entre un 34 y un 50% por cada incremento de 87,6 μg/g en el 
nivel de α-tocoferol. Este cambio relativo es muy significativo dado que el 
contraste bilateral de la hipótesis nula H0: β1 = 0 mediante el estadístico 
−
Así, por ejemplo, por cada incremento de una desviación típica c = 87,6 mg/g en el nivel de 
a-toc ferol, la media geométrica de b-caroteno aumenta un 100{exp(87,6 ∙ 0,0040) – 1} = 
100(1,42 – 1) = 42%. Este incremento porcentual en la media geométrica de b-caroteno 
permanece constante a través de todo el rango observado del a-tocoferol. Como 
consecuencia, la tendencia resultante en la escala original del b-caroteno es exponencial, 
tal como se muestra en la Figura 10.12(b).
El IC al 95% para la razón de medias geométricas asociada a un aumento de 87,6 mg/g en 
el a-tocof rol se calcula multiplicando primero los límites del intervalo para β1 p r dicho 
incremento y después exponenciando,
 43
donde el error estándar de la constante es SE(b0) = 0,055 y de la pendiente SE(b1) 
= 0,00032. Aunque el ajuste se ha realizado en escala logarítmica, el modelo tiene 
una interpretación directa en términos de la media geométrica de la variable 
respuesta. La razón de medias geométricas asociada a un aumento de c unidades 
en la variable explicativa viene dada por 
)(
)(
xy
cxy
G
G +  = exp{b0 + b1(x + c) - (b0 + b1x)} = exp(cb1). 
Así, por ejemplo, por cada increment  de una d viación típica c = 87,6 μg/g en l 
nivel d  α-tocoferol, la m dia geométrica de β-c roteno aumenta un 
100{exp(87,6⋅0,0040) - 1} = 100(1,42 - 1) = 42%. Este incremento porcentual en 
la media geométrica de β-caroteno permanece constante a través de todo el rango 
observado del α-tocoferol. Como consecuencia, la tendencia resultante en la 
escala original del β-caroteno es exponencial, tal como se muestra en la Figura 
10.12(b). 
El IC al 95% para la r zón de medias geométricas asociada a un a mento de 87,6 
μg/g en el α-tocoferol se calcula multiplicando primero los lí ites del intervalo 
para β1 por dicho in r mento y des ués exponenciando,
 exp[c{b1 ± t698;0,975 SE(b1)}] = exp{87,6(0,0040 ± 1,96⋅0,00032)} 
  = (1,34; 1,50), 
de donde se concluye con una confianza del 95% que la media geométrica de β-
caroteno aumenta entre un 34 y un 50% por cada incremento de 87,6 μg/g en el 
nivel de α-tocoferol. Este cambio relativo es muy significativo dado que el 
contraste bilateral de la hipótesis nula H0: β1 = 0 mediante el estadístico 
de donde se concluye con una confianza del 95% que la media geométrica de b-caroteno 
aumenta entre un 34 y un 50% por cada incremento de 87,6 mg/g en el nivel de a-tocoferol. 
Este cambio relativo es muy significativo dado que el contraste bilateral de la hipótesis 
nula H0: β1 = 0 mediante el estadístico
 44
t = 
00032,0
0040,0
)( 1
1
=
bSE
b
 = 12,44 
arroja un valor P = 2P(t698 ≥ 12,44) ≈ 2{1 - Φ(12,44)} < 0,001. 
Como cabía esperar, la hipótesis de homogeneidad de la varianza se hace mucho 
más plausible utilizando la escala logarítmica (paneles a y c de la Figura 10.13). 
Sin embargo, la curvatura de los residuos de la Figura 10.13(b) sugiere que el 
efecto del α-tocoferol no es lineal en el logaritmo del β-caroteno o, dicho de 
forma equivalente, la relación subyacente entre el α-tocoferol y el β-caroteno no 
parece responder fielmente a un modelo exponencial. Así, la transformación 
logarítmica de la variable respuesta elimina la heterogeneidad de la varianza pero 
introduce una desviación de la asunción de linealidad. Como veremos más 
adelante, este problema podría paliarse transformando también la variable 
explicativa para restaurar la linealidad en la relación. Alternativamente, se podría 
haber ajustado un modelo de regresión lineal ponderado entre el α-tocoferol y el 
β-caroteno, que permite trabajar directamente con varianzas heterogéneas sin 
necesidad de transformar los datos ni modificar la estructura lineal del modelo. 
[Figura 10.12 aproximadamente aquí] 
[Figura 10.13 aproximadamente aquí] 
10.3.6 Observaciones atípicas e influyentes 
En el diagnóstico de un modelo de regresión lineal, tan importante como evaluar las 
asunciones de linealidad y homogeneidad de la varianza es examinar la contribución o 
influencia de cada observación en el modelo estimado. En general, es deseable que el 
modelo estimado responda al patrón global de los datos; esto es, las estimaciones de los 
arroja un valor P = 2P(t698 ≥ 12,44) ≈ 2{1 – F(12,44)} < 0,001.
Como cabía esperar, la hipótesis de homogeneidad de la varianza se hace mucho más 
plausible utilizando la escala logarítmica (paneles a y c de la Figura 10.13). Sin embargo, 
la curvatura de los residuos de la Figura 10.13(b) sugiere que el efecto del a-tocoferol no 
es lineal en el logaritmo del b-caroteno o, dicho de forma equivalente, la relación 
subyacente entre el a-tocoferol y el b-caroteno no parece responder fielmente a un modelo 
exponencial. Así, la transformación logarítmica de la variable respuesta elimina la 
heterogeneidad de la varianza pero introduce una desviación de la asunción de linealidad. 
Como veremos más adelante, este problema podría paliarse transformando también la 
variable explicativa para restaurar la linealidad en la relación. Alternativamente, se podría 
haber ajustado un modelo de regresión lineal ponderado entre el a-tocoferol y el 
b-caroteno, que permite trabajar directame te con varianzas heterogéneas sin necesidad 
de transformar los datos ni modificar la estructura lineal del modelo.
184
Correlación y regresión lineal simple 
Pastor-Barriuso R.
 Figura 10.12
0 100 200 300 400
-3
-2
-1
0
0,5
0 100 200 300 400
0
0,4
0,8
1,2
1,6
lo
g(
β-c
ar
ot
en
o)
(b)
α-tocoferol (μg/g)
β-c
ar
ot
en
o 
(μ
g/
g)
α-tocoferol (μg/g)
(a)
Figura 10.12 Recta de regresión del logaritmo del β-caroteno sobre el α-tocoferol en el grupo control del 
estudio EURAMIC (a) y tendencia exponencial resultante en la escala original del β-caroteno (b).
 Figura 10.13
-2 -1,5 -1 -0,5 0 0,5
-3
-2
-1
0
1
2
3
-2 -1,5 -1 -0,5
-0,5
0
0,5
-2 -1,5 -1 -0,5
0,5
1
1,5
sk
ri
(b)
(c)(a)
iyˆ
kr
kyˆ
Figura 10.13 Gráfico de los residuos estandarizados ri frente a los valores predichos ŷi de la regresión lineal 
del logaritmo del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC (a), junto con las 
medias 
 37
residuos sean compa ables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
leverage), ambos residuos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos e io  kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 (b) y desviaciones tí icas sk (c) d  los residuos estandarizados por deciles de los valores predichos.
10.3.6  Observaciones atípicas e influyentes
En el diagnóstico de un modelo de regresión lineal, tan importante como evaluar las asunciones 
de linealidad y homogeneidad de la varianza es examinar la contribución o influencia de cada 
observación en el modelo estimado. En general, es deseable que el modelo estimado responda 
al patrón global de los datos; esto es, las estimaciones de los parámetros del modelo deben 
basarse en el conjunto de todas las observaciones y no únicamente en un reducido número de 
observaciones muy influyentes. De esta forma, se tendrá un mayor grado de confianza a la hora 
de inferir los resultados del modelo a toda la población.
La forma más natural de medir la influencia de una observación en un modelo de regresión 
lineal simple es comparar las estimaciones de la constante y la pendiente obtenidas en la muestra 
185
Regresión lineal simple
Pastor-Barriuso R.
completa con sus correspondientes estimaciones tras excluir dicha observación. Una medida 
estandarizada del cambio global que se produce en las estimaciones b0 y b1 al eliminar la i-ésima 
observación es la distancia de Cook Di, que en su forma más simple puede expresarse como
 45
parámetros del modelo deben basarse en el conjunto de todas las observaciones y no 
únicamente en un reducido número de observaciones muy influyentes. De esta forma, se 
tendrá un mayor grado de confianza a la hora de inferir los resultados del modelo a toda 
población. 
La forma más natural de medir la influencia de una observación en un modelo de 
regresión lineal simple es comparar las estimaciones de la constante y la pendiente 
obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir 
dicha observación. Una medida estandarizada del cambio global que se produce en las 
estimaciones b0 y b1 al eliminar la i-ésima observación es la distancia de Cook Di, que 
e  su forma más simple puede expresarse omo 
Di = 
)1(2
2
i
ii
h
hr
−
. 
De esta fórmula se desprende que la influencia de una observación en las estimaciones 
b0 y b1 depende tanto de su residuo estandarizado ri como de su leverage hi. Los 
residuos estandarizados ri determinan la desviación del valor observado de la variable 
respuesta respecto al valor predicho por la recta de regresión, de tal forma que valores 
altos de ri en valor absoluto corresponden a observaciones pobremente ajustadas, que se 
conocen como observaciones atípicas o outliers. Estos outliers provocan una 
disminución de la calidad global del ajuste, lo que redunda en un aumento de la 
varianza residual s2 y del error estándar de las estimaciones b0 y b1. Sin embargo, los 
outliers no son necesariamente influyentes en las estimaciones puntuales b0 y b1, ya que 
su influencia también depende del leverage. El leverage hi de una observación es una 
medida estandarizada de la distancia entre el valor de la variable explicativa y su media, 
que se define como 
De esta fórmula se desprende que la influencia de una observación en las estimaciones b0 y b1 
depende nto de su r siduo standariz do ri como de s  leverage hi. Los residuos estandarizados 
ri determinan la desviación del valor observado de la variable respuesta respecto al valor 
predicho por la recta de regresión, d  l forma que val res altos de ri en valor absoluto 
corresponden a observaciones pobremente ajustadas, que se conocen como observaciones 
atípicas  outliers. Estos outli rs provocan una disminución de la calidad glob l del ajuste, lo 
que redunda en un aumento de la varianza residual s2 y del error estándar de las estimaciones b0 
y b1. Sin embargo, los outliers no son necesariamente influyentes en l s estimaciones puntuales 
b0 y b1, ya que su influencia también depende del leverage. El leverage hi de una observación 
es una medida est ndarizada de la di tancia entre el valor de la variabl  explicativ  y s  media, 
que se define como
 46
hi = 2
2
)1(
)(1
x
i
sn
xx
n −
−
+  
y toma valores entre 1/n y 1 con una media de h  = 2/n. A diferencia de los outliers que 
corresponden a observaciones con valores atípicos de la variable respuesta, las 
observaciones con alto leverage son aquellas con valores extremos de la variable 
explicativa. El leverage juega un papel determinante en la distinción entre outliers y 
observaciones influyentes. Así, por ejemplo, el punto A de la Figura 10.14(a) es un 
outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresión 
estimada ya que ésta no varía sensiblemente tras excluir dicho punto. Esto se debe a que 
la observación A presenta un valor centrado de la variable explicativa (leverage muy 
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia 
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier 
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada, 
particularmente en la pendiente b1, debido a que este punto presenta un valor muy 
extremo de la variable explicativa. 
 [Figura 10.14 aproximadamente aquí] 
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de 
regresión cuanto mayor sea su distancia de Cook Di. En general, se recomienda 
examinar detenidamente aquellas observaciones con una distancia de Cook superior a 
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un 
residuo estandarizado alto ri = ±2. No obstante, la selección de un valor crítico para Di 
es un tanto arbitraria y es preferible evaluar la influencia relativa de cada observación 
en comparación con las restantes observaciones. Un gráfico útil es el diagrama de 
dispersión de los residuos estandarizados ri frente a los leverages hi, donde cada 
y toma valores entre 1/n y 1 con una media de 
 46
hi = 2
2
)1(
)(1
x
i
sn
xx
n −
−
+  
y toma valor s entre 1/n y 1 con una edia  = 2/n. A diferencia de los outliers que 
corresponden a observaciones con valores atípicos de la variable respuesta, las 
observaciones con alto leverage son aquellas con valores extremos de la variable 
explicativa. El leverage juega un papel determinante en la distinción entre outliers y 
observaciones influyentes. Así, por ejemplo, el punto A de la Figura 10.14(a) es un 
outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresión 
estimada ya que ésta no varía sensiblemente tras excluir dicho punto. Esto se debe a que 
la observación A presenta un valor centrado de la variable explicativa (leverage muy 
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia 
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier 
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada, 
particularmente en la pendiente b1, debido a que este punto presenta un valor muy 
extremo de la variable explicativa. 
 [Figura 10.14 aproximadamente aquí] 
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de 
regresión cuanto mayor sea su distancia de Cook Di. En general, se recomienda 
examinar detenidamente aquellas observaciones con una distancia de Cook superior a 
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un 
residuo estandarizado alto ri = ±2. No obstante, la selección de un valor crítico para Di 
es un tanto arbitraria y es preferible evaluar la influencia relativa de cada observación 
en comparación con las restantes observaciones. Un gráfico útil es el diagrama de 
dispersión de los residuos estandarizados ri frente a los leverages hi, donde cada 
h  2/n. A diferencia de los outliers que 
corresponden a observaciones con valores atípicos de la variabl  respuesta, las obs rvaciones 
con alto leverag  son aquellas con valores extremos de la variable explicativa. El everage juega 
un pap l determinante en la di tinción entre outliers y observaciones influyentes. Así, por 
ejemplo, el punto A de l  Figura 10.14(a) es un outlier extremo (residuo muy elevado) que tiene 
poca influencia en la rec a d  regresión estimada ya que ésta no varía ensiblemente tras excluir 
dicho unto. Esto s  debe a que la observación A presenta un valor centrado de la variable 
explicativa (leverage muy bajo) q e mitiga en gran medida su influencia sobre las estimaciones 
b0 y b1 (distancia de Cook moderada). Por el c ntrario, el punto B de l  Figura 10.14(b) no es 
un utlier tan marcado p ro tiene una influencia mucho mayor en la recta de regresión estimada, 
partic larm n e en la pendiente b1, debido a que ste punto present  u  valor muy ext mo de 
la variable explicativa.
 Figura 10.14
x
y
(b)(a)
x
A B
Figura 10.14 Rectas de regresión resultantes de incluir (línea gruesa) y excluir (línea fina) los puntos A y B 
del ajuste del modelo lineal.
186
Correlación y regresión lineal simple 
Pastor-Barriuso R.
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de regresión 
cuanto mayor sea su distancia de Cook Di. En general, se recomienda examinar detenidamente 
aquellas observaciones con una distancia de Cook superior a 4/(n – 2), que corresponde, por 
ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = ±2. No 
obstante, la selección de un valor crítico para Di es un tanto arbitraria y es preferible evaluar la 
influencia relativa de cada observación en comparación con las restantes observaciones. Un 
gráfico útil es el diagrama de dispersión de los residuos estandarizados ri frente a los leverages 
hi, donde cada observación se representa mediante un círculo de área proporcional a su distancia 
de Cook Di. En este gráfico, el tamaño de los círculos identificará claramente las observaciones 
más influyentes, mientras que la posición permitirá discernir la contribución de los residuos y 
leverages a la influencia de dichas observaciones.
Ejemplo 10.15 La Figura 10.15 muestra los residuos estandarizados ri frente a los 
leverages hi de la regresión lineal del colesterol HDL sobre el índice de masa corporal, 
donde se incluyen líneas de referencia horizontales en ri = – 2, 0 y 2 y verticales en el 
doble hi = 0,0075 y el triple hi = 0,0113 del leverage medio 
 46
hi = 2
2
)1(
)(1
x
i
sn
xx
n −
−
+  
y toma valores entre 1/n y 1 con una media de  = 2/n. A diferencia de los outliers que 
corresponden a observaciones con valores atípicos de la variable respuesta, las 
observaciones con alto leverage son aquellas con valores extremos de la variable 
explicativa. El leverage juega un papel determinante en la distinción entre outliers y 
observaciones influyentes. Así, por ejemplo, el punto A de la Figura 10.14(a) es un 
outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresión 
estimada ya que ésta no varía sensiblemente tras excluir dicho punto. Esto se debe a que 
la observación A presenta un valor centrado de la variable explicativa (leverage muy 
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia 
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier 
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada, 
particularmente en la pendiente b1, debido a que este punto presenta un valor muy 
extremo de la variable explicativa. 
 [Figura 10.14 aproximadamente aquí] 
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de 
regresión cuanto mayor sea su distancia de Cook Di. En general, se recomienda 
examinar detenidamente aquellas observaciones con una distancia de Cook superior a 
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un 
residuo estandarizado alto ri = ±2. No obstante, la selección de un valor crítico para Di 
es un tanto arbitraria y es preferible evaluar la influencia relativa de cada observación 
en comparación con las restantes observaciones. Un gráfico útil es el diagrama de 
dispersión de los residuos estandarizados ri frente a los leverages hi, donde cada 
h   /533 = 0,0038. El área
de los círculos es proporcional a la distancia de Cook Di e indica la influencia relativa de 
cada observa ión. P r supuesto, la influ ncia de las observaciones aumenta conforme
aumentan sus residuos estandarizados en valor absoluto (dirección vertical del gráfico) y 
sus leverages (direcció  horizonta ). Sin emb rgo, no se precian observaciones 
marcadamente influyentes que pudieran conducir los resultados globales del modelo. La 
observación más influyente Di = 0,043 s  present  en el cuadrante superior izquierda de la 
Figura 10.15, que corresponde a un outlier con un residuo muy alto ri = 4,28 y un leverage 
moderado hi = 0,0047. Las t macio es de la constante y la p ndie e de la recta de egresión 
excluyendo este outlier son b0(  i) = 1,71 y b1(  i) = – 0,024 que, comparadas con las estimaciones 
(error estándar) b0 = 1,69 (0,092) y b1 = – 0,023 (0,0035) obtenidas en la muestra comple
(Ejemplo 10.9), suponen un cambio estandarizado de (b0
( 
 
i) – b0)/SE(b0) = (1,71 – 1,69)/0,092 
= 0,20 en la constante y (b1(  i) – b1)/SE(b1) = (–0,024 + 0,023)/0,0035 = – 0,23 en la pendiente. 
Así, a pesar de que este outlier está muy mal ajustado, no afecta substancialmente a la recta 
de regresión estimada.
Ejemplo 10.16 En la Figura 10.16 se representan los residuos estandarizados ri frente a los 
leverages hi de la regresión lineal del logaritmo del b-caroteno sobre el a-tocoferol. En una 
primera inspección visual se distinguen al men s 3 observaciones con una influencia 
sensiblemente mayor que las demás, que corresponden a los círculos de mayor tamaño situados 
a la derecha del gráfico. Los val res observados, predichos y las edidas diagnósticas asociadas 
a dichas observaciones se presentan en la Tabla 10.5. A diferencia del ejemplo anterior, donde 
la observación más influyente correspondía a un outlier, estas 3 observaciones present n 
leverages muy altos hi = 0,044, 0,038 y 0,022 debidos a valores muy elevados del a-tocoferol, 
y sólo una de ellas está pobremente ajustada con ri = – 3,11. Para evaluar la influencia conjunta 
de dichas observaciones en la recta de regresión estimada, se calcularon los coeficientes del 
modelo excluyendo simultáneamente las 3 observaciones, que resultaron ser b0
( 
 
i) = – 1,93 y b1
( 
 
i) = 
0,0042. En comparación con las estimaciones (er or estándar) b0 = – 1,91 (0,055) y b1 = 0,0040 
(0,00032) obtenidas en la muestra completa (Ejemplo 10.14), la eliminación de estas 3 
observaciones provoca un cambio estandarizado en la constante de (– 1,93 + 1,91)/0,055 = 
– 0,36 y en la pendiente de (0,0042 – 0,0040)/0,00032 = 0,50. Esto es, la exclusión de dichas 
observaciones conlleva una disminución en la constante de aproximadamente un tercio de su 
error estándar y un aumento en la pendiente de la mitad del error estándar. Así, aunque estas 3 
observaciones no son extremadamente influyentes por sí mismas, el modelo sí parece ser 
sensible a la presencia de observaciones con alto leverage (Figura 10.16).
187
Regresión lineal simple
Pastor-Barriuso R.
 Figura 10.15
0,002 0,005 0,01 0,02 0,03
-3
-2
0
2
4
ri
hi
Figura 10.15 Gráfico de los residuos estandarizados ri frente a los leverages hi de la regresión lineal del 
colesterol HDL sobre el índice de masa corporal en el grupo control del estudio EURAMIC. El área de los 
círculos es proporcional a la distancia de Cook Di. Las líneas de referencia horizontales corresponden a 
ri = – 2, 0 y 2, y las verticales a hi = 2
 46
hi = 2
2
)1(
)(1
x
i
sn
xx
n −
−
+  
y toma valores entre 1/n y 1 con una media de  = 2/n. A diferencia de los outliers que 
corresponden a observaciones con valores atípicos de la variable respuesta, las 
observaciones con alto leverage son aquellas con valores extremos de la variable 
explicativa. El leverage juega un papel determinante en la distinción entre outliers y 
observaciones influyentes. Así, por ejemplo, el punto A de la Figura 10.14(a) es un 
outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresión 
estimada ya que ésta no varía sensiblemente tras excluir dicho punto. Esto se debe a que 
la observación A presenta un valor centrado de la variable explicativa (leverage muy 
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia 
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier 
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada, 
particularmente en la pendiente b1, debido a que este punto presenta un valor muy 
extremo de la variable explicativa. 
 [Figura 10.14 aproximadamente aquí] 
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de 
regresión cuanto mayor sea su distancia de Cook Di. En general, se recomienda 
examinar detenidamente aquellas observaciones con una distancia de Cook superior a 
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un 
residuo estandarizado alto ri = ±2. No obstante, la selección de un valor crítico para Di 
es un tanto arbitraria y es preferible evaluar la influencia relativa de cada observación 
en comparación con las restantes observaciones. Un gráfico útil es el diagrama de 
dispersión de los residuos estandarizados ri frente a los leverages hi, donde cada 
h  0,0075 y 3
 46
hi = 2
2
)1(
)(1
x
i
sn
xx
n −
−
+  
y oma v lores entre 1/n y 1 con una media de  = 2/n. A diferencia d los outliers que 
corresponden a bservaciones con valores atípicos de la v ri ble respuesta, las 
bservaciones con alto leverage son aquellas con valores extremos de la variable 
xplicativa. El leverage juega u  pap l determ ante  la dis inción entre outliers y 
observacione  influyentes. Así, or ejemplo, el p nto A de la Fig ra 10.14(a) es un 
outl er extremo (residuo muy el vado) que tiene poc  influencia en la recta de regresión 
estimada ya qu  é ta no varía sensiblemente tras excluir dicho punto. Esto se debe a que 
la ob rv ción A present  un va or centrado de la variable xplicativa (leverage muy 
bajo) que mitig  en gran medida su influencia sobr  las estimaciones b0 y b1 (distancia 
de Cook moderada). Por el c ntrario, el p nto B de la Figura 10.14(b) no es un outlier 
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada, 
particularm en la pendiente b1, debido a que este punto presenta un valor muy 
extremo de la variable explicativa. 
 [Figura 10.14 aproximadamente aquí] 
Una observación será ta o más influyente en las estimaciones b0 y b1 de la recta de 
regresión cuanto mayor sea su distancia d  Cook Di. En general, se recomienda 
exami ar det nidamente quellas bservac ones con una distancia de Cook superior a 
4/(n - 2), que corres onde, por ejemplo, a un punto con un leverage medio hi = 2/n y un 
esi uo estandarizad  alto ri = ±2. No obstant , la selección de un valor crítico para Di 
es un tanto arbitraria y es p eferib e evaluar la influencia relativa de cada observación 
en comparación c n las resta tes obse va i nes. Un gráfico útil es el diagrama de 
dispersión de los residu s estandarizados ri frente a los lever ges hi, donde cada 
h  0,0113. El je horiz ntal está en escala logarítmica 
para mejorar la representación gráfica.
 Figura 10.16
0,0015 0,003 0,005 0,01 0,02 0,04
-3
-2
-1
0
1
2
3
hi
ri
Figura 10.16 Gráfic  de los esidu s est darizados ri fr nte  l s l verages hi de la regresión lineal del lo-
garitmo del β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC. El área de los círculos 
es proporcional a la distancia de Cook Di. Las líneas de referencia horizontales corresponden a ri = – 2, 0 y 2, 
y las verticales a hi = 2
 46
hi = 2
2
)1(
)(1
x
i
sn
xx
n −
−
+  
y toma valores entre 1/n y 1 con una media de  = 2/n. A diferencia de los outliers que 
corresponden a observaciones con valores atípicos de la variable respuesta, las 
observaciones con alto leverage son aquellas con valores extremos de la variable 
explicativa. El leverage juega un papel determinante en la distinción entre outliers y 
observaciones influyentes. Así, por ejemplo, el punto A de la Figura 10.14(a) es un 
outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresión 
estimada ya que ésta no varía sensiblemente tras excluir dicho punto. Esto se debe a que 
la observación A presenta un valor centrado de la variable explicativa (leverage muy 
bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia 
de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier 
tan marcado pero tiene una influencia mucho mayor en la recta de regresión estimada, 
particularmente en la pendiente b1, debido a que este punto presenta un valor muy 
extremo de la variable explicativa. 
 [Figura 10.14 aproximadamente aquí] 
Una observación será tanto más influyente en las estimaciones b0 y b1 de la recta de 
regresión cuanto mayor sea su distancia de Cook Di. En general, se recomienda 
examinar detenidamente aquellas observaciones con una distancia de Cook superior a 
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un 
residuo estandarizado alto ri = ±2. No obstante, la selección de un valor crítico para Di 
es un tanto arbitraria y es preferible evaluar la influencia relativa de cada observación 
en comparación con las restantes observaciones. Un gráfico útil es el diagrama de 
dispersión de los residuos estandarizados ri frente a los leverages hi, donde cada 
h   0,0057 y 3
 46
hi = 2
2
)1(
)(1
x
i
sn
xx
n −
−
+  
y toma valores entre 1/n y 1 con una media e  = 2/n. A diferencia de los outliers que 
corr sponden a observaciones con valores típicos de la variable respuesta, las 
observaciones con alto leverage son aquellas con valores extremos de la variable 
explicativa. El leverage juega u  papel determinante en la distinción entre outliers y 
observaciones influy ntes. Así, por ejemplo, el punto A de l  Figura 10.14(a) es un 
outlier extremo (residuo muy l vado) que tiene poca influencia en la recta de regresión 
stimada y  que é ta no varía sensiblemente tras excluir dicho punto. Esto se debe a que 
la observ ción A p ese ta un valor centrado de la variabl  xplicativa (leverage muy 
bajo) que itiga en gran medida su influ ncia sobre las estimac ones b0 y b1 (distancia 
de Cook moderad ). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier 
tan marcado pero tiene una influencia mucho mayo  en la recta de regresión estimada, 
particularmente en la pendiente b1, d bido a que s e punto p esenta un valor muy 
extremo de la variable explicativa. 
 [Figura 10.14 aproximadamente aquí] 
Una observación será tanto más influyente e  las estimaciones b0 y b1 de la recta de 
regresión cuanto m yor sea su distancia de Cook Di. En general, se recomienda 
ex i ar detenidamente quellas observ ciones con una distancia de Cook superior a 
4/(n - 2), que corr sponde, por ejempl , a un punto con un leverage medio hi = 2/n y un 
residuo estandarizado alto ri = ±2. No obsta te, la selección de un valor crítico para Di 
es un tanto arbit aria y es preferible valuar  nflu ncia relativa de cada observación 
en comparación con las resta t s observaci nes. Un gráfico útil es el diagrama de 
dispersión de los residu estandarizados ri f ente a los lev rages hi, donde cada 
h   0,0086. El ej  horizontal está en scala logarítmica.
188
Correlación y regresión lineal simple 
Pastor-Barriuso R.
Tabla 10.5 Observaciones más influyentes en la regresión lineal del logaritmo del 
β-caroteno sobre el α-tocoferol en el grupo control del estudio EURAMIC.
Valores observados Valor predicho Medidas diagnósticas Estimaciones*
xi yi ŷi ri hi Di b0(  i) b1(  i)
626,8 1,74 0,60 1,57 0,044 0,057 – 1,90 0,0039
586,6 – 0,87 0,44 – 1,79 0,038 0,062 – 1,92 0,0041
475,1 – 2,30 – 0,01 – 3,11 0,022 0,107 – 1,93 0,0041
* Estimaciones de la constante y la pendiente de la recta de regresión tras excluir la observación correspondiente. 
Las estimaciones (y su error estándar) en la muestra completa de 700 controles fueron b0 = – 1,91 (0,055) 
y b1 = 0,0040 (0,00032).
En ocasiones resulta lícito eliminar las observaciones marcadamente influyentes, bien por 
tratarse de valores atípicos de la variable respuesta o bien por presentar valores extremos de la 
variable explicativa. En tal caso, las inferencias derivadas del modelo deben limitarse 
exclusivamente al rango de valores observados en el resto de la muestra. No obstante, el tratamiento 
de observaciones influyentes no pasa necesariamente por su exclusión del ajuste del modelo. Un 
procedimiento alternativo de uso generalizado consiste en encontrar una transformación de la 
variable explicativa o respuesta que permita reducir la influencia de dichas observaciones. Por un 
lado, las transformaciones de la variable respuesta afectan al residuo estandarizado pero no al 
leverage de una observación, por lo que sólo son potencialmente útiles para atenuar la influencia 
de outliers. Por el contrario, las transformaciones de la variable explicativa influyen tanto en los 
residuos como en los leverages, de tal forma que estas transformaciones también pueden utilizarse 
para mitigar la influencia de observaciones extremas en la variable explicativa.
Ejemplo 10.17 Con objeto de reducir la influencia de las observaciones con valores 
muy elevados del a-tocoferol (alto leverage) en el modelo de regresión lineal del logaritmo 
del b-caroteno sobre el a-tocoferol, se podría aplicar a su vez una transformación 
logarítmica a la variable explicativa. En la Figura 10.17(a) se muestra la recta de regresión 
estimada entre el logaritmo del b-caroteno y el logaritmo del a-tocoferol,
 49
[Figura 10.16 aproximadamente aquí] 
[Tabla 10.5 aproximadamente aquí] 
En ocasiones resulta lícito eliminar las observaciones marcadamente influyentes, 
bien por tratarse de valores atípicos de la variable respuesta o bien por presentar valores 
extremos de la variable explicativa. En tal caso, las inferencias derivadas del modelo 
deben limitarse exclusivamente al rango de valores observados en el resto de la muestra. 
No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su 
exclusión del ajuste del modelo. Un procedimiento alternativo de uso generalizado 
consiste en encontrar una transformación d  la variab e explicativa o r spuesta que 
permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones 
de la variable respuesta afectan al residuo estandarizado pero no al leverage de una 
observación, por lo que sólo son potencialmente útiles para atenuar la influencia de 
outliers. Por el contrario, las transformaciones de la variable explicativa influyen tanto 
en los residuos como en los leverages, de tal forma que estas transformaciones también 
pueden utilizarse para mitigar la influencia de observaciones extremas en la variable 
explicativa. 
Ejemplo 10.17 Con objeto de reducir la influencia de las observaciones con 
valores muy elevados del α-tocoferol (alto leverage) en el modelo de regresión 
lineal del logaritmo del β-caroteno sobre el α-tocoferol, se podría aplicar a su vez 
una transformación logarítmica a la variable explicativa. En la Figura 10.17(a) se 
muestra la recta de regresión estimada entre el logaritmo del β-caroteno y el 
l rit o del α-tocoferol, 
log Gy  =  3,76 + 0,51 log x, −
con errores estándar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados de la 
igualdad, se tiene que la media geométrica de la variable respuesta es una función potencial 
de la variable explicativa (panel b de la Figura 10.17),
 50
con errores estándar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados 
de la igualdad, se tiene que la media geométrica de la variable respuesta es una 
función potencial de la variable explicativa (panel b d  la Figur  10.17), 
Gy  = exp( 3,76 + 0,51 log x) = 0,023x
0,51 . 
Este modelo tiene entonces una interpretación simple en la escala original de 
ambas variables ya que, al aumentar c veces la variable explicativa, la razón de 
medias geométricas es constante e igual a 
51,0
51,0
023,0
)(023,0
)(
)(
x
cx
xy
cxy
G
G
=  = c0,51; 
es decir, a incrementos relativos en la variable explicativa les corresponde un 
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del 
50% (c = 1,50) en el nivel de α-tocoferol se asocian con un aumento del 
100(1,500,51 - 1) = 100(1,23 - 1) = 23% en la media geométrica de β-caroteno. El 
IC al 95% para la razón de medias geométricas viene dado por 
039,096,151,0)( 50,11975,0;6981 ⋅±± =bSEtbc  = (1,19; 1,27), 
de donde se concluye con una confianza del 95% que la media geométrica de β-
caroteno aumenta entre un 19 y un 27% por cada incremento del 50% en el nivel 
de α-tocoferol. 
La utilización de una transformación logarítmica para el α-tocoferol ha producido 
un doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten 
las observaciones con alto leverage (debidas, en este caso, a valores muy bajos del 
α-tocoferol), su influencia es ahora sensiblemente menor, como indica el tamaño 
de los círculos de la Figura 10.18(a). Por otro lado, la relación subyacente entre el 
−
Este modelo tiene entonces una interpretación simple en la escala original de ambas 
variables ya qu , al aumentar c veces la variable explicativa, la razón de medias geométricas 
es constante e igual a
 50
con errores estándar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados 
de la igualdad, se tiene que la media geométrica de la variable respuesta es una 
función potencial de la variable explicativa (panel b de la Figura 10.17), 
Gy  = exp(-3,76 + 0,51 log x) = 0,023x
0,51. 
Este modelo tiene entonces una interpretación simple en la escala original de 
ambas variables ya que, al aumentar c veces la variable explicativa, la razón de 
medias geométricas es constante e igual a 
51,0
51,0
023,0
)(023,0
)(
)(
x
cx
xy
cxy
G
G
=  = c0,51 ; 
es decir, a incrementos relativos en la variable explicativa les corresponde un 
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del 
50% (c = 1,50) en el nivel de α-tocoferol se asocian con un aumento del 
100(1,500,51 - 1) = 100(1,23 - 1) = 23% en la media geométrica de β-caroteno. El 
IC al 95% para la razón de medias geométricas viene dado por 
039,096,151,0)( 50,11975,0;6981 ⋅±± =bSEtbc  = (1,19; 1,27), 
de donde se concluye con una confianza del 95% que la media geométrica de β-
caroteno aumenta entre un 19 y un 27% por cada incremento del 50% en el nivel 
de α-tocoferol. 
La utilización de una transformación logarítmica para el α-tocoferol ha producido 
un doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten 
las observaciones con alto leverage (debidas, en este caso, a valores muy bajos del 
α-tocoferol), su influencia es ahora sensiblemente menor, como indica el tamaño 
de los círculos de la Figura 10.18(a). Por otro lado, la relación subyacente entre el 
es decir, a incrementos relativos en la variable explicativa les corresponde un mismo cambio 
relativo en la variable respuesta. Por ejemplo, incrementos del 50% (c = 1,50) en el nivel de 
a-tocoferol se asocian con un aumento del 100(1,500,51 – 1) = 100(1,23 – 1) = 23% en la media 
geo étrica de b-caroteno. El IC al 95% para la r zón d  medias geométricas vi ne dado por
 50
con errores estándar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados 
de la igualdad, se tiene que la media geométrica de la variable respuesta es una 
función potencial de la variable explicativa (panel b de la Figura 10.17), 
Gy  = exp(-3,76 + 0,51 log x) = 0,023x
0,51. 
Este model  tiene entonc s un  int rpretación simple en la escala orig al de 
ambas variables ya qu , al aument r c veces la variable explicativa, la razón  
medias geométricas es constante e igual a 
51,0
51,0
023,0
)(023,0
)(
)(
x
cx
xy
cxy
G
G
=  = c0,51; 
es decir, a incrementos relativos en la variable explicativa les corresponde un 
mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del 
50% (c = 1,50) en el nivel de α-tocoferol se asocian con un aumento del 
100(1,500,51 - 1) = 100(1,23 - 1) = 23% en la media geométrica de β-caroteno. El 
IC al 95% par  la r zón de medias geométricas viene dado por 
039,096,151,0)( 50,11975,0;6981 ⋅±± =bSEtbc  = (1,19; 1,27), 
de donde se concluye con una confianza del 95% que la media geométrica de β-
caroteno aument entre un 19 y un 27% por cada incremento del 50% en el nivel 
de α-tocoferol. 
La utilización de una transformación logarítmica para el α-tocoferol ha producido 
un doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten 
las observaciones con alto leverage (debidas, en este caso, a valores muy bajos del 
α-tocoferol), su influencia es ah ra sensiblemente m nor, como indica el tamaño 
de los círc los de la Fig ra 10.18(a). Por tro lado, la relación subyacente e tre el 
de onde se oncluye con una confianz  del 95% que la media geométrica de b-caroteno 
aumenta entre un 19 y un 27% por cada incremento del 50% en el nivel de a-tocoferol.
189
Regresión lineal simple
Pastor-Barriuso R.
La utilización de una transformación logarítmica para el a-tocoferol ha producido un 
doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten las 
observaciones con alto leverage (debidas, en este caso, a valores muy bajos del a-tocoferol), 
su influencia es ahora sensiblemente menor, como indica el tamaño de los círculos de la 
Figura 10.18(a). Por otro lado, la relación subyacente entre el a-tocoferol y el b-caroteno 
parece responder mejor al modelo potencial de la Figura 10.17(b), obtenido mediante 
transformaciones logarítmicas de ambas variables, que al modelo exponencial de la 
Figura 10.12(b), resultante de transformar únicamente el b-caroteno. Esta apreciación se 
fundamenta en que la curvatura de los residuos de la regresión lineal del logaritmo del 
b-caroteno sobre el a-tocoferol (panel b de la Figura 10.13) desaparece al transformar 
también el a-tocoferol (panel b de la Figura 10.18).
 Figura 10.17
2,5 3 4 5 6
-3
-2
-1
0
0,5
0 100 200 300 400
0
0,4
0,8
1,2
1,6
(b)
α-tocoferol (μg/g)
(a)
log(α-tocoferol)
lo
g(
β-c
ar
ot
en
o)
β-c
ar
ot
en
o 
(μ
g/
g)
Figura 10.17 Recta de regresión del logaritmo del β-caroteno sobre el logaritmo del α-tocoferol en el grupo 
control del estudio EURAMIC (a) y tendencia potencial resultante en la escala original de ambas variables (b).
 Figura 10.18
 
0,0015 0,003 0,005 0,01 0,02 0,04
-3
-2
-1
0
1
2
3
-2 -1,5 -1 -0,5
-0,5
0
0,5
-2 -1,5 -1 -0,5
0,5
1
1,5
sk
(c)
(b)
(a)
ri
hi kyˆ
kr
Figura 10.18 Gráfico de los residuos estandarizados ri frente a los leverages hi de la regresión lineal del 
logaritmo del β-caroteno sobre el logaritmo del α-tocoferol en el grupo control del estudio EURAMIC (a), 
donde el área de los círculos es proporcional a la distancia de Cook Di, y gráfico de las medias 
 37
residuos sean comparables a distintos niveles de la variable explicativa, es preferible 
realizar el diagnóstico del modelo mediante los residuos estandarizados 
ri = 
i
i
x
i
i
hs
e
sn
xx
n
s
e
−
=
−
−
−−
1
)1(
)(11 2
2
, 
que se obtienen de dividir los residuos ei por una estimación de su desviación típica. El 
término hi se conoce como el leverage de una observación y es una medida 
estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x  
que se tratará en el apartado siguiente. No obstante, si el tamaño muestral es grande y 
no hay valores muy extremos de la variable explicativa (observaciones con alto 
everage), ambos r iduos ei y ri se comportan de forma análoga. 
En determinados casos el gráfico de los residuos estandarizados ri frente a los valores 
predichos iyˆ  no permite apreciar claramente las posibles desviaciones de las asunciones 
de linealidad y homogeneidad de la varianza. Para obtener una representación más clara 
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamaño nk 
ordenados por valores crecientes de iyˆ  (por ejemplo, deciles) y calcular la media 

=
=
kn
i
i
k
k rn
r
1
1  
y la varianza 

=
=
kn
i
i
k
k rn
s
1
22 1  
de los residuos en cada uno de los grupos. La presencia de curvatura en el gráfico de los 
residuos o kr  frente a los valores predichos medios kyˆ  en los distintos grupos 
indicará falta de linealidad en la relación, mientras que la existencia de tendencia en el 
 (b) y
desviaciones típicas sk (c) de los residuos estandarizados por deciles de los valores predichos.
190
Correlación y regresión lineal simple 
Pastor-Barriuso R.
10.3.7 Variable explicativa dicotómica
Hasta el momento se han considerado únicamente modelos de regresión lineal con variables 
explicativas continuas. No obstante, las variables explicativas pueden ser tanto continuas como 
categóricas ya que la regresión lineal no establece ninguna asunción respecto a su distribución. 
En este apartado se revisa el ajuste e interpretación de modelos de regresión lineal simple con 
una única variable explicativa dicotómica, que clasifica a los sujetos en dos grupos o categorías 
según la presencia o ausencia de una determinada característica. El tratamiento de variables 
explicativas politómicas con tres o más categorías se abordará en el Tema 11 ya que estas 
variables requieren de múltiples variables indicadoras para las distintas categorías.
Las variables explicativas dicotómicas se introducen en los modelos de regresión mediante 
una única variable indicadora X, que toma distintos valores xi en cada una de las dos categorías 
de la variable. Aunque la elección de estos valores es arbitraria, la codificación más frecuente 
es xi = 1 en los n1 sujetos pertenecientes al primer grupo y 0 en los restantes n2 = n – n1 sujetos 
del segundo grupo. Bajo esta codificación, la interpretación del modelo de regresión lineal de 
la variable respuesta Y sobre la variable indicadora X es particularmente sencilla, dado que la 
estimación de la pendiente se reduce a
 52
en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificación, la 
interpretación del model  de regresión lineal de la variable respuesta Y sobre la variable 
indicadora X es particularmente sencilla, dado que la estimación de la pendiente se 
reduce a 
b1 = 211
2121
1
2
1 )()(
)(
))((
1
yyyy
n
nyy
nn
n
xx
yyxx n
i
in
i
i
n
i
ii
−=−=−=
−
−−



=
=
=  
y la constante a 
b0 = 221
1
1 )( yyyn
n
yxby =−−=− , 
donde 1y  y 2y  son las medias muestrales de la variable respuesta en la primera y 
segunda categoría de la variable explicativa, respectivamente. Así, la constante 
corresponde simplemente a la media de la variable respuesta en el segundo grupo (xi = 
0) y la pendiente a la diferencia de medias entre el primer (xi = 1) y el segundo grupo (xi 
= 0). Asimismo, el error estándar de la constante viene dado por 
SE(b0) = 
22
1
2
2 1
)1(
1
n
s
nn
n
n
s
sn
x
n
s
x
=+=
−
+  
y el error estándar de la pendiente por 
SE(b1) = 
2121
11
1 nn
s
nn
ns
ns
s
x
+==
−
, 
donde la varianza residual s2 no es más que la combinación de las varianzas 21s  y 
2
2s  de 
la variable respuesta en ambos grupos, 
y la constante a
 52
en los restantes n2 = n - n1 suj tos del s gundo grupo. Bajo esta codificació , la 
interpretación del modelo de regresión lineal e la vari ble re puesta Y sob e la variable 
indicadora X es particularmente sencilla, dado que la estimación de la pendiente se 
reduce a 
b1 = 211
2121
1
2
1 )()(
)(
))((
1
yyyy
n
nyy
nn
n
xx
yyxx n
i
in
i
i
n
i
ii
−=−=−=
−
−−



=
=
=  
y la constante a 
b0 = 221
1
1 )( yyyn
n
yxby =−−=− , 
donde 1y  y 2y  son las medias muestrales de la variable respuesta en la primera y 
segunda categoría de la variable explicativa, respectivam nte. Así, la constante 
corresponde simplemente a la media de la variable respuesta en el segundo grupo (xi = 
0) y la pendiente a la diferencia de medias entre el primer (xi = 1) y el segundo grupo (xi 
= 0). Asimismo, el error estándar de la constante viene dado por 
SE(b0) = 
22
1
2
2 1
)1(
1
n
s
nn
n
n
s
sn
x
n
s
x
=+=
−
+  
y el error estándar de la pendiente por 
SE(b1) = 
2121
11
1 nn
s
nn
ns
ns
s
x
+==
−
, 
donde la varianza residual s2 no es más que la combinación de las varianzas 21s  y 
2
2s  de 
la variable respuesta en ambos grupos, 
donde 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx   1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la media de la muestra resultante es igual a la media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
1 y 
 
 6
antioxida t s en el riesgo de des rollar un prime  infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0 89 1 58 0 7 29 1 42 0,84, 
1 06 0 87, 1,96 y 1,53 mmol/l. La media de los niv les d l colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio d  origen (traslación). Si se suma u  constante  cada un  de los datos 
de una muestra, la medi de la muestra resultante es igual a la media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio d  orig n que 
se realiza con frecuencia es el centrado de l  variable, que consist  en restar a 
c da valor de la muestra su media. La media de un  variable centrada se á, por 
tanto, igual a 0. 
• Cambio de escala (unidade ). Si se multiplic  cada un  de los datos de una 
muestra por u a constante, la medi de la muestra resultante es igual a la media 
inicia  por la constante utilizada; si y  = cxi, entonces y  = c x . 
• Cambio simultáneo d  origen y escala. Si se multiplic  cada un  de los datos de 
una muestra por u a constante y a  resultado e le suma tra constante, la media 
de la muestra resultante es igual a la media inicia  por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 P ra transformar los valores d l colesterol HDL de mmol/l a mg/dl se 
multi lica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media d l colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mm l/l como 1,223⋅38,8 = 47,45 mg/dl. 
2 son las med s muestrales de la variable respuesta en la primera y segunda 
categoría de la variable explicativa, respectivamente. Así, a constan e corresponde simplemente 
a la media de la variable respuesta en el segundo grupo (xi = 0) y la pendiente a la diferencia de 
medias entre el primer (xi = 1) y el segundo grupo (xi = 0). Asimismo, el error estándar de la 
constante viene dado por
 52
en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificación, la 
interpretación del modelo de regresión lineal de la variable respuesta Y sobre la variable 
indicadora X es particularmente sencilla, dado que la estimación de la pendiente se 
reduce a 
b1 = 211
2121
1
2
1 )()(
)(
))((
1
yyyy
n
nyy
n
n
xx
yyxx n
i
in
i
i
n
i
ii
−=−=−=
−
−−



=
=
=  
y la constante a 
b0 = 221
1
1 )( yyyn
n
yxby =−−=− , 
donde 1y  y 2y  son las medias muestrales de la variable respuesta en la primera y 
segunda categoría de la variable explicativa, respectivamente. Así, la constante 
corresponde simplemente a la media de la variable respuesta en el segundo grupo (xi = 
0) y la pendiente a la diferencia de medias entre el primer (xi = 1) y el segundo grupo (xi 
= 0). Asimismo, el error estándar de la constante viene dado por 
SE(b0) = 
22
1
2
2 1
)1(
1
n
s
nn
n
n
s
sn
x
n
s
x
=+=
−
+  
y el rror estánda  d  l  p ndiente por 
SE(b1) = 
2121
11
1 n
s
nn
ns
ns
s
x
+==
−
, 
donde la varianza residual s2 no es más que la combinación de las varianzas 21s  y 
2
2s  de 
la variable respuesta en ambos grupos, 
y el error estándar de la pendiente por
 52
en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificación, la 
interpretación del modelo de regresión lineal de la variable respuesta Y sobre la variable 
indicadora X es p rticularmente sencilla, dado que la estimación de la pendiente se 
reduce  
b1 = 211
2121
1
2
1 )()(
)(
))((
1
yyyy
n
nyy
nn
n
xx
yyxx n
i
in
i
i
n
i
ii
−=−=−=
−
−−



=
=
=  
y la constante a 
b0 = 221
1
1 )( yyyn
n
yxby =−−=− , 
donde 1y  y 2y  son las medias muestrales de la variable respuesta en la primera y 
segunda categoría de la vari ble explicativa, respectivam nte. Así, la constante 
corresponde simplemente a la media de la variable respuesta en el segundo grupo (xi = 
0) y la pendiente a la diferencia de medias entre el primer (xi = 1) y el segundo grupo (xi 
= 0). Asimismo, el error stándar de l  constante viene dado por 
SE(b0) = 
22
1
2
2 1
)1(
1
n
s
nn
n
n
s
sn
x
n
s
x
=+=
−
+  
y el error estándar de la pendiente por 
SE(b1) = 
2121
11
1 nn
s
nn
ns
ns
s
x
+==
−
, 
donde la varianza residual s2 no es más que la combinación de las varianzas 21s  y 
2
2s  de 
la variable respuesta en ambos grupos, 
donde la varianza residual s2 no es más que la combinación de las varianzas s12  y s22  de la variable 
respuesta en a bos grupos,
 53
 s2 = 
=
−−
−
n
i
ii xbbyn 1
2
10 )(2
1  
 = 
2
)1()1(
2
)()(
2
22
2
111
2
2
1
2
1
21
−
−+−
=
−
−+− 
==
n
snsn
n
yyyy
n
j
j
n
i
i
. 
De e tos resultados se desprende que la pendiente b1 y su error estándar SE(b1) 
coinciden exactamente con la estimación puntual y el error estándar de diferencia de 
medias en distribuciones con igual varianza (véase Apartado 6.3.1). Puede concluirse, 
por tanto, que las inferencias relativas a la pendiente de un modelo de regresión lineal 
con una única variable explicativa dicotómica son algebraicamente equivalentes a la 
comparación de medias mediante el test de la t de Student para muestras 
independientes con igual varianza. 
Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los 
casos de infarto de miocardio y los controles libres de la enfermedad, se podría 
ajustar un modelo de regresión lineal simple del colesterol HDL sobre la variable 
indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la 
muestra completa de n1 = 462 casos de infarto y n2 = 539 controles del estudio 
EURAMIC con valores del colesterol HDL. La recta de regresión estimada entre 
el colesterol HDL y la variable indicadora del estatus caso/control es 
yˆ  = 1,09 - 0,11x, 
con una desviación típica residual del colesterol HDL de s = 0,27 mmol/l que, 
debido a la hipótesis de homogeneidad de la varianza, se asume constante en 
casos y controles. El error estándar de la constante es SE(b0) = 0,012 y de la 
pendiente SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del 
colesterol HDL en los sujetos con valor 0 de la variable indicadora; esto es, el 
191
Referencias
Pastor-Barriuso R.
De estos resultados se desprende que la pendiente b1 y su error estándar SE(b1) coinciden 
exactamente con la estimación puntual y el error estándar de la diferencia de medias en 
distribuciones con igual varianza (véase Apartado 6.3.1). Puede concluirse, por tanto, que las 
inferencias relativas a la pendiente de un modelo de regresión lineal con una única variable 
explicativa dicotómica son algebraicamente equivalentes a la comparación de medias mediante 
el test de la t de Student para muestras independientes con igual varianza.
Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los casos de 
infarto de miocardio y los controles libres de la enfermedad, se podría ajustar un modelo 
de regresión lineal simple del colesterol HDL sobre la variable indicadora del estatus 
caso/control (xi = 1 en los casos y 0 en los controles) en la muestra completa de n1 = 462 
casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol 
HDL. La recta de regresión estimada entre el colesterol HDL y la variable indicadora del 
estatus caso/control es
 53
 s2 = 
=
−−
−
n
i
ii xbbyn 1
2
10 )(2
1  
  = 
2
)1()1(
2
)()(
2
22
2
111
2
2
1
2
1
21
−
−+−
=
−
−+− 
==
n
snsn
n
yyyy
n
j
j
n
i
i
. 
De estos resultados se desprende que la pendiente b1 y su error estándar SE(b1) 
coinciden exactamente con la estimación puntual y el error estándar de diferencia de 
medias en distribuciones con igual varianza (véase Apartado 6.3.1). Puede concluirse, 
por tanto, que las inferencias relativas a la pendiente de un modelo de regresión lineal 
con una única variable explicativa dicotómica son algebraicamente equivalentes a la 
comparación de medias mediante el test de la t de Student para muestras 
independientes con igual varianza. 
Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los 
casos de infarto de miocardio y los controles libres de la enfermedad, se podría 
ajustar un modelo de re resión lineal simple del colester l HDL sobre la variable 
indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la 
muestra co pleta de n1 = 462 caso de infarto y n2 = 539 controles del estudio 
EURAMIC con valores del colesterol HDL. La recta de regresión esti ada entre 
el colesterol HDL y la variable indicadora del estatus caso/control es 
yˆ  = 1,09  0,11x, 
con una desviación típica residual del colesterol HDL de s = 0,27 mmol/l que, 
debido a la hipótesis de homogeneidad de la varianza, se asume constante en 
casos y controles. El error estándar de la constante es SE(b0) = 0,012 y de la 
pendiente SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del 
colesterol HDL en los sujetos con valor 0 de la variable indicadora; esto es, el 
−
con una desviación típica residual del colesterol HDL de s = 0,27 mmol/l que, debido a la 
hipótesis de homogeneidad de l  varianza, se asume constante en casos y controles. El 
error estándar de la constante es SE(b0) = 0,012 y de la pendiente SE(b1) = 0,017. La 
constante b0 = 1,09 mmol/l estima la media del colesterol HDL en los suj tos con valor 0 
de la variable indicadora; esto es, el valor esperado del colesterol HDL en los controles 
libre  de la enf rmedad, cuyo IC l 95% es
 54
valor perado l colesterol HDL en los controles libres de la enfermedad, cuyo 
IC al 95% es 
b0 ± t999;0,975 SE(b0) = 1,09 ± 1,96 ⋅0,012 = (1,06; 1,11). 
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel 
medio de colesterol HDL por cada incremento de una unidad en la variable 
indicadora, lo que equivale a la diferencia de medias entre casos (xi = 1) y 
controles (xi = 0). El IC al 95% para la diferencia de medias subyacente viene 
dado por 
b1 ± t999;0,975SE(b1) = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08) 
y el contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante 
el estadístico 
t = 
017,0
11,0
)( 1
1 −
=
bSE
b
 = -6,35 
resulta en un valor P = 2P(t999 ≤ -6,35) ≈ 2Φ(-6,35) < 0,001. Así, los casos de 
infarto de miocardio presentan un nivel medio de colesterol HDL 
significativamente inferior que los sujetos libres de la enfermedad (P < 0,001), 
con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,08−0,14 mmol/l). Notar, 
por último, que estos resultados son exactamente iguales a los obtenidos mediante 
el test de la t de Student para muestras independientes con igual varianza 
(Ejemplos 6.7 y 6.8). 
10.4 REFERENCIAS 
1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 
Fourth Edition. Oxford: Blackwell Science, 2002. 
Por otra parte, la pendiente b1 = – 0,11 mmol/l determina el cambio en el nivel medio de 
L por cada incremento de una unid d n la variabl  indicadora, lo que 
equivale a la diferencia de medias entre casos (xi = 1) y controles (xi = 0). El IC al 95% 
para la iferencia de medias subyacente viene ado por
 54
valor esperado del colesterol HDL en los controles libres de la enfermedad, cuyo 
IC al 95% es 
b0 ± t999;0,975SE(b0) = 1,09 ± 1,96⋅0,012 = (1,06; 1,11). 
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel 
medio de colesterol HDL por cada incremento de una unidad en la variable 
indicadora, lo que equivale a la diferencia de medias entre casos (xi = 1) y 
controles (xi = 0). El IC al 95% para la diferencia de medias subyacente viene 
dado por 
b1 ± t999;0,975 SE(b1) =  0,11 ± 1,96⋅0,017 = ( 0,14; 0,08) 
y el contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante 
el estadístico 
t = 
017,0
11,0
)( 1
1 −
=
bSE
b
 = -6,35 
resulta en un valor P = 2P(t999 ≤ -6,35) ≈ 2Φ(-6,35) < 0,001. Así, los casos de 
infarto de miocardio presentan un nivel medio de colesterol HDL 
significativamente inferior que los sujetos libres de la enfermedad (P < 0,001), 
con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,08−0,14 mmol/l). Notar, 
por último, que estos resultados son exactamente iguales a los obtenidos mediante 
el test de la t de Student para muestras independientes con igual varianza 
(Ejemplos 6.7 y 6.8). 
10.4 REFERENCIAS 
1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 
Fourth Edition. Oxford: Blackwell Science, 2002. 
− − −
y el contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante el 
estadístico
 54
valor esperado del colesterol HDL en los controles libr s de la enfe medad, cuyo 
IC al 95% es 
b0 ± t999;0,975SE(b0) = 1,09 ± 1,96⋅0,012 = (1,06; 1,11). 
Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel 
medio de colesterol HDL por cada incremento de una unidad en la v riable 
ind c dor , lo que equivale a la diferencia de media  ntre casos (xi = 1) y 
ontrol s (xi = 0) IC al 95% p ra la diferencia d  medias subyacente viene 
dado por 
b1 ± t999;0,975SE(b1) = -0,11 ± 1,96⋅0,017 = (-0,14; -0,08) 
y el contraste bilateral de la hipótesis de igualdad de medias H0: β1 = 0 mediante 
el stadístico 
t = 
017,0
11,0
)( 1
1 −
=
bSE
b
 =  6,35  
resulta en un valor P = 2P(t999 ≤ -6,35  ≈ 2Φ(-6,35) < 0,001. Así, los casos de 
infarto de miocardio presentan un nivel medio de colesterol HDL 
significativamente inferior que los sujetos libres de la enfermedad (P < 0,001), 
con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,08−0,14 mmol/l). Notar, 
por último, que estos resultados son exactamente iguales a los obtenidos mediante 
el test de la t de Student para muestras independientes con igual varianza 
(Ejemplos 6.7 y 6.8). 
10.4 REFERENCIAS 
1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 
Fourth Edition. Oxford: Blackwell cience, 2002. 
−
resulta en un valor P = 2P(t999 ≤ – 6,35) ≈ 2F(– 6,35) < 0,001. Así, los casos de infarto de 
miocardio presentan un nivel medio de colesterol HDL significativamente inferior que los 
sujetos libres de la enfermedad (P < 0,001), con una diferencia estimada en 0,11 mmol/l 
(IC al 95% 0,08-0,14 mmol/l). Notar, por último, qu  est s resultados son exactamente 
iguales a los obtenidos mediante el test de la t de Student para muestras independientes 
con igu l rianza (Ej mplos 6.7 y 6.8).
10.4 REFERENCIAS
 1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth 
Edition. Oxford: Blackwell Science, 2002.
 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Englewood Cliffs, NJ: Prentice Hall, 1977.
192
Correlación y regresión lineal simple 
Pastor-Barriuso R.
 3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury 
Press, 2002.
 4. Colton T. Estadística en Medicina. Barcelona: Salvat, 1979.
 5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley 
& Sons, 1999.
 6. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley 
& Sons, 1998.
 7. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and 
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
 8. Peña D. Estadística: Modelos y Métodos, Volumen 2, Modelos Lineales y Series 
Temporales. Madrid: Alianza Editorial, 1987.
 9. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 
2006.
10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley 
& Sons, 2003.
11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State 
University Press, 1989.
12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical 
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons, 
2005.
193Pastor-Barriuso R.
TEMA 11
REGRESIÓN LINEAL MÚLTIPLE
11.1 INTRODUCCIÓN
En el Tema 10 se presentó la regresión lineal simple como una herramienta para analizar la 
relación lineal entre una variable respuesta continua y una única variable explicativa. En la 
práctica, sin embargo, suele contarse con más de una variable explicativa y el interés se centra 
en estudiar la relación de cada una de las variables explicativas con la variable respuesta, 
teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se 
ocupa la regresión lineal múltiple.
En presencia de múltiples variables explicativas asociadas con la variable respuesta, la 
utilización de distintos modelos de regresión lineal simple para cada variable explicativa da 
lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la 
variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersión 
entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y 
círculos los valores de otra variable explicativa dicotómica X2. En la Figura 11.1(a), la variable 
explicativa X2 está asociada con la variable respuesta Y (los valores de Y tienden a ser mayores 
en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se 
distribuyen por igual en ambas categorías de X2). Si se ignora la variable X2 y se ajusta un 
modelo de regresión lineal simple entre X1 e Y a toda la nube de puntos (línea gruesa), se 
obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (líneas finas) 
y, en consecuencia, la asociación entre X1 e Y no estará confundida por X2. No obstante, la 
varianza residual alrededor de la recta de regresión es mayor al ignorar la variable explicativa 
X2, lo que ocasionará un mayor error estándar en la estimación de la pendiente. Por el contrario, 
en la Figura 11.1(b), la variable explicativa X2 está asociada de forma independiente con la 
variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores 
de la otra variable difieren según categorías de X2). La pendiente de la recta de regresión 
simple entre X1 e Y (línea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2 
permanece constante (líneas finas). Esto es debido a que las variables explicativas X1 y X2 
están correlacionadas y la regresión lineal simple estimará los efectos confundidos de ambas 
variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su 
asociación con X2.
La principal conclusión del ejemplo anterior es que, si las variables explicativas están 
relacionadas entre sí, lo que sucede con cierta frecuencia, la regresión lineal simple puede 
proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable 
explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas 
deben estudiarse conjuntamente mediante modelos de regresión lineal múltiple. Estos modelos 
son una extensión de la regresión lineal simple a la presencia de dos o más variables explicativas, 
que pueden ser tanto continuas como categóricas. Como veremos a continuación, la regresión 
lineal múltiple permite estimar el efecto independiente de cada variable explicativa, 
manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los 
análisis epidemiológicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto 
de cada variable explicativa.
194
Regresión lineal múltiple
Pastor-Barriuso R.
 Figura 11.1
x1
(a) (b)
y
x1
Figura 11.1 Diagramas de dispersión de la variable respuesta Y frente a la variable explicativa X1 para 
distintos valores (puntos y círculos) de otra variable explicativa dicotómica X2 asociada con Y pero no con X1 
(panel a) y asociada tanto con Y como con X1 (panel b). Las líneas gruesas representan las rectas de regresión 
simple entre X1 e Y ignorando la variable X2 y las líneas finas corresponden a las rectas de regresión para 
cada valor de X2.
11.2 ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE
El modelo de regresión lineal múltiple asume que la media de la variable respuesta Y puede 
expresarse como una combinación lineal de las variables explicativas X1, ..., Xp; es decir, para 
valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de la variable respuesta es
 3
11.2 ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE 
El modelo de regresión lineal múltiple asume que la media de la variable respuesta Y 
puede expresarse como una combinación lineal de las variables explicativas X1, ..., Xp; 
es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de 
la variable respuesta es 
E(Y|x1, ..., xp) = β0 + β1x1 + … + βpxp = 
=
+
p
j
jj x
1
0 ββ . 
La constante β0 corresponde al valor esperado de Y cuando todas las variables 
explicativas son 0, E(Y|0, …, 0) = β0 + β10 + … + βp0 = β0; mientras que cada 
coeficiente de regresión βj determina el cambio esperado en Y por cada incremento de 
una unidad en Xj, manteniendo constantes el resto de variables explicativas, 
 E(Y|x1, ..., xj-1, xj + 1, xj+1, ..., xp) - E(Y|x1, ..., xp) 
  = β0 + β1x1 + … + βj-1xj-1 + βj(xj + 1) + βj+1xj+1 + … + βpxp 
   - (β0 + β1x1 + … + βpxp) = βj. 
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar 
confundidos por las demás variables explicativas, ya que éstas permanecen constantes. 
En este sentido, y a diferencia de la regresión simple, los coeficientes de regresión lineal 
múltiple facilitan el efecto independiente de cada variable explicativa sobre la variable 
respuesta ajustando o controlando por posibles diferencias en la distribución de las 
restantes variables explicativas incluidas en el modelo. 
Para completar la estructura general de la regresión lineal múltiple, se asume que los 
valores individuales de la variable respuesta se distribuyen normalmente alrededor del 
valor esperado definido por la ecuación de regresión, 
Y|x1, ..., xp ~ N(β0 + β1x1 + … + βpxp, σ 2), 
La constante β0 corresponde al valor esperado de Y cuando todas las variables explicativas 
son 0, E(Y|0, …, 0) = β0 + β10 + … + βp0 = β0; mi ntras que ca  coeficiente de regresión βj 
determina el cambio esperado en Y por cada incremento de una unidad en Xj, manteniendo 
constantes el resto de variables explicativas,
 3
11.2 ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE 
El modelo de regresión lineal múltiple asume que la media de la variable respuesta Y 
puede expresarse como una combinación lineal de las variables explicativas X1, ..., Xp; 
es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de 
la variable respuesta es 
E(Y|x1, ..., xp) = β0 + β1x1 + … + βpxp = 
=
+
p
j
jj x
1
0 ββ . 
La constante β0 corresponde al valor esperado de Y cuando todas las variables 
explicativas son 0, E(Y|0, …, 0) = β0 + β10 + … + βp0 = β0; mientras que cada 
coeficiente de regresión βj determina el cambio esperado en Y por cada incremento de 
una unidad en Xj, manteniendo constantes el resto de variables explicativas, 
 E(Y|x1, ..., xj 1, xj + 1, xj+1, ..., xp)  E(Y|x1, ..., xp) 
  = β0 + β1x1 + … + β j 1xj 1 + β j(xj + 1) + β j+1xj+1  + … + βpxp
 
  
 (β0 + β1x1 + … + βpxp) = β j. 
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar 
confundidos por las demás variables explicativas, ya que éstas permanecen constantes. 
En este sentido, y a diferencia de la regresión simple, los coeficientes de regresión lineal 
múltiple facilitan el efecto independiente de cada variable explicativa sobre la variable 
respuesta ajustando o controlando por posibles diferencias en la distribución de las 
restantes variables explicativas incluidas en el modelo. 
Para completar la estructura general de la regresión lineal múltiple, se asume que los 
valores individuales de la variable respuesta se distribuyen normalmente alrededor del 
valor esperado definido por la ecuación de regresión, 
Y|x1, ..., xp ~ N(β0 + β1x1 + … + βpxp, σ 2), 
–
–
–
– –
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar 
confundidos por las demás variables explicativas, ya que éstas permanecen constantes. En este 
sentido, y a diferencia de la regresión simple, los coeficientes de regresión lineal múltiple 
facilitan el efecto independiente de cada variable explicativa sobre la variable respuesta 
ajustando o controlando por posibles diferencias en la distribución de las restantes variables 
explicativas incluidas en el modelo.
Para completar la estructura general d  la regre ón ineal múltipl , s  asum  que los valores 
individuales de la variable respuesta se distribuyen normalm nte alrededor del valor esperado 
definido or l  ecuación de regresió ,
 3
11.2 ESTRUCTURA DE LA REGRESIÓN LINEAL MÚLTIPLE 
El modelo de regresión lineal múltiple asume que la media de la variable respuesta Y 
puede expresarse como una combinación lineal de las variables explicativas X1, ..., Xp; 
es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de 
la variable respuesta es 
E(Y|x1, ..., xp) = β0 + β1x1 + … + βpxp = 
=
+
p
j
jj x
1
0 ββ . 
La constante β0 corresponde al valor esperado de Y cuando todas las variables 
explicativas son 0, E(Y|0, …, 0) = β0 + β10 + … + βp0 = β0; mientras que cada 
coeficiente de regresión βj determina el cambio esperado en Y por cada incremento de 
una unidad en Xj, manteniendo constantes el resto de variables explicativas, 
 E(Y|x1, ..., xj-1, xj + 1, xj+1, ..., xp) - E(Y|x1, ..., xp) 
  = β0 + β1x1 + … + β j-1xj-1 + β j(xj + 1) + β j+1xj+1  + … + βpxp 
   - (β0 + β1x1 + … + βpxp) = β j. 
Así, los coeficientes de regresión asociados a cada variable explicativa no pueden estar 
co fundidos por las demás variables explicativas, ya que éstas p rmanecen constantes. 
En este sentido, y a diferencia de la regresión simple, los coeficientes de regresión lineal 
múltiple facilitan el efecto independiente de cada variable explicativa sobre la variable 
respuesta ajustando o controlando por posibles diferencias en la distribución de las 
restantes variables explicativas incluidas en el modelo. 
Para completar la estructura general de la regresión lineal múltiple, se asume que los 
valores individuales de la variable respuesta se distribuyen normalmente alrededor del 
valor esperado definido po  la ecuación de regresión, 
Y|x1, ..., xp ~ N(β0 + β1x1 + … + βpxp, σ  2), 
o equival ntemente
 4
o equivalentemente 
Y = β0 + β1x1 + … + βpxp + ε, 
d nde el error aleatorio ε en la variable respuesta sigue una distribución normal con 
media 0 y varianza σ 2 para cualquier valor de las variables explicativas. De esta 
especificación del modelo de regresión lineal múltiple, se desprenden las siguientes 
asunciones: 
• Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con 
cada variable explicativa Xj, de tal forma que para valores fijos de las demás 
variables explicativas, cambios de magnitud constante a distintos niveles de Xj se 
asocian con un mismo cambio en la media de Y. 
• Aditividad: El efecto conjunto de varias variables explicativas sobre la variable 
respuesta es la suma de sus efectos independientes. 
• Homogeneidad de la varianza: La varianza de la variable respuesta permanece 
constante para cualquier valor de las variables explicativas. 
• Normalidad: Dados unos valores fijos de las variables explicativas, la variable 
respuesta se distribuye de forma normal.  
En el caso de dos variables explicativas, estas asunciones pueden representarse 
mediante el gráfico tridimensional de la Figura 11.2. Debido a las hipótesis de 
linealidad y aditividad, los valores esperados de Y para cualquier combinación de X1 y 
X2 se sitúan en el plano definido por la ecuación de regresión β0 + β1x1 + β2x2. 
Asimismo, por las asunciones de homogeneidad de la varianza y normalidad, los 
valores individuales de Y para cualquier combinación de X1 y X2 se distribuyen de forma 
normal y con la misma varianza alrededor de dicho plano de regresión. Las hipótesis de 
linealidad y homogeneidad de la varianza se evaluarán utilizando procedimientos de 
195
Estructura de la regresión lineal múltiple
Pastor-Barriuso R.
donde el error aleatorio ε en la variable respuesta sigue una distribución normal con media 0 y 
varianza σ 2 para cualquier valor de las variables explicativas. De esta especificación del modelo 
de regresión lineal múltiple, se desprenden las siguientes asunciones:
 y Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada 
variable explicativa Xj, de tal forma que para valores fijos de las demás variables 
explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un 
mismo cambio en la media de Y.
 y Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta 
es la suma de sus efectos independientes.
 y Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante 
para cualquier valor de las variables explicativas.
 y Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta 
se distribuye de forma normal. 
En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el 
gráfico tridimensional de la Figura 11.2. Debido a las hipótesis de linealidad y aditividad, los 
valores esperados de Y para cualquier combinación de X1 y X2 se sitúan en el plano definido por 
la ecuación de regresión β0 + β1x1 + β2x2. Asimismo, por las asunciones de homogeneidad de la 
varianza y normalidad, los valores individuales de Y para cualquier combinación de X1 y X2 se 
distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresión. 
Las hipótesis de linealidad y homogeneidad de la varianza se evaluarán utilizando procedimientos 
de diagnóstico gráfico similares a los empleados en regresión lineal simple. Las desviaciones 
de la asunción de aditividad se explorarán, por su parte, mediante la inclusión de términos de 
interacción entre las variables explicativas.
Y
X1
X2
xi1 xj1
xj2
xi2
Plano de regresión:
E(Y|x1, x2) = 0 + 1x1 + 2x2
0 + 1xj1 + 2xj2
0 + 1xi1 + 2xi2
Figura 11.2 Asunciones subyacentes al modelo de regresión lineal múltiple con dos variables explicativas.
196
Regresión lineal múltiple
Pastor-Barriuso R.
A estas asunciones, análogas a las utilizadas en regresión lineal simple, se añaden dos nuevas 
condiciones necesarias para poder estimar la ecuación de regresión:
 y Independencia lineal de las variables explicativas: Ninguna variable explicativa es una 
combinación lineal exacta de las demás ya que, en tal caso, sus efectos individuales sobre 
la variable respuesta serían indiscernibles.
Ejemplo 11.1 Supongamos que un modelo de regresión lineal múltiple incluye como 
variables explicativas la presión arterial sistólica X1 y la presión arterial diastólica X2,
 5
diagnóstico gráfico similares a los empleados en regresión lineal simple. Las 
desviaciones de la asunción de aditividad se explorarán, por su parte, mediante la 
inclusión de términos de interacción entre las variables explicativas. 
[Figura 11.2 aproximadamente aquí] 
A estas asunciones, análogas a las utilizadas en regresión lineal simple, se añaden 
dos nuevas condiciones necesarias para poder estimar la ecuación de regresión: 
• Independencia lineal de las variables explicativas: Ninguna variable explicativa 
es una combinación lineal exacta de las demás ya que, en tal caso, sus efectos 
individuales sobre la variable respuesta serían indiscernibles. 
Ejemplo 11.1 Supongamos que un modelo de regresión lineal múltiple incluye 
como variables explicativas la presión arterial sistólica X1 y la presión arterial 
diastólica X2, 
Y = β0 + β1x1 + β2x2 + ε. 
Si se añade además la presión del pulso, definida como la diferencia entre la 
presión arterial sistólica y diastólica X3 = X1 - X2, el modelo resultante puede 
reescribirse como 
 Y = α0 + α1x1 + α2x2 + α3x3 + ε 
  = α0 + α1x1 + α2x2 + α3(x1 - x2) + ε 
  = α0 + (α1 + α3)x1 + (α2 - α3)x2 + ε, 
que es algebraicamente equivalente al modelo anterior con β1 = α1 + α3 y β2 = α2 
- α3. Existen, por tanto, infinitas combinaciones de los parámetros α1, α2 y α3 que 
dan lugar a la misma ecuación de regresión (para cualquier valor de α3, basta 
Si se añade además la presión del pulso, definida como la diferencia entre la presión 
arteri l sistólica y di stólica X3 = X1 – X2, l model  resultant  puede reescribirse como
 5
diagnóstico gráfico similares a los empleados en regresión lineal simple. Las 
desviaciones de la asunción de aditividad se explorarán, por su parte, mediante la 
inclusión de términos de interacción entre las variables explicativas. 
[Figura 11.2 aproximadamente aquí] 
A estas asunciones, análogas a las utilizadas en regresión lineal simple, se añaden 
dos nuevas condiciones necesarias para poder estimar la ecuación de regresión: 
• Independencia li eal de las variables explicativas: Ninguna variable explicativa 
es una combinación lineal exacta de las demás ya que, en tal caso, sus efectos 
individuales sobre la variable respuesta serían indiscernibles. 
Ejemplo 11.1 Supongamos que un modelo de regresión lineal múltiple incluye 
como variables explicativas la presión arterial sistólica X1 y la presión arterial 
diastólica X2, 
Y = β0 + β1x1 + β2x2 + ε. 
Si se añade además la presión del pulso, definida como la diferencia entre la 
presión arterial sistólica y diastólica X3 = X1 - X2, el modelo resultante puede 
reescribirse como 
 Y = α 0 + α 1x1 + α 2x2 + α 3x3 + ε 
  = α 0 + α 1x1 + α 2x2 + α 3(x1 x2) + ε
  = α 0 + (α 1 + α 3)x1 + (α 2 α 3)x2 + ε, 
que es algebraicamente equivalente al modelo anterior con β1 = α1 + α3 y β2 = α2 
- α3. Existen, por tanto, infinitas combinaciones de los parámetros α1, α2 y α3 que 
dan lugar a la misma ecuación de regresión (para cualquier valor de α3, basta 
–
–
que es algebraicamente equivalente al modelo anterior con β1 = α1 + α3 y β2 = α2 – α3. 
Existen, por tanto, infinitas combinaciones de los parámetros α1, α2 y α3 que dan lugar a 
la misma ecuación de regresión (para cualquier valor de α3, basta tomar α1 = β1 – α3 y α2 
= β2 + α3 para obtener los mismos coeficientes de regresión β1 y β2). Así, como la presión 
del pulso es una combinación lineal exacta de la presión arterial sistólica y diastólica, no 
es posible determinar unívocamente los efectos independientes de cada una de estas tres 
variables explicativas.
 y El número de observaciones n debe ser superior o igual al número de coeficientes p + 1 de 
la ecuación de regresión. Este requerimiento resulta obvio en el caso de p = 2 variables 
explicativas (véase Figura 11.2), ya que para determinar el plano de regresión se necesitan 
al menos n = 3 puntos u observaciones no alineadas.
Cabe destacar que estas dos condiciones son requerimientos teóricos mínimos para estimar 
la ecuación de regresión. En la práctica, sin embargo, el número de observaciones ha de ser muy 
superior al número de coeficientes de regresión para poder obtener estimaciones precisas de 
estos coeficientes y no incurrir en problemas de sobreajuste (esto es, modelar el error aleatorio 
en lugar de la relación subyacente). Un criterio habitual es no incluir más variables explicativas 
que el número de observaciones dividido por 10. Asimismo, aunque las variables explicativas 
no presenten una correlación lineal perfecta, es importante evaluar su grado de colinealidad. Si 
las variables explicativas son muy dependientes entre sí, resulta muy difícil separar sus efectos 
e identificar la contribución individual de cada una de ellas, lo que provocará estimaciones 
inestables de los coeficientes de regresión. Este problema se conoce como multicolinealidad y 
se tratará más adelante en el apartado de diagnóstico del modelo de regresión lineal múltiple.
11.3 ESTIMACIÓN E INFERENCIA DE LA ECUACIÓN DE REGRESIÓN
En este apartado se presenta, en primer lugar, el procedimiento de estimación de los coeficientes 
de regresión lineal múltiple. A continuación, se describen las propiedades de los estimadores y se 
derivan intervalos de confianza y tests de hipótesis para los coeficientes de regresión. Finalmente, 
se presentan intervalos de confianza para el valor esperado de la variable respuesta e intervalos de 
predicción para una nueva observación en función de los valores de las variables explicativas.
197
Estimación e inferencia de la ecuación de regresión
Pastor-Barriuso R.
11.3.1 Estimación de los coeficientes de regresión
Al igual que en regresión lineal simple, las estimaciones puntuales b0, b1, …, bp de los coeficientes 
de regresión β0, β1, …, βp se obtienen mediante el método de mínimos cuadrados a partir de 
una muestra de n observaciones (yi, xi1, …, xip) mutuamente independientes. En concreto, tal y 
como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores 
b0, b1, …, bp que minimicen la suma de cuadrados de los errores o residuos ei = yi – ŷi, que 
corresponden a las distancias entre los valores observados yi de la variable respuesta y los 
correspondientes valores estimados o predichos por la ecuación de regresión ŷi = b0 + b1xi1 + … 
+ bpxip,
 7
11.3 ESTIMACIÓN E INFERENCIA DE LA ECUACIÓN DE REGRESIÓN 
En este apartado se presenta, en primer lugar, el procedimiento de estimación de los 
coeficientes de regresión lineal múltiple. A continuación, se describen las propiedades 
de los estimadores y se derivan intervalos de confianza y tests de hipótesis para los 
coeficientes de regresión. Finalmente, se presentan intervalos de confianza para el valor 
esperado de la variable respuesta e intervalos de predicción para una nueva observación 
en función de los valores de las variables explicativas. 
11.3.1 Estimación de los coeficientes de regresión 
Al igual que en regresión lineal simple, las estimaciones puntuales b0, b1, …, bp de los 
coeficientes de regresión β0, β1, …, βp se obtienen mediante el método de mínimos 
cuadrados a partir de una muestra de n observaciones (yi, xi1, …, xip) mutuamente 
independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables 
explicativas, se trata de estimar los valores b0, b1, …, bp que minimicen la suma de 
cuadrados de los errores o residuos ei = yi - iyˆ , que corresponden a las distancias entre 
los valores observados yi de la variable respuesta y los correspondientes valores 
stimados o predichos por la ecuación de regresión iyˆ  = b0 + b1xi1 + … + bpxip, 
SSE = 
===
−−−−=−=
n
i
ippii
n
i
ii
n
i
i xbxbbyyye
1
2
110
1
2
1
2 )...()ˆ(
[Figura 11.3 aproximadamente aquí] 
Para estimar los coeficientes de regresión que minimizan esta suma de cuadrados del 
error, se calculan las derivadas parciales de SSE respecto a b0, b1, …, bp y se igualan a 
cero, resultando el sistema de p + 1 ecuaciones lineales 
.
Para estimar los coeficientes de regresión que minimizan esta suma de cuadrados del error, 
se calculan las derivadas parciales de SSE respecto a b0, b1, …, bp y se igualan a cero, resultando 
el sistema de p + 1 ecuaciones lineales
 8

==
−−−−−=−=
∂
∂ n
i
ippii
n
i
i xbxbbyeb 1
110
10
)...(22SSE  = 0, 

==
−−−−−=−=
∂
∂ n
i
ippiiij
n
i
iij
j
xbxbbyxex
b 1
110
1
)...(22SSE  = 0, j = 1, …, p. 
En general, este sistema lineal se resuelve utilizando álgebra de matrices. En el 
Apéndice al final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp 
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los 
coeficientes de regresión β0, β1, …, βp. En el caso particular de dos variables 
explicativas, puede comprobarse que estos estimadores vienen dados por 
b1 = 
121
2121
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b2 = 
221
2112
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b0 = y  - b1 1x  - b2 2x . 
De estas expresiones se deduce que, si las variables explicativas X1 y X2 están 
incorrelacionadas 
21xx
r  = 0, las estimaciones de los coeficientes de regresión múltiple se 
reducen a b1 = 11 / xyyx ssr  y b2 = 22 / xyyx ssr , que son iguales a las obtenidas en regresión 
simple (véase Apartado 10.3.1). Por tanto, cuando las variables explicativas están 
incorrelacionadas, sus coeficientes estimados por regresión múltiple coinciden con los 
obtenidos de distintas regresiones simples para cada variable explicativa. Por el 
contrario, cuando las variables explicativas están correlacionadas, sus efectos ajustados 
mediante regresión múltiple pueden diferir notablemente de sus efectos crudos 
ignorando las restantes variables explicativas. Así, por ejemplo, la relación de la 
variable explicativa X1 con la variable respuesta Y ajustando por la variable X2 se estima 
mediante el coeficiente de regresión múltiple b1, que depende no sólo de la correlación 
En general, este sistema lineal se resuelve utilizando álgebra de matrices. En el Apéndice al 
final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp que, bajo las 
asunciones de linealidad y aditividad, son estimadores insesgados de los coeficientes de
 Figura 11.3
 
y
x1
x2
Plano de regresión estimado:
22110ˆ xbxbby ++=
(xi1, xi2, yi)
)ˆ,,( 21 iii yxx
iii yye ˆ−=
Figura 11.3 Error o desviación del valor observado de la variable respuesta respecto a su valor estimado 
por el plano de regresión.
198
Regresión lineal múltiple
Pastor-Barriuso R.
regresión β0, β1, …, βp. En el caso particular de dos variables explicativas, puede comprobarse 
que estos estimadores vienen dados por
 8

==
−−−−−=−=
∂
∂ n
i
ippii
n
i
i xbxbbyeb 1
110
10
)...(22SSE  = 0, 

==
−−−−−=−=
∂
∂ n
i
ippiiij
n
i
iij
j
xbxbbyxex
b 1
110
1
)...(22SSE  = 0, j = 1, …, p. 
En general, este sistema lineal se resuelve utilizando álgebra de matrices. En el 
Apéndice al final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp 
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los 
coeficientes de regresión β0, β1, …, βp. En el caso particular de dos variables 
explicativas, puede comprobarse que estos estimadores vienen dados por 
b1 = 
121
2121
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b2 = 
221
2112
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b0 = y b1 1x b2 2x . 
De estas expresiones se deduce que, si las variables explicativas X1 y X2 están 
incorrelacionadas 
21xx
r  = 0, las estimaciones de los coeficientes de regresión múltiple se 
reducen a b1 = 11 / xyyx ssr  y b2 = 22 / xyyx ssr , que son iguales a las obtenidas en regresión 
simple (véase Apartado 10.3.1). Por tanto, cuando las variables explicativas están 
incorrelacionadas, sus coeficientes estimados por regresión múltiple coinciden con los 
obtenidos de distintas regresiones simples para cada variable explicativa. Por el 
contrario, cuando las variables explicativas están correlacionadas, sus efectos ajustados 
mediante regresión múltiple pueden diferir notablemente de sus efectos crudos 
ignorando las restantes variables explicativas. Así, por ejemplo, la relación de la 
variable explicativa X1 con la variable respuesta Y ajustando por la variable X2 se estima 
mediante el coeficiente de regresión múltiple b1, que depende no sólo de la correlación 
− −
De estas expresiones se deduce que, si las variables explicativas X1 y X2 están incorrelacionadas 
 8

==
−−−−−=−=
∂
∂ n
i
ippii
n
i
i xbxbbyeb 1
110
10
)...(22SSE  = 0, 

==
−−−−−=−=
∂
∂ n
i
ippiiij
n
i
iij
j
xbxbbyxex
b 1
110
1
)...(22SSE  = 0, j = 1, …, p. 
En general, este sistema lineal se resuelve utilizando álgebra de matrices  En el 
Apéndice al final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp 
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los 
coeficientes de regresión β0, β1, …, βp. En el caso particular de dos variables 
explicativas, puede comprobarse que estos estimadores vienen dados por 
b1 = 
121
2121
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b2 = 
221
2112
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b0 = y  - b1 1x  - b2 2x . 
De estas expresiones se deduce que, si las variables explicativas X1 y X2 están 
incorrelacionadas 
21xx
r  = 0, las estimaciones de los coeficientes de regresión múltiple se 
reducen a b1 = 11 / xyyx ssr  y b2 = 22 / xyyx ssr , que son iguales a las obtenidas en regresión 
simple (véase Apartado 10.3.1). Por tanto, cuando las variables explicativas están 
incorrelacionadas, sus coeficientes estimados por regresión múltiple coinciden con los 
obtenidos de distintas regresiones simples para cada variable explicativa. Por el 
contrario, cuando las variables explicativas están correlacionadas, sus efectos ajustados 
mediante regresión múltiple pueden diferir notablemente de sus efectos crudos 
ignorando las restantes variables explicativas. Así, por ejemplo, la relación de la 
variable explicativa X1 con la variable respuesta Y ajustando por la variable X2 se estima 
mediante el coeficiente de regresión múltiple b1, que depende no sólo de la correlación 
reducen a 
 8

==
−−−−−=−=
∂
∂ n
i
ippii
n
i
i xbxbbyeb 1
110
10
)...(22SSE  = 0, 

==
−−−−−=−=
∂
∂ n
i
ippiiij
n
i
iij
j
xbxbbyxex
b 1
110
1
)...(22SSE  = 0, j = 1, …, p. 
En general, este sistema lineal se resuelve utilizando álgebra de matrices. En el 
Apéndice al final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp 
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los 
coeficientes de regresión β0, β1, …, βp. En el caso particular de dos variables 
explicativas, puede comprobarse que estos estimadores vienen dados por 
b1 = 
121
2121
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b2 = 
221
2112
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b0 = y  - b1 1x  - b2 2x . 
De estas expresiones se deduce que, si las variables explicativas X1 y X2 están 
incorrelacionadas 
21xx
r  = 0, las estimaciones de los coeficientes de regresión múltiple se 
b1 = 11 / xyyx ssr  y b2 = 22 / xyyx ssr , que son iguales a las obtenidas en regresión 
simple (véase Apartado 10.3.1). Por tanto, cuando las variables explicativas están 
incorrelacionadas, sus coeficientes estimados por regresión múltiple coinciden con los 
obtenidos de distintas regresiones simples para cada variable explicativa. Por el 
contrario, cuando las variables explicativas están correlacionadas, sus efectos ajustados 
mediante regresión múltiple pueden diferir notablemente de sus efectos crudos 
ignorando las restantes variables explicativas. Así, por ejemplo, la relación de la 
variable explicativa X1 con la variable respuesta Y ajustando por la variable X2 se estima 
mediante el coeficiente de regresión múltiple b1, que depende no sólo de la correlación 
 
y 
 8

==
−−−−−=−=
∂
∂ n
i
ippii
n
i
i xbxbbyeb 1
110
10
)...(22SSE  = 0, 

==
−−−−−=−=
∂
∂ n
i
ippiiij
n
i
iij
j
xbxbbyxex
b 1
110
1
)...(22SSE  = 0, j = 1, …, p. 
En general, este sistema lineal se resuelve utilizando álgebra de matrices. En el 
Apéndice al final del tema se derivan las fórmulas matriciales para calcular b0, b1, …, bp 
que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los 
coeficientes de regresión β0, β1, …, βp. En el caso particular de dos variables 
explicativas, puede comprobarse que estos estimadores vienen dados por 
b1 = 
121
2121
21 x
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b2 = 
221
2112
21
y
xx
xxyxyx
s
s
r
rrr
−
−
, 
b0 = y  - b1 1x  - b2 2x . 
De estas expresiones se deduce que, si las variables explicativas X1 y X2 están 
incorrelacionadas 
21xx
r  = 0, las estimaciones de los coeficientes de regresión múltiple se 
reducen a b1 = 11 / xyyx ssr  b2 = 22 / xyyx ssr , que son iguales a las obtenidas en regresión 
simple (véase Apartado 10.3.1). Por tanto, cuando las variables explicativas están 
incorrelacionadas, sus coeficientes estimados por regresión múltiple coinciden con los 
obtenidos de distintas regresiones simples para cada variable explicativa. Por el 
contrario, cuando las variables explicativas están correlacionadas, sus efectos ajustados 
mediante regresión múltiple pueden diferir notablemente de sus efectos crudos 
ignorando las restantes variables explicativas. Así, por ejemplo, la relación de la 
variable explicativa X1 con la variable respuesta Y ajustando por la variable X2 se estima 
mediante el coeficiente de regresión múltiple b1, que depende no sólo de la correlación 
, que son iguales a las obtenidas en regresión simple (véase Apartado 10.3.1). Por 
tanto, cuando las variables explicativas están incorrelacionadas, sus coeficientes estimados por 
regresión múltiple coinciden con los obtenidos de distintas regresiones simples para cada 
variable explicativa. Por el contrario, cuando las variables explicativas están correlacionadas, 
sus efectos ajustados mediante regresión múltiple pueden diferir notablemente de sus efectos 
crudos ignorando las restantes variables explicativas. Así, por ejemplo, la relación de la variable 
explicativa X1 con la variable respuesta Y ajustando por la variable X2 se estima mediante el 
coeficiente de r gresión múltiple b1, que depende no ólo de la correlación entre X1 e Y 
 9
ntre 1 1yxr (como ocurre en regresión lineal simple), sino también de sus 
resp ctivas corre aciones con la variable X2 2yxr  y 21xxr . 
Una vez estimada la ecuación de regresión, la varianza σ 2 de la variable respuesta 
alrededor de dicha ecuación se estima mediante la varianza residual 
s2 = 
=
−−−−
−−
=
−−
n
i
ippii xbxbbypnpn 1
2
110 )...(1
1
1
SSE , 
donde la suma de cuadrados del error SSE se divide por n - p - 1 ya que, una vez 
estimados los p + 1 coeficientes de regresión, los n errores o desviaciones de la variable 
respuesta respecto a la ecuación de regresión contienen n - p - 1 grados de libertad. Bajo 
las hipótesis de linealidad, aditividad y homogeneidad de la varianza, la varianza 
residual s2 es un estimador insesgado del parámetro poblacional σ 2. 
Ejemplo 11.2 En el Ejemplo 10.7 se estudió la relación del índice de masa 
corporal con el colesterol HDL utilizando un modelo de regresión lineal simple. 
No obstante, existen otros muchos determinantes de los niveles de colesterol HDL 
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente 
de cada uno de estos determinantes, se podría ajustar un modelo de regresión 
lineal múltiple con el colesterol HDL como variable respuesta y el índice de masa 
corporal y el consumo de alcohol como variables explicativas. 
En n = 449 controles del estudio EURAMIC con datos disponibles de estas 
variables, la media y la desviación típica fueron 1x  = 26,2 y 1xs  = 3,61 kg/m
2 para 
el índice de masa corporal, 2x  = 16,5 y 2xs  = 21,8 g/día para el consumo de 
alcohol y y  = 1,08 y sy = 0,295 mmol/l para el colesterol HDL. El coeficiente de 
correlación de Pearson entre el índice de masa corporal y el consumo de alcohol 
 
(como ocurre en regresión lineal simple), sino también de sus respectivas correlaciones con la 
variable 
 9
entre X1 e Y 1yxr (como ocurre en regresión lineal simple), sino también de sus 
respectivas correlaciones con la X2 2yxr  y 21xxr . 
Una vez estimada la ecuación de regresión, la varianza σ 2 de la variable respuesta 
alrededor de dicha ecuación se estima mediante la varianza residual 
s2 = 
=
−−−−
−−
=
−−
n
i
ippii xbxbbypnpn 1
2
110 )...(1
1
1
SSE , 
donde la suma de cuadrados del error SSE se divide por n - p - 1 ya que, una vez 
estimados los p + 1 coeficientes de regresión, los n errores o desviaciones de la variable 
respuesta respecto a la ecuación de regresión contienen n - p - 1 grados de libertad. Bajo 
las hipótesis de linealidad, aditividad y homogeneidad de la varianza, la varianza 
residual s2 es un estimador insesgado del parámetro poblacional σ 2. 
Ejemplo 11.2 En el Ejemplo 10.7 se estudió la relación del índice de masa 
corporal con el colesterol HDL utilizando un modelo de regresión lineal simple. 
No obstante, existen otros muchos determinantes de los niveles de colesterol HDL 
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente 
de cada uno de estos determinantes, se podría ajustar un modelo de regresión 
lineal múltiple con el colesterol HDL como variable respuesta y el índice de masa 
corporal y el consumo de alcohol como variables explicativas. 
En n = 449 controles del estudio EURAMIC con datos disponibles de estas 
variables, la media y la desviación típica fueron 1x  = 26,2 y 1xs  = 3,61 kg/m
2 para 
el índice de masa corporal, 2x  = 16,5 y 2xs  = 21,8 g/día para el consumo de 
alcohol y y  = 1,08 y sy = 0,295 mmol/l para el colesterol HDL. El coeficiente de 
correlación de Pearson entre el índice de masa corporal y el consumo de alcohol 
.
Una vez estimada la cuación de regr sión, la varianza σ 2 de la variable respuesta alrededor 
de dicha ecuación se estima m di nte l  varianza residual
 9
entre X1 e Y 1yx (c mo ocurre en regresión lineal simple), sino también de sus 
respectivas rrelaciones con la variable X2 2yxr  y 21xxr . 
Una vez e timada la ecuación de regresión, la vari nza σ 2 de la variable respuesta 
alrededor de dicha ecuación se estima mediante la varianza residu l 
s2 = 
=
−−−−
−−
=
−−
n
ippii xbxbbypnpn 1
2
110 )...(1
1
1
SSE , 
donde la suma de cuadrados d l rror SSE se divide por n - p - 1 ya que, una vez 
est mados los p + 1 coeficientes de r gresión, los n errores o desviaciones de la variable 
respuesta resp cto a la ecuación de regresión contienen n - p - 1 grados de libertad. Bajo 
las hipótesis de linealidad, aditividad y homogeneidad de la varianza, la varianza 
residual s2 es un estimador insesgado del parámetro poblacional σ 2. 
Eje plo 11.2 En el Ejemplo 10.7 se estudió la relación del índice de masa 
corporal con el colesterol HDL utilizando un modelo de regresión lineal simple. 
No obstante, existen otros muchos determinantes de los niveles de colesterol HDL 
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente 
de cada uno de estos determinantes, se podría ajustar un modelo de regresión 
lineal múltiple con el colesterol HDL como variable respuesta y el índice de masa 
corporal y el consumo de alcohol como variables explicativas. 
En n = 449 controles del estudio EURAMIC con datos disponibles de estas 
variables, la media y la desviación típica fueron 1x  = 26,2 y 1xs  = 3,61 kg/m
2 para 
el índice de masa corporal, 2x  = 16,5 y 2xs  = 21,8 g/día para el consumo de 
alcohol y y  = 1,08 y sy = 0,295 mmol/l para el colesterol HDL. El coeficiente de 
correlación de Pearson entre el índice de masa corporal y el consumo de alcohol 
donde la suma de cuadrados del error SSE se divide por n – p – 1 ya que, una vez estimados los 
p + 1 co ficientes regresión, los n errores o desviaci n s de la vari ble respuesta respecto a 
la ecuación de regresión contienen n – p – 1 grados  libertad. Bajo las hipótesis de linealidad, 
aditividad y homogeneidad de nza, la varianza r sidual s2 es un est mador insesg do del 
parámetro poblacional σ 2.
Ejemplo 11.2 En el Ej mplo 10.7 se estudió la relación del índice de masa corporal con 
el colesterol HDL utilizando un modelo de regresión lineal s mple. No obstante, existen 
otros muchos determinantes de los niveles de colesterol HDL como, por ejemplo, el 
consumo de alcohol. Para obtener el efecto independiente de cada uno de estos 
determinantes, se podrí  ajustar un modelo de regresión lineal múltiple con el colesterol 
HDL como variable respuesta y el índice de masa corporal y el consumo de alcohol como 
variables xplicativas.
En n = 449 controles del estudio EURAMIC con datos disponibles de estas variables, la 
media y la desviación típica fueron 
 9
entre X1 e Y 1yxr (como ocurre en regresión lineal simple), sino también de sus 
respectivas correlaciones con la variable X2 2yxr  y 21xxr . 
Una vez estimada la ecuación de regresión, la varianza σ 2 de la variable respuesta 
lr dedor de dicha c ación se estim  mediante la v rianza residual 
s2 = 
=
−−−−
−−
=
−−
n
i
ipii xbxbbypnpn 1
2
110 )...(1
1
1
SSE , 
donde la suma de cuadrados del error SSE se divide por n - p - 1 ya que, una vez 
estimados los p + 1 coeficientes de regresión, los n errores o desviaciones de la variable 
respuesta respecto a la ecuación de regresión contienen n - p - 1 grados de libertad. Bajo 
las hipótesis de linealidad, aditividad y homogeneidad de la varianza, la varianza 
residual s2 es un stimador insesgado del parámet o pobl cional σ 2. 
Ejemplo 11.2 En el Ejemplo 10.7 e estudió l  relación del índice de masa 
corporal con el coles erol HDL utiliza o un modelo de regresión lineal simple. 
No obstante, existen otros muchos determinantes de los niveles de colesterol HDL 
como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente 
de cada uno de estos determinantes, se podría ajustar un modelo de regresión 
lineal múltiple con el colesterol HDL como variable respuesta y el índice de masa 
corporal y el consumo de alcohol como variables explicativas. 
En n = 449 controles del estudio EURAMIC con datos disponibles de estas 
variables, la edia y l  1x  = 26,2 y 1xs  = 3,61 kg/m
2 para 
el índice de masa corporal, 2x  = 16,5 y 2xs  = 21,8 g/día para el consumo de 
alcohol y y  = 1,08 y sy = 0,295 mmol/l para el colesterol HDL. El coeficiente de 
correlación de Pearson entre el índice de masa corporal y el consumo de alcohol 
 
a
a
a
t   
 = 3,61 kg/ 2 ara el índice de masa 
corporal, 
 9
entre X1 e Y 1yxr (como ocurr  en regresión lineal simple), sino también de sus 
respectivas correlaciones con la variable X2 2yxr  y 21xxr . 
Una vez estimada la ecuación de regresión, la varianza σ 2 de la variable respuesta 
alrededor d  dicha ecuación se estima mediante a varianza residual 
s2 = 
=
−−−−
−−
=
−−
n
i
ippii xbxbbypnpn 1
2
110 )...(1
1
1
SSE , 
donde la suma de cuadrados del error SSE se divide por n - p - 1 ya que, una vez
estimados los p + 1 co icientes de regresión, los n er ores o desviacion s de la variable 
respuesta respecto a la ecuac ón de regres ó  contienen n - p - 1 gr dos de libert d. Bajo 
las hipótesis de linealidad, aditividad y homogeneidad de la varianza, la varianza 
residual s2 es un estimador insesgado del parámetro poblacional σ 2. 
Ejemplo 11.2 En el Ejemplo 10.7 se estudió la relación del índice de masa 
corporal con el colesterol HDL utilizando un modelo d  regresión lineal simple. 
No obstante, existen otros uchos d terminantes de los niveles de c lesterol HDL 
como, por ejemplo, el c nsumo de alcohol. Para o t ner el fecto independiente 
de cada uno de estos determinantes, se podría ajustar un model  de r gresión 
lineal múltiple con el colesterol HDL como variable respuesta y l ín ic  d  masa 
corporal y el consumo de alcohol co  var ables explicativas. 
En n = 449 controles del estudio EURAMIC con datos disponibles de estas 
variables, la media y la desviación típica fueron 1x  = 26,2 y 1xs  = 3,61 kg/m
2 para 
el índice de masa c r ral, 2x  = 16,5 y 2xs  = 21,8 g/día para el consumo de 
alcohol y y  = 1,08 y sy = 0,295 mmol/l para el colesterol HDL. El coeficie te de 
correlación de Pearson entre el índice de masa corporal y el consumo de lcohol 
  ,   
 9
entre X1 e Y 1yxr (como ocur e en regresión li al simple), sino también de sus 
respectivas cor elaciones con la variable X2 2yxr  y 21xxr . 
Una vez estimada la ecuación de regresión, la varianza σ 2 de la variable respuesta 
alrededor de dicha ecuación se estim  mediante la vari nza residual 
s2 = 
=
−−−−
−−
=
−−
n
i
ippii xbxbbypnpn 1
2
110 ).(1
1
1
SSE , 
donde la suma de cuadrados del er or SSE se divide por n - p - 1 ya qu , una vez 
estimados los p + 1 coeficientes de regresión, los n r ores o desv aciones de la va iable 
respuesta respecto a la ua ión de regresión conti nen n - p - 1 grados de libertad. Bajo 
las hipótesis de linealidad, aditividad y homoge idad de la varianza, la varianza
residual s2 es un estimador insesgado del parámetro poblacional σ 2. 
Ejemplo 11.2 En el Ejemplo 10.7 se estudió la relación del índice de m sa 
corporal con el colesterol HDL utilizando un mo lo de regresión lineal simple. 
No obstante, existe  otros muchos determinantes de los ni eles de c lesterol HDL 
como, por ejemplo, el consu o de alc hol. Para obtener el efecto independiente 
de cada uno de estos determinantes, se podría ajustar un model  de regresión 
lineal múltiple con l l t r l  como variable respuesta y el índice de masa 
corporal y el consumo de alcohol co o va i bl  explicativ s. 
En n = 449 controles del estudio EURA IC con datos sponible  de estas 
variables, la media y la desviación típica fueron 1x  = 26,2 y 1xs  = 3,61 kg/m
2 para 
el índice de masa corporal, 2x = 16,5 y 2xs  = 21,8 g/día para el consumo de 
alcohol y y  = 1,08 y sy = 0,295 mmol/l para el colesterol HDL. El coeficient  de 
cor elación de Pearson ntre el í dic de masa corporal y el consumo de alcohol 
 = 21,8 g/día para el consu o de alcohol y 
 
 6
antioxidantes e  el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
d  una muestra, la media e la muestra r ultante es igu l a la media inicial más la 
constante utiliz d ; si yi = xi + c, ent nces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera const nte, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
  1,08 y sy = 0,295 
mmol/l para el colesterol HDL. El coeficiente de correlación de Pearson entre el índice de 
masa corporal y el consumo de alcohol f  
 10
21xx
r  = -0,091 y las correl c ones de stas variables explicativas con el 
le ter l HDL fuer n 
1yx
r  = -0,273 y 
2yx
r  = 0,232, respectivamente. Las 
estimaciones de los coeficientes de regresión múltiple se obtienen entonces como 
b1 = 61,3
295,0
091,01
091,0232,0273,0
1 22
121
2121
−
⋅+−
=
−
−
x
y
xx
xxyxyx s
r
rrr
 = -0,0207, 
b2 = 8,21
295,0
091,01
091,0273,0232,0
1 22
221
2112
−
⋅−
=
−
−
x
y
xx
xxyxyx
s
s
r
rrr
 = 0,0028, 
b0 = y  - b1 1x  - b2 2x  = 1,08 + 0,0207⋅26,2 - 0,0028⋅16,5 = 1,58, 
donde result  la cuación de r gresión 
yˆ  = 1,58 - 0,0207x1 + 0,0028x2, 
con una varianza residual del colesterol HDL respecto a dicha ecuación 
s2 = 
446
34,33)}0028,00207,058,1({
446
1
446
SSE 449
1
2
21 =+−−= 
=i
iii xxy  = 0,077. 
Estas estimaciones pueden obtenerse directamente de ajustar una regresión lineal 
múltiple del colesterol HDL sobre el índice de masa corporal y el consumo de 
alcohol en los programas estadísticos convencionales, cuyos resultados completos 
se muestran en la Tabla 11.1. 
[Tabla 11.1 aproximadamente aquí] 
La ecuación de regresión puede utilizarse para estimar el valor esperado del 
colesterol HDL en función del índice de masa corporal y el consumo de alcohol. 
Así, por ejemplo, para un índice de masa corporal de 25 kg/m2 y un consumo de 
alcohol de 20 g/día, el modelo estima un nivel medio de colesterol HDL de yˆ (25, 
20) = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. 
  – 0,091 y las correlaciones d  estas 
variables explicativas con el colesterol HDL fueron 
 10
fue 
21xx
r  = -0,091 y las correlaciones de estas variables explicativas con el 
colesterol HDL f r  
1yx
r  = -0,273 y 
2yx
r  = 0,232, respectivamente. Las 
estimaciones de los coeficientes de regresión múltiple se obtienen entonces como 
b1 = 61,3
295,0
091,01
091,0232,0273,0
1 22
121
2121
−
⋅+−
=
−
−
x
y
xx
xxyxyx
s
s
r
rrr
 = -0,0207, 
b2 = 8,21
295,0
091,01
091,0273,0232,0
1 22
221
2112
−
⋅−
=
−
−
x
y
xx
xxyxyx
s
s
r
rrr
 = 0,0028, 
b0 = y  - b1 1x  - b2 2x  = 1,08 + 0,0207⋅26,2 - 0,0028⋅16,5 = 1,58, 
de donde resulta la ecuación de regresión 
yˆ  = 1,58 - 0,0207x1 + 0,0028x2, 
con una varianza residual del colesterol HDL respecto a dicha ecuación 
s2 = 
446
34,33)}0028,00207,058,1({
446
1
446
SSE 449
1
2
21 =+−−= 
=i
iii xxy  = 0,077. 
Estas estimaciones pueden obtenerse directamente de ajustar una regresión lineal 
múltiple del colesterol HDL sobre el índice de masa corporal y el consumo de 
alcohol en los programas estadísticos convencionales, cuyos resultados completos 
se muestran en la Tabla 11.1. 
[Tabla 11.1 aproximadamente aquí] 
La ecuación de regresión puede utilizarse para estimar el valor esperado del 
colesterol HDL en función del índice de masa corporal y el consumo de alcohol. 
Así, por ejemplo, para un índice de masa corporal de 25 kg/m2 y un consumo de 
alcohol de 20 g/día, el modelo estima un nivel medio de colesterol HDL de yˆ (25, 
20) = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. 
 – 0,273 y 
 10
fue 
21xx
r  = -0,091 y las correlaciones de e tas v riabl s explicativas con el 
col sterol HDL fueron 
1yx
r  = -0,273  
2yx
r  = 0, 32, respectivamente. Las 
estimaciones de los coeficientes d  regresión múltipl se obti  entonces como 
b1 = 61,3
295,0
091,01
091,032,0273,0
1 22
12
2121
−
⋅+−
=
−
−
x
y
x
xxyyx
s
s
r
rrr
 = -0, 207, 
b2 = 8,21
295,0
091,01
091,0273,032,0
1 22
221
2112
−
⋅−
=
−
−
x
y
x
xxyxyx
s
s
r
rrr
 = 0,0028, 
b0 = y  - b1 1x  - b2 2x  = 1,08 + 0, 207⋅26,2 - 0,0028⋅16,5 = 1,58, 
e dond  result la ecuación d  regresión 
yˆ  = 1,58 - 0, 207x1 + 0,0028x2, 
con un  v rianza residual del col sterol HDL respecto a dicha ecuación 
s2 = 
446
34,33)}0028,0207,058,1({
446
1
446
SSE 449
1
2
21 =+−−= 
=i
iii xxy  = 0,077. 
E ta  estimaciones pu den obt n rse directament  de ajustar una regresión lineal 
múltipl  del col sterol HDL sobre el índic  de masa corporal y el consumo de 
alc hol en los programa  estadísticos convencionales, cuyos resultados completos 
se muestra  en la Tabla 11.1. 
[Tabla 11.1 aproxim damente aquí] 
La ecuación d  regresión pu de utilizarse para estimar el valor esperado del 
col sterol HDL en función del índic  de masa corporal y el consumo de alc hol. 
Así, por ejemplo, para u  índic  de masa corporal de 25 kg/m2 y un consumo de 
alc hol de 20 g/día, el modelo estima un nivel medio de col sterol HDL de yˆ (25, 
20) = 1,58 - 0, 207⋅25 + 0,0028⋅20 = 1,12 mmol/l. 
0,232, 
respectivamente. Las estimaciones  los coeficientes e regresión múltiple se obti nen 
entonces como
199
Estimación e inferencia de la ecuación de regresión
Pastor-Barriuso R.
 10
fue 
21xx
r  = -0,091 y las correlaciones de estas variables explicativas con el 
colesterol HDL fueron 
1yx
r  = -0,273 y 
2yx
r  = 0,232, respectivamente. Las 
estimaciones de los coeficientes de regresión múltiple se obtienen entonces como 
b1 = 61,3
295,0
091,01
091,0232,0273,0
1 22
121
2121
−
⋅+−
=
−
−
x
y
xx
xxyxyx
s
s
r
rrr
 =  0,0207, 
b2 = 8,21
295,0
091,01
091,0273,0232,0
1 22
221
2112
−
⋅−
=
−
−
x
y
xx
xxyxyx
s
s
r
rrr
 = 0,0028, 
b0 = y b1 1x b2 2x  = 1,08 + 0,0207⋅26,2  0,0028⋅16,5 = 1,58, 
de donde resulta la ecuación de regresión 
yˆ  = 1,58 - 0,0207x1 + 0,0028x2, 
con una varianza residual del colesterol HDL respecto a dicha ecuación 
s2 = 
446
34,33)}0028,00207,058,1({
446
1
446
SSE 449
1
2
21 =+−−= 
=i
iii xxy  = 0,077. 
Estas estimaciones pueden obtenerse directamente de ajustar una regresión lineal 
múltiple del colesterol HDL sobre el índice de masa corporal y el consumo de 
alcohol en los programas estadísticos convencionales, cuyos resultados completos 
se muestran en la Tabla 11.1. 
[Tabla 11.1 aproximadamente aquí] 
La ecuación de regresión puede utilizarse para estimar el valor esperado del 
colesterol HDL en función del índice de masa corporal y el consumo de alcohol. 
Así, por ejemplo, para un índice de masa corporal de 25 kg/m2 y un consumo de 
alcohol de 20 g/día, el modelo estima un nivel medio de colesterol HDL de yˆ (25, 
20) = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. 
−
− − −
de donde resulta la ecuación de regresión
ŷ = 1,58 – 0,0207x1 + 0,0028x2,
con una varianza residual del colesterol HDL respecto a dicha ecuación
 10
fue 
21xx
r  = -0,091 y las correlaciones de estas variables explicativas con el 
colesterol HDL fueron 
1yx
r  = -0,273 y 
2yx
r  = 0,232, respectivamente. Las 
estimaciones de los coeficientes de regresión múltiple se obtienen entonces como 
b1 = 61,3
295,0
091,01
091,0232,0273,0
1 22
121
2121
−
⋅+−
=
−
−
x
y
xx
xxyxyx
s
s
r
rrr
 = -0,0207, 
b2 = 8,21
295,0
091,1
091,0273,0232,0
1 22
221
2112
−
⋅−
=
−
−
x
y
xx
xxyxyx
s
s
r
rrr
 = 0,0028, 
b0 = y  - b1 1x  - b2 2x  = 1,08 + 0,0207⋅26,2 - 0,0028⋅16,5 = 1,58, 
de donde resulta la ecuación de regresión 
yˆ  = 1,58 - 0,0207x1 + 0,0028x2, 
con u a varianza residual del col st rol HDL respecto a dicha ecuación 
s2 = 
446
34,33)}0028,00207,058,1({
446
1
446
SSE 449
1
2
21 =+−−= 
=i
iii xxy  = 0,077. 
Estas estimaciones pueden obtenerse directamente de ajustar una regresión lineal 
múltiple del colesterol HDL sobre el índice de masa corporal y el consumo de 
alcohol en los programas estadísticos convencionales, cuyos resultados completos 
se muestran en la Tabla 11.1. 
[Tabla 11.1 aproximadamente aquí] 
La ecuación de regresión puede utilizarse para estimar el valor esperado del 
colesterol HDL en función del índice de masa corporal y el consumo de alcohol. 
Así, por ejemplo, para un índice de masa corporal de 25 kg/m2 y un consumo de 
alcohol de 20 g/día, el modelo estima un nivel medio de colesterol HDL de yˆ (25, 
20) = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. 
Estas estimaciones pueden obtenerse directamente de ajustar una regresión lineal múltiple 
del col terol HDL obr  el índic  de masa corporal y el consumo de alcohol en los programas 
estadísticos convencionales, cuyos resultados completos se muestran en la Tabla 11.1.
La ecuación de regresión puede utilizarse para estimar el valor esperado del colesterol 
HDL en función del índice de masa corporal y el consumo de alcohol. Así, por ejemplo, 
para un índice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día, el 
modelo estima un nivel medio de colesterol HDL de ŷ(25, 20) = 1,58 – 0,0207 ∙ 25 + 
0,0028 ∙ 20 = 1,12 mmol/l.
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable explicativa sobre 
la variable respuesta, una vez controlad s las posibles dif rencias en la otra variable explicativa.
Tabla 11.1 Resultados de la regresión lineal múltiple del colesterol HDL sobre 
el índice de masa corporal (IMC) y la ingesta de alcohol en los controles del 
estudio EURAMIC.
Análisis de la varianza*
Suma de 
cuadrados
Grados de  
libertad Varianza
Razón de 
varianzas
Regresión 4,58 2 2,29 29,72
Error 34,33 446 0,077
Total 38,91 448
* Coeficiente de determinación R2 = 4,58/38,91 = 0,118.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante  1,58 0,098 (1,39; 1,77) 16,14 < 0,001
IMC – 0,0207 0,0036 (– 0,0278; – 0,0135) – 5,68 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,68 < 0,001
200
Regresión lineal múltiple
Pastor-Barriuso R.
Por un lado, manteniendo constante el consumo de alcohol, cada incremento de c1 = 3,50 kg/m2 
en el índice de masa corporal se asocia con una disminución media en el colesterol HDL de
 11
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable 
explicativa sobre la variable respuesta, una vez controladas las posibles 
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el 
consumo de alcohol, cada incremento de c1 = 3,50 kg/m2 en el índice de masa 
c poral se asocia con una disminució  media en el colesterol HDL de 
 yˆ (x1 + c1, x2)  yˆ (x1, x2) = b0 + b1(x1 + c1) + b2x2  (b0 + b1x1 + b2x2) 
  = c1b1 = 3,50( 0,0207) = 0,072.
Por otro lado, para un mismo índice de masa corporal, incrementos de c2 = 20 
g/día (aproximadamente una desviación típica) en la ingesta de alcohol se asocian 
con un aumento medio en el colesterol HDL de 
 yˆ (x1, x2 + c2) - yˆ (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + b2x2) 
  = c2b2 = 20⋅0,0028 = 0,056. 
Para evaluar el grado de confusión inducido por el consumo de alcohol en la 
asociación entre el índice de masa corporal y el colesterol HDL, basta comparar el 
coeficiente ajustado mediante regresión múltiple b1 = -0,0207 con el coeficiente 
crudo obtenido de una regresión simple en la misma muestra de 449 controles 
11
/1 xyyx ssrb =
∗  = -0,273⋅0,295/3,61 = -0,0222. La razón entre los coeficientes 
crudo y ajustado 
0207,0
0222,0
1
1
−
−
=
∗
b
b
 = 1,08 
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08 
- 1) = 8% la asociación inversa del índice de masa corporal con el colesterol HDL. 
Esto es debido a que el consumo de alcohol presenta una leve correlación negativa 
con el índice de masa corporal, lo que induce un pequeño sesgo en la estimación 
−
− −
−
Por otro lado, para un mismo índice de masa corporal, incrementos de c2 = 20 g/día 
(aproximadamente una desviación típica) en la ingesta de alcohol se asocian con un 
aumento medio en el colesterol HDL de
 11
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable 
explicativa sobre la variable respuesta, una vez controladas las posibles 
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el 
consumo de alcohol, cada incremento de c1 = 3,50 kg/m2 en el índice de masa 
corporal se asocia con una disminución media en el colesterol HDL de 
 yˆ (x1 + c1, x2) - yˆ (x1, x2) = b0 + b1(x1 + c1) + b2x2 - (b0 + b1x1 + b2x2) 
  = c1b1 = 3,50(-0,0207) = -0,072. 
Por otro lado, para un mismo índice de masa corporal, incrementos de c2 = 20 
g/día (aproximadamente una desviación típica) en la ingesta de alcohol se asocian 
con un aumento medio en el colesterol HDL de 
 yˆ (x1, x2 + c2)  yˆ (x1, x2) = b0 + b1x1 + b2(x2 + c2)  (b0 + b1x1 + b2x2) 
  = c2b2 = 20 ⋅0,0028 = 0,056. 
Para evaluar el grado de confusión inducido por el consumo de alcohol en la 
asociación entre el índice de masa corporal y el colesterol HDL, basta comparar el 
coeficiente ajustado mediante regresión múltiple b1 = -0,0207 con el coeficiente 
crudo obtenido de una regresión simple en la misma muestra de 449 controles 
11
/1 xyyx ssrb =
∗  = -0,273⋅0,295/3,61 = -0,0222. La razón entre los coeficientes 
crudo y ajustado 
0207,0
0222,0
1
1
−
−
=
∗
b
b
 = 1,08 
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08 
- 1) = 8% la asociación inversa del índice de masa corporal con el colesterol HDL. 
Esto es debido a que el consumo de alcohol presenta una leve correlación negativa 
con el índice de masa corporal, lo que induce un pequeño sesgo en la estimación 
– –
Para evaluar el grado de confusión inducido por el consumo de alcohol en la asociación 
entre el índice de masa corporal y el colesterol HDL, basta comparar el coeficiente 
ajustado mediante regr sió múltiple b1 = –0,0 07 con el coeficiente crudo obtenido de 
una regresión simple en la misma muestra de 449 controles 
 11
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable 
explicativa sobre la variable respuesta, una vez controladas las posibles 
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el 
consumo de alcohol, cada incremento de c1 = 3,50 kg/m2 en el índice de masa 
corporal se asocia con una disminución media en el colesterol HDL de 
 yˆ (x1 + c1, x2) - yˆ (x1, x2) = b0 + b1(x1 + c1) + b2x2 - (b0 + b1x1 + b2x2) 
  = c1b1 = 3,50(-0,0207) = -0,072. 
Por otro lado, para un mismo índice de masa corporal, incrementos de c2 = 20 
g/día (aproximadamente una desviación típica) en la ingesta de alcohol se asocian 
con un aumento medio en el colesterol HDL de 
 yˆ (x1, x2 + c2) - yˆ (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + b2x2) 
  = c2b2 = 20⋅0,0028 = 0,056. 
Para ev luar el grado de confusión inducido por el consumo de alcohol en la 
asociación entre el índice de masa corporal y el colesterol HDL, basta comparar el 
coeficiente ajustado mediante regresión múltiple b1 = -0,0207 con el coeficiente 
crudo obtenido de una regresión simple en la misma muestra de 449 controles 
11
/1 xyyx ssrb =
∗  = -0,273⋅0,295/3,61 = -0,0222. La razón entre los coeficientes 
crudo y ajustado 
0207,0
0222,0
1
1
−
−
=
∗
b
b
 = 1,08 
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08 
- 1) = 8% la asociación inversa del índice de masa corporal con el colesterol HDL. 
Esto es debido a que el consumo de alcohol presenta una leve correlación negativa 
con el índice de masa corporal, lo que induce un pequeño sesgo en la estimación 
  
– 0,273 ∙ 0,295/3,61 = – 0,0222. L razón entre los coeficientes crudo y ajustado
 11
Las estimaciones b1 y b2 determinan el efecto independiente de cada variable 
explicativa sobre la variable respuesta, una vez controladas las posibles 
diferencias en la otra variable explicativa. Por un lado, manteniendo constante el 
consumo de alcohol, cada incremento de c1 = 3,50 kg/m2 en el índice de masa 
corporal se asocia con una disminución media en el colesterol HDL de 
 yˆ (x1 + c1, x2) - yˆ (x1, x2) = b0 + b1(x1 + c1) + b2x2 - (b0 + b1x1 + b2x2) 
  = c1b1 = 3,50(-0,0207) = -0,072. 
Por otro lado, para un mismo índice de masa corporal, incrementos de c2 = 20
g/día (aproximadamente una desviación típica) en la ingesta de alcohol se asocian 
con un aumento medio en el colesterol HDL de 
 yˆ (x1, x2 + c2) - yˆ (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + b2x2) 
  = c2b2 = 20⋅0,0028 = 0,056. 
Para evaluar el grado de confusión inducido por el consumo de alcohol en la 
asociación entre el índice de masa corporal y el colesterol HDL, basta comparar el 
coeficiente ajustado mediante regresión múltiple b1 = -0,0207 con el coeficiente 
crudo obtenido de una regresión simple en la misma muestra de 449 controles 
11
/1 xyyx ssrb =
∗  = -0,273⋅0,295/3,61 = -0,0222. La razón entre los coeficientes 
crudo y ajustado 
0207,0
0222,0
1
1
−
−
=
∗
b
b
 = 1,08 
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08 
- 1) = 8% la asociación inversa del índice de masa corporal con el colesterol HDL. 
Esto es debido a que el consumo de alcohol presenta una leve correlación negativa 
con el índice de masa corporal, lo que induce un pequeño sesgo en la estimación 
indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08 – 1) = 
8% la asociación inversa del índice de masa corporal con el colesterol HDL. Esto es 
debido a que el consumo de alcohol presenta una leve correlación negativa con el índice 
de masa corporal, lo que induce un pequeño sesgo en la estimación cruda (una pequeña 
parte de la reducción del colesterol HDL entre los sujetos con sobrepeso no se debe a su 
mayor índice de masa c rporal sino a un consumo de alcohol ligeramente menor). No 
obstante, los efectos crudo y ajustado no difieren substancialmente, por lo que el consumo 
de alcohol no parece ser un factor de confusión importante para l  a oci i  entre el 
índice de masa corporal y el colesterol HDL en los controles del estudio EURAMIC.
11.3.2 Inferencia sobre los coeficientes de regresión
En el Apéndice al final del tema se demuestra que, bajo las asunciones de linealidad, aditividad 
y homogeneidad de la varianza, los estimadores de mínimos cuadrados bj siguen aproximadamente 
una distribución normal con media βj y varianza σ 2vjj en muestras suficientemente grandes,
 12
cruda (una pequeña parte de la reducción del colesterol HDL entre los sujetos con 
sobrepeso no se debe a su mayor índice de masa corporal sino a un consumo de 
alcohol ligeramente menor). No o stante, los efectos crudo y ajustado no difieren 
substancialmente, por lo que el consu o de alcohol no parece ser un factor de 
confusión import nte para la as ciación entre el índice de masa corporal y el 
colesterol HDL en los controles del estudio EURAMIC. 
11.3.2 Inferencia sobre los coeficientes de reg sión 
En el Apé i  al fin l del tema se demuestra que, bajo las asunciones d  line lidad, 
aditividad y homogeneidad de la varianza, los estimadores de mínimos cuadrados bj 
siguen aproximadamente una distribución normal con media βj y varianza σ 2vjj en 
muestras sufici ntemente grandes, 
)1  ,0(~ N
v
b
jj
jj
→
−
σ
β
, j = 0, 1, …, p, 
donde vjj es un valor conocido que depende del tamaño muestral y de las varianzas y 
covarianzas entre las variables explicativas. Si se reemplaza el parámetro desconocido σ 
por la desviación típica residual s, puede probarse que los estadísticos resultantes siguen 
aproximadamente una distribución t de Student con los n - p - 1 grados de libertad 
correspondientes a la estimación de la desviación típica residual, 
1
~
−−
→
−
pn
jj
jj t
vs
b β
, j = 0, 1, …, p. 
Notar que estas distribuciones de los estimadores bj en muestras suficientemente 
grandes no requieren de la asunción de normalidad y, por tanto, son válidas para 
cualquier distribución subyacente de la variable respuesta. 
donde vjj es un valor conocido que depende del tamaño muestral y de las varianzas y covarianzas 
entre las variables expli ativas. Si s  reemplaza el parámetro desconocido σ por la desviación 
típica residual s, puede probarse que l s estadísticos resultantes si uen aproxi damente una 
distribuc ó  t d  Student con los n – p – 1 grados de libertad correspondientes a la est mación 
de la desviación típica residual,
 12
cruda (una pequeña parte de la reducción del lesterol HDL entre los sujetos con 
sobrepeso no se debe a su mayor índice de masa corporal sino a un consumo de 
alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren 
substancialmente, por l  que el cons mo de alcoh l no parece ser un factor de 
confusión mportant para la asociación entre índic  de masa corporal y el 
colesterol HDL e los controles del estudio EURAMIC. 
11.3.2 Inferencia sobre los coeficientes de regresión 
En el Apéndice al final del tema se em estra que, baj  las asunciones de linealidad, 
aditividad y homogene dad de la varianza, los stim dores d  mínimos cua ados bj 
siguen aproximad ment  una distribución normal co  medi  βj y varianza σ 2vjj en 
muestras sufi iente ente grande , 
)1  ,0(~ N
v
b
jj
jj
→
−
σ
β
, j = 0, 1, …, p, 
donde vjj es un valor conocido que depende del tamaño muestral y de las varianzas y 
covarianzas entre las variables explicativas. Si se reemplaza el parámetro desconocido σ 
por la desviación típica residual s, puede probarse que los estadísticos resultantes siguen 
aproximadamente una distribución t de Student con los n - p - 1 grados de liberta  
correspondientes a la estimación de la desviación típica residual, 
1
~
−−
→
−
pn
jj
jj t
vs
b β
, j = 0, 1, …, p. 
Notar que estas distribuciones de los estimadores bj en muestras suficientemente 
grandes no requieren de la asunción de normalidad y, por tanto, son válidas para 
cualquier distribución subyacente de la variable respuesta. 
Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no 
requieren de la asunción de normalidad y, por tanto, son válidas para cualquier distribución 
subyacente de la variable respuesta.
201
Estimación e inferencia de la ecuación de regresión
Pastor-Barriuso R.
Utilizando estos resultados, los intervalos de confianza al 100(1 – α)% para los coeficientes 
de regresión βj vienen dados por
 13
Utilizando estos resultados, los intervalos de confianza al 100(1 - α)% para los 
coeficientes de regresión βj vienen dados por 
bj ± tn p 1,1 α /2 s jjv  
y los contrastes bilaterales de las hipótesis de ausencia de efecto independiente de cada 
variable explicativa H0: βj = 0 se realizan mediante los estadísticos 
t = 
jj
j
vs
b
, 
que bajo dichas hipótesis nulas se distribuyen aproximadamente como una t de Student 
con n - p - 1 grados de libertad. 
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente 
las estimaciones puntuales de los coeficientes de regresión lineal múltiple y sus 
errores estándar. Según la Tabla 11.1, los errores estándar de los coeficientes 
estimados para el índice de masa corporal y el consumo de alcohol son 
respectivamente SE(b1) = s 11v  = 0,0036 y SE(b2) = s 22v  = 0,0006. Por tanto, 
los ICs al 95% para estos coeficientes de regresión son 
b1 ± t446;0,975SE(b1) = -0,0207 ± 1,97⋅0,0036 = (-0,0278; -0,0135), 
b2 ± t446;0,975SE(b2) = 0,0028 ± 1,97⋅0,0006 = (0,0016; 0,0040), 
que también se incluyen dentro de los resultados de la Tabla 11.1. En general, el 
intervalo de confianza para el efecto subyacente cjβj asociado a un aumento de cj 
unidades en la variable explicativa Xj se calcula como 
cjbj ± tn-p-1,1-α/2SE(cjbj) = cj{bj ± tn-p-1,1-α/2SE(bj)}. 
− − −
y los contrastes bilaterales de las hipótesis de ausencia de efecto independiente de cada variable 
explicativa H0: βj = 0 se realizan mediante los estadísticos
 13
Utilizando estos resultados, los intervalos de confianza al 100(1 - α)% para los 
coeficientes de regresión βj vienen dados por 
bj ± tn-p-1,1-α /2 s jjv  
y los contrastes bilaterales de las hipótesis de ausencia de efecto independiente de cada 
variable explicativa H0: βj = 0 se real zan mediante los estadísticos 
t = 
jj
j
vs
b
, 
que bajo dichas hipótesis nulas se distribuyen aproximadamente como una t de Student 
con n - p - 1 grados de libertad. 
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente 
las estimaciones puntuales de los coeficientes de regresión lineal múltiple y sus 
errores estándar. Según la Tabla 11.1, los errores estándar de los coeficientes 
estimados para el índice de masa corporal y el consumo de alcohol son 
respectivamente SE(b1) = s 11v  = 0,0036 y SE(b2) = s 22v  = 0,0006. Por tanto, 
los ICs al 95% para estos coeficientes de regresión son 
b1 ± t446;0,975SE(b1) = -0,0207 ± 1,97⋅0,0036 = (-0,0278; -0,0135), 
b2 ± t446;0,975SE(b2) = 0,0028 ± 1,97⋅0,0006 = (0,0016; 0,0040), 
que también se incluyen dentro de los resultados de la Tabla 11.1. En general, el 
intervalo de confianza para el efecto subyacente cjβj asociado a un aumento de cj 
unidades en la variable explicativa Xj se calcula como 
cjbj ± tn-p-1,1-α/2SE(cjbj) = cj{bj ± tn-p-1,1-α/2SE(bj)}. 
que bajo dichas hipótesis nulas se distribuyen aproximadamente como una t de Student con 
n – p – 1 grados de l bertad.
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente las 
estimaciones puntuales de los coeficientes de regresión lineal múltiple y sus errores 
estándar. Según la Tabla 11.1, los errores estándar de los coeficientes estimados para el 
índice de masa corporal y el consumo de alcohol son respectivamente 
 13
Utilizando estos resultados, los intervalos de confianza al 100(1 - α)% para los 
coeficientes de regresión βj vienen dados por 
bj ± tn-p-1,1-α /2 s jjv  
y los contrastes bilaterales de las hipótesis de ausencia de efecto independiente de cada 
variable explicativa H0: βj = 0 se realizan mediante los estadísticos 
t = 
jj
j
vs
b
, 
que bajo dichas hipótesis nulas se distribuyen aproximadam nte como una t de Stu nt 
con n - p - 1 grados de libertad. 
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente 
las estimaciones puntu les e los coeficientes de regresión lineal múltiple y sus 
errores estándar. Según la Tabla 11.1, los errores stándar de los co fi ie tes 
estimados para el índice de masa corporal y el consumo de alcohol son 
respectivamente SE(b1) = s 11v  = 0,0036 y SE(b2) = s 22v  = 0,0006. Por tanto, 
los ICs al 95% para estos coeficientes de regresión son 
b1 ± t446;0,975SE(b1) = -0,0207 ± 1,97⋅0,0036 = (-0,0278; -0,0135), 
b2 ± t446;0,975SE(b2) = 0,0028 ± 1,97⋅0,0006  (0, 016; 0,0040),
que también se incluyen dentro de los resultados de la Tabla 11.1. En general, el 
intervalo de confianza para el efecto subyacente cjβj asociado a un aumento de cj 
unidades en la variable explicativa Xj se calcula como 
cjbj ± tn-p-1,1-α/2SE(cjbj) = cj{bj ± tn-p-1,1-α/2SE(bj)}. 
Por tanto, los ICs al 95% para 
estos coeficientes de regresión son
 13
Utilizando estos resultados, los intervalos de confianza al 100(1 - α)% para los 
coeficientes de regresión βj vienen dados por 
bj ± tn-p-1,1-α /2 s jjv  
y los contrastes bilaterales de las hipótesis de ausencia de efecto independiente de cada 
variable explicativa H0: βj = 0 se realizan mediante los estadísticos 
t = 
jj
j
vs
b
, 
que bajo dichas hipótesis nulas se distribuyen aproximadamente como una t de Student 
con n - p - 1 grados de libertad.
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente 
las estimaciones puntuales de los c eficientes de regr sión li eal múltiple y sus 
errores tándar. S gún la Tabla 11.1, los errores estándar de los coeficientes
esti ados p ra el índic  de asa corpor l y e  consumo de alcohol son 
respectivamente SE(b1) = s 11v  = 0,0036 y SE(b2) = s 22v  = 0,0006. Por tanto, 
los ICs al 95% para estos coeficientes de regresión son 
b1 ± t446;0,975 SE(b1) = 0,0207 ± 1,97 ⋅ 0,0036 = ( 0,0278; 0,0135), 
b2 ± t446;0,975 SE(b2) = 0,0028 ± 1,97 ⋅0,0006 = (0,0016; 0,0040), 
que también se incluyen dentro de los resultados de la Tabla 11.1. En general, el 
intervalo de confianza para el efecto subyacente cjβj asociado a un aumento de cj 
unidades en la variable explicativa Xj se calcula como 
cjb ± tn-p-1,1-α/2SE(cjbj) = cj{bj ± tn-p-1,1-α/2SE(bj)}. 
– ––
que también se incluyen dentro de los resultados de la Tabla 11.1. En general, el intervalo 
de confianza para el efecto subyacente cjβj asociado a un aumento de cj unidades en la 
variable explicativa Xj se calcula como
 13
Utilizando estos resultados, los intervalos de confianza al 100(1 - α)% para los 
coeficientes de regresión βj vienen dados por 
bj ± tn-p-1,1-α /2 s jjv  
y los contra tes bilaterales de las hipótesis de ausencia de efecto independiente de cada 
variable explicativa H0: βj = 0 se realizan mediante los estadísticos 
t = 
jj
j
vs
b
, 
que bajo dichas hipótesis nulas se distribuyen aproximadamente como un  t de Student 
con n - p - 1 grados de libertad. 
Ejemplo 11.3 Los programas estadísticos convencionales facilitan directamente 
las estimaciones p ntuales de los coefici ntes de regresión lineal múltiple y sus 
errores estándar. Según la Tabla 11.1, los errores estándar de los coeficientes 
estimados para el índice de masa corporal y el consumo de alcohol son 
respectivamente SE(b1) = s 11v  = 0,0036 y SE(b2) = s 22v  = 0,0006. Por tanto, 
los ICs al 95% para estos coeficientes de regresión son 
b1 ± t446;0,975 SE(b1) = -0,0207 ± 1,97⋅0,0036 = (-0,0278; -0,0135), 
b2 ± t446;0,975 SE(b2) = 0,0028 ± 1,97⋅0,0006 = (0,0016; 0,0040), 
que también se incluyen d ntro de los resultados de la Tabla 11.1. En general, el 
intervalo de confianza para el efecto subyacente cjβj asociado a un aumento de cj 
unidades en la variabl  xplicativ  Xj s alcula omo 
cjbj ± tn p 1,1 α /2 SE(cjbj) = j{bj ± tn p 1,1 α /2 SE(bj)}.  − − − − − −
Así, puede afirmarse con una confianza del 95% que el nivel medio de colesterol HDL en 
la población de referencia del estudio EURAMIC disminuye entre 3,5  ∙ 0,0135 = 0,047 
y 3,50 ∙ 0,0278 = 0,097 mmol/l por cada incremento de c1 = 3,50 kg/m2 en el índice de 
masa corporal entre sujetos con la misma ingesta de alcohol  y que la media poblacional 
del colesterol HDL aumenta entre 20 ∙ 0,0016 = 0,032 y 20 ∙ 0,0040 = 0,080 mmol/l por 
cada incremento de c2  20 g/día en el consumo de alcohol entre sujetos con el mismo 
índice de masa corporal. Estos efectos independientes del índice de masa corporal y de la 
ingesta de alcohol sobre el colesterol HDL son muy significativos, ya que sus 
correspondientes test estadísticos
 14
Así, uede afirmarse con una confianza del 95% que el nivel medio de colesterol 
HDL en la población de referencia del estudio EURAMIC disminuye entre 
3,50⋅0,0135 = 0,047 y 3,50⋅0,0278 = 0,097 mmol/l por cada incremento de c1 = 
3,50 kg/m2 en el índice de masa corporal entre uj tos con la misma ingesta de 
alcohol, y que la media pob acional del colesterol HDL aumenta entre 20⋅0,0016 
= 0,032 y 20⋅0,0040 = 0,080 mmol/l por cada incremento de c2 = 20 g/día en el 
consumo de alcohol tre sujetos con el mismo índice de masa corporal. Estos 
efectos independientes del índice de masa corporal y de la ingesta de alcohol 
sobre el colesterol HDL son muy signifi ativos, ya que sus correspondientes test 
estadísticos 
t = 
0036,0
0207,0
)( 1
1 −
=
bSE
b
 =  5,68, 
t = 
0006,0
0028,0
)( 2
2
=
bSE
b
 = 4,68, 
arrojan valores P bilaterales 2P(t446 ≤ -5,68) ≈ 2Φ(-5,68) < 0,001 y 2P(t446 ≥ 4,68) 
≈ 2{1 - Φ(4,68)} < 0,001, tal como muestra la Tabla 11.1. 
11.3.3 Inferencia sobre la ecuación de regresión 
La ecuación de regresión puede utilizarse para estimar el valor esperado de la variable 
respuesta en función de los valores de las variables explicativas. Dados unos 
determinados valores x01, …, x0p de las variables explicativas, el estimador insesgado 
del valor esperado de la variable respuesta es 
0yˆ  = b0 + b1x01 + … + bpx0p 
−
arrojan valores P bilaterales 2P(t446 ≤ – 5,68) ≈ 2F(–5,68) < 0,001 y 2P(t446 ≥ 4,68) ≈ 
2{1 – F(4,68)} < 0,001, tal como muestra la Tabla 11.1.
11.3.3 Inferencia sobre la ecuación de regresión
La ecuación de regresión puede utilizarse para estimar el valor esperado de la variable respuesta 
en función de los valores de las variables explicativas. Dados unos determinados valores x01, …, 
202
Regresión lineal múltiple
Pastor-Barriuso R.
x0p de las variables explicativas, el estimador insesgado del valor esperado de la variable 
respuesta es
 14
Así, puede afirmarse con una confianza del 95% que el nivel medio de colesterol 
HDL en la población de referencia del estudio EURAMIC disminuye entre 
3,50⋅0,0135 = 0,047 y 3,50⋅0,0278 = 0,097 mmol/l por cada incremento de c1 = 
3,50 kg/m2 en el índice de masa corporal entre sujetos con la misma ingesta de 
alcohol, y que la media poblacional del colesterol HDL aumenta entre 20⋅0,0016 
= 0,032 y 20⋅0,0040 = 0,080 mmol/l por cada incremento de c2 = 20 g/día en el 
consumo de alcohol entre sujetos con el mismo índice de masa corporal. Estos 
efectos independientes del índice de masa corporal y de la ingesta de alcohol 
sobre el colesterol HDL son muy significativos, ya que sus correspondientes test 
estadísticos 
t = 
0036,0
0207,0
)( 1
1 −
=
bSE
b
 = -5,68, 
t = 
0006,0
0028,0
)( 2
2
=
bSE
b
 = 4,68, 
arrojan valores P bilaterales 2P(t446 ≤ -5,68) ≈ 2Φ(-5,68) < 0,001 y 2P(t446 ≥ 4,68) 
≈ 2{1 - Φ(4,68)} < 0,001, tal como muestra la Tabla 11.1. 
11.3.3 Inferencia sobre la ecuación de regresión 
La ecuación de regresión puede utilizarse para estimar el valor esperado de la variable 
respuesta en función de los valores de las variables explicativas. Dados unos 
determinados valores x01, …, x0p de las variables explicativas, el estimador insesgado 
del valor esperado de la variable respuesta es 
0yˆ  = b0 + b1x01  + … + bpx0p 
que, como se muestra en el Apéndice de este tema, se distribuye de forma aproximadamente 
normal con media β0 + β1x01 + … + βpx0p y varianza σ 2h0 en muestras suficientemente grandes,
 15
que, como se muestra en el Apéndice de este tema, se distribuye de forma 
aproximadamente normal con media β0 + β1x01 + … + βpx0p y varianza σ 2h0 en 
muestras suficientemente grandes, 
0yˆ  →
~  N(β0 + β1x01  + … + βpx0p, σ  2h0), 
donde h0 es el leverage del punto (x01, …, x0p) que puede interpretarse como una 
medida estandarizada de su distancia respecto al centro de las medias muestrales ( 1x , 
…, px ) de las variables explicativas. A partir de la distribución tn-p-1 resultante de 
sustituir σ 2 por su estimación s2, se sigue que el intervalo de confianza al 100(1 - α)% 
para el valor esperado β0 + β1x01 + … + βpx0p es 
0yˆ  ± tn-p-1,1-α/2 s 0h . 
Como cabría esperar, la estimación del valor esperado de la variable respuesta en el 
punto (x01, …, x0p) será tanto más imprecisa cuanto más extremo sea dicho punto o, más 
concretamente, cuanto mayor sea su distancia estandarizada h0 respecto al centro de las 
medias muestrales ( 1x , …, px ). 
Ejemplo 11.4 Para un índice de masa corporal de x01 = 25 kg/m2 y un consumo de 
alcohol de x02 = 20 g/día, el modelo de regresión múltiple estima un nivel medio 
de colesterol HDL de 0yˆ  = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. El punto 
de estimación (x01, x02) = (25, 20) está próximo al centro de las medias muestrales 
( 1x , 2x ) = (26,2; 16,5) de ambas variables explicativas y, en consecuencia, su 
leverage h0 = 0,0025 es bajo. Así, el IC al 95% para el valor esperado del 
colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m2 y un 
consumo de alcohol de 20 g/día es 
donde h0 es el leverage del punto (x01, …, x0p) que puede interpretarse como una medida 
estandarizada de su distancia respecto al centro de las medias muestrales (
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpr tación. Corresponde al “centro d  gravedad” de los datos de la muestra. Su 
pr ncipal limitación es que stá muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflej  de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1 …, 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determin da variable o, dicho de forma quivalent , estos estima ores indican 
alrededor de qué valor se agrup n los datos ob erv dos. Las medidas de tendencia 
c ntral de la muestra sirven tanto para resumir os resultados ob ervados como para 
realizar inferenci s acerca de los parámetros poblaci nales corr spondientes. A 
continuación se describen los principales estimadores de la tendencia c ntr l de una 
variable. 
1.2.1 Media aritmética 
La media aritmétic , denotada por x , se define como la suma de ca a uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muest al y por xi el valor observ do para el sujet  i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es l  medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de grav dad” de los datos de la muestra. Su 
princ pal limitación es que está muy influenciada por lo valores extremos y, en este 
caso, puede o ser un fiel r fl jo de la tendencia c ntral de la d stribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores mue trales, se 
utilizarán lo va ores del colesterol HDL btenidos en los 10 prim r sujetos del 
est dio “European Study on Antioxidants, Myocardial I f rction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntric  de asos y controles realizado 
entre 1 y 1992 en ocho países Europeos e Isra l para valuar el fecto de los 
p) de las 
variables explicativas. A partir de la distribución tn–p–1 resultante de sustituir σ 2 por su estimación 
s2, se sigue que el intervalo de confianza al 100(1 – α)% para el valor esperad  β0 + β1x01 + …
+ βpx0p es
 15
que, como se muestra en el Apéndice de este tem , s  istribuy  d  forma 
aproximadamente normal con media β0 + β1x01 + … + βpx0p y varianza σ 2h0 en 
muestr s suficientemente grandes, 
0yˆ  →
~  N(β0 + β1x01  + … + βpx0p, σ  2h0), 
donde h0 es el leverage del punto (x01, …, x0p) que puede interpret rse como u a 
edida estandariz da d  su distancia resp c o al centro de las medias uest ales ( 1x , 
…, px ) de las variables explicativas. A partir de la distribución tn-p-1 resultante de 
sustituir σ 2 por su estimación s2, se sigue que el intervalo de confianza al 100(1 - α)% 
para el valor esperado β0 + β1x01 + … + βpx0p es 
0yˆ  ± tn p 1,1 α /2 s 0h . 
Como cabría esperar, la estimación del valor esperado de la variable respuesta en el 
punto (x01, …, x0p) será tanto más imprecisa cuanto más extremo sea dicho punto o, más 
concretamente, cuanto mayor sea su distancia estandarizada h0 respecto al centro de las 
medias muestrales ( 1x , …, px ). 
Ejemplo 11.4 Para un índice de masa corporal de x01 = 25 kg/m2 y n cons mo e 
alcohol de x02 = 20 g/día, el modelo de r gr sión múltipl  tima un nivel m dio 
de colesterol HDL de 0yˆ  = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. El punto 
de estimación (x01, x02) = (25, 20) está próximo al centro de las medias muestrales 
( 1x , 2x ) = (26,2; 16,5) de ambas variables explicativas y, en consecuencia, su 
leverage h0 = 0,0025 es bajo. Así, el IC al 95% para el valor esperado del 
colesterol HDL entre los sujetos con un índice de masa corporal de 25 kg/m2 y un 
consumo de alcohol de 20 g/día es 
− − −
Como cabría esperar, la estimación del valor espera o de la v riable respuesta en el punto 
(x01, …, x0p) será tanto más imprecisa cuanto más extremo sea dicho punto o, más concretamente, 
cuanto mayor sea su distancia estandarizada h0 respecto al centro de las medias muestrales 
(
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se d fine como la suma de cada uno de los 
valores muestrales dividida por el número de observacio es realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y contr les realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el ef cto de los 
1, …,
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tend cia cent al i forman acerca de cuál es el valor más representativo 
 una determinada variable , dicho de form  quivalente, estos estimadores indican 
alrededor de qué v lor se agrupan los datos observ dos. Las medidas de tendencia 
central d  la muestra sirven tanto para resumir los re ultados observad s como para 
realizar inferencias acerca de los parámetros pob acionales correspondientes. A 
continuación se describen los principales estimadores de la tend cia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, den tada por x , s  defin  como la suma de ca a uno d  los 
valores muestrales dividida por l número de observaciones realiza as. Si denotamos 
por n el tamaño muestral y por xi el valor observ do para el sujeto i-ésimo, i = 1, ..., n, 
la me ia ven ría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media s la m dida de tend cia central más utilizada y de más fácil 
interpretación. Corr sponde al “c nt o de gravedad” de los datos d  la mues ra. Su 
princip l limitación  que está muy influenciada por los valores extremos y, en este 
caso, puede no s r un fiel ref ejo de la tend cia central de la distribución. 
Ejemplo 1.4 En este y en los suc sivos ejemplos obre estimadores muestrales, se 
utilizarán los valores del colesterol HDL bt idos en los 10 primeros sujetos del 
estudi  “European Study n Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un est d o multicéntrico de casos y controles realizado 
entre 1 y 1992 en ocho países Eur peos e Isra l par evaluar el efecto de los 
p).
Ej pl  11.4 Para un índice de ma a corp ral de x01 = 25 kg/m2 y un consum alcohol 
de x02 = 20 g/día, el modelo de regresión múltiple estima un nivel medio de colesterol HDL 
e ŷ0 = 1,58 – 0,0207 ∙ 25 + 0,0028 ∙ 20 = 1,12 mmol/l. El punto de estimación (x01, x02) = 
(25, 20) está próximo al centro de las medias muestrales (
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M dia arit ética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1
 
 5
1.2 ME IDAS DE TENDENCIA CENTRAL 
Las medidas de t den ia central inform n a erca de cuál es el valor más presentativo 
de una determinad  variable o, dicho de forma equival nte, estos estimadores ndican 
alrededor de qué valor se agrupan los datos observados. Las medidas de t dencia 
central de la muestra sirve  tanto para resumir lo  resultados observados c mo para 
re lizar inferencias a erca de los parámetros poblacionales correspondi ntes. A 
continuación s  describen los principales estimadores de la t den ia central de una 
variable. 
1.2.1 M dia aritmética 
La media aritmética, denot da por x , s  define c mo la suma de cada uno de los 
valores muestrales dividida por el número de observacion s re lizadas. Si denotamos 
por n el t maño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendrí  dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medi a de t den ia central más utilizada y de m s fácil 
interpretación. Corresponde al “centro de graveda ” de los datos de la muestra. Su 
principal limitación es que está muy influenciada p r los valores extremos y, n este 
caso, puede no ser un fi l reflejo de la t den ia central de la d stribución. 
Ejemplo 1.4 En est  y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study o  Antioxidants, Myocardial Infarctio  and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y control s re lizado 
entre 99  y 1992 en cho países Eur peos e Israel para ev luar el efecto de los 
2) = (26,2; 16,5) de amb s 
variables explicativas y, en consecuencia, su leverage h0 = 0,0025 es bajo. Así, el IC al 
95% para el valor esper do del colesterol HDL entre l s sujetos c n un índice de m sa 
corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es
 16
0yˆ  ± t446;0,975  s 0h  = 1,12 ± 1,97 0025,0077,0 ⋅  = (1,09; 1,15). 
Por el contrario, el valor esperado del colesterol HDL entre los sujetos con un 
índice de masa corporal de 32 kg/m2 y un consumo de alcohol de 40 g/día se 
estima en 1,58 - 0,0207⋅32 + 0,0028⋅40 = 1,03 mmol/l, cuyo IC al 95% 
1,03 ± 1,97 0113,0077,0 ⋅  = (0,97; 1,09) 
es sensiblemente más impreciso, ya que el punto de estimación (32, 40) está 
distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage 
alto de 0,0113. 
El v lor predicho 0yˆ  es un stima or insesgado no sólo de la esperanza o media 
poblacional de la variable respuesta entre aquellos sujetos con los mismos valores de las 
variables explicativas, sino también de la respuesta individual de un nuevo sujeto y0 = 
β0 + β1x01 + … + βpx0p + ε0. En el Apéndice de este tema se demuestra que, bajo las 
asunciones de la regresión lineal múltiple (linealidad, aditividad, homogeneidad de la 
varianza y normalidad), la diferencia 0yˆ  - y0 sigue la distribución normal 
0yˆ  - y0 ~ N(0, σ
 2(1 + h0)), 
de tal forma que el intervalo de predicción al 100(1 - α)% para una nueva observación 
individual y0 viene dado por 
0yˆ  ± tn-p-1,1-α/2 s 01 h+ . 
Este intervalo de predicción para la respuesta individual de un único sujeto será 
substancialmente más amplio que el intervalo de confianza para la respuesta media de 
todos los sujetos con un mismo patrón de variables explicativas ya que, además del 
error en la estimación del valor predicho por la ecuación de regresión, el intervalo de 
Por l contrario, el valor esperado del colesterol HDL entre los sujet s con un índice 
de masa corporal de 32 kg/m2 y un consu o de alcohol de 40 g/día se estima en 
1,58 – 0,0207 ∙ 32 + 0,0028 ∙ 40 = 1,03 mmol/l, cuyo IC al 95%
 16
0yˆ  ± t446;0,975  s 0h  = 1,12 ± 1,97 0025,0077,0 ⋅  = (1,09; 1,15). 
Por el contrario, el valor esperado del colesterol HDL entre los sujetos con un 
índice de masa corporal de 32 kg/m2 y un consumo de alcohol de 40 g/día se 
esti  en 1,58 - 0,0207⋅32 + 0,0028⋅40 = 1,03 mmol/l, uy  IC al 95% 
1,03 ± 1,97 0113,0077,0 ⋅  = (0,97; 1,09) 
es s nsiblemente más impreciso, ya que el punto de estimación (32, 40) está 
distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage 
alto de 0,0113. 
El valor predicho 0yˆ  es un estimador insesgado no sólo de la esperanza o media 
poblacional de la variable respuesta entre aquellos sujetos con los mismos valores de las 
variables explicativas, sino también de la respuesta individual de un nuevo sujeto y0 = 
β0 + β1x01 + … + βpx0p + ε0. En el Apéndice de este tema se demuestra que, bajo las 
asuncione  de la regresión lineal múltiple (linealidad, aditividad, homogeneidad de la 
varianza y normalidad), la diferencia 0yˆ  - y0 sigue la distribución normal 
0yˆ  - y0 ~ N(0, σ
 2(1 + h0)), 
de tal forma que el intervalo de predicción al 100(1 - α)% para una nueva observación 
individual y0 viene dado por 
0yˆ  ± tn-p-1,1-α/2 s 01 h+ . 
Este intervalo de predicción para la respuesta individual de un único sujeto será 
substancialmente más amplio que el intervalo de confianza para la respuesta media de 
todos los sujetos con un mismo patrón de variables explicativas ya que, además del 
error en la estimación del valor predicho por la ecuación de regresión, el intervalo de 
 sensiblemente más impreciso, ya que l punto de estimación (32, 40) está distante del 
centro de las medias muestrales (26,2; 16,5) y presenta un leverage alto de 0,0113.
El valor predicho ŷ0 es un estimador insesgado no sólo de la espera za o media poblacional 
de la variable respuesta entre aquellos sujetos con los mismos valores de las variables 
explicativas, sino también de la respuesta individual de un nuevo sujeto y0 = β0 + β1x01 + … + 
βpx0p + ε0. En el Apéndice de este tema se demuestra que, bajo las asunciones de la regresión 
lineal múltiple (linealidad, aditividad, homogeneidad de la varianza y normalidad), la diferencia 
ŷ0 – y0 sigue la istribución normal
 16
0yˆ  ± t446;0,975  s 0h  = 1,12 ± 1,97 0025,0077,0 ⋅  = (1,09; 1,15). 
Por el contrario, el valor espe ado d l olesterol HDL entre los sujetos c  u  
índice de masa corporal de 32 kg/m2 y un co sum  de alcohol de 40 g/día s  
estima en 1,58 - 0,0207⋅32 + 0,0028⋅40 = 1,03 mmol/l, cuyo IC al 95% 
1,03 ± 1,97 0113,0077,0 ⋅  = (0,97; 1,09) 
es sensiblemente más impreciso, ya que el punto d  estimación (32, 40) está 
dist nte del centro de las medias muestrales (26,2; 16,5) y presenta un leverage 
alto de 0,0113. 
El valor predicho 0yˆ  es un estimador insesgado no sólo de la esperanza o media 
poblacional de la variable respuesta entre aquellos sujetos con los mismos valores de las 
variables explicativas, sino también de l  respuest  indivi ual de u  nuevo ujeto y0 = 
β0 + β1x01 + … + βpx0p + ε0. E  l Apé dice de este t ma se demu str que, bajo las 
asunciones de la regresión l eal múltiple (li alidad, aditividad, homogeneidad de l
varianza y normalidad), la diferencia 0yˆ  - y0 sig  la distribución or al 
0yˆ y0 ~ N(0, σ  2(1 + h0)), 
de tal forma que el interv lo de predicción al 100(1 - α)% para una nueva observación 
individual y0 viene dado por
0yˆ  ± tn-p-1,1-α/2 s 01 h+ . 
Este intervalo de predicción para la respuesta individual de un único sujeto será 
substancialmente más amplio que el intervalo de confianza para la respuesta media de 
todos los sujetos con un mismo patrón de variables explicativas ya que, además del 
error en la estimación del valor predicho por la ecuación de regresión, el intervalo de 
−
de tal forma que el intervalo de predicción al 100(1 – α)% para una nueva observación 
ind vidual y0 viene dado p r
 16
0yˆ  ± t446;0,975  s 0h  = 1,12 ± 1,97 0025,0077,0 ⋅  = (1,09; 1,15). 
Por el contrario, el valor esperado l colesterol HDL entre los sujetos con un 
índice de masa corporal de 32 kg/m2 y un consumo de alcohol de 40 g/día se 
estima en 1,58 - 0,0207⋅32 + 0,0028⋅40 = 1,03 mmol/l, cuyo IC al 95% 
1,03 ± 1,97 0113,0077,0 ⋅  = (0,97; 1,09) 
es sensiblemente más impreciso, y que el punto de estimación (32, 40) está 
distante del centro de las me ias uestr les (26,2; 16,5) y pre enta un leverage
alto de 0,0113. 
El valor predicho 0yˆ  es un estimador insesgado no sólo de la esperanza o media 
pobla onal de a vari b e respuesta entre aquellos sujetos c n los mismos valores de las 
variables xplicativa , sin  también de la respuest  individual d  un nu vo sujeto y0 =
β0 + β1x01 + … + βpx0p + ε0. En l Apéndice d st  t ma se demuestra que, bajo las 
su ciones  la regresión lineal múltiple (linealidad, aditividad, homogeneidad d  la 
varianza y normalidad), la diferencia 0yˆ  - y0 sigue la distribución normal 
0yˆ  - y0 ~ N(0, σ  2(1 + h0)),
de tal forma que el intervalo de predicción al 100(1 - α)% para una nueva observación 
individual y0 viene dado por
0yˆ  ±  tn p 1,1 α /2 s 01 h+ . 
Este intervalo de predicción para la respuesta individual de un único sujeto será 
substancial ente más amplio que el intervalo de confianza para la respuesta media de 
todos los sujetos con un mismo patrón de variables explicativas ya que, además del 
error en la estimación del valor predicho por la ecuación de regresión, el intervalo de 
− − −
203
Contrastes de hipótesis en regresión lineal múltiple
Pastor-Barriuso R.
Este intervalo de predicción para la respuesta individual de un único sujeto será substancialmente 
más amplio que el intervalo de confianza para la respuesta media de todos los sujetos con un 
mismo patrón de variables explicativas ya que, además del error en la estimación del valor 
predicho por la ecuación de regresión, el intervalo de predicción incorpora la varianza residual 
de cada respuesta individual alrededor de dicha ecuación de regresión. Notar, además, que los 
intervalos de predicción para una nueva observación requieren de la hipótesis de normalidad, 
mientras que los intervalos de confianza para el valor esperado tienden a ser correctos en 
muestras suficientemente grandes, independientemente de la distribución subyacente de la 
variable respuesta.
Ejemplo 11.5 El valor predicho del colesterol HDL para un nuevo sujeto con un índice 
de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es de nuevo ŷ0 = 1,58 
– 0,0207 ∙ 25 + 0,0028 ∙ 20 = 1,12 mmol/l. Sin embargo, el intervalo de predicción al 95% 
para esta nueva observación
 17
predicción incorpora la varianza residual de cada respuesta individual alrededor de 
dicha ecuación de regresión. Notar, además, que los intervalos de predicción para una 
nueva observación requieren de la hipótesis de normalidad, mientras que los intervalos 
de confianza para el valor esperado t e den  ser correctos en muestras suficientem nte 
g andes, independientemente de la distribución subyacente de la variable respuesta. 
Ejemplo 11.5 El valor predicho del colesterol HDL para un nuevo sujeto con un 
índice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es de 
nuevo 0yˆ  = 1,58 - 0,0207⋅25 + 0,0028⋅20 = 1,12 mmol/l. Sin embargo, el 
intervalo de predicción al 95% para esta nueva o servación 
0yˆ  ± t446;0,975 s 01 h+  = 1,12 ± 1,97 )0025,01(077,0 +  = (0,57; 1,67) 
es notablemente más impreciso que el intervalo de confianza calculado en el 
ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con 
dichos valores del índice de masa corporal y del consumo del alcohol (IC al 95% 
1,09−1,15 mmol/l). 
11.4 CONTRASTES DE HIPÓTESIS EN REGRESIÓN LINEAL MÚLTIPLE 
Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de 
regresión lineal simple se reduce a evaluar si el coeficiente β1 asociado a la única 
variable explicativa es 0, en cuyo caso el modelo no aportará explicación alguna sobre 
la variabilidad de la variable respuesta. En regresión lineal múltiple, sin embargo, la 
presencia de múltiples variables explicativas permite realizar distintos contrastes de 
hipótesis, que dan respuesta a diferentes preguntas de investigación. En general, los 
contrastes de hipótesis en regresión lineal múltiple pueden clasificarse en tres grandes 
grupos, a saber:  
es notablemente más impreciso que el intervalo de confianza calculado en el ejemplo 
anterior para el valor edio del col sterol HDL n todos los sujetos con dichos valores 
del índice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l).
11.4 CONTRASTES DE HIPÓTESIS EN REGRESIÓN LINEAL MÚLTIPLE
Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresión 
lineal simple se reduce a evaluar si el coeficiente β1 asociado a la única variable explicativa es 0, 
en cuyo caso el modelo no aportará explicación alguna sobre la variabilidad de la variable 
respuesta. En regresión lineal múltiple, sin embargo, la presencia de múltiples variables 
explicativas permite realizar distintos contrastes de hipótesis, que dan respuesta a diferentes 
preguntas de investigación. En general, los contrastes de hipótesis en regresión lineal múltiple 
pueden clasificarse en tres grandes grupos, a saber: 
 y El contraste global determina si el modelo en su conjunto explica una parte significativa 
de la variabilidad d  la variable respuesta.
 y Los contrastes parciales individuales evalúan la contribución independiente de cada 
variable explicativa una vez controlados los efectos de las restantes variables explicativas.
 y Los contrastes parciales múltiples valoran si un determinado subgrupo de dos o más 
variables explicativas contribuye significativamente a explicar la variabilidad residual de 
la variable respuesta que no se explica por las otras variables incluidas en el modelo.
En los siguientes apartados se describen los procedimientos estadísticos necesarios para realizar 
d chos contrastes. Conviene resaltar que estos co trastes de hipótesis asumen li alidad y aditividad 
en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas 
de bondad l ajus , ya que no facilita  ninguna información sobre l  idoneidad del modelo lineal 
aditivo para describir la relación subyacente de las variables explicativas con la variable respuesta.
11.4.1 Contraste global del modelo de regresión lineal múltiple
La hipótesis nula del contraste global de un modelo de regresión lineal múltiple establece que ninguna 
de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse 
204
Regresión lineal múltiple
Pastor-Barriuso R.
como H0: β1 = β2 = … = βp = 0. Bajo esta hipótesis nula, la ecuación de regresión se reduce al término 
constante β0 y el modelo no aportará entonces ninguna explicación sobre la variabilidad de la variable 
respuesta. El propósito es, por tanto, contrastar la hipótesis nula H0: β1 = β2 = … = βp = 0 frente a la 
hipótesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente 
con la respuesta, que corresponde a H1: βj ≠ 0 para algún j = 1, …, p. 
Al igual que en regresión lineal simple, este contraste global se realiza descomponiendo la 
variabilidad de la variable respuesta. Una vez estimada la ecuación de regresión ŷ = b0 + b1x1 
+ … + bpxp, la suma de cuadrados total SST de la variable respuesta puede descomponerse 
como
 19
Al igual que en regresión lineal simple, este contraste global se realiza 
descomponiendo la variabilidad de la variable respuesta. Una vez estimada la ecuación 
de regresión yˆ  = b0 + b1x1 + … + bpxp, la suma de cuadrados total SST de la variable 
respuesta puede descomponerse como 
SSE,SSR)ˆ()ˆ(
)ˆ)(ˆ(2)ˆ()ˆ(
)ˆˆ()(SST
1
2
1
2
11
2
1
2
1
2
1
2
+=−+−=
−−+−+−=
−+−=−=



==
===
==
n
i
ii
n
i
i
n
i
iii
n
i
ii
n
i
i
n
i
iii
n
i
i
yyyy
yyyyyyyy
yyyyyy
 
ya que las desviaciones iyˆ  - y  y yi - iyˆ  están incorrelacionadas 
0
ˆ)ˆ)(ˆ(
11 11
0
111
=−+=
−=−−
 

== ==
===
n
i
i
p
j
n
i
iijj
n
i
i
n
i
i
n
i
ii
n
i
iii
eyexbeb
eyeyyyyy
 
de acuerdo a las ecuaciones lineales derivadas del método de mínimos cuadrados (véase 
Apartado 11.3.1). En consecuencia, la suma de cuadrados total SST se descompone en 
dos términos independientes: la suma de cuadrados de la regresión SSR, que 
representa la variabilidad de la variable respuesta explicada por el modelo de regresión, 
y la suma de cuadrados del error SSE, que representa la variabilidad residual que 
permanece sin explicar. Por un lado, la suma de cuadrados de la regresión SSR contiene 
p grados de libertad ya que, conocida la media muestral y , los valores estimados por la 
ecuación de regresión iyˆ  = b0 + b1xi1 + … + bpxip = y  + b1(xi1 - 1x ) + … + bp(xip - px ) 
quedan completamente determinados por los p coeficientes asociados a las variables 
explicativas. De hecho, puede probarse que el cociente SSR/σ 2 sigue una distribución 
chi-cuadrado con p grados de libertad cuando la hipótesis nula H0: β1 = β2 = … = βp = 0 
ya que las desviaciones ŷi – 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). Si se suma una constante a cada uno de los datos 
de una muestra, la media de la muestra resultante es igual a la media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada no de l s atos de 
una muestra por una constante y l result o se le suma otra const nte, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 y yi – ŷi está  incorrelaci nadas
 19
Al igual que en regresión lineal simple, este contraste global se realiza 
descomponiendo la variabilidad de la variable respuesta. Una vez estimada la ecuación 
de regresión yˆ  = b0 + b1x1 + … + bpxp, la suma de cuadrados total SST de la variable 
respuesta puede descomponerse como 
SSE,SSR)ˆ()ˆ(
)ˆ)(ˆ(2)ˆ()ˆ(
)ˆˆ()(SST
1
2
1
2
11
2
1
2
1
2
1
2
+=−+−=
−−+−+−=
−+−=−=


==
===
==
n
i
ii
n
i
i
n
i
iii
n
i
ii
n
i
i
n
i
iii
n
i
i
yyyy
yyyyyyyy
yyyyyy
 
ya que las desviaciones iyˆ  - y  y yi - iyˆ  están incorrelacionadas 
0
ˆ)ˆ)(ˆ(
11 11
0
111
=−+=
−=−−
 

== ==
===
n
i
i
p
j
n
i
iijj
n
i
i
n
i
i
n
i
ii
n
i
iii
eyexbeb
eyeyyyyy
 
de acuerdo a las ecuaciones lineales derivadas del método de mínimos cuadrados (véase 
Apartado 11.3.1). En consecuencia, la suma de cuadrados total SST se descompone en 
dos términos independientes: la suma de cuadrados de la regresión SSR, que 
representa la variabilidad de la variable respuesta explicada por el modelo de regresión, 
y la suma de cuadrados del error SSE, que representa la variabilidad residual que 
permanece sin explicar. Por un lado, la suma de cuadrados de la regresión SSR contiene 
p grados de libertad ya que, conocida la media muestral y , los valores estimados por la 
ecuación de regresión iyˆ  = b0 + b1xi1 + … + bpxip = y  + b1(xi1 - 1x ) + … + bp(xip - px ) 
quedan completamente determinados por los p coeficientes asociados a las variables 
explicativas. De hecho, puede probarse que el cociente SSR/σ 2 sigue una distribución 
chi-cuadrado con p grados de libertad cuando la hipótesis nula H0: β1 = β2 = … = βp = 0 
de acuerdo a las ecuaciones lineales derivadas del método de mínimos cuadrados (véase Apartado 
11.3.1). En consecuencia, la suma de cuadra os total SST se descompone en dos términos 
independientes: la suma de cuadrados de la regresión SSR, que representa la variabilidad de la 
variable respuesta explicada por el modelo de regresión, y la sum  de cuadrados del error SSE, 
que representa l  vari bilidad residual que permanece sin explicar. Por un lado, la uma 
de cuadrados de la regresión SSR contiene p grados de libertad ya que, conocida la media 
muestral 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La media aritmética presenta las sigui ntes pr piedades: 
• Cambio de origen (traslación). Si se suma una constante cada uno de los datos 
de una muestra, la media de la muestra res ltante es igual a a media inicial más la 
constante utilizada; si yi = xi + c, entonces y  = x  + c. U ambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la media de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonc s y  = c x .
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
, los valores esti ad s por la ec ación de regresión ŷi = b0 + b1xi1 + … + bpxip = 
 
 6
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en 
hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 
1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en 
estos 10 participantes es 
10
53,1...58,189,0
10
1 10
1
+++
== 
=i
ixx  = 1,223 mmol/l. 
La edia aritmética presenta las siguientes propiedades: 
• Cambio de origen (traslación). S  se suma una constante a cada uno de los datos 
de u a muestra, la media de la mue tra re lt nte es igual a la media inicial más la 
const nte utilizada; si yi = xi  c, entonces y  = x  + c. Un cambio de origen que 
se realiza con frecuencia es el centrado de la variable, que consiste en restar a 
cada valor de la muestra su media. La media de una variable centrada será, por 
tanto, igual a 0. 
• Cambio de escala (unidades). Si se multiplica cada uno de los datos de una 
muestra por una constante, la edia de la muestra resultante es igual a la media 
inicial por la constante utilizada; si yi = cxi, entonces y  = c x . 
• Cambio simultáneo de origen y escala. Si se multiplica cada uno de los datos de 
una muestra por una constante y al resultado se le suma otra constante, la media 
de la muestra resultante es igual a la media inicial por la primera constante, más la 
segunda constante; si yi = c1xi + c2, entonces y  = c1 x  + c2.  
Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 
multiplica por el factor de conversión 38,8. Así, utilizando la propiedad del 
cambio de escala, la media del colesterol HDL en mg/dl se calcularía 
directamente a partir de su media en mmol/l como 1,223⋅38,8 = 47,45 mg/dl. 
 + 
b1(xi1 – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrup n los datos observados. Las medidas d  e dencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspond entes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el nú ero de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor obs rvado para el sujet  i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
xx n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1) + … + bp(xip – 
 
 5
1.2 M DID S DE ENDENCIA CENTRAL 
Las medid s de tendencia central informan ace ca de cuál es el val r más representativo 
de una determina a variable o, dicho de forma equival nte, estos estimadores indican 
alrededor de qué v l r se agrupan los datos observados. Las medidas e tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los p rámet os blacionales correspondientes. A 
continuación se describen los princip les estimadores de la tendencia central de una 
variable. 
1.2.1 Me ia a itmética 
La medi  aritmética, denotada por x , se define com la suma de cada uno de los 
valores mu strales dividida por el núm o de observacio es realiz das. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media s la m dida de tendencia central más utilizada y de más fácil 
interpretación. C rr sponde al “c ntro e gravedad” de los datos de la muestra. Su 
principal li itación es que está muy influ nciada p r los valor s extremos y, en este 
caso, puede no ser un fiel refl jo de la tendencia entral de la distribución. 
Ej mplo 1.4 En e t  y en los suc sivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del cole t ro  HDL obtenido  en los 10 primeros sujetos del 
estudio “Europe  Stud  on Antioxid nts, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos  Israel para evaluar el efecto de los 
p) queda  co pletamente determinados por los p coeficientes 
asocia os a l s variables explicativas. De h ho, puede prob rs  que el coci nt  SSR/σ 2 sigue 
una di ibución chi-cuadrad  con p grado  de lib rtad cuando la hipótesis nula H0: β1 = β2 = … 
= βp = 0 s cierta. Por otro la o, como se vio en el Ap rtado 11.3.1, la suma e cuadrados del 
error SSE c ntiene n – p – 1 grados d  libertad. Además, bajo las asunciones del modelo de 
regresión lineal múltiple, se comp ueba que el cocient  SSE/σ 2 se distribuye conforme a una 
chi-cuadr do con n – p – 1 grados de libertad con independencia de la hipótesis nula. Combinando 
las distribuciones muestrales de ambas sumas de cuadrados, e tiene qu  bajo la hipótesis nula 
H0: β1 = β2 = … = βp = 0 la razón entre la varianza explicada por la regresión SSR/p y la varianza 
residual s2 = SSE/(n – p – 1)
 20
es cierta. Por otro lado, como se vio en el Apartado 11.3.1, la suma de cuadrados del 
error SSE contiene n - p - 1 grados de libertad. Además, ajo las asunciones del modelo 
de regre ión li eal múltiple, s  comprueba que el coci nt  SSE/σ 2 e distribuye 
confor  a una chi-cu drad  con n - p - 1 grados e libertad con independencia de la 
hipótesis nula. Combinando s distr buci nes mu strales de a b  sumas de 
cua ados, se tiene que baj  la hipótesis nula H0: β1 = β2 = … = βp = 0 la razón entre l  
varianza explicada por l  regresión SSR/p y la var anz residual s2 = SSE/(n - p - 1) 
F = 
)1/(
/
~
)1(
SSE
SSR
SSR
2
1
2
2
2
2
−−
−−
=
−−
pn
p
pn
p
ps pn
p
χ
χ
σ
σ  = Fp,n p 1
se distribuye como el cociente de dos distribuciones chi-cuadrado independientes 
divididas por sus correspondientes grados de libertad, que equivale a una distribución F 
de Fisher con p grados de libertad en el numerador y n - p - 1 en el denominador. La 
razón entre las varianzas explicada y residual constituye, por tanto, el estadístico para el 
contraste global del modelo de regresión lineal múltiple. La descomposición de la 
variabilidad de la variable respuesta, junto con la razón de varianzas resultante, suele 
resumirse en la tabla del análisis de la varianza (Tabla 11.2). 
[Tabla 11.2 aproximadamente aquí] 
Como complemento al contraste global del modelo, suele calcularse el coeficiente de 
determinación R2 = SSR/SST, que es una medida cuantitativa de la proporción de la 
variabilidad de la variable respuesta explicada por el modelo de regresión múltiple. El 
coeficiente de determinación R2 varía entre 0 y 1 y aumenta siempre que se incluyen 
nuevas variables explicativas en el modelo, aunque este incremento puede no ser 
significativo (ver apartado siguiente). Otra de sus principales propiedades es que 
− −
se distribuye como l cociente de dos distribuciones chi-cua rado independientes divididas por 
sus correspondientes grad s de lib rtad, que equivale a una distribución F d  Fi her con p 
grados de libertad en el numerador y n – p – 1 en el denominador. La razón entre las varianzas
205
Contrastes de hipótesis en regresión lineal múltiple
Pastor-Barriuso R.
Tabla 11.2 Tabla genérica del análisis de la varianza en regresión 
lineal múltiple.*
Suma de 
cuadrados
Grados de 
libertad Varianza
Razón de 
varianzas
 64
Tabla 11.2 Tabla genérica del análisis de la varianza en regresión lineal múltiple.* 
 Suma de Grados de  Razón de 
 cuadrados libertad Varianza varianzas 
Regresión SSR = 
=
−
n
i
i yy
1
2)ˆ(  p 
p
SSR  F = 2
SSR
ps
 
Error SSE = 
==
−=
n
i
ii
n
i
i yye
1
2
1
2 )ˆ(  n p  1  s2 = 
1
SSE
−− pn
 
Total SST = 
=
−
n
i
i yy
1
2)(  n  1 
* Coeficiente de determinación R2 = SSR/SST. 
− −
−
* Coeficiente de determinación R2 = SSR/SST.
explicada y residual constituye, por tanto, el estadístico para el contraste global del modelo de 
regresión lineal múltiple. La descomposición de la variabilidad de la variable respuesta, junto 
con la razón de varianzas resultante, suele resumirse en la tabla del análisis de la varianza 
(Tabla 11.2).
Como complemento al contraste global del modelo, suele calcularse el coeficiente de 
determinación R2 = SSR/SST, que es una medida cuantitativa de la proporción de la variabilidad 
de la variable respuesta explicada por el modelo de regresión múltiple. El coeficiente de 
determinación R2 varía entre 0 y 1 y aumenta siempre que se incluyen nuevas variables 
explicativas en el modelo, aunque este incremento puede no ser significativo (ver apartado 
siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de 
correlación 
 21
equivale al cuadrado del coeficiente de c rrelaci  yyr ˆ  entre los valores observados yi 
de la variable respuesta y los valores predichos iyˆ  por la ecuación de regresión, que se 
conoce como coeficiente de correlación múltiple, 
.
)ˆ()(
)ˆ)((
)ˆ()(
)ˆ)(ˆ()ˆ)((
)ˆ()(
)ˆ(
)(
)ˆ(
SST
SSR
2
ˆ
1
2
1
2
2
1
1
2
1
2
2
11
1
2
1
2
2
1
2
1
2
1
2
2
yyn
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
iii
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
r
yyyy
yyyy
yyyy
yyyyyyyy
yyyy
yy
yy
yy
R
=
−−





−−
=
−−





−−−−−
=
−−





−
=
−
−
==








==
=
==
==
==
=
=
=
 
Notar que las estimaciones de los coeficientes de regresión minimizan la suma de 
cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinación 
R2 del modelo. De la relación entre los coeficientes de determinación y correlación 
múltiple, se deriva entonces que las estimaciones b0, b1, …, bp maximizan la correlación 
entre los valores observados yi y los valores predichos iyˆ  = b0 + b1xi1 + … + bpxip, de tal 
forma que cualquier otra combinación lineal de las variables explicativas tendrá menor 
correlación con la variable respuesta. 
Ejemplo 11.6 En la primera parte de la Tabla 11.1 se presenta el análisis de la 
varianza de la regresión lineal múltiple del colesterol HDL sobre el índice de 
masa corporal y el consumo de alcohol. La suma de cuadrados total del colesterol 
HDL 
SST = 
=
−
449
1
2)1,08(
i
iy  = 38,91 
 entre los valores observados yi de la variable respuesta y los valores predichos ŷi 
por la ecuación de regresión, que se conoce como coeficiente de correlación múltiple,
 21
equivale al cuadrado del coeficiente de correlación yyr ˆ  entre los valores observados yi 
de la variable respuesta y los valores predichos iyˆ  por la ecuación de regresión, que se 
conoce como co ficiente de correl ción múltiple, 
.
)ˆ()(
)ˆ)((
)ˆ()(
)ˆ)(ˆ()ˆ)((
)ˆ()(
)ˆ(
)(
)ˆ(
SST
SSR
2
ˆ
1
2
1
2
2
1
1
2
1
2
2
11
1
2
1
2
2
1
2
1
2
1
2
2
yyn
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
iii
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
r
yyyy
yyyy
yyyy
yyyyyyyy
yyyy
yy
yy
yy
R
=
−−





−−
=
−−





−−−−−
=
−−





−
=
−
−
==








==
=
==
==
==
=
=
=
 
Notar que las estimaciones de los coeficientes de regresión minimizan la suma de 
cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinación 
R2 del modelo. De la relación entre los coeficientes de determinación y correlación 
múltiple, se deriva entonces que las estimaciones b0, b1, …, bp maximizan la correlación 
entre los valores observados yi y los valores predichos iyˆ  = b0 + b1xi1 + … + bpxip, de tal 
forma que cualquier otra combinación lineal de las variables explicativas tendrá menor 
correlación con la variable respuesta. 
Ejemplo 11.6 En la primera parte de la Tabla 11.1 se presenta el análisis de la 
varianza de la regresión lineal múltiple del colesterol HDL sobre el índice de 
masa corporal y el consumo de alcohol. La suma de cuadrados total del colesterol 
HDL 
SST = 
=
−
449
1
2)1,08(
i
iy  = 38,91 
Notar que las estimaciones de los coeficientes de regresión minimizan la suma de cuadrados del 
error SSE y, en consecuencia, maximizan el coeficiente de determinación R2 del modelo. De la 
relación entre los coeficientes de determinación y correlación múltiple, se deriva entonces que 
las estimaciones b0, b1, …, bp maximizan la correlación entre los valores observados yi y los 
206
Regresión lineal múltiple
Pastor-Barriuso R.
valores predichos ŷi = b0 + b1xi1 + … + bpxip, de tal forma que cualquier otra combinación lineal 
de las variables explicativas tendrá menor correlación con la variable respuesta.
Ejemplo 11.6 En la primera parte de la Tabla 11.1 se presenta el análisis de la varianza 
de la regresión lineal múltiple del colesterol HDL sobre el índice de masa corporal y el 
consumo de alcohol. La suma de cuadrados total del colesterol HDL
 21
equivale al cuadrado del coeficiente de correlación yyr ˆ  entre los valores observados yi 
de la variable respuesta y los valores predichos iyˆ  por la ecuación de regresión, que se 
conoce como coeficiente de correlación múltiple, 
.
)ˆ()(
)ˆ)((
)ˆ()(
)ˆ)(ˆ()ˆ)((
)ˆ()(
)ˆ(
)(
)ˆ(
SST
SSR
2
ˆ
1
2
1
2
2
1
1
2
1
2
2
11
1
2
1
2
2
1
2
1
2
1
2
2
yyn
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
iii
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
r
yyyy
yyyy
yyyy
yyyyyyyy
yyyy
yy
yy
yy
R
=
−−





−−
=
−−





−−−−−
=
−−





−
=
−
−
==








==
=
==
==
==
=
=
=
 
Notar que las estimaciones de los coeficientes de regresión minimizan la suma de 
cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinación 
R2 del modelo. De la relación entre los coeficientes de determinación y correlación 
múltiple, se deriva entonces que las estimaciones b0, b1, …, bp maximizan la correlación 
entre los valores observados yi y los valores predichos iyˆ  = b0 + b1xi1 + … + bpxip, de tal 
forma que cualquier otra combinación lineal de las variables explicativas tendrá menor 
correlación con la variable respuesta. 
Ejemplo 11.6 En la primera parte de la Tabla 11.1 se presenta el análisis de la 
varianza de la regresión lineal múltiple del colesterol HDL sobre el índice de 
masa corporal y el consumo de alcohol. La suma de cuadrados total del colesterol 
HDL 
SST = 
=
−
449
1
2)1,08(
i
iy  = 38,91 
se descompone en la suma de cuadrados explicada por la ecuación de regresión estimada 
ŷ = 1,58 – 0,0207x1 + 0,0028x2
 22
se descompone en la suma de cuadrados explicada por la ecuación de regresión 
estimada yˆ  = 1,58 - 0,0207x1 + 0,0028x2 
SSR = 
=
−+−
449
1
2
21 )08,10028,00207,058,1(
i
ii xx  = 4,58 
y la suma de cuadrados residual 
SSE = 
=
+−−
449
1
2
21 )}0028,00207,058,1({
i
iii xxy  = 34,33. 
Por tanto, el coeficiente de determinación se estima en R2 = 4,58/38,91 = 0,118 y 
el coeficiente de correlación múltiple en 118,0ˆ =yyr  = 0,343. Es decir, la 
combinación lineal del índice de masa corporal y el consumo de alcohol presenta 
una correlación de 0,343 con el colesterol HDL, consiguiendo así explicar el 
11,8% de la variabilidad del colesterol HDL en los controles del estudio 
EURAMIC. Esta variabilidad explicada por el modelo de regresión lineal múltiple 
representa una parte significativa de la variabilidad total del colesterol HDL, ya 
que el contraste global del modelo mediante la razón entre las varianzas explicada 
y residual 
F = 
077,0
29,2
446/33,34
2/58,4
=  = 29,72 
resulta en un valor P = P(F2,446 ≥ 29,72) < 0,001 bajo la distribución F de Fisher 
con 2 grados de libertad en el numerador y 446 en el denominador. 
11.4.2 Contrastes parciales 
Cuando el contraste global de regresión es significativo, el modelo en su conjunto 
resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta. 
No obstante, esto no implica necesariamente que todas las variables explicativas 
y la suma de cuadrados residual
 22
se descompone en la suma de cuadrados explicada por la ecuación de regresión 
estimada yˆ  = 1,58 - 0,0207x1 + 0,0028x2 
SSR = 
=
−+−
449
1
2
21 )08,10028,00207,058,1(
i
ii xx  = 4,58 
y la suma de cuadrados residual 
SSE = 
=
+−−
449
1
2
21 )}0028,00207,058,1({
i
iii xxy  = 34,33. 
Por tanto, el coeficiente de determinación se estima en R2 = 4,58/38,91 = 0,118 y 
el coeficiente d  correlación múltiple en 118,0ˆ =yyr  = 0,3 3. Es decir, la 
combinación lineal d  índice de masa co poral y el consumo de alcohol presenta 
una correlación de 0,343 con el colesterol HDL, consiguiendo así explicar el 
11,8% de la variabilidad del colesterol HDL en los controles del estudio 
EURAMIC. Esta variabilidad explicada por el modelo de regresión lineal múltiple 
representa una parte significativa de la variabilidad total del colesterol HDL, ya 
que el contraste global del modelo mediante la razón entre las varianzas explicada 
y residual 
F = 
077,0
29,2
446/33,34
2/58,4
=  = 29,72 
resulta en un valor P = P(F2,446 ≥ 29,72) < 0,001 bajo la distribución F de Fisher 
con 2 grados de libertad en el numerador y 446 en el denominador. 
11.4.2 Contrastes parciales 
Cuando el contraste global de regresión es significativo, el modelo en su conjunto 
resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta. 
No obstante, esto no implica necesariamente que todas las variables explicativas 
Por tanto, el coeficiente de determinación se estima en R2 = 4,58/38,91 = 0,118 y el 
coeficiente de correlación múltiple en 
 22
se descom ne en a suma de cuadrad s explicada por l  ecuación de r gresión 
estimada yˆ  = 1,58 - 0,0207x1 + 0,0028x2 
SSR = 
=
−+−
449
1
2
21 )08,10028,00207,058,1(
i
ii xx  = 4,58 
y la suma de cuadrados residual 
SSE = 
=
+−−
449
1
2
21 )}0028,00207,058,1({
i
iii xxy  = 34,33. 
Por tanto, el coeficiente de determinación se estima en R2 = 4,58/38,91 = 0,118 y 
el coeficiente de co relación lti l  118,0ˆ =yyr  = 0,343. Es decir, la 
combinación lineal del índice de masa corporal y el consumo de alcohol presenta 
una correlación de 0,343 con el colesterol HDL, consiguiendo así explicar el 
11,8% de la variabilidad del colesterol HDL en los controles del estudio 
EURAMIC. Esta variabilidad explicada por el modelo de regresión lineal múltiple 
representa una parte significativa de la variabilidad total del colesterol HDL, ya 
que el contraste global del modelo mediante la razón entre las varianzas explicada 
y residual 
F = 
077,0
29,2
446/33,34
2/58,4
=  = 29,72 
resulta en un valor P = P(F2,446 ≥ 29,72) < 0, 1 bajo la distribución F de Fisher 
con 2 grados de libertad en el numerador y 446 en el denominador. 
11.4.2 Contrastes parciales 
Cuando el contraste global de regresión es significativo, el modelo en su conjunto 
resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta. 
No obstante, esto no implica necesariamente que todas las variables explicativas 
 decir, la combinación 
lineal del índice de masa corporal y el consumo de alcohol presenta una correlación de 
0,343 con el colesterol HDL, consiguiendo así explicar el 11,8% de la variabilidad del 
colesterol HDL en los controles del estudio EURAMIC. Esta variabilidad explicada por 
el modelo de regresión lineal múltiple representa una parte significativa de la variabilidad 
total del colesterol HDL, ya que el contraste global del modelo mediante la razón entre las 
varianzas explicada y residual
 22
se descompone en la suma de cuadrados explicada por la ecuación de regresión 
estimada yˆ  = 1,58 - 0,0207x1 + 0,0028x2 
SSR = 
=
−+−
449
1
2
21 )08,10028,00207,058,1(
i
ii xx  = 4,58 
y la suma de cuadrados residual 
SSE = 
=
+−−
449
1
2
21 )}0028,00207,058,1({
i
iii xxy  = 34,33. 
Por tanto, el coeficiente de determinación se estima en R2 = 4,58/3 ,91 = 0,118 y 
el coeficiente de correlación múltiple en 118,0ˆ =yyr  = 0,343. Es decir, la 
combinación lineal del índice de masa corporal y el consumo de alcohol presenta 
una correlación de 0,343 con el colesterol HDL, consiguiendo así explicar el 
11,8% de la variabilidad del colesterol HDL en los controles del estudio 
EURAMIC. Esta variabilidad explicada por el modelo de regresión lineal múltiple 
representa una parte significativa de la variabilidad total del colesterol HDL, ya 
que el c ntraste global del modelo mediant  la razón entre las varianzas explicada 
y residual 
F = 
077,0
29,2
446/33,34
2/58,4
=  = 29,72 
resulta en un valor P = P(F2,446 ≥ 29,72) < 0,001 bajo la distribución F de Fisher 
con 2 grados de libertad en el numerador y 446 en el denominador. 
11.4.2 Contrastes parciales 
Cuando el contraste global de regresión es significativo, el modelo en su conjunto 
resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta. 
No obstante, esto no implica necesariamente que todas las variables explicativas 
resulta en un valor P = P(F2,446 ≥ 29,72) < 0,001 bajo la distribución F de Fisher con 2 
grados de libertad en el numerador y 446 en  denominador.
11.4.2 Contrastes arciales
Cuando l contraste global  regresión s significativo, el modelo en su conjunto resulta 
efectivo a la hora de explicar la variabilidad observada en la variable respuesta. No obstante, 
esto no implica necesariamente que todas las variables explicativas incluidas en el modelo 
contribuyan de forma significativa a explicar una parte de la variabilidad de la respuesta, 
pudiendo haber una o varias variables que tengan nula o escasa contribución. En este sentido, 
cabría preguntarse si es posible eliminar algunas variables explicativas del modelo sin afectar 
sensiblemente a la capacidad predictiva del mismo. Los contrastes parciales se ocupan de dar 
respuesta a este tipo de preguntas, valorando la contribución adicional de una o más variables 
explicativas a lo ya explicado por las otras variables presentes en el modelo.
La hipótesis nula del contraste parcial establece que, una vez incluidas las variables 
explicativas X1, ..., Xp–r, 1 ≤ r < p, las restantes r variables Xp–r+1, ..., Xp del modelo no se relacionan 
linealmente con la variable respuesta. Más concretamente, se pretende contrastar la hipótesis 
nula H0: βp–r+1 = … = βp = 0 frente a la hipótesis alternativa bilateral H1: βj ≠ 0, para algún 
j = p – r + 1, …, p, en el modelo de regresión lineal múltiple
 23
incluidas en el modelo contribuyan  forma significativa a explic  una parte de a 
variabilidad de la respuesta, pudi ndo haber una  varias variables que teng n nula o 
escasa contribución. En este sentido, cabría preguntarse si es posible eliminar algunas 
variables explicativas del modelo sin afectar sensiblemente a la capacidad predictiva del 
mismo. Los co tr stes parciales se ocupan de dar respuesta este tipo de preguntas, 
valorando l  contribu ón adicional d  una o más variables explicativas a lo ya 
explicado por las otras variables presentes en el modelo. 
La hipótesis nula del contraste parcial establece que, una vez incluidas las variables 
explicativas X1, ..., Xp-r, 1 ≤ r < p, las restantes r variables Xp-r+1, ..., Xp del modelo no se 
relacionan linealmente con la variable respuesta. Más concretamente, se pretende 
contrastar la hipótesis nula H0: βp-r+1 = … = βp =  frente la hipótesis alternativa 
b lateral H1: βj ≠ 0, para lgú  j = p - r + 1, …, p, n el modelo de regresión lineal 
múltiple 
Y = β0 + β1x1 + … + βp rxp r + βp r+1xp r+1 + … + βpxp + ε. 
Not  que este contraste parcial es equivalente a la comparación de dos modelos: el 
anterior modelo co pleto que incorpora las p variables explicativas y el modelo 
reducido que resulta de excluir las r variables Xp-r+1, ..., Xp objeto del contraste, 
Y = β0 + β1x1 + … + βp-rxp-r + ε, 
dado que los coeficientes asociados a dichas variables son 0 bajo la hipótesis nula. Así, 
los contrastes parciales son particularmente útiles para comparar el ajuste de dos 
modelos anidados, lo que permite decantarse entre el modelo más simple o el modelo 
extendido con variables adicionales en función del resultado del contraste. 
El procedimiento más sencillo para realizar un contraste parcial es ajustar por 
separado el modelo completo y el modelo reducido excluyendo las r variables 
− − − −
207
Contrastes de hipótesis en regresión lineal múltiple
Pastor-Barriuso R.
Notar que este contraste parcial es equivalente a la comparación de dos modelos: el anterior 
modelo completo que incorpora las p variables explicativas y el modelo reducido que resulta 
de excluir las r variables Xp–r+1, ..., Xp objeto del contraste,
 23
incluidas en el modelo contribuyan de forma significativa a explicar una parte de la 
variabilidad de la respuesta, pudiendo haber una o varias variables que tengan nula o 
escasa contribución. En este sentido, cabría preguntarse si es posible eliminar algunas 
variables explicativas del modelo sin afectar sensiblemente a la capacidad predictiva del 
mismo. Los contrastes parciales se ocupan de dar respuesta este tipo de preguntas, 
valorando la contribución adicional de una o más variables explicativas a lo ya 
explicado por las otras variables presentes en el modelo. 
La hipótesis nula del contraste parcial establece que, una vez incluidas las variables 
explicativas X1, ..., Xp-r, 1 ≤ r < p, las restantes r variables Xp-r+1, ..., Xp del modelo no se 
relacionan linealmente con la variable respuesta. Más concretamente, se pretende 
contrastar la hipótesis nula H0: βp-r+1 = … = βp = 0 frente a la hipótesis alternativa 
bilateral H1: βj ≠ 0, para algún j = p - r + 1, …, p, en el modelo de regresión lineal 
múltiple 
Y = β0 + β1x1 + … + βp-rxp-r + βp-r+1xp-r+1  + … + βpxp + ε. 
Notar que este contraste parcial es equivalente a la comparación de dos modelos: el 
anterior modelo completo que incorpora las p variables explicativas y el modelo 
reducido que res lta de excluir las r variables Xp-r+1, ..., Xp objet  del contraste, 
Y = β0 + β1x1 + … + βp rxp r + ε, 
dado que los coeficientes asociados a dichas variables son 0 bajo la hipótesis nula. Así, 
los contrastes parciales son particularmente útiles para comparar el ajuste de dos 
modelos anidados, lo que permite decantarse entre el modelo más simple o el modelo 
extendido con variables adicionales en función del resultado del contraste. 
El procedimiento más sencillo para realizar un contraste parcial es ajustar por 
separado el modelo completo y el modelo reducido excluyendo las r variables 
− −
dado que los coeficientes asociados a dichas variables son 0 bajo la hipótesis nula. Así, los 
contrastes parciales son particularmente útiles para comparar el ajuste de dos modelos anidados, 
lo que permite decantarse entre el modelo más simple o el modelo extendido con variables 
adicionales en función del resultado del contraste.
El procedimiento más sencillo para realizar un contraste parcial es ajustar por separado el 
modelo completo y el modelo reducido excluyendo las r variables explicativas sometidas al 
contraste, asegurándose de utilizar las mismas observaciones en ambos modelos. Al incluir 
nuevas variables explicativas sobre la misma muestra de observaciones, la variabilidad de la 
variable respuesta explicada por el modelo completo SSR1 será siempre mayor o igual que la 
variabilidad explicada por el modelo reducido SSR0, de tal forma que la diferencia SSR1 – SSR0 
representa el incremento en la variabilidad explicada al incluir las variables Xp–r+1, ..., Xp. Puede 
probarse que, si la hipótesis nula H0: βp–r+1 = … = βp = 0 es cierta, el cociente (SSR1 – SSR0)/σ 2 
sigue una distribución chi-cuadrado con los r grados de libertad correspondientes al número de 
variables explicativas a contrastar. Asimismo, la suma de cuadrados del error del modelo 
completo SSE1 es independiente del incremento en la variabilidad explicada SSR1 – SSR0 y el 
cociente SSE1/σ 2 se distribuye según una chi-cuadrado con n – p – 1 grados de libertad. De estos 
resultados se deriva que, bajo H0: βp–r+1 = … = βp = 0, la razón entre el incremento de la varianza 
explicada por ambos modelos (SSR1 – SSR0)/r y la varianza residual del modelo completo 
s12  = SSE1/(n – p – 1)
 24
explicativas sometidas al contraste, asegurándose de utilizar las mismas observaciones 
en ambos modelos. Al incluir nuevas variables explicativas sobre la misma muestra de 
observaciones, la variabilid d de la variable respuesta explicada por el  completo 
SSR1 será siempre mayor o igual que la variabilidad xplicada por el modelo reducido 
SSR0, de tal forma que la diferencia SSR1 - SSR0 representa el incremento en la 
v riabilidad explicada al inclu r las var ables Xp-r+1, ..., Xp. Puede probars  que, si la 
hipótesis nula H0: βp-r+1 = … = βp = 0 es ci rta, l cociente (SSR1 - SSR0)/σ 2 sigue una 
distribución chi-cuadrado con los r gr dos de libertad c rr spondientes al número de 
variables explic tivas a contrast r. Asimismo, la suma de cua rad s del rror del 
modelo completo SSE1 es i dependient  del increme to en la variabilidad ex licada 
SSR1 - SSR0 y el co iente SSE1/σ 2 se distribuye según na chi-cuadrado con n - p - 1 
grados de libertad. De estos resultados se deriva que, bajo H0: βp-r+1 = … = βp = 0, la 
razón entre el incremento de la varianza explicada por ambos modelos (SSR1 - SSR0)/r 
y la varianza residual del modelo completo 21s  = SSE1/(n - p - 1) 
F = 
)1/(
/~
)1(
SSE
SSRSSR
SSRSSR
2
1
2
2
1
2
01
2
1
01
−−
−−
−
=
−
−−
pn
r
pn
r
rs pn
r
χ
χ
σ
σ  = Fr,n  
sigue una distribución F de Fisher con r y n - p - 1 grados de libertad al ser el cociente 
de dos distribuciones chi-cuadrado independientes divididas por sus respectivos grados 
de libertad. Este análisis de la varianza para el contraste parcial de un modelo de 
regresión lineal múltiple se representa esquemáticamente en la Tabla 11.3. 
[Tabla 11.3 aproximadamente aquí] 
1−−p
sigue una distribución F de Fisher con r y n – p – 1 grados de libertad al ser el cociente de dos 
distribuciones ch -cuadrado independie tes divididas por sus respectivos grados de libertad. 
Este análisis de la varianza para el contraste parcial de un modelo de regresión lineal múltiple 
se representa esquemáticamente en la Tabla 11.3.
Tabla 11.3 Análisis de la varianza para el contraste parcial en 
regresión lineal múltiple.
Suma de 
cuadrados
Grados de 
libertad Varianza
Razón de 
varianzas
 65
Tabla 11.3 Análisis de la varianza para el contraste parcial en regresión lineal múltiple. 
 Suma de Grados de  Razón de 
 cuadrados libertad Varianza varianzas 
Regresión SSR1 p 
 X1,..., Xp r SSR0 p r 
 Xp r+1,..., Xp|X1,..., Xp r SSR1  SSR0 r r
01 SSRSSR −  F = 2
1
01 SSRSSR
rs
−
 
Error SSE1 n p  1 
1
SSE12
1
−−
=
pn
s  
Total SST n - 1 
−
− −
−
−
− −
Total SST n – 1
208
Regresión lineal múltiple
Pastor-Barriuso R.
Ejemplo 11.7  La Tabla 11.4 muestra los resultados obtenidos en el grupo control del 
estudio EURAMIC al ajustar un modelo de regresión lineal múltiple con el colesterol 
HDL como variable respuesta, el índice de masa corporal, el consumo de alcohol y la 
edad en años como variables explicativas continuas y el estatus socioeconómico como 
variable explicativa dicotómica (xi4 = 1 en sujetos con bajo nivel socioeconómico y 0 en 
sujetos con alto nivel socioeconómico). De la tabla del análisis de la varianza se 
desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol 
HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya 
que la razón de varianzas del contraste global del modelo F = 14,85 resulta en un valor 
P = P(F4,440 ≥ 14,85) < 0,001 bajo la distribución F de Fisher con 4 y 440 grados de 
libertad. No obstante, una vez incluidos el índice de masa corporal y la ingesta de alcohol, 
ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 ≥ 0,12) ≈ 2{1 – F(0,12)} = 
0,90) ni el estatus socioeconómico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 ≥ 0,80) 
≈ 2{1 – F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles 
de colesterol HDL. De hecho, cada incremento de 10 años en la edad se asocia con un 
aumento despreciable de 10 ∙ 0,0002 = 0,002 mmol/l en la media del colesterol HDL entre 
sujetos con igual índice de masa corporal, consumo de alcohol y nivel socioeconómico. 
De igual forma, ajustando por diferencias en el índice de masa corporal, la ingesta de 
alcohol y la edad, la media del colesterol HDL difiere únicamente en 0,021 mmol/l entre 
los sujetos con nivel socioeconómico bajo y alto.
A partir de estos resultados, sería razonable preguntarse si la edad y el estatus 
socioeconómico contribuyen conjuntamente a explicar la variabilidad residual del 
colesterol HDL que permanece sin explicar por el índice de masa corporal y el consumo 
de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la 
Tabla 11.1 que incluye únicamente el índice de masa corporal y la ingesta de alcohol 
como variables explicativas. No obstante, los resultados de ambos modelos no son
Tabla 11.4 Resultados de la regresión lineal múltiple del colesterol HDL sobre 
el índice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus 
socioeconómico (ESE) en el grupo control del estudio EURAMIC.
Análisis de la varianza*
Suma de 
cuadrados
Grados de 
libertad Varianza
Razón de 
varianzas
Regresión 4,58 4 1,14 14,85
Error 33,93 440 0,077
Total 38,51 444
* Coeficiente de determinación R2 = 4,58/38,51 = 0,119.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,56 0,12 (1,33; 1,79) 13,24 < 0,001
IMC – 0,021 0,0037 (– 0,028; – 0,014) – 5,66 < 0,001
Alcohol 0,0028 0,0006 (0,0016; 0,0040) 4,64 < 0,001
Edad 0,0002 0,0014 (– 0,0026; 0,0030) 0,12 0,90
ESE 0,021 0,027 (– 0,031; 0,074) 0,80 0,43
209
Contrastes de hipótesis en regresión lineal múltiple
Pastor-Barriuso R.
Tabla 11.5 Análisis de la varianza para el contraste parcial múltiple de la 
edad y el estatus socioeconómico (ESE) en la regresión lineal del colesterol 
HDL sobre el índice de masa corporal (IMC), el consumo de alcohol, la edad y 
el ESE en el grupo control del estudio EURAMIC.
Suma de 
cuadrados
Grados de 
libertad Varianza
Razón de 
varianzas
Regresión 4,58 4
IMC, alcohol 4,53 2
Edad, ESE|IMC, alcohol 0,053 2 0,026 0,34
Error 33,93 440 0,077
Total 38,51 444
directamente comparables ya que el modelo reducido emplea 4 observaciones más que el 
modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes 
para el estatus socioeconómico, que pueden utilizarse en el ajuste del modelo reducido, 
pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos, 
es preciso ajustar el modelo reducido a la misma muestra de 445 controles del estudio 
EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido 
de SSR0 = 4,53. Así, el incremento en la variabilidad explicada al incluir la edad y el 
estatus socioeconómico en el modelo completo es SSR1 – SSR0 = 4,58 – 4,53 = 0,053. La 
razón entre el incremento de la varianza explicada y la varianza residual del modelo 
completo es entonces
 26
A partir de estos resultados, sería razonable preguntarse si la edad y el estatus 
socioeconómico contribuyen conjuntamente a explicar la variabilidad residual del 
colesterol HDL que permanece sin explicar por el índice de masa corporal y el 
consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo 
reducido de la Tabla 11.1 que incluye únicamente el índice de masa corporal y la 
ingesta de alcohol como variables explicativas. No obstante, los resultados de 
ambos modelos no son directamente comparables ya que el modelo reducido 
emplea 4 observaciones más que el modelo completo (449 versus 445). Esto es 
debido a que hay 4 sujetos con valores ausentes para el estatus socioeconómico, 
que pueden utilizarse en el ajuste del modelo reducido, pero no en el modelo 
completo que incluye dicha variable. Para comparar ambos modelos, es preciso 
ajustar el modelo reducido a la misma muestra de 445 controles del estudio 
EURAMIC, de donde se obtiene una suma de c adrados explicada por el modelo 
reducido de SSR0 = 4,53. Así, el incremento en la variabilidad explicada al incluir 
la edad y el estatus socioec nómi o en el modelo completo es SSR1 - SSR0 = 4,58 
- 4,53 = 0,053. La razón e t  el incr mento de la varianza explicada y la varianz  
esidual del modelo completo es entonces 
F = 
077,0
026,0
440/93,33
2/053,0
=  = 0,34, 
que corresponde a un valor P = P(F2,440 ≥ 0,34) = 0,71 bajo la distribución F de 
Fisher con 2 y 440 grados de libertad. Este contraste parcial múltiple se representa 
en la Tabla 11.5. En conclusión, la edad y el estatus socioeconómico no 
contribuyen significativamente a explicar la variabilidad del colesterol HDL una 
vez tenidos en cuenta el índice de masa corporal y el consumo de alcohol, de tal 
que corresponde a un valor P = P(F2,440 ≥ 0,34) = 0,71 bajo la distribución F de Fisher con 
2 y 440 grados de libertad. Este contraste parcial múltiple se representa e  la Tabla 11.5. 
En conclusión, la edad y el estatus socioeconómico no contribuyen significativamente a 
explicar la variabilidad del colesterol HDL una vez tenidos en cuenta el índice de masa 
corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos últimas 
variables explicativas resulta igualmente efectivo.
Los contrast s parc ales pued  emplearse p ra evaluar la contribución adicional de una 
única variable explicativa o de múltiples variables explicativas. El contraste parcial individual 
de la variable explicativa Xj se reduce a ev luar la hipótesis nula H0: βj = 0 frente a la hipótesis 
alternativa H1: βj ≠ 0 y, en consecuencia, es equivalente al test para los coeficientes de regresión 
presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadístico F de la razón de 
varianzas del contraste parcial individual es igual al cuadrado del estadístico t = bj/SE(bj) del 
correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos 
son idénticos (la distribución F de Fisher con 1 grado de libertad en el numerador y n – p – 1 en 
el denominador es, por definición, el cuadrado de la distribución t de Student con n – p – 1 
grados de libertad).
Ejemplo 11.8 Para evaluar si el estatus socioeconómico contribuye a explicar la 
variabilidad del colesterol HDL que no se explica por las diferencias de índice de masa 
corporal, consumo de alcohol y edad, se podría comparar la variabilidad explicada por el 
modelo completo con la variabilidad explicada por el modelo que excluye el estatus 
210
Regresión lineal múltiple
Pastor-Barriuso R.
socioeconómico en la misma muestra de 445 controles, obteniéndose una diferencia SSR1 
– SSR0 = 4,58 – 4,53 = 0,049. Así, el estadístico F del contraste parcial individual es
 27
forma que el modelo reducido a estas dos últimas variables explicativas resulta 
igualmente efectivo. 
[Tabla 11.5 aproximadamente aquí] 
Los contrastes parciales pueden emplearse para evaluar la contribución adicional de 
una única variable explicativa o de múltiples variables explicativas. El contraste parcial 
individual de la variable explicativa Xj se reduce a evaluar la hipótesis nula H0: βj = 0 
frente a la hipótesis alternativa H1: βj ≠ 0 y, en consecuencia, es equivalente al test para 
los coeficientes de regresión presentado en el Apartado 11.3.2. De hecho, puede 
probarse que el estadístico F de la razón de varianzas del contraste parcial individual es 
igual al cuadrado del estadístico t = bj/SE(bj) del correspondiente coeficiente, de tal 
forma que los valores P resultantes de ambos procedimientos son idénticos (la 
distribución F de Fisher con 1 grado de libertad en el numerador y n - p - 1 en el 
denominador es, por definición, el cuadrado de la distribución t de Student con n - p - 1 
grados de libertad). 
Ejemplo 11.8 Para evaluar si el estatus socioeconómico contribuye a explicar la 
variabilidad del colesterol HDL que no se explica por las diferencias de índice de 
masa corporal, consumo de alcohol y edad, se podría comparar la variabilidad 
explicada por el modelo completo con la variabilidad explicada por el modelo que 
excluye el estatus socioeconómico en la misma muestra de 445 controles, 
obteniéndose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. Así, el estadístico 
F del contraste parci l individual es 
F = 
077,0
049,0
440/93,33
049,0
=  = 0,64, 
que corresponde a un valor P = P(F1,440 ≥ 0,64) = 0,43 bajo la distribución F de Fisher 
con 1 y 440 grados de libertad. Notar que este contraste es equivalente al test del coeficiente 
asociado al estatus socioeconómico en la Tabla 11.4 ya que 2P(t440 ≥ 0,80) = P( 2440t  ≥ 0,80
2) 
= P(F1,440 ≥ 0,64).
11.5 VARIABLES EXPLICATIVAS POLITÓMICAS
La regresión lineal no establece ninguna asunción respecto a la distribución de las variables 
explicativas, que pueden ser tanto continuas como categóricas. En anteriores apartados, se ha 
tratado con modelos de regresión lineal que incorporan variables explicativas continuas y 
dicotómicas. Queda pendiente de estudiar, por tanto, el ajuste e interpretación de modelos de 
regresión lineal múltiple con variables explicativas politómicas, que clasifican a los sujetos en 
tres o más categorías en función de sus distintas características. Estas variables politómicas 
pueden ser nominales (nunca fumadores, ex fumadores o fumadores actuales), ordinales (nivel 
socioeconómico bajo, medio o alto) o incluso variables continuas categorizadas (normopeso, 
sobrepeso u obesidad para un índice de masa corporal < 25, 25-30 ó ≥ 30 kg/m2, respectivamente).
En general, las variables explicativas politómicas no se introducen directamente en los 
modelos de regresión ya que los valores asignados a estas variables sólo sirven para discernir u 
ordenar las distintas categorías, pero no tienen interpretación numérica. La forma adecuada de 
incluir este tipo de variables explicativas en una regresión es mediante variables indicadoras 
que identifiquen cada una de las categorías de la variable. Existen diversos métodos para 
codificar adecuadamente variables indicadoras. La elección entre uno u otro procedimiento de 
codificación no afecta al ajuste del modelo (la tabla del análisis de la varianza permanece 
inalterable ante cualquier codificación que permita diferenciar todas las categorías de una 
variable politómica), pero sí a las estimaciones e interpretación de los coeficientes asociados a 
las variables indicadoras. En este apartado se presenta la codificación de la categoría de 
referencia, que es el método más extendido para definir variables indicadoras, de fácil 
interpretación y válido para cualquier tipo de variable politómica. Para cada una de las k 
categorías j = 1, …, k de la variable politómica, se define la variable indicadora Xj = 1 en los 
sujetos pertenecientes a la categoría j y 0 en los restantes sujetos, tal como se indica en la Tabla 
11.6. Estas variables indicadoras X1, …, Xk no pueden incluirse simultáneamente en un modelo 
de regresión que contenga el término constante, ya que su suma X1 + … + Xk = 1 para todos los 
sujetos y cualquier variable indicadora puede expresarse entonces como una combinación lineal 
exacta de la constante y de las demás variables indicadoras, con lo que el modelo incurriría en 
un problema de colinealidad perfecta (véase Ejemplo 11.1). Para solventar este problema, basta 
con excluir una cualquiera de las variables indicadoras, digamos Xk, manteniendo en el modelo 
las otras variables indicadoras X1, …, Xk–1,
 29
pero sí a las estimaciones e interpretación de los coeficientes asociados a las variables 
indicadoras. En este apartado se presenta la codificación de la categoría de referencia, 
que es el método más extendido para definir variables indicadoras, de fácil 
interpretación y válido para cualquier tipo de variable politómica. Para cada una de las k 
categorías j = 1, …, k de la variabl  pol tómica, s  define la variable indicadora Xj = 1 
en los sujet s perteneci nt s a la categoría j y 0 en los restantes suj tos, t l como se 
indica en la Tabla 11.6. Estas variables indicadoras X1, …, Xk no pueden incluirse 
simultáneamente en un m elo de regresión que contenga el término const nte, y  qu
su suma X1 + … + Xk = 1 para todos los suj tos y cualquier var able i dicadora puede 
expresarse entonces como un  combinación lineal exacta de la onst nte y e las demás 
variables ind cador s, con lo que el model  incurriría en un problema de coline lidad
perf cta (véase Ejemplo 11.1). Para solventar este proble , basta con excluir una 
cu lquiera de l s variables indicador s, digamos Xk, m nteniendo en el el  las otras 
variables i dicadoras X1, …, Xk-1, 
E(Y |x1, ..., xk 1) = β0 + β1x1 + … + β k 1xk 1, 
donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, 
la constante β0 corresponde al valor esperado de la respuesta en la categoría k de la 
variable politómica, que toma valores cero en todas las variables indicadoras incluidas 
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = β0. Asimismo, cada coeficiente de regresión βj 
determina el cambio en el valor esperado de la respuesta en la categoría j = 1, …, k - 1 
respecto a la categoría k de la variable politómica, 
 E(Y|x1 = 0, ..., xj-1 = 0, xj = 1, xj+1 = 0, ..., xk-1 = 0) 
  - E(Y|x1 = 0, ..., xk-1 = 0) = β0 + βj - β0 = βj. 
− −−
donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, la 
constant  β0 corresponde al valor esperad  de la respuesta en la categoría k de la variable 
politómica, que toma valores cero en todas las variables indicadoras incluidas en el modelo, 
E(Y|x1 = 0, ..., xk–1 = 0) = β0. Asimism , cada coeficiente de r gresión βj d termina el cambio en
211
Variables explicativas politómicas
Pastor-Barriuso R.
Tabla 11.6 Variables indicadoras para las k categorías 
de una variable politómica.
Variable indicadora
Categoría X1 X2 … Xk
1 1 0 … 0
2 0 1 … 0
… … … …
k 0 0 … 1
el valor esperado de la respuesta en la categoría j = 1, …, k – 1 respecto a la categoría k de la 
variable politómica,
 29
pero sí a las estimaciones e interpretación de los coeficientes asociados a las variables 
indicadoras. En este apartado se presenta la codificación de la categoría de referencia, 
que es el método más extendido para definir variables indicadoras, de fácil 
interpretación y válido para cualquier tipo de variable politómica. Para cada una de las k 
categorías j = 1, …, k de la variable politómica, se define la variable indicadora Xj = 1 
en los sujetos pertenecientes a la categoría j y 0 en los restantes sujetos, tal como se 
indica en la Tabla 11.6. Estas variables indicadoras X1, …, Xk no pueden incluirse 
simultáneamente en un modelo de regresión que contenga el término constante, ya que 
su suma X1 + … + Xk = 1 para todos los sujetos y cualquier variable indicadora puede 
expresarse entonces como una combinación lineal exacta de la constante y de las demás 
variables indicadoras, con lo que el modelo incurriría en un problema de colinealidad 
perfecta (véase Ejemplo 11.1). Para solventar este problema, basta con excluir una 
cualquiera de las variables indicadoras, digamos Xk, manteniendo en el modelo las otras 
variables indicadoras X1, …, Xk-1, 
E(Y |x1, ..., xk-1) = β0 + β1x1 + … + β k-1xk-1, 
donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, 
la constante β0 corresponde al valor esperado de la respuesta en la categoría k de la 
variable politómica, que toma valores cero en todas las variables indicadoras incluidas 
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = β0. Asimismo, cada coeficiente de regresión βj 
determina el cambio en el valor esperado de la respuesta en la categoría j = 1, …, k - 1 
respecto a la cat goría k d  l  vari ble politómica, 
 E(Y|x1 = 0, ..., xj 1 = 0, xj = 1, xj+1 = 0, ..., xk 1 = 0) 
  
 E(Y|x1 = 0, ..., xk 1 = 0) = β0 + β j  β0 = β j. 
− −
−
− −
Como puede apreciarse, la categoría cuya variable indicadora se deja fuera del modelo actúa 
como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras 
presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categoría 
de referencia. Aunque en principio la elección del grupo de referencia es arbitraria, en la práctica 
suele utilizarse como categoría de referencia aquella que representa la ausencia o el menor nivel 
de exposición (nunca fumadores, nivel socioeconómico alto, normopeso), siempre y cuando su 
tamaño muestral sea lo suficientemente grande para obtener comparaciones precisas con el 
resto de categorías de la variable politómica.
En general, la contribución de las variables indicadoras a la capacidad predictiva del modelo 
debe evaluarse conjuntamente, dado que estas variables no representan más que las distintas 
categorías de una misma variable politómica. En este sentido, los contrastes parciales presentados 
en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para 
contrastar la hipótesis nula H0: β1 = … = βk–1 = 0, lo que equivale a un test de homogeneidad 
del valor medio de la respuesta en las k categorías de la variable politómica. Notar que este test 
de homogeneidad permanece inalterable ante cualquier codificación de las variables indicadoras 
o selección del grupo de referencia, ya que éstas alteran los coeficientes de regresión, pero no 
cambian la contribución global de la variable politómica al ajuste del modelo.
Ejemplo 11.9 En la Tabla 11.7 se presentan los resultados de ajustar un modelo de 
regresión lineal múltiple del colesterol HDL sobre el índice de masa corporal, el consumo 
de alcohol y el hábito tabáquico en 448 controles del estudio EURAMIC con información 
completa de estas variables. El hábito tabáquico es una variable politómica con tres 
categorías, que diferencia a los sujetos según sean nunca fumadores (113 sujetos), ex 
fumadores (163) o fumadores actuales (172). Se designa como categoría de referencia a 
los nunca fumadores y, en consecuencia, el modelo incluye dos variables indicadoras 
para los ex fumadores (xi3 = 1 en ex fumadores y 0 en el resto) y los fumadores actuales 
(xi4 = 1 en fumadores actuales y 0 en el resto).
Para evaluar si el nivel medio de colesterol HDL difiere en las tres categorías del hábito 
tabáquico una vez tenidas en cuenta las diferencias de índice de masa corporal y consumo 
de alcohol, se realiza el contraste parcial múltiple de las dos variables indicadoras del hábito 
tabáquico H0: β3 = β4 = 0. Para ello, se compara la variabilidad explicada SSR1 = 5,44 por el 
212
Regresión lineal múltiple
Pastor-Barriuso R.
modelo completo de la Tabla 11.7 con la variabilidad explicada SSR0 = 4,58 por el modelo 
que excluye ambas variables indicadoras en la misma muestra de 448 controles, obteniéndose 
un test estadístico
 31
politómica con tres categorías, que diferencia a los sujetos según sean nunca 
fumadores (113 sujetos), ex fumadores (163) o fumadores actuales (172). Se 
designa como categoría de referencia a los nunca fumadores y, en consecuencia, 
el modelo incluye dos variables indicadoras para los ex fumadores (xi3 = 1 en ex 
fumadores y 0 en el resto) y los fumadores actuales (xi4 = 1 en fumadores actuales 
y 0 en el resto). 
Para evaluar si el nivel medio de colesterol HDL difiere en las tres categorías del 
hábito tabáquico una vez tenidas en cuenta las diferencias de índice de masa 
corporal y consumo de alcohol, se realiza el contraste parcial múltiple de las dos 
variables indicadoras del hábito tabáquico H0: β3 = β4 = 0. Para ello, se compara 
la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7 
co  la variabilidad explicada SSR0 = 4,58 por el modelo que excluye ambas 
variables indicadoras en la misma muestra de 448 controles, obteniéndose un test 
estadístico 
F = 
075,0
43,0
443/42,33
2/)58,444,5(
=
−  = 5,69, 
que corresponde a un valor P = P(F2,443 ≥ 5,69) = 0,004 bajo la distribución F de 
Fisher con 2 y 443 grados de libertad. Así, se detectan diferencias significativas 
en las medias ajustadas del colesterol HDL entre los nunca fumadores, ex 
fumadores y fumadores actuales. Los coeficientes asociados a las variables 
indicadoras del hábito tabáquico permiten cuantificar estas diferencias de acuerdo 
a la codificación elegida. Por un lado, una vez controladas las diferencias en el 
índice de masa corporal y la ingesta de alcohol, la media del colesterol HDL 
presenta una diferencia insignificante de b3 = 0,009 mmol/l entre los ex fumadores 
y los nunca fumadores. Sin embargo, los fumadores actuales presentan una 
que corresponde a un valor P = P(F2,443 ≥ 5,69) = 0,004 bajo la distribución F de Fisher 
con 2 y 443 grados de libertad. Así, se detectan diferenci s significativas en las medias 
ajustadas del colesterol HDL entre los nunca fumadores, ex fumadores y fumadores 
actuales. Los coeficientes asociados a las variables indicadoras del hábito tabáquico 
permiten cuantificar estas diferencias de acuerdo a la codificación elegida. Por un lado, 
una vez controladas las diferencias en el índice de masa corporal y la ingesta de alcohol, 
la media del colesterol HDL presenta una diferencia insignificante de b3 = 0,009 mmol/l 
entre los ex fu adores y los nunca fumadores. Sin embargo, los fumadores actuales 
presentan una disminución significativa en el nivel medio de colesterol HDL de b4 = – 0,085 
mmol/l en comparación con los nunca fumadores, incluso después de ajustar por el índice 
de masa corporal y el consumo de alcohol.
En general, las variables indicadoras deben tratarse conjuntamente para preservar su 
interpretación. No obstante, en vista de que los niveles medios de colesterol HDL no 
difieren en nunca fumadores y ex fumadores, se podría eliminar del modelo la variable 
indicadora de los ex fumadores. En tal caso, el coeficiente asociado a la variable indicadora 
de los fumadores actuales cambiaría de interpretación, pasando a representar el cambio 
medio en el colesterol HDL entre fumadores actuales y no fumadores actuales (nueva 
categoría de referencia donde se englobarían tanto los nunca como los ex fumadores).
El test de homogeneidad permite contrastar si el nivel medio de la respuesta difiere 
significativamente en al menos 2 de las k categorías de una variable explicativa politómica. En 
el caso de que las categorías estén intrínsecamente ordenadas, como ocurre con las variables
Tabla 11.7 Resultados de la regresión lineal múltiple del colesterol HDL sobre el 
índice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras 
de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Análisis de la varianza*
Suma de 
cuadrados
Grados de 
libertad Varianza
Razón de 
varianzas
Regresión 5,44 4 1,36 18,03
Error 33,42 443 0,075
Total 38,86 447
* Coeficiente de determinación R2 = 5,44/38,86 = 0,140.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,61 0,099 (1,42; 1,81) 16,31 < 0,001
IMC – 0,021 0,0036 (– 0,028; – 0,014) – 5,79 < 0,001
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,03 < 0,001
Ex fumador 0,009 0,034 (– 0,058; 0,075) 0,26 0,80
Fumador actual – 0,085 0,034 (– 0,151; – 0,019) – 2,53 0,012
213
Variables explicativas politómicas
Pastor-Barriuso R.
ordinales y las variables continuas categorizadas, cabría preguntarse además si los niveles 
medios de la respuesta siguen algún patrón específico a lo largo de las categorías. En particular, 
sería relevante contar con un test de tendencia que permitiera detectar la existencia de una 
componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categorías. 
Para ello, la variable explicativa politómica X debe tomar valores que preserven el orden de las 
categorías. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k según 
el sujeto pertenezca a la primera, segunda o sucesivas categorías. En el caso de variables 
continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de 
tendencia central de cada categoría (media o mediana) para preservar no sólo el orden de las 
categorías, sino también la distancia entre las mismas. La variable politómica así codificada se 
incluye directamente en el modelo de regresión, de tal forma que el contraste de su coeficiente 
determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la 
respuesta al aumentar la categoría de exposición. Conviene resaltar que este test de tendencia 
no permite evaluar la idoneidad de la relación lineal, sino únicamente la existencia de una 
componente lineal significativa a través de las categorías, independientemente de cuál sea la 
relación subyacente.
Ejemplo 11.10 Dado que en el ejemplo anterior los niveles medios de colesterol HDL 
no diferían significativamente en nunca fumadores y ex fumadores, ambas categorías se 
colapsaron en una única categoría de no fumadores actuales. Además, como se dispone de 
información sobre el número de cigarrillos al día en 154 de los 172 fumadores actuales, se 
construyó una nueva variable politómica que clasificaba a los sujetos en no fumadores 
actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20 
cigarrillos/día (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles 
del estudio EURAMIC al ajustar una regresión lineal múltiple del colesterol HDL sobre 
el índice de masa corporal, el consumo de alcohol y esta nueva variable explicativa 
politómica, donde los no fumadores actuales constituyen la categoría de referencia.
Tabla 11.8 Resultados de la regresión lineal múltiple del colesterol HDL sobre 
el índice de masa corporal (IMC), la ingesta de alcohol y las variables 
indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/día en los 
controles del estudio EURAMIC.
Análisis de la varianza*
Suma de 
cuadrados
Grados de 
libertad Varianza
Razón de 
varianzas
Regresión 4,70 5 0,94 12,62
Error 31,59 424 0,075
Total 36,29 429
* Coeficiente de determinación R2 = 4,70/36,29 = 0,130.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,59 0,10 (1,40; 1,79) 15,90 < 0,001
IMC – 0,020 0,0037 (– 0,027; – 0,013) – 5,36 < 0,001
Alcohol 0,0028 0,0006 (0,0017; 0,0040) 4,70 < 0,001
Fumador 1-10 – 0,086 0,042 (– 0,168; – 0,003) – 2,04 0,042
Fumador 11-20 – 0,120 0,038 (– 0,193; – 0,046) – 3,19 0,002
Fumador > 20 – 0,055 0,048 (– 0,149; 0,040) – 1,14 0,26
214
Regresión lineal múltiple
Pastor-Barriuso R.
 Figura 11.4
 
0 10 20 30 40
-0,3
-0,2
-0,1
0
0,1
0,2
Número de cigarrillos/día
D
ife
re
nc
ia
 e
n 
la
 m
ed
ia
 d
el
 c
ol
es
te
ro
l H
D
L 
(m
m
ol
/l)
Figura 11.4 Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10, 11-20 
y > 20 cigarrillos/día respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las 
barras verticales representan los intervalos de confianza al 95% para estas diferencias.
El contraste parcial múltiple de las tres variables indicadoras H0: β3 = β4 = β5 = 0 revela 
que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los 
no fumadores actuales y los fumadores de 1-10, 11-20 y > 20 cigarrillos/día, ya que la 
comparación de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla 
11.8 y la variabilidad explicada SSR0 = 3,76 por el modelo que excluye las tres variables 
indicadoras en la misma muestra de 430 controles resulta en un test estadístico
 34
cigarrillos/día, ya que la comparación de la variabilidad explicada SSR1 = 4,70 
por el mod lo completo de la Tabla 11.8 y l  variabilidad explicada SSR0 = 3,76 
p r el modelo que excluye las tres variabl s indicadoras en la misma muestr  de 
430 controles resulta n un test estadístico 
F = 
075,0
31,0
424/59,31
3/)76,370,4(
=
−  = 4,22, 
que corresponde a un valor P = P(F3,424 ≥ 4,22) = 0,006. En comparación con los 
no fumadores actuales de igual índice de masa corporal y consumo de alcohol, los 
fumadores de 1−10, 11−20 y > 20 cigarrillos/día presentan una disminución en el 
nivel medio de colesterol HDL de b3 = -0,086, b4 = -0,120 y b5 = -0,055 mmol/l, 
respectivamente. Esta tendencia decreciente en la media ajustada del colesterol 
HDL se representa en la Figura 11.4, donde el eje horizontal corresponde al 
número medio de cigarrillos diarios para cada categoría (0 en el caso de no 
fumadores actuales). 
Para contrastar si esta tendencia decreciente es significativa, se crea una variable 
politómica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al número medio 
de cigarrillos diarios de los sujetos no fumadores y fumadores de 1−10, 11−20 y > 
20 cigarrillos/día, respectivamente. Esta variable politómica se incluye 
directamente en un modelo de regresión múltiple junto con el índice de masa 
corporal y la ingesta de alcohol. El coeficiente asociado a la variable politómica y 
su error estándar se estiman en b3 = -0,0030 y SE(b3) = 0,0012, de donde se 
obtiene un estadístico t = b3/SE(b3) = -0,0030/0,0012 = -2,46 y un valor P = 
2P(t426 ≤ -2,46) ≈ 2Φ(-2,46) = 0,014 bajo la distribución t de Student con n - p - 1 
= 430 - 3 - 1 = 426 grados de libertad. Así, puede concluirse que la media ajustada 
del colesterol HDL no sólo difiere entre las categorías (P de homogeneidad = 
que corresponde a un valor P = P(F3,424 ≥ 4,22) = 0,006. En comparación con los no 
fumador s actuales de igual índice de masa corporal y consum  de lcohol, l s fumadores 
de 1-10, 11-20 y > 20 cigarrillos/día presentan una disminución en el nivel medio de 
colesterol HDL de b3 = – 0,086, b4 = – 0,120 y b5 = – 0,055 mmol/l, respectivamente. Esta 
tendencia decreciente en la media ajustada del colesterol HDL se representa en la 
Figura 11.4, donde el eje horizontal corresponde al número medio de cigarrillos diarios 
para cada categoría (0 en el caso de no fumadores actuales).
Para contrastar si esta tendencia decreciente es significativa, se crea una variable 
politómica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al número medio de 
cigarrillos diarios de los sujetos no fumadores y fumadores de 1-10, 11-20 y > 20 
cigarrillos/día, respectivamente. Esta variable politómica se incluye directamente en un 
modelo de regresión múltiple junto con el índice de masa corporal y la ingesta de alcohol. 
El coeficiente asociado a la variable politómica y su error estándar se estiman en b3 = 
– 0,0030 y SE(b3) = 0,0012, de donde se obtiene un estadístico t = b3/SE(b3) = – 0,0030/0,0012 
= – 2,46 y un valor P = 2P(t426 ≤ – 2,46) ≈ 2F(–2,46) = 0,014 bajo la distribución t de 
215
Regresión polinomial
Pastor-Barriuso R.
Student con n – p – 1 = 430 – 3 – 1 = 426 grados de libertad. Así, puede concluirse que la 
media ajustada del colesterol HDL no sólo difiere entre las categorías (P de homogeneidad 
= 0,006), sino que tiende a decrecer significativamente conforme aumenta la categoría de 
exposición (P de tendencia = 0,014). No obstante, la Figura 11.4 muestra que la relación 
subyacente podría no ser estrictamente lineal al presentar un leve repunte en la categoría 
de fumadores de más de 20 cigarrillos/día.
11.6 REGRESIÓN POLINOMIAL
La regresión lineal múltiple permite explorar relaciones no lineales entre las variables 
explicativas y la variable respuesta. El modelo más habitual para acomodar un efecto no lineal 
de una variable explicativa continua X es la regresión polinomial de orden k, que incorpora en 
el modelo los términos polinomiales X 2, …, X k además del propio término lineal X,
 35
0,006), sino que tiende a decrecer significativamente conforme aumenta la 
categoría de exposición (P de tendencia = 0,014). No obstante, la Figura 11.4 
muestra que la relación subyacente podría no ser estrictamente lineal al presentar 
un leve repunte en la categoría de fumadores de más de 20 cigarrillos/día. 
[Tabla 11.8 aproximadamente aquí] 
[Figura 11.4 aproximadamente aquí] 
11.6 REGRESIÓN POLINOMIA  
La regresión lineal múltiple permite explorar relaciones no lineales entre las variables 
explicativas y la variable respuesta. El modelo más habitual para acomodar un efecto no 
lineal de una variable explicativa continua X es la regresión polinomial de orden k, que 
inco pora en el modelo los términos polin miales X2, …, Xk además del propio término 
li eal X, 
Y = β0 + β1x + β2x2 + … + β kxk + ε, 
donde sin pérdida de generalidad se omiten otras posibles variables explicativas. Estos 
modelos polinomiales pueden considerarse como casos particulares de la regresión 
lineal múltiple cuyas variables explicativas son distintas potencias de una misma 
variable básica y, en consecuencia, los procedimientos de estimación e inferencia son 
idénticos a los descritos anteriormente para el modelo general de regresión. 
En teoría, los modelos polinomiales de orden k elevado permiten aproximar 
cualquier tipo de relación curvilínea. No obstante, si el número requerido de términos 
polinomiales es muy elevado, la regresión polinomial puede ocasionar problemas de 
sobreajuste y dar lugar a estimaciones inestables de los coeficientes de regresión. Los 
donde sin pérdida de generalidad se omiten otras posibles variables explicativas. Estos modelos 
polinomiales ueden consid rse como casos pa ticulares de l  regr ión lineal múltiple cuyas 
variables explicativas son distintas potencias de una misma variable básica y, en consecuencia, 
los procedimient s de timación e inferencia s n idénticos a los descritos ante iormente para 
el modelo general de regresión.
En teoría, los modelos polinomiales de orden k elevado permiten aproximar cualquier tipo 
de relación curvilínea. No obstante, si el número requerido de términos polinomiales es muy 
elevado, la regresión polinomial puede ocasionar problemas de sobreajuste y dar lugar a 
estimaciones inestables de los coeficientes de regresión. Los polinomios de orden superior al 
cuadrático tienden además a producir curvas con puntos de inflexión y otras formas extrañas de 
difícil interpretación en términos epidemiológicos. Por ello, esta presentación se limita a los 
modelos polinomiales de segundo orden o cuadráticos, que incluyen un término lineal X y 
otro cuadrático X 2 de la variable explicativa. La tendencia resultante de estos modelos 
cuadráticos será una parábola que, aunque no se amolda a cualquier forma subyacente de la 
relación, sí permite capturar las desviaciones más frecuentes del modelo lineal, incluyendo 
tendencias monótonas cuya pendiente aumenta o disminuye progresivamente, así como curvas 
en forma de U o de U invertida con un cambio de dirección.
Aunque los modelos cuadráticos se ajustan mediante los métodos estándar de regresión 
múltiple, las variables X y X 2 están a menudo muy correlacionadas (típicamente, 
 36
polinomios de orden superior al cuadrático tienden además a producir curvas con puntos 
de inflexión y otras formas extrañas de difícil interpretación en términos 
epidemiológicos. Por ello, esta presentación se limita a los modelos polinomiales de 
segundo orden o cuadráticos, que incluyen un término lineal X y otro cuadrático X2 de 
la vari ble explicativa. La tendencia resultante de estos modelos cuadráticos será una 
parábola que, aunque no se amolda a cualquier forma subyacente de la relación, sí 
permite capturar las desviaciones más frecuentes del modelo lineal, incluyendo 
tendencias monótonas cuya pendiente aumenta o disminuye progresivamente, así como 
c rvas en forma de U o de U invertida con un cambio de dirección. 
Aunque los modelos cuadráticos se ajustan mediante los métodos estándar de 
regr sión múltiple, las variables X y X2 están a menudo muy correlacionadas 
tí i t , 2xxr  > 0,95), provocando estimaciones inestables de sus coeficientes de 
regresión. Para mitigar este problema de colinealidad, conviene centrar primero la 
variable original X e incluir después dicha variable centrada y su cuadrado en el modelo 
de regresión, 
Y = β0 + β1(x - x ) + β2(x - x )2 + ε. 
Las desviaciones respecto de la media x - x  y sus cuadrados (x - x )2 estarán menos 
correlacionadas que los valores x y x2, ya que los cuadrados de las desviaciones (x - x )2 
serán elevados tanto para valores altos de X (desviaciones x - x  positivas) como para 
valores bajos (desviaciones x - x  negativas). El centrado de la variable explicativa X no 
afecta al ajuste global del modelo cuadrático ni a la tendencia parabólica resultante, se 
trata únicamente de una reparametrización del modelo que reduce la correlación entre el 
término lineal y cuadrático, produciendo así estimaciones más estables de sus 
coeficientes y contrastes más fácilmente interpretables. 
 > , ), 
provocando estimaciones inestables de sus coeficientes de regresión. Para mitigar este problema 
de colinealidad, conviene centrar primero la variable original X e incluir después dicha variable 
centrada y su cuadrado en el modelo de regresión,
 36
polinomios de orden superior al cuadrático tienden además a producir curvas con puntos 
de inflexión y otras formas extrañas de ifícil interpretación en tér inos 
epi emi lógicos. Por ello, est  presentación se limita a los modelos p linomiales  
segundo orden o cuadráticos, que incluyen un término lineal X y otro cuadrático X2 de 
la variable explicativa. La ten encia resultante de estos modelos cua ráti s será una 
parábola que, aunque no se amolda a cualquier forma subyacente de la relación, sí 
permite capturar las desviacion s más frecuentes del modelo lineal, incluyendo 
tendencias monóto as cuya p diente aumenta o disminuye progresivament , así c mo 
curvas en forma de U o de U invertida con un cambi  d  dirección. 
Aunque los modelos cuadráticos se ajustan mediante l s métodos estándar de 
regresión múltiple, l s variables X y X2 están  menudo muy c rrelacionadas 
(típica ente, 2xxr  > 0,95), provocando estimaci nes inestables de sus coeficientes de 
regresión. Para mitigar este problema de colinealidad, conviene centrar primero la 
variable original X e incluir después dicha variable centrada y su cuadrado en el modelo 
de regresión, 
Y = β0 + β1(x  x ) + β2(x  x )2 + ε. 
Las desviaciones respecto de la media x - x  y sus cuadrados (x - x )2 estarán menos 
correlacionadas que los valores x y x2, ya que los cuadrados de las desviaciones (x - x )2 
serán elevados tanto para valores altos de X (desviaciones x - x  positiva ) como pa a 
valores bajos (desviaciones x - x  negativas). El centrado de la variabl  explicativa X n  
afecta al ajuste global del modelo cuadrático ni a la tendencia parabólica resultante, se 
trata únicamente de una reparametrización del modelo que reduce l  correl ción entre el 
término lineal y cuadrático, produciendo así estimaciones más est bles de sus 
coeficientes y contrastes más fácilmente interpretables. 
− −
Las desviaciones respecto de la media x – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan a erca de cuál s el valor más rep esentativo 
de a determinada variable o, dicho de forma equivalente, estos estima o es indican 
alrededor de qué valor se agrupan los datos obs rvados. Las m didas d  tendencia 
central de la muestra sirven tanto para resum r los resultado  observados o o para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimado s de la tendenc a central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 y sus cuadrados (x – 
 
 5
1.2 M DID S DE TENDENCIA CENTRAL 
Las m didas de te den ia entral informa  cerca de c ál s el valor más repre entativo 
de una determinada vari ble o, dicho d  f rma equivalente, estos estimadores indican 
al dedor de qué valor se agrupan los datos ob ervad s. Las medidas de tendencia 
central de la mu tra sirven ta to para resumir l s resultados observados como para 
r alizar inferencias acerca de los parámet o  poblacionales correspondientes. A 
continuació  se d criben l s princip l s estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La me ia aritmética, de otada por x , se fin  como la suma de cada uno de los 
alores muestrales dividida por el número de ob ervaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La m dia es l  medida de tendenci central más utilizada y de más fácil 
interpretació . Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal li itación s que está muy influenciada p r los valores extremos y, en este 
caso, pu de no ser un fiel reflejo de la tendencia ce tral de la distribución. 
Ejemplo 1.4 En este y en lo  sucesivos ejemplos sobre timadores muestrales, se 
utilizarán los valores d l colesterol HDL obt nidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidan s, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 n ocho países Europeos e Israel para evaluar el efecto de los 
)2 estarán menos correlacionadas 
que los valores x y x2, ya que los cuadrados de las desviaciones (x – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestral s dividi a p r el número de observaciones realizadas. Si denotamos 
p r n e  tamaño muestral y por xi el valor ob ervad  r  el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
)2 rán el vados tanto p ra 
valores altos de X (desviac ones x –
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de te nci  ce tral inform n ace c  cuá  e l valor más represe tativo 
de una terminada riabl o, dicho de forma equivalente, e t s tim re  indican
alrededor de qué valor s  agrupan l s datos obse vados. Las medidas de tend ncia 
centr  de la mu stra irv n tanto para esumir lo  r sultados obse va s como para 
realizar inferencias acerca de rámetro  pobla i na es corr po d ent s. A 
conti u ción se describen los principales estimadores de la tendencia central de un  
variable. 
1.2.1 M it ética 
La media aritmé ica, denota   x , se define c mo la suma d  ca  uno de los 
valores muestrales dividid  por el número d  observacion s realizadas. Si enotamo  
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida d  t ndencia cent al más utilizada y e más fácil 
interpretación. Corresponde al “centro de graved ” de los datos de la muest a. Su 
principal limitación es que está muy influenciada por los valores ex emos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre stimadores ue tral s, e 
utilizarán los valores del colesterol HDL obteni s en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicé trico d  casos y cont oles ea iz do 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 positivas) p ra v lo s baj s (desviaciones x – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas d  e encia central informa  acerca de cuál es el valor más representativo 
d na det rm nada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos bservados. Las medidas de ten encia 
cent al d  la muestra sirv n tanto a r sumir los result dos observados como para 
al z  i f ren ias acerca de los parám tr s poblacionales correspondi ntes. A 
con i uación s  describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M ia aritmética 
L  e ia aritmética, t da por x , se defi e como la suma de cada uno de los 
v lo s muestrales div dida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es e id  de tendenci central más utilizada y de más fácil 
interpretación. Corresp nde al “centro de gravedad” de los datos de la muestra. Su 
princip l l mitación es que stá muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejempl  1.4 E  este y en los sucesiv ejemplos sobre estimadores muestrales, se 
utiliza án los valo es del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudi  “European Study n Antioxidants, Myocardial Infarction and Cancer of 
the B eas “ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en cho países Europeos e Israel para evaluar el efecto de los 
 
negativas). El centrado de la riable explicativa X no afecta al ajuste global del modelo 
cuadrático ni  la t n encia parabólica resultante,  tr ta ú icament  de un  r par etrización 
del modelo que reduce l  correlación entre el término lineal y cuadrático, produciendo así 
estim ciones más estables de sus coeficientes y contrastes má  fácil ente int rp etables.
Una vez ajustado el modelo cuadrático, el primer paso es contrastar si el coeficiente β2 
asociado al término cuadrático es 0. Si este coeficiente no difiere significativamente del valor 
216
Regresión lineal múltiple
Pastor-Barriuso R.
nulo, la inclusión del término cuadrático no mejorará significativamente la capacidad predictiva 
del modelo, de tal forma que podrá eliminarse dicho término cuadrático y volver al modelo 
lineal en la variable explicativa X. Por el contrario, si el coeficiente del término cuadrático 
resulta significativo, el modelo cuadrático presentará un mejor ajuste que el modelo lineal, 
debiendo mantener ambos términos lineal y cuadrático en el modelo. La interpretación del 
modelo cuadrático no es tan sencilla como la del modelo lineal, ya que la pendiente de la 
relación varía a lo largo del rango de la variable explicativa. En un modelo cuadrático con la 
variable X centrada, la pendiente de la relación viene dada por β1 + 2β2(x – 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
); s decir, β1 
corresponde a la pendiente en la media 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La medi aritmética, denot da por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 de la variable explicativa y 2β2 representa el cambio 
de pendiente por cada incremento de una unidad en X. No obstante, el interés no es tanto 
interpretar los coeficientes ndividuales, sin  r present r gráficamente la tendencia global 
resultante del modelo cuadrático.
Ejemplo 11.11 En la Figura 10.10(b) del tema a terior, el análisis de los residuos de la 
regresión lineal simple del colesterol HDL sobre el índice de masa corporal en los 
controles del estudio EURAMIC mostró indicios de una posible relación cuadrática entre 
ambas variables. Para contrastar formalmente esta tendencia, se ajustó un modelo de 
regresión múltiple para el colesterol HDL que incluía un término lineal y otro cuadrático 
del índice de masa corporal, además del consumo de alcohol y de la variable indicadora 
de los fumadores actuales (Tabla 11.9). Como el índice de masa corporal X1 y su cuadrado 
X 12 presentaban una correlación lineal casi perfect  de 0,995, esta variable fue 
previamente centrada alrededor de su media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
L media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observacio es realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observad  para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
.
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1
 = 26,2 kg/m2 antes de incluir en 
el modelo los términos lineal X1 – 26,2 y cua rático (X1 – 26,2)2, cuya correlación era 
únicamente de 0,297.
El contraste para la nulidad del coeficiente asociado al término cuadrático del índice de 
masa corporal resulta en un valor P = 0,021, lo que indica que el modelo cuadrático mejora
Tabla 11.9 Resultados de la regresión múltiple del colesterol HDL obre l  
términos lineal y cuadrático del índice de masa c rp ral (IMC), el cons mo de 
alcohol y la variable indicadora de fumadores ctuales en el grupo cont del 
estudio EURAMIC.
Análisis de la varianza*
Suma de 
cuadrados
Grados de 
libertad Varianza
Razón de 
varianzas
Regresión 5,84 4 1,46 19,57
Error 33,02 443 0,075
Total 38,86 447
* Coeficiente de determinación R2 = 5,84/38,86 = 0,150.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,05 0,020 (1,01; 1,09) 52,62 < 0,001
IMC – 26,2 – 0,024 0,0038 (– 0,031; – 0,016) – 6,25 < 0,001
(IMC – 26,2)2 0,0016 0,0007 (0,0002; 0,0029) 2,32 0,021
Alcohol 0,0030 0,0006 (0,0018; 0,0042) 5,00 < 0,001
Fumador actual – 0,098 0,027 (– 0,150; – 0,045) – 3,63 < 0,001
217
Regresión polinomial
Pastor-Barriuso R.
 Figura 11.5
 
20 24 28 32 36
0,25
0,5
1
1,5
2
2,25
Indice de masa corporal (kg/m²)
C
ol
es
te
ro
l H
D
L 
(m
m
ol
/l)
Figura 11.5 Relación lineal (línea fina) y cuadrática (curva gruesa) entre el índice de masa corporal y el 
colesterol HDL obtenidas de modelos de regresión múltiple ajustados por consumo de alcohol y hábito tabá-
quico actual en el grupo control del estudio EURAMIC. 
significativamente el ajuste del modelo lineal. En consecuencia, la pendiente de la relación 
entre el colesterol HDL y el índice de masa corporal varía según el nivel de exposición, 
siendo b1 = – 0,024 la estimación de la pendiente en el nivel medio 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 M dia aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
1
 = 26,2 kg/m2 del 
índice de masa corporal y 2b2 = 2 ∙ 0,0016 = 0,0032 el cambio de pendiente por cada 
incremento de 1 kg/m2 en el índice de masa corporal. No obstante, es más informativo 
representar la tendencia global estimada a partir del modelo cuadrático. Para ello, se 
calculan los valores medios del colesterol HDL predichos por el modelo cuadrático par  
los distintos valores observados x1 del índice de masa corporal, manteniendo constantes 
el consumo de alcohol y la variable indicadora de fum d res actuales en sus respectivas 
medias 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
2 = 16,5 g/día y 
 
 5
1.2 MEDIDAS D  TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál  el valor más representativo 
de una determinada variabl  o, dicho de forma equivalente, estos estimadores indican 
al ededo  de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muest a sirven tanto para resumir los resultados observados como para 
realiz r inferencias acerca de los parámetros poblacionales correspondientes. A 
onti uación se describen los principales estimador s de la te dencia central de una 
variable. 
1.2.1 Media aritmética 
La media aritmética, notada p r x , se define como la suma de cada uno de los 
valores muestrales divi ida po  el número de observaciones realizadas. Si denotamos 
po  n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
L media es la medid  de tendencia central más ut izada y de más fácil 
interpretación. Correspond  al “centr  de gravedad” d  los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la ten enc a central de la distribución. 
Ejemplo 1.4 En este y en ucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudi  “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multi é ico de casos y controles realizado 
entre 1991 y 1992 en cho p íses Europeos e Isra l para evaluar el efecto de los 
3
 = 172/448 = 0,38 (proporción de fumadores actuales),
 38
alrededor de su media muestral 1x  = 26,2 kg/m
2 antes de incluir en el modelo los 
términos lineal X1 - 26,2 y cuadrático (X1 - 26,2)2, cuya correlación era 
únicamente de 0,297. 
El contraste para la nulidad del coeficiente asociado al término cuadrático del 
índice de masa corporal resulta en un valor P = 0,021, lo que indica que el modelo 
cuadrático mejora significativamente el ajuste del modelo lineal. En consecuencia, 
la pendiente de la relación entre el colesterol HDL y el índice de masa corporal 
varía según el nivel de exposición, siendo b1 = -0,024 la estimación de la 
pendiente en el nivel medio 1x  = 26,2 kg/m
2 del índice de masa corporal y 2b2 = 
2⋅0,0016 = 0,0032 el cambio de pendiente por cada incremento de 1 kg/m2 en el 
índice de masa corporal. No obstante, es más informativo representar la tendencia 
global estimada a partir del modelo cuadrático. Para ello, se calculan los valores 
medios del colesterol HDL predichos por el modelo cuadrático para los distintos 
valores observados x1 del índice de masa corporal, manteniendo constantes el 
consumo de alcohol y la variable indicadora de fumadores actuales en sus 
respectivas medias 2x  = 16,5 g/día y 3x  = 172/448 = 0,38 (proporción de 
fumadores actuales), 
 yˆ (x1; 16,5; 0,38) = 1,05  0,024(x1  26,2) + 0,0016(x1  26,2)2 
   + 0,0030⋅16,5  0,098⋅0,38 
  
= 1,06  0,024(x1  26,2) + 0,0016(x1  26,2)2. 
Notar que la elección de los valores fijos de las otras variables explicativas es 
arbitraria, ya que sólo afectan a la constante de la relación cuadrática. En la 
práctica, es habitual fijar las restantes variables de ajuste en sus medias muestrales 
para obtener valores absolutos de la variable respuesta representativos de la 
−− −
−
− − −
Notar que la elección de los valores fijos de las otras variables explicativas es arbitraria, 
ya que sólo afectan a la constante de la relación cuadrática. En la práctica, es habitual fijar 
las restantes variables de ajuste en sus medias muestrales para obtener valores absolutos 
de la variable respuesta representativos de la población a estudio. La tendencia cuadrática 
estimada entre el índice de masa corporal y el colesterol HDL se representa en la 
Figura 11.5, junto con la relación lineal obtenida del mismo modelo de la Tabla 11.9 
excluyendo el término cuadrático del índice de masa corporal. En comparación con la 
tendencia lineal, el modelo cuadrático estima una disminución más pronunciada de la 
218
Regresión lineal múltiple
Pastor-Barriuso R.
media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atenúa 
progresivamente al aumentar los niveles del índice de masa corporal.
Aunque los modelos cuadráticos permiten detectar efectos no lineales de las variables 
explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada 
por una o muy pocas observaciones con valores extremos de la variable explicativa. En este 
sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia 
cuadrática, o incluso la propia idoneidad del modelo cuadrático, al excluir del análisis las 
observaciones más influyentes (véase apartado de análisis diagnóstico).
11.7 CONFUSIÓN E INTERACCIÓN EN REGRESIÓN LINEAL
La regresión lineal múltiple puede utilizarse con dos propósitos claramente diferenciados. Por 
un lado, los modelos de regresión pueden emplearse para predecir el valor de la variable 
respuesta en función de los valores de las variables explicativas. En tal caso, el interés se centra 
en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa 
e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a 
los datos observados (elevado coeficiente de determinación) y prediga con cierta precisión la 
respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son 
particularmente útiles para este propósito, ya que permiten seleccionar las variables explicativas 
que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos 
de regresión pueden utilizarse para estudiar la relación de una o varias variables explicativas de 
interés con la variable respuesta, controlando por otras variables explicativas o covariables que 
pudieran afectar a dicha relación. En este caso, no es necesario que el modelo incluya todos los 
determinantes de la variable respuesta, sino únicamente aquellos que influyan en la asociación 
objeto de estudio; es decir, aquellas covariables cuya inclusión afecte a las estimaciones de los 
coeficientes de regresión asociados a las variables explicativas de interés.
La confusión y la interacción son dos conceptos epidemiológicos estrechamente relacionados 
con este segundo propósito. A continuación se presenta una descripción general de ambos 
conceptos y su tratamiento dentro de los modelos de regresión lineal múltiple.
11.7.1 Control de la confusión en regresión lineal
La confusión se define como una distorsión en el efecto estimado de una variable explicativa sobre 
la variable respuesta debido a la interposición de otra covariable, denominada factor de confusión 
o simplemente confusor, cuyo efecto se confunde o se mezcla con el verdadero efecto de la variable 
explicativa de interés. La distorsión inducida por el factor de confusión puede ser grande y dar lugar 
tanto a una sobreestimación como a una infraestimación del efecto subyacente, dependiendo de la 
dirección de las asociaciones del factor de confusión con las variables explicativa y respuesta. El 
factor de confusión puede producir incluso un cambio en la dirección del efecto observado.
Para que una covariable X2 pueda confundir la asociación entre la variable explicativa de 
interés X1 y la variable respuesta Y en un modelo de regresión lineal debe cumplir tres condiciones 
necesarias:
 y El factor de confusión X2 debe estar linealmente relacionado con la variable explicativa X1. 
Si las variables X1 y X2 están incorrelacionadas, sus efectos sobre la variable respuesta Y 
no podrán confundirse o mezclarse, de tal forma que la estimación del coeficiente asociado 
a la variable explicativa de interés X1 no se verá afectada por la inclusión de la covariable 
219
Confusión e interacción en regresión lineal
Pastor-Barriuso R.
X2 en el modelo. Este requisito ya se comprobó formalmente en el Apartado 11.3.1 y se 
ilustró gráficamente en la Figura 11.1(a).
 y El factor de confusión X2 debe estar asociado con la variable respuesta Y independientemente 
de su asociación con la variable explicativa X1. Aunque las variables X1 y X2 estén 
correlacionadas, el efecto estimado de la variable explicativa X1 sólo podrá estar confundido 
por la covariable X2 cuando ésta tenga un efecto independiente sobre la variable respuesta 
Y. Si la covariable X2 se relaciona con la respuesta Y únicamente a través de su asociación 
con la variable explicativa X1, puede probarse que 
 41
Para que una covariable X2 pueda confundir la asociación entre la variable 
explicativa de interés X1 y la variable respuesta Y en un modelo de regresión lineal debe 
cumplir tres condiciones necesarias: 
• El factor de confusión X2 debe estar linealmente relacionado con la variable 
explicativa X1. Si las variables X1 y X2 están incorrelacionadas, sus efectos sobre 
la variable respuesta Y no podrán confundirse o mezclarse, de tal forma que la 
estimación del coeficiente asociado a la variable explicativa de interés X1 no se 
verá afectada por la inclusión de la covariable X2 en el modelo. Este requisito ya 
se comprobó formalmente en el Apartado 11.3.1 y se ilustró gráficamente en la 
Figura 11.1(a). 
• El factor de confusión X2 debe estar asociado con la variable respuesta Y 
independientemente de su asociación con la variable explicativa X1. Aunque las 
variables X1 y X2 estén correlacionadas, el efecto estimado de la variable 
explicativa X1 sólo podrá estar confundido por la covariable X2 cuando ésta tenga 
un efecto independiente sobre l  variable respue ta Y. Si la covariable X2 se 
r lacion  con la respuesta Y únicamente a través de su sociación con la v riable 
explicativa X1, puede probarse que 2112 xxyxyx rrr = , de donde se deriva que las 
estimaciones de los coeficientes de regresión múltiple asociados a las variables X1 
y X2 se reducen a. 
b1 = 
1
1
121
211
121
2121
2
2
2 1
)1(
1 x
y
yx
x
y
xx
xxyx
x
y
xx
xxyxyx
s
s
r
s
s
r
rr
s
s
r
rrr
=
−
−
=
−
−
, 
b2 = 
221
211211
221
2112
22 11 x
y
xx
xxyxxxyx
x
y
xx
xxyxyx
s
s
r
rrrr
s
s
r
rrr
−
−
=
−
−
 = 0. 
Así, la covariable X2 no se relacionará con la respuesta al controlar por X1, 
mientras que el efecto estimado para la variable explicativa X1 permanecerá 
, de donde se deriva que las 
estimaciones de los coeficientes de regresión múltiple asociados a las variables X1 y X2 se 
reducen a
 41
Para que una covariable X2 pueda confundir la asociación entre la variable 
explicativa de interés X1 y la variable respuesta Y en un modelo de regresión lineal debe 
cumplir tres condiciones necesarias: 
• El factor de confusión X2 debe estar linealmente relacionado con la variable 
explicativa X1. Si las variables X1 y X2 están incorrelacionadas, sus efectos sobre 
la variable respuesta Y no podrán confundirse o mezclarse, de tal forma que la 
estimación del coeficiente asociado a la variable explicativa de interés X1 no se 
verá afectada por la inclusión de la covariable X2 en el modelo. Este requisito ya 
se comprobó formalmente en el Apartado 11.3.1 y se ilustró gráficamente en la 
Figura 11.1(a). 
• El factor de confusión X2 debe estar asociado con la variable respuesta Y 
independientemente de su asociación con la variable explicativa X1. Aunque las 
variables X1 y X2 estén correlacionadas, el efecto estimado de la variable 
explicativa X1 sólo podrá estar confundido por la covariable X2 cuando ésta tenga 
un efecto independiente sobre la variable respuesta Y. Si la covariable X2 se 
relaciona con la respuesta Y únicamente a través de su asociación con la variable 
explicativa X1, puede probarse que 2112 xxyxyx rrr = , de donde se deriva que las 
estimaciones de los coeficientes de regresión múltiple asociados a las variables X1 
y X2 se reducen a. 
b1 = 
1
1
121
211
121
2121
2
2
2 1
)1(
1 x
y
yx
x
y
xx
xxyx
x
y
xx
xxyxyx
s
s
r
s
s
r
rr
s
s
r
rrr
=
−
−
=
−
−
, 
b2 = 
221
211211
221
2112
22 11 x
y
xx
xxyxxxyx
x
y
xx
xxyxyx
s
s
r
rrrr
s
s
r
rrr
−
−
=
−
−
 = 0. 
Así, la covariable X2 no se relacionará con la respuesta al controlar por X1, 
mientras que el efecto estimado para la variable explicativa X1 permanecerá 
Así, la covariable X2 no se relacionará con la respuesta al controlar por X1, mientras que el 
efecto estimado para la variable explicativa X1 permanece á inalterable al ajustar por X2, 
con lo que la covariable X2 no será un factor de confusión para la asociación entre X1 e Y.
 y El factor de confusión X2 no debe ser un paso intermedio en la relación de la variable 
explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores, 
este requisito epidemiológico no puede comprobarse con los datos disponibles y requiere 
de información externa o juicio experto sobre los mecanismos subyacentes que relacionan 
la variable explicativa con la respuesta. Por ejemplo, el índice de masa corporal podría 
considerarse a simple vista un potencial factor de confusión para la asociación entre la 
actividad física y el colesterol HDL, ya que se relaciona de forma independiente con 
ambas variables. Sin embargo, el índice de masa corporal no es un factor extraño que 
distorsiona dicha asociación, sino más bien un factor intermedio, ya que la actividad física 
reduce el índice de masa corporal, que a su vez provoca un aumento del colesterol HDL. 
En general, los modelos de regresión no deben incluir factores intermedios para la 
asociación objeto de estudio, a no ser que se pretenda estimar el efecto que no está mediado 
por dichos factores.
La selección de los potenciales factores de confusión debe limitarse, por tanto, a las covariables 
que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de 
forma independiente con las variables explicativa y respuesta y que no constituyan un paso 
intermedio en la relación entre ambas variables. No obstante, es posible que una covariable 
cumpla los tres requisitos y no sea un factor de confusión, en el sentido de no introducir un sesgo 
en la asociación a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos 
potenciales sesgos de confusión se compensan al actuar en direcciones opuestas.
En la práctica, para determinar si una o varias covariables son en realidad factores de 
confusión, se compara la estimación cruda de la asociación objeto de estudio con la estimación 
ajustada por los potenciales factores de confusión. Como se vio en el Apartado 11.2, estas 
estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresión múltiple 
que incorporen los potenciales factores de confusión además de la variable explicativa de 
interés. Así, los factores de confusión vendrán determinados por aquellas covariables cuya 
inclusión en el modelo produzca un cambio substancial en la estimación del coeficiente de 
regresión asociado a la variable explicativa de interés. La comparación entre los coeficientes 
220
Regresión lineal múltiple
Pastor-Barriuso R.
estimados con y sin ajuste por los potenciales factores de confusión no se realiza mediante 
pruebas estadísticas, ya que la significación estadística no depende únicamente de la magnitud 
del cambio, sino también del tamaño muestral (véase Apartado 5.4.2). Aunque el criterio varía 
según el ámbito de aplicación, en general se considera necesario controlar la confusión cuando 
la estimación cruda difiere de la ajustada en más del 10%.
Ejemplo 11.12 En los ejemplos anteriores se han considerado otros determinantes del 
colesterol HDL distintos del índice de masa corporal, pero no se ha prestado especial 
atención a la confusión que podrían inducir estos factores en la asociación entre el índice 
de masa corporal y el colesterol HDL. La edad y el estatus socioeconómico no mostraron 
un efecto independiente sobre los niveles de colesterol HDL (Tabla 11.4), por lo que no 
cumplen una de las condiciones necesarias para ser factores de confusión. Sin embargo, 
el consumo de alcohol y el hábito tabáquico actual sí se asociaron con el colesterol HDL 
independientemente del índice de masa corporal (Tablas 11.7, 11.8 y 11.9). Además, el 
alcohol y el tabaco son factores externos que no median en la relación del índice de masa 
corporal con el colesterol HDL. Si ambas covariables se asociaran también con el índice 
de masa corporal, verificarían los tres requisitos para ser potenciales factores de 
confusión.
La Tabla 11.10 muestra las estimaciones del coeficiente asociado al índice de masa 
corporal en distintos modelos de regresión lineal, a saber, un primer modelo sin covariables 
de ajuste, un segundo modelo ajustado por el consumo de alcohol, un tercer modelo 
ajustado por el hábito tabáquico actual y un último modelo ajustado por ambas covariables. 
Todos los modelos se obtuvieron a partir de la misma muestra de 448 controles del estudio 
EURAMIC con información completa de todas las variables. Tomando como referencia 
el modelo ajustado por ambas covariables, el cambio relativo que se produce en el 
coeficiente estimado del índice de masa corporal al excluir el consumo de alcohol es
 44
asociaran también con el índice de masa corporal, verificarían los tres requisitos 
para ser potenciales factores de confusión. 
La Tabla 11.10 muestra las estimaciones del coeficiente asociado al índice de 
masa corporal en distintos modelos de regresión lineal, a saber, un primer modelo 
sin covariables de ajuste, un segundo modelo ajustado por el consumo de alcohol, 
un tercer modelo ajustado por el hábito tabáquico actual y un último modelo 
ajustado por ambas covariables. Todos los modelos se obtuvieron a partir de la 
misma muestra de 448 controles del estudio EURAMIC con información 
comple a de todas las variables. Tom ndo como referencia el modelo ajustado por 
amba  covariab e , l cambio rel tivo que se produce en el coeficiente estima o 
del índice de masa corpor l al ex luir el consumo de alcohol es 
0209,0
0225,0
3,2|1
3|1
−
−
=
b
b
 = 1,08; 
es decir, una vez tenido en cuenta el hábito tabáquico actual, las diferencias en el  
consumo de alcohol provocan una sobreestimación del 100(1,08 - 1) = 8% en la 
asociación inversa del índice de masa corporal con el colesterol HDL. Como se 
apuntó en el Ejemplo 11.2, esto es debido a que una pequeña parte de la reducción 
del colesterol HDL entre los sujetos con mayor índice de masa corporal se debe 
en realidad a su menor consumo de alcohol. Por otra parte, si se excluye la 
variable indicadora de los fumadores actuales, el cambio relativo es 
0209,0
0206,0
3,2|1
2|1
−
−
=
b
b
 = 0,99; 
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hábito 
tabáquico actual no introduce virtualmente ningún sesgo en la asociación objeto 
de estudio (infraestimación del 100(0,99 - 1) = -1%). Esto es consecuencia de que 
es decir, una vez tenido en cuenta el hábito tabáquico actual, las diferencias en el  consumo 
de al ohol provoca  una sobreestimación del 100(1,08 – 1) = 8% en la asociación inversa 
del índice de masa corporal con el colesterol HDL. Como se apuntó en el Ejemplo 11.2, 
esto es debido a que una peq eña part  de la reducción del colesterol HDL entre los 
sujetos con mayor índice de masa corporal se debe en realidad a su menor consumo de 
lcohol. Por otra parte, si se excluye la variab e indicadora de los fumad res actuales, el 
cambio relativo es
 44
asociaran también con el índice de masa corporal, verificarían los tres requisitos 
para ser potenciales factores de confusión. 
La Tabla 11.10 muestra las estimaciones del c eficiente asoc ado al índice de 
asa corporal en distin os modelos de regresión lineal, a saber, un primer mod lo 
sin covariables de ajuste, un segundo odelo ajustado por el consumo de alcohol, 
un tercer modelo ajustado por el hábito tabáquico actual y un último modelo 
ajustado por ambas covariables. Todos los modelos se obtuvieron a partir de la 
misma muestra de 448 controles del estudio EURAMIC con información 
completa de todas las variables. Tomando como referencia el modelo ajustado por 
ambas covariables, el cambio relativo que se produce en el coeficiente estimado 
del índice de masa corporal al excluir el consumo de alcohol es 
0209,0
0225,0
3,2|1
3|1
−
−
=
b
b
 = 1,08; 
es decir, una vez tenido en cuenta el hábito tabáqui o actual, las difer ncias en el  
consumo de alcohol provocan una sobreestimación del 100(1,08 - 1) = 8% en la 
asociación inversa del índice de masa corporal con el colesterol HDL. Como se 
apuntó en el Ejemplo 11.2, esto es debido a que una pequeña parte de la reducción 
del colesterol HDL entre los sujetos con mayor índice de masa corporal se debe 
en realidad a su menor consumo de alcohol. Por otra parte, si se excluye la 
variable indicadora de los fumadores actuales, el cambio relativo es 
0209,0
0206,0
3,2|1
2|1
−
−
=
b
b
 = 0,99; 
sto es, una vez controladas las diferencias en la ingesta de alcohol, el hábito 
tabáquico actual no intr duce virtualmente ningún sesg  en la asociación objeto 
de estudio (infraestimación del 100(0,99 - 1) = -1%). Esto es consecuencia de que 
esto es, una vez controladas las diferencias en la ingesta de alcohol, el hábito tabáquico 
ac ual no introduce virtual ente ni gún sesg  en la a o iación objeto de estudio 
(infraestimación del 100(0,99 – 1) = – 1%). Esto es consecuencia de que el hábito tabáquico 
no se asoci  on el índice de sa corporal en el grupo control del estudio EURAMIC (la 
media del índice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los 
fumadores actu les). Por último, si se excluyen simultáneamente ambas covariables del 
modelo, el cambio relativo en el coeficiente estimado del índice de masa corporal es
 45
el hábito tabáquico no se asocia con el índice de masa corporal en el grupo control 
del estudio EURAMIC (la media del índice de masa corporal es 26,3 kg/m2 en los 
no fumadores y 26,1 kg/m2 en los umadores actual s). Por ú tim , si se excluy n 
simultáneamente ambas covariables del modelo, el cambio e ativo en el 
coeficiente es imado del índ ce de masa corporal es 
0209,0
0222,0
3,2|1
1
−
−
=
b
b
 = 1,06. 
Notar que esta sobreestimación del 6% es resultado de la combinación de los 
sesgos inducidos de forma independiente por el consumo de alcohol y el hábito 
tabáquico. Si se adoptara el criterio estándar del 10%, se concluiría que el 
consumo de alcohol y el hábito tabáquico no son factores de confusión 
importantes para la asociación entre el índice de masa corporal y el colesterol 
HDL en los controles del estudio EURAMIC. No obstante, a pesar de no cumplir 
este criterio cuantitativo, se podría decidir ajustar por ambas covariables por 
razones de credibilidad, ya que el alcohol y el tabaco son determinantes conocidos 
del colesterol HDL y cualquier estudio sobre este tópico generaría desconfianza si 
no incluyera estas variables en el análisis. 
[Tabla 11.10 aproximadamente aquí] 
La confusión es un sesgo introducido por un factor externo en la asociación objeto de 
estudio que debe prevenirse en el diseño o controlarse en el análisis de los datos. En 
este sentido, la regresión lineal múltiple es una herramienta útil para controlar la 
confusión en el análisis, ya que facilita estimaciones ajustadas por las restantes 
variables explicativas incluidas en el modelo. No obstante, la capacidad de ajuste de los 
modelos de regresión está condicionada por los siguientes factores: 
221
Confusión e interacción en regresión lineal
Pastor-Barriuso R.
Tabla 11.10 Estimación de la relación del índice de masa 
corporal (IMC) con el colesterol HDL a partir de diferentes 
modelos de regresión lineal múltiple ajustados por distintas 
combinaciones del consumo de alcohol y el hábito tabáquico 
actual en el grupo control del estudio EURAMIC.
Coeficiente asociado al IMC
Covariable de ajuste Estimación Error estándar IC al 95%
Ninguna – 0,0222 0,0037 (– 0,0295; – 0,0149)
Alcohol – 0,0206 0,0036 (– 0,0278; – 0,0135)
Fumador actual – 0,0225 0,0037 (– 0,0297; – 0,0152)
Alcohol, fumador actual – 0,0209 0,0036 (– 0,0279; – 0,0138)
Notar que esta sobreestimación del 6% es resultado de la combinación de los sesgos 
inducidos de forma independiente por el consumo de alcohol y el hábito tabáquico. Si se 
adoptara el criterio estándar del 10%, se concluiría que el consumo de alcohol y el hábito 
tabáquico no son factores de confusión importantes para la asociación entre el índice de 
masa corporal y el colesterol HDL en los controles del estudio EURAMIC. No obstante, 
a pesar de no cumplir este criterio cuantitativo, se podría decidir ajustar por ambas 
covariables por razones de credibilidad, ya que el alcohol y el tabaco son determinantes 
conocidos del colesterol HDL y cualquier estudio sobre este tópico generaría desconfianza 
si no incluyera estas variables en el análisis.
La confusión es un sesgo introducido por un factor externo en la asociación objeto de estudio 
que debe prevenirse en el diseño o controlarse en el análisis de los datos. En este sentido, la 
regresión lineal múltiple es una herramienta útil para controlar la confusión en el análisis, ya 
que facilita estimaciones ajustadas por las restantes variables explicativas incluidas en el 
modelo. No obstante, la capacidad de ajuste de los modelos de regresión está condicionada por 
los siguientes factores:
 y La disponibilidad de información sobre los potenciales factores de confusión. Obviamente, 
no se podrá controlar en el análisis ningún factor de confusión que no se haya medido 
previamente.
 y El efecto conjunto de la variable explicativa de interés y de los factores de confusión. La 
regresión lineal múltiple asume que los efectos conjuntos son aditivos, de tal forma que si 
esta asunción no se cumple, la estimación del coeficiente de regresión asociado a la 
variable explicativa de interés puede estar sesgada.
 y Los errores de medida y la especificación de los factores de confusión. Si los factores de 
confusión están medidos con un error considerable, o si su efecto sobre la variable respuesta 
se modela de forma inadecuada (por ejemplo, usando términos lineales para relaciones 
subyacentes curvilíneas), el ajuste no será completo, pudiendo quedar una apreciable 
confusión residual.
11.7.2 Evaluación de la interacción en regresión lineal
La interacción o modificación de efecto se refiere al cambio en la magnitud de la asociación 
entre la variable explicativa de interés y la variable respuesta a diferentes niveles de otra 
variable, que se denomina modificador de efecto. A diferencia de la confusión, que es un sesgo 
222
Regresión lineal múltiple
Pastor-Barriuso R.
a corregir en la estimación del efecto, la interacción es una característica inherente de la 
asociación a estudio, que debe describirse mediante estimaciones específicas del efecto de la 
variable explicativa de interés en los distintos niveles del modificador de efecto.
La confusión y la interacción son fenómenos diferentes que pueden o no ocurrir 
simultáneamente. No obstante, cuando existe evidencia de interacción con una determinada 
covariable, la valoración de la confusión inducida por dicha covariable es irrelevante. En 
presencia de interacción, la magnitud del efecto varía según el nivel de la covariable y, en 
consecuencia, deben obtenerse estimaciones específicas para cada nivel, que están libres de 
confusión al referirse a sujetos con idéntico valor de la covariable. Por el contrario, cuando no 
existe interacción, el efecto se asume igual en todos los niveles de la covariable y basta entonces 
con obtener una única estimación para todos los sujetos, que sí podría estar confundida por 
diferencias en la distribución de la covariable. Por ello, en la práctica sólo tiene sentido controlar 
la confusión cuando se ha descartado previamente la presencia de interacción.
Los efectos independientes de una variable explicativa de interés X1 y otra covariable X2 
sobre la variable respuesta Y se obtienen a partir del modelo de regresión lineal múltiple
 47
la covariable y, en consecuencia, deben obtenerse estimaciones específicas para cada 
nivel, que están libres de confusión al referirse a sujetos con idéntico valor de la 
covar able. Por el contrario, cuando no existe interacción, el efecto se asume igual en 
todos los niveles  la covariable y basta e tonc con obtener una única estimación 
para todos los sujetos, que sí podría estar confundida por diferencias en la distribución 
de la covariable. Por ello, en la práctica sólo tiene sentido controlar la confusión cuando 
se ha descartado previamente la presencia de interacción. 
Los efectos independientes de una variable explicativa de interés X1 y otra covariable 
X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresión lineal 
múltiple 
Y = β0 + β1x1 + β2x2 + ε, 
que incluye distintos términos para cada variable explicativa. Bajo este modelo, la 
relación entre X1 e Y para un determinado valor fijo c2 de la covariable X2 viene dada 
por E(Y|x1, c2) = (β0 + β2c2) + β1x1. Así, este modelo asume que no existe interacción 
entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en X1 
es siempre igual a β1, independientemente del nivel de X2. De hecho, los cambios en el 
valor de la covariable X2 sólo afectan a la constante de la recta de regresión de Y sobre 
X1, pero no a su pendiente. Esta ausencia de interacción se representa gráficamente en la 
Figura 11.6(a), donde las rectas de regresión de Y sobre X1 son líneas paralelas de igual 
pendiente para los distintos valores (puntos y círculos) de una covariable dicotómica X2. 
[Figura 11.6 aproximadamente aquí] 
En regresión lineal múltiple, la forma más sencilla de modelar la interacción entre la 
variable explicativa de interés X1 y la covariable X2 consiste en añadir al modelo un 
nuevo término con el producto de ambas variables, 
que incluye distintos términos para cada variable explicativa. Bajo este modelo, la relación entre 
X1 e Y para un determinado valor fijo c2 de la covariable X2 viene dada por E(Y|x1, c2) = (β0 + β2c2) 
+ β1x1. Así, este modelo asume que no existe interacción entre X1 y X2 ya que el cambio esperado 
en Y por cada incremento de una unidad en X1 es siempre igual a β1, independientemente del nivel 
de X2. De hecho, los cambios en el valor de la covariable X2 sólo afectan a la constante de la recta 
de regresión de Y sobre X1, pero no a su pendiente. Esta ausencia de interacción se representa 
gráficamente en la Figura 11.6(a), donde las rectas de regresión de Y sobre X1 son líneas paralelas 
de igual pendiente para los distint s valores (puntos y círculos) de u a covariable icotómica X2.
En regresión lineal múltiple, la forma más sencilla de modelar la interacción entre la variable 
explicativa de interés X1 y la covariable X2 consiste en añadir al modelo un nuevo término con 
el producto de ambas variables,
 48
Y = β0 + β1x1 + β2x2 + β3x1x2 + ε. 
Notar que el modelo ha de incluir el término producto X1X2 además de los términos 
principales para las variables X1 y X2. Bajo este modelo extendido con el término 
producto, la recta de regresión de Y sobre X1 para un determinado valor fijo c2 de la 
covariable X2 viene dada por E(Y|x1, c2) = (β0 + β2c2) + (β1 + β3c2)x1. Así, el nuevo 
modelo contempla la posibilidad de interacción entre X1 y X2 ya que el cambio esperado 
en Y por cada incremento de una unidad en X1 es igual a β1 + β3c2, que depende del 
ivel de X2 siempre que el coeficiente β3 del término producto sea distinto de 0. La 
presencia de interacción se ilustra en la Figura 11.6(b), donde las rectas de regresión de 
Y sobre X1 presentan distintas pendientes para los dos valores (puntos y círculos) de una 
c v riable dicotómica X2. 
A diferencia de la confusión, la interacción sí se evalúa estadísticamente mediante el 
contraste parcial del coeficiente β3 asociado al término producto. Si este coeficiente no 
difiere significativamente del valor nulo, el efecto de X1 sobre la variable respuesta Y no 
variará significativamente en los distintos niveles de X2. En ausencia de interacción, ha 
de eliminarse el término producto y volver al modelo con los términos principales de 
ambas variables, que permite estimar el efecto global de X1 ajustado por X2. Por el 
contrario, si el coeficiente β3 del término producto resulta significativo, el efecto de X1 
diferirá significativamente según el nivel de X2 y, en consecuencia, se tendrá una 
interacción significativa entre ambas variables. Aunque las estimaciones de los 
coeficientes del modelo con el término producto no tienen en general una interpretación 
directa, pueden combinarse para obtener estimaciones especificas de la relación de X1 
con la variable respuesta Y en los distintos niveles de X2. Para un determinado valor fijo 
c2 de la covariable X2, la ecuación de regresión estimada es yˆ (x1, c2) = (b0 + b2c2) + (b1 
 Figura 11.6
(b)(a)
x1x1
y
Figura 11.6 Rectas de regresión de la variable respuesta Y sobre la variable explicativa X1 para distintos 
valores (puntos y círculos) de una covariable dicotómica X2 que no interacciona con X1 (panel a) y que inte-
racciona con X1 (panel b).
223
Confusión e interacción en regresión lineal
Pastor-Barriuso R.
Notar que el modelo ha de incluir el término producto X1X2 además de los términos principales 
para las variables X1 y X2. Bajo este modelo extendido con el término producto, la recta de 
regresión de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por 
E(Y|x1, c2) = (β0 + β2c2) + (β1 + β3c2)x1. Así, el nuevo modelo contempla la posibilidad de 
interacción entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en 
X1 es igual a β1 + β3c2, que depende del nivel de X2 siempre que el coeficiente β3 del término 
producto sea distinto de 0. La presencia de interacción se ilustra en la Figura 11.6(b), donde las 
rectas de regresión de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y 
círculos) de una covariable dicotómica X2.
A diferencia de la confusión, la interacción sí se evalúa estadísticamente mediante el contraste 
parcial del coeficiente β3 asociado al término producto. Si este coeficiente no difiere 
significativamente del valor nulo, el efecto de X1 sobre la variable respuesta Y no variará 
significativamente en los distintos niveles de X2. En ausencia de interacción, ha de eliminarse el 
término producto y volver al modelo con los términos principales de ambas variables, que 
permite estimar el efecto global de X1 ajustado por X2. Por el contrario, si el coeficiente β3 del 
término producto resulta significativo, el efecto de X1 diferirá significativamente según el nivel 
de X2 y, en consecuencia, se tendrá una interacción significativa entre ambas variables. Aunque 
las estimaciones de los coeficientes del modelo con el término producto no tienen en general 
una interpretación directa, pueden combinarse para obtener estimaciones especificas de la 
relación de X1 con la variable respuesta Y en los distintos niveles de X2. Para un determinado 
valor fijo c2 de la covariable X2, la ecuación de regresión estimada es ŷ(x1, c2) = (b0 + b2c2) + (b1 
+ b3c2)x1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una unidad 
en X1 se estima mediante b1 + b3c2. Esta combinación constituye un estimador insesgado de la 
pendiente específica subyacente,
 49
+ b3c2)x1, de tal fo ma que el cambio en el nivel medio d  Y por c da incremento de una 
unidad en X1 se estima mediant  b1 + b3c2. Esta combinación constituye un estimador 
insesgado de la pendiente específica subyacente, 
E(b1 + b3c2) = E(b1) + E(b3)c2 = β1 + β3c2, 
cuya varianza viene dada por (véase Apartado 3.4) 
 var(b1 + b3c2) = var(b1) + 22c var(b3) + 2c2cov(b1, b3) 
  = σ 2(v11 + 22c v33 + 2c2v13), 
que depende de las varianzas de b1 y b3 y también de su covarianza ya que, como se 
muestra en el Apéndice de este tema, las estimaciones de los coeficientes de regresión 
múltiple están correlacionadas. Así, el intervalo de confianza al 100(1 - α)% para la 
pendiente subyacente β1 + β3c2 de la relación entre X1 e Y en el valor c2 de la covariable 
X2 se calcula como 
b1 + b3c2 ± tn-p-1,1-α/2 s 13233
2
211 2 vcvcv ++ . 
Ejemplo 11.13 Para evaluar una posible modificación del efecto del índice de 
masa corporal sobre el colesterol HDL en los estratos de fumadores actuales y no 
fumadores actuales, se ajustó un modelo de regresión lineal múltiple en los 
controles del estudio EURAMIC que incluía los términos principales del índice de 
masa corporal X1, el consumo de alcohol X2 y la variable indicadora X3 de los 
fumadores actuales, así como un término adicional con el producto entre el índice 
de masa corporal y la variable indicadora de los fumadores actuales, 
Y = β0 + β1x1 + β2x2 + β3x3 + β4x1x3 + ε. 
cuya varianza viene dada por (véase Apartado 3.4)
 49
+ b3c2)x1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una 
unidad en X1 se estima mediante b1 + b3c2. Esta combinación constituye un estimador 
insesgado de la pendiente específica subyacente, 
E(b1 + b3c2) = E(b1) + E(b3)c2 = β1 + β3c2, 
cuya varianza viene dada por (véase Apartado 3.4) 
 var(b1 + b3c2) = var(b1) + 22c var(b3) + 2c2cov(b1, b3) 
  = σ  2(v11  + 22c v33  + 2c2v13), 
que depende de las varianzas de b1 y b3 y también de su covarianza ya que, como se 
muestra en el Apéndice de este tema, las estimaciones de los coeficientes de regresión 
múltiple están correlacionadas. Así, el intervalo de confianza al 100(1 - α)% para la 
pendiente subyacente β1 + β3c2 de la relación entre X1 e Y en el valor c2 de la covariable 
X2 se calcula como 
b1 + b3c2 ± tn-p-1,1-α/2 s 13233
2
211 2 vcvcv ++ . 
Ejemplo 11.13 Para evaluar una posible modificación del efecto del índice de 
masa corporal sobre el colesterol HDL en los estratos de fumadores actuales y no 
fumadores actuales, se ajustó un modelo de regresión lineal múltiple en los 
controles del estudio EURAMIC que incluía los términos principales del índice de 
masa corporal X1, el consumo de alcohol X2 y la variable indicadora X3 de los 
fumadores actuales, así como un término adicional con el producto entre el índice 
de masa corporal y la variable indicadora de los fumadores actuales, 
Y = β0 + β1x1 + β2x2 + β3x3 + β4x1x3 + ε. 
que depende de las varianzas de b1 y b3 y también de su covarianza ya que, como se muestra en 
el Apéndice de este tema, las estimaciones de los coeficientes de regresión múltiple están 
correlacionadas. Así, el intervalo de confianza al 100(1 – α)% para la pendiente subyacente β1 
+ β3c2 de la relación entre X1 e Y en el valor c2 de la covariable X2 se calcula como
 49
+ b3c2)x1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una 
unidad en X1 se estima mediante b1 + b3c2. Esta combinación constituye un estimador 
insesgado de la pendiente específica subyacente, 
E(b1 + b3c2) = E(b1) + E(b3)c2 = β1 + β3c2, 
cuya varianza viene dada por (véase Apartado 3.4) 
 var( 1 + b3c2) = var( 1) + 22c var(b3) + 2c2cov(b1, b3) 
  = σ  2(v11  + 22c v33  + 2c2v13), 
que depende de las varianzas de b1 y b3 y también de su covarianza ya que, como se 
muestr  en el Apéndice de este tema, las estimaciones de los coeficientes de regresión 
múltiple están correlacionadas. Así, el intervalo de confianza al 100(1 - α)% para la 
pendient  subyacente β1 + β3c2 de la relación entre X1 e Y en el v lor c2 de la covariable 
X2 se calcula como 
b1 + b3c2 ± tn p 1,1 α /2 s 13233
2
211 2 vcvcv ++ . 
Ejemplo 11.13 Para evaluar una posible modificación del efecto del índice de 
masa corporal sobre el colesterol HDL en los estratos de fumadores actuales y no 
fumadores actuales, se ajustó un modelo de regresión lineal múltiple en los 
controles del estudio EURAMIC que incluía los términos principales del índice de 
masa corporal X1, el consumo de alcohol X2 y la variable indicadora X3 de los 
fumadores actuales, así como un término adicional con el producto entre el índice 
de asa corporal y la variable indicadora de los fumadores actuales, 
Y = β0 + β1x1 + β2x2 + β3x3 + β4x1x3 + ε. 
− − −
Ejemplo 11.13 Para ev luar una posible modificación del efecto del índice de masa 
corporal sobre el colesterol HDL en los estratos de fumadores actuales y no fumadores 
actuales, se ajustó un modelo de regresión lineal múltiple en los controles del estudio 
EURAMIC que incluía los términos principales del índice de masa corporal X1, el consumo 
de alcohol X2 y la variable indicadora X3 de los fumadores actuales, así como un término 
adicional con el producto entre el índice de masa corporal y la variable indicadora de los 
fumadores actuales,
 49
+ b3c2)x1, de ta  forma que el cambio en el nivel me io de Y por cada incremento de una 
unidad en X1 se estima mediante b1 + b3c2. Esta combinación constituye un estimador 
ins gado de la pendiente specífica subyac nte, 
E(b1 + b3c2) = E(b1) + E(b3)c2 = β1 + β3c2, 
cuya varianza viene dada por (véase Apartado 3.4) 
 var(b1 + b3c2) = var(b1) + 22c var(b3) + 2 2cov(b1, b3) 
  = σ  2(v11  + 22c v33  + 2c2v13), 
que depende d  las varianzas d  b1 y b3 y también de su covarianza ya que, como se 
muestra en el Apéndice de este tema, l s estimaciones de los co fici ntes de regresión 
múltiple están cor el cionadas. Así, l intervalo d  c nfianza al 100(1 - α)% para la 
pendiente subyacente β1 + β3c2 de la relación entre X1 e Y en el valor c2 de la covariable 
X2 se calcula como 
b1 + b3c2 ± tn-p-1,1-α /2 s 13233
2
211 2 vcvcv ++ . 
Ejemplo 11.13 Para evaluar una posible modificación del efecto del índice de 
masa corporal sobre el colesterol HDL en los estratos de fumadores actuales y no 
fumadores actuales, se ajustó un modelo de regresión lineal múltiple en los 
controles del estudio EURAMIC que incluía los términos principales del índice de 
masa corp ral X1, el consumo de alcohol X2 y la variable indicadora X3 de los 
fumadores actu es, así como un término adicional con el producto entre el índice 
de mas  corporal y a vari ble indicad ra de los fumadores actuales, 
Y = β0 + β1x1 + β2x2 + β3x3 + β4x1x3 + ε. 
224
Regresión lineal múltiple
Pastor-Barriuso R.
La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las 
correlaciones entre los distintos pares de coeficientes, que forman parte de los resultados 
facilitados por los programas estadísticos convencionales. El contraste para la nulidad 
del coeficiente β4 asociado al término producto arroja un valor P = 0,16, lo que indica 
que no existe una interacción estadísticamente significativa entre el índice de masa 
corporal y el hábito tabáquico actual en los controles del estudio EURAMIC. No obstante, 
este contraste podría tener escasa potencia estadística para detectar cambios relevantes 
en la magnitud de los efectos específicos del índice de masa corporal sobre el colesterol 
HDL dentro de cada estrato, ya que el estudio cuenta únicamente con 276 no fumadores 
actuales y 172 fumadores actuales. En este sentido, es aconsejable utilizar los resultados 
del modelo con el término producto para estimar los efectos específicos y valorar la 
relevancia del cambio.
Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3 toma 
valor 0 y la ecuación de regresión estimada se reduce a
 50
La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las 
correlaciones entre los distintos pares de coeficientes, que forman parte de los 
resultados facilitados por los programas estadísticos convencionales. El contraste 
para la nulidad del coeficiente β4 asociado al término producto arroja un valor P = 
0,16, lo que indica que no existe una interacción estadísticamente significativa 
entre el índice de masa corporal y el hábito tabáquico actual en los controles del 
estudio EURAMIC. No obstante, este contraste podría tener escasa potencia 
estadística para detectar cambios relevantes en la magnitud de los efectos 
específicos del índice de masa corporal sobre el colesterol HDL dentro de cada 
estrato, ya que el estudio cuenta únicamente con 276 no fumadores actuales y 172 
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del 
modelo con el término producto para estimar los efectos específicos y valorar la 
relevancia del cambio. 
Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3 
toma va or 0 y la ecuación  regresión estimada se reduce a 
yˆ (x1, x2, 0) = b0 + b1x1 + b2x2. 
Así, una vez controladas las diferencias en el consumo de alcohol, cada 
incremento de 3,50 kg/m2 en el índice de masa corporal de los no fumadores 
actuales se asocia con una disminución media en el colesterol HDL de 3,50b1 = 
3,50(-0,016) = -0,057 mmol/l, con un IC al 95% comprendido entre 
3,50{b1 ± t443;0,975SE(b1)} = 3,50(-0,016 ± 1,97⋅0,0049) = (-0,090; -0,023). 
La Figura 11.7 muestra en trazo fino la recta de regresión estimada del colesterol 
HDL sobre el índice de masa corporal entre los no fumadores actuales con un 
consumo medio de alcohol de 2x  = 16,5 g/día, 
Así, una vez controladas las diferencias en el consumo de alcohol, cada incremento de 
3,50 kg/m2 en el índice de masa corporal d  los o fumadores actuales se asocia con una 
disminución media en el colesterol HDL de 3,50b1 = 3,50(– 0,016) = – 0,057 mmol/l, con 
un IC al 95% comprendido entre
 50
La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las 
correlaciones entre los distintos pares de coeficientes, que forman parte de los 
resultados facilitados por los programas estadísticos convencionales. El contraste 
para la nulidad del coeficiente β4 asociado al término producto arroja un valor P = 
0,16, lo que indica que no existe una interacción estadísticamente significativa 
entre el índice de masa corporal y el hábito tabáquico actual en los controles del 
estudio EURAMIC. No obstante, este contraste podría tener escasa potencia 
estadística para detectar cambios relevantes en la magnitud de los efectos 
específicos del índice de masa corporal sobre el colesterol HDL dentro de cada 
estrato, ya que el estudio cuenta únicamente con 276 no fumadores actuales y 172 
fumadores actuales. En este sentido, es aconsejable utilizar los resultados del 
modelo con el término producto para estimar los efectos específicos y valorar la 
relevancia del cambio. 
Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3 
toma valor 0 y la ecuación de regresión estimada se reduce a 
yˆ (x1, x2, 0) = b0 + b1x1 + b2x2. 
Así, una vez controlad s las diferencias n el con umo de lcohol, cada 
incremento de 3,50 kg/m2 en el índice de masa corporal de los no fumadores 
actuales se asocia con una disminución m dia en el colesterol HDL de 3,50b1 = 
3,50(-0,016) = -0,057 mm l/l, con un IC al 95% comprendido entre 
3,50{b1 ± t443;0,975SE(b1)} = 3,50( 0,016 ± 1,97⋅0,0049) =  ( 0,090;  0,023). 
La Figura 11.7 muestra en trazo fino la recta de regresión estimada del colesterol 
HDL sobre el índice de masa corporal entre los no fumadores actuales con un 
consumo medio de alcohol de 2x  = 16,5 g/día, 
− − −
La Figura 11.7 muestra en trazo fino la recta de regresión estimada del colesterol HDL 
sobre el índice de mas  corporal e tre los no fumadores actuales con un consumo medio 
de alcohol de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central inform n acerca de c ál es el valor más representativo 
de una determinada variable o, dicho de for a equivalen e, estos esti dores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmétic
La media aritmética, notada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor obs rvado para el suje o i-ésimo,  = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
2 = 16,5 g/día, 
 51
yˆ (x1; 16,5; 0) = 1,49  0, 16x1 + 0,0029⋅16,5 = 1,54  0,016x1. 
Por otro lado, en el estrato de l s fum dores actuales, la variable in icad ra X3 
toma valor 1 y la ecuación de regresión estimada viene ada por 
yˆ (x1, 2, 1) = (b0 + b3) + (b1 + b4)x1 + b2x2. 
Así, después de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en 
el índice de masa corporal de los fumadores actuales se asocian con una 
disminución media en el colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) = 
-0,092 mmol/l. Para obtener una estimación por intervalo del efecto específico en 
este estrato, se calcula en primer lugar la varianza muestral de b1 + b4 
 var(b1 + b4) = var(b1) + var(b4) + 2cov(b1, b4) 
  = SE(b1)2 + SE(b4)2 + 2SE(b1)SE(b4) 41bbr  
  = 0,00492 + 0,00722 + 2⋅0,0049⋅0,0072(-0,679) = 0,000028, 
donde la correlación entre b1 y b4 se obtiene de la segunda parte de la Tabla 11.11. 
El IC al 95% para el efecto específico del índice de masa corporal en los 
fumadores actuales se calcula entonces como 
 3,50{b1 + b4 ± t443;0,975SE(b1 + b4)} 
  = 3,50(-0,016 - 0,010 ± 1,97 000028,0 ) = (-0,129; -0,056). 
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del 
colesterol HDL sobre el índice de masa corporal entre los fumadores actuales con 
una ingesta media de alcohol de 2x  = 16,5 g/día, 
 yˆ (x1; 16,5; 1) = (1,49 + 0,18) - (0,016 + 0,010)x1 + 0,0029⋅16,5 
  = 1,72 - 0,026x1. 
− −
P r otro lado, en el estrat  de los fumadores actuales, la variable indicadora X3 toma valor 
1 y la ecu ción d  r gresión stimada vi n  dada por
 51
yˆ (x1; 16,5; 0) = 1,49 - 0,016x1 + 0,0029⋅16,5 = 1,54 - 0,016x1. 
Por otr  lado, e  el estrato de l s fumadores actuales, l  variable indicadora X3 
toma valor 1 y la cuación de regresión estimada viene d d  por 
yˆ (x1, x2, 1) = (b0 + b3) + (b1 + b4)x1 + b2x2. 
Así, después de ajustar p r la ingesta de alcohol, los incrementos de 3,50 kg/m2 en 
el índice de masa corporal de los fumadores actuales se asocian con una 
disminución media en el colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) = 
-0,092 mmol/l. Para obtener una estimación por intervalo del efecto específico en 
este estrato, se calcula en primer lugar la varianza muestral de b1 + b4 
 var(b1 + b4) = var(b1) + var(b4) + 2cov(b1, b4) 
  = SE(b1)2 + SE(b4)2 + 2SE(b1)SE(b4) 41bbr  
  = 0,00492 + 0,00722 + 2⋅0,0049⋅0,0072(-0,679) = 0,000028, 
donde la correlación entre b1 y b4 se obtiene de la segunda parte de la Tabla 11.11. 
El IC al 95% para el efecto específico del índice de masa corporal en los 
fumadores actuales se calcula entonces como 
 3,50{b1 + b4 ± t443;0,975SE(b1 + b4)} 
  = 3,50(-0,016 - 0,010 ± 1,97 000028,0 ) = (-0,129; -0,056). 
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del 
colesterol HDL sobre el índice de masa corporal entre los fumadores actuales con 
una ingesta media de alcohol de 2x  = 16,5 g/día, 
 yˆ (x1; 16,5; 1) = (1,49 + 0,18) - (0,016 + 0,010)x1 + 0,0029⋅16,5 
  = 1,72 - 0,026x1. 
Así, después de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en el 
índice de asa corporal de os fumadores actua es se asocian c n una disminución media 
en el colesterol HDL de 3,50(b1 + b4) = 3,50(– 0,016 – 0,010) = – 0,092 mmol/l. Para 
obtener una estimación por intervalo el fecto específic  en este estrato, se calcula en 
primer lugar la varianza muestral de b1 + b4
 51
yˆ (x1; 16,5; 0) = 1,49 - 0,016x1 + 0,0029⋅16,5 = 1,54 - 0,016x1. 
Por otro lado, en el estrato de los fuma ores actuales, la variable indicadora X3 
tom  valor 1 y la ecuación de regresión estimada viene dada por 
yˆ (x1, x2, 1) = (b0 + b3) + (b1 + b4)x1 + b2x2. 
Así, después de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en 
el índice de mas  corporal  l  f a r  t l  e asocian con una 
disminución me a en el col st ol HDL d 3,50(b1 + b4) = 3,50(-0,016 - 0,010) = 
-0,092 m ol/l. Para obtener una imación p r int rvalo d l efecto específico e  
ste estrato, se c lcula en primer l gar la varianz  mu stral de b1 + b4 
 var(b1 + b4) = var(b1) + var(b4) + 2cov(b1, b4) 
  = SE(b1)2 + SE(b4)2 + 2SE(b1)SE(b4) 41bbr  
  = 0,00492 + 0,00722 + 2⋅0,0049⋅0,0072( 0,679) = 0,000028, 
donde la correlación entre b1 y b4 se obtiene de la segunda parte de la Tabla 11.11. 
El IC al 95% para el efecto específico del índice de asa corporal en los 
fumadores actuales se calcula entonces como 
 3,50{b1 + b4 ± t443;0,975SE(b1 + b4)} 
  = 3,50(-0,016 - 0,010 ± 1,97 000028,0 ) = (-0,129; -0,056). 
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del 
colesterol HDL sobre el índice de masa corporal entre los fumadores actuales con 
una ingesta media de alcohol de 2x  = 16,5 g/día, 
 yˆ (x1; 16,5; 1) = (1,49 + 0,18) - (0,016 + 0,010)x1 + 0,0029⋅16,5 
  = 1,72 - 0,026x1. 
−
donde la correlación entre b1 y b4 e obtiene de la s gunda parte de la Tabla 11.11. El IC 
al 95% para el efecto específico del índice de masa corporal en los fumadores actuales se 
calcula entonces como
 51
yˆ (x1; 16,5; 0) = 1,49 - 0,016x1 + 0,0029⋅16,5 = 1,54 - 0,016x1. 
Por otro lado, en el estrato de los fumadores actuales, la variable indicadora X3 
toma valor 1 y la ecuación de regresión estimada viene dada por 
yˆ (x1, x2, 1) = (b0 + b3) + (b1 + b4)x1 + b2x2. 
Así, después de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en 
el índice de masa corporal de los fumadores actuales se asocian con una 
disminución media n l colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) = 
-0,092 mmol/l. Para obtener una estimación por intervalo del efecto específico en 
este estrato, se calcula en primer lugar la varianza muestral de b1 + b4 
 var(b1 + b4) = var(b1) + var(b4) + 2cov(b1, b4) 
  = SE(b1)2 + SE(b4)2 + 2SE(b1)SE(b4) 41bbr  
  = 0,00492 + 0,00722 + 2⋅0,0049⋅0,0072(-0,679) = 0,000028, 
donde la correlación en re b1 y b4 se obtiene de la s gunda parte de la Tabla 11.11. 
El IC al 95% par  el ef cto esp cífico del índice de ma a corporal en los 
fumadores ctual s se calcula entonces como 
 3,50{b1 + b4 ± t443;0,975 SE(b1 + b4)} 
  
= 3,50( 0,016  0,010 ± 1,97 000028,0 ) = ( 0,129; 0,056). 
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del 
colesterol HDL sobre el índice de masa corporal entre los fumadores actuales con 
una ingesta media de alcohol de 2x  = 16,5 g/día, 
 yˆ (x1; 16,5; 1) = (1,49 + 0,18) - (0,016 + 0,010)x1 + 0,0029⋅16,5 
  = 1,72 - 0,026x1. 
− − − −
225
Confusión e interacción en regresión lineal
Pastor-Barriuso R.
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del colesterol 
HDL sobre el índice de masa corporal entre los fumadores actuales con una ingesta media 
de alcohol de 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética
La media aritmética, notada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
2 = 16,5 g/día,
 51
yˆ (x1; 16,5; 0) = 1,49 - 0,016x1 + 0,0029⋅16,5 = 1,54 - 0,016x1. 
Por otro lado, en el estrato de los fumadores actuales, la variable indicadora X3 
toma valor 1 y la ecuación de regresión estimada viene dada por 
yˆ (x1, x2, 1) = (b0 + b3) + (b1 + b4)x1 + b2x2. 
Así, después de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en 
el índice de masa corporal de los fumadores actuales se asocian con una 
disminución media en el colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) = 
-0,092 mmol/l. Para obtener una estimación por intervalo del efecto específico en 
este estrato, se calcula en primer lugar la varianza muestral de b1 + b4 
 var(b1 + b4) = var(b1) + var(b4) + 2cov(b1, b4) 
  = SE(b1)2 + SE(b4)2 + 2SE(b1)SE(b4) 41bbr  
  = 0,00492 + 0,00722 + 2⋅0,0049⋅0,0072(-0,679) = 0,000028, 
donde la correlación entre b1 y b4 se obtiene de la segunda parte de la Tabla 11.11. 
El IC al 95% para el efecto específico del índice de masa corporal en los 
fumadores actuales se calcula entonces como 
 3,50{b1 + b4 ± t443;0,975 SE(b1 + b4)} 
  = 3,50(-0,016 - 0,010 ± 1,97 000028,0 ) = (-0,129; -0,056). 
En la Figura 11.7 se representa en trazo grueso la recta de regresión estimada del 
colesterol HDL sobre el índice de masa corporal entre los fumadores actuales con 
una ingesta media de alcohol de 2x  = 16,5 g/día, 
 yˆ (x1; 16,5; 1) = (1,49 + 0,18)  (0,016 + 0,010)x1 + 0,0029 ⋅16,5 
  
= 1,72  0,026x1. 
−
−
En conclusión, a partir del modelo con la interacción se tiene que un mismo incremento 
de 3,50 kg/m2 en el índice de masa corporal se asocia con distintas disminuciones en el 
nivel medio de colesterol HDL de – 0,057 mmol/l en los no fumadores y – 0,092 mmol/l 
en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido 
al limitado tamaño muestral de ambos estratos, las estimaciones específicas son 
relativamente imprecisas y el test de interacción no alcanza la significación estadística. 
Por tanto, los resultados de este estudio no son concluyentes respecto a la posible acción 
sinérgica del índice de masa corporal y el tabaco en los niveles de colesterol HDL, y se 
requeriría de un estudio más potente para detectar un cambio subyacente de dicha 
magnitud en los efectos específicos del índice de masa corporal en fumadores y no 
fumadores actuales.
Tabla 11.11 Resultados de la regresión lineal múltiple del colesterol HDL 
sobre el índice de masa corporal (IMC), el consumo de alcohol, la variable 
indicadora de fumadores actuales y el producto entre IMC y fumador actual 
en el grupo control del estudio EURAMIC.
Coeficientes de regresión
Test H0: βj = 0
Estimación Error estándar IC al 95% t Valor P
Constante 1,49 0,13 (1,24; 1,75) 11,47 < 0,001
IMC – 0,016 0,0049 (– 0,026; – 0,007) – 3,30 0,001
Alcohol 0,0029 0,0006 (0,0018; 0,0041) 4,88 < 0,001
Fumador 0,18 0,19 (– 0,20; 0,55) 0,91 0,36
IMC·Fumador – 0,010 0,0072 (– 0,024; 0,004) – 1,40 0,16
Matriz de correlaciones de las estimaciones
IMC Alcohol Fumador IMC ∙ Fumador
Constante – 0,990 – 0,052 – 0,670 0,664
IMC – 0,016 0,674 – 0,679
Alcohol – 0,134 0,120
Fumador – 0,990
226
Regresión lineal múltiple
Pastor-Barriuso R.
 Figura 11.7
 
20 24 28 32 36
0,25
0,5
1
1,5
2
2,25
Indice de masa corporal (kg/m²)
C
ol
es
te
ro
l H
D
L 
(m
m
ol
/l)
Figura 11.7 Rectas de regresión del colesterol HDL sobre el índice de masa corporal en fumadores actuales 
(puntos y línea gruesa) y no fumadores actuales (círculos y línea fina) obtenidas de un modelo con interac-
ción entre el índice de masa corporal y el hábito tabáquico actual en el grupo control del estudio EURAMIC.
En regresión lineal, la ausencia de interacción entre dos variables explicativas X1 y X2 implica 
que sus efectos sobre la variable respuesta son aditivos; es decir, el efecto conjunto de ambas 
variables es la suma de sus efectos independientes. La presencia de interacción puede 
interpretarse, por tanto, como una desviación de la aditividad, que puede deberse tanto a 
efectos subaditivos como a efectos supraaditivos. Más concretamente, en un modelo de regresión 
lineal con el término producto entre X1 y X2, el cambio esperado en Y al aumentar simultáneamente 
una unidad ambas variables explicativas es
 53
 E(Y|x1 + 1, x2 + 1)  E(Y|x1, x2) 
  = β0 + β1(x1 + 1) + β2(x2 + 1) + β3(x1 + 1)(x2 + 1) 
  
  (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β2 + β3(x1 + x2 + 1). 
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad 
cada variable explicativa son 
 E(Y|x1 + 1, x2) - E(Y|x1, x2) = β0 + β1(x1 + 1) + β2x2 + β3(x1 + 1)x2 
  - (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β3x2 
y 
 E(Y|x1, x2 + 1) - E(Y|x1, x2) = β0 + β1x1 + β2(x2 + 1) + β3x1(x2 + 1) 
  - (β0 + β1x1 + β2x2 + β3x1x2) = β2 + β3x1. 
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto 
será distinto de 0 y el efecto conjunto de ambas variables diferirá de la suma de sus 
efectos independientes, 
 E(Y|x1 + 1, x2 + 1) - E(Y|x1, x2) 
   - {E(Y|x1 + 1, x2) - E(Y|x1, x2) + E(Y|x1, x2 + 1) - E(Y|x1, x2)} 
  = β1 + β2 + β3(x1 + x2 + 1) - (β1 + β3x2 + β2 + β3x1) = β3. 
Ejemplo 11.14 A partir de las estimaciones del modelo con el término producto 
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un 
índice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es 
yˆ (25, 20, 0) = 1,49 - 0,016⋅25 + 0,0029⋅20 = 1,148, 
el de los no fumadores con un elevado índice de masa corporal de 28,5 kg/m2 y un 
consumo de alcohol de 20 g/día es 
−
−
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad cada 
variable explicativa son
 53
 E(Y|x1 + 1, x2 + 1) - E(Y|x1, x2) 
  = β0 + β1(x1 + 1) + β2(x2 + 1) + β3(x1 + 1)(x2 + 1) 
   - (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β2 + β3(x1 + x2 + 1). 
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad 
cada variable explicativa son 
 E(Y |x1 + 1, x2)   E(Y|x1, x2) = β0 + β1(x1 + 1) + β2x2 + β3(x1 + 1)x2 
   (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β3x2 
y 
 E(Y|x1, x2 + 1) - E(Y|x1, x2) = β0 + β1x1 + β2(x2 + 1) + β3x1(x2 + 1) 
  - (β0 + β1x1 + β2x2 + β3x1x2) = β2 + β3x1. 
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto 
será distinto de 0 y el efecto conjunto de ambas variables diferirá de la suma de sus 
efectos independientes, 
 E(Y|x1 + 1, x2 + 1) - E(Y|x1, x2) 
   - {E(Y|x1 + 1, x2) - E(Y|x1, x2) + E(Y|x1, x2 + 1) - E(Y|x1, x2)} 
  = β1 + β2 + β3(x1 + x2 + 1) - (β1 + β3x2 + β2 + β3x1) = β3. 
Ejemplo 11.14 A partir de las estimaciones del modelo con el término producto 
de la Tabla 1.11, el nivel medio de colesterol HDL de los no fumadores con un 
índice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es 
yˆ (25, 20, 0) = 1,49 - 0,016⋅25 + 0,0029⋅20 = 1,148, 
el de los no fumadores con un elevado índice de masa corporal de 28,5 kg/m2 y un 
consumo de alcohol de 20 g/día es 
−
−
y
 53
 E(Y|x1 + 1, x2 + 1) - E(Y|x1, x2) 
  = β0 + β1(x1 + 1) + β2(x2 + 1) + β3(x1 + 1)(x2 + 1) 
   - (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β2 + β3(x1 + x2 + 1). 
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad 
cada variable explicativa son 
 E(Y |x1 + 1, x2) - E(Y|x1, x2) = β0 + β1(x1 + 1) + β2x2 + β3(x1 + 1)x2 
  - ( 0 + β1 1  β2x2 + β3x1x2) = β1 + β3x2 
y 
 E(Y |x1, x2 + 1)  E(Y |x1, x2) = β0 + β1x1 + β2(x2 + 1) + β3x1(x2 + 1) 
  
 (β0 + β1x1 + β2x2 + β3x1x2) = β2 + β3x1. 
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto 
será distinto de 0 y el efecto conjunto de ambas variables diferirá de la suma de sus 
efectos independientes, 
 E(Y|x1 + 1, x2 + 1) - E(Y|x1, x2) 
   - {E(Y|x1 + 1, x2) - E(Y|x1, x2) + E(Y|x1, x2 + 1) - E(Y|x1, x2)} 
  = β1 + β2 + β3(x1 + x2 + 1) - (β1 + β3x2 + β2 + β3x1) = β3. 
Ejemplo 11.14 A partir de las estimaciones del modelo con el término producto 
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un 
índice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es 
yˆ (25, 20, 0) = 1,49 - 0,016⋅25 + 0,0029⋅20 = 1,148, 
el de los no fumadores con un elevado índice de masa corporal de 28,5 kg/m2 y un 
consumo de alcohol de 20 g/día es 
−
−
227
Confusión e interacción en regresión lineal
Pastor-Barriuso R.
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto será 
distinto de 0 y el efecto conjunto de ambas variables diferirá de la suma de sus efectos 
independientes,
 53
 E(Y|x1 + 1, x2 + 1) - E(Y|x1, x2) 
  = β0 + β1(x1 + 1) + β2(x2 + 1) + β3(x1 + 1)(x2 + 1) 
   - (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β2 + β3(x1 + x2 + 1). 
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad 
cada variable explicativa son 
 E(Y |x1 + 1, x2) - E(Y|x1, x2) = β0 + β1(x1 + 1) + β2x2 + β3(x1 + 1)x2 
  - (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β3x2 
y 
 E(Y |x1, x2 + 1) - E(Y |x1, x2) = β0 + β1x1 + β2(x2 + 1) + β3x1(x2 + 1) 
  - (β0 + β1x1 + β2x2 + β3x1x2) = β2 + β3x1. 
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto 
será distinto de 0 y el efecto conjunto de ambas variables diferirá de la suma de sus 
efectos independientes, 
 E(Y |x1 + 1, x2 + 1)  E(Y |x1, x2) 
    {E(Y |x1 + 1, x2)  E(Y |x1, x2) + E(Y |x1, x2 + 1)   E(Y |x1, x2)} 
  = β1 + β2 + β3(x1 + x2 + 1)  (β1 + β3x2 + β2 + β3x1) = β3. 
Ejemplo 11.14 A partir de las estimaciones del modelo con el término producto 
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un 
índice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es 
yˆ (25, 20, 0) = 1,49 - 0,016⋅25 + 0,0029⋅20 = 1,148, 
el de los no fumadores con un elevado índice de masa corporal de 28,5 kg/m2 y un 
consumo de alcohol de 20 g/día es 
−
− − −
−
Ejemplo 11.14 A partir de las estimaciones del modelo con el término producto de la 
Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un índice de masa 
corporal de 25 kg/m2 y un consumo de lc hol  20 g/día es
 53
 E(Y|x1 + 1, x2 + 1) - E(Y|x1, x2) 
  = β0 + β1(x1 + 1) + β2(x2 + 1) + β3(x1 + 1)(x2 + 1) 
   - (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β2 + β3(x1 + x2 + 1). 
En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad 
cada variable explicativa son 
 E(Y |x1 + 1, x2) - E(Y|x1, x2) = β0 + β1(x1 + 1) + β2x2 + β3(x1 + 1)x2 
  - (β0 + β1x1 + β2x2 + β3x1x2) = β1 + β3x2 
y 
 E(Y |x1, x2 + 1) - E(Y |x1, x2) = β0 + β1x1 + β2(x2 + 1) + β3x1(x2 + 1) 
  - (β0 + β1x1 + β2x2 + β3x1x2) = β2 + β3x1. 
Así, si existe interacción entre X1 y X2, el coeficiente β3 asociado al término producto 
será distinto de 0 y el efecto conjunto de ambas variables diferirá de la suma de sus 
efectos independientes, 
 E(Y |x1 + 1, x2 + 1) - E(Y |x1, x2) 
   - {E(Y |x1 + 1, x2) - E(Y |x1, x2) + E(Y |x1, x2 + 1) - E(Y |x1, x2)} 
  = β1 + β2 + β3(x1 + x2 + 1) - (β1 + β3x2 + β2 + β3x1) = β3. 
Ejemplo 11.14 A partir de las estimaciones del modelo con el término producto 
de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un 
índice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/día es 
yˆ (25, 20, 0) = 1,49  0,016 ⋅25 +  0,0029 ⋅20 = 1,148, 
el de los no fumadores con un elevado índice de masa corporal de 28,5 kg/m2 y un 
consumo de alcohol de 20 g/día es 
−
el de los no fumadores con un elevado índice de masa corporal de 28,5 kg/m2 y un consumo 
de alc hol de 20 g/día es
 54
yˆ (28,5; 20; 0) = 1,49  0,016⋅28,5 + 0,0029 ⋅20 = 1,091, 
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un 
consumo de alcohol de 20 g/día es 
yˆ (25, 20, 1) = 1,49 - 0,016⋅25 + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070 
y el de los fumadores actuales con un elevado índice de masa corporal de 28,5 
kg/m2 y un consumo de alcohol de 20 g/día es  
yˆ (28,5; 20; 1) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 + 0,18 - 0,010⋅28,5 = 0,978. 
Tomando como referencia a los sujetos no fumadores con un índice de masa 
corporal de 25 kg/m2, los no fumadores con un elevado índice de masa corporal 
de 28,5 kg/m2 presentan una disminución en la media del colesterol HDL de  
yˆ (28,5; 20; 0) - yˆ (25, 20, 0) = 1,091 - 1,148 = -0,057, 
los fumadores actuales con el mismo índice de masa corporal de 25 kg/m2 de 
yˆ (25, 20, 1) - yˆ (25, 20, 0) = 1,070 - 1,148 = -0,078 
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de 
yˆ (28,5; 20; 1) - yˆ (25, 20, 0) = 0,978 - 1,148 = -0,170. 
Así, la disminución media del colesterol HDL de -0,170 mmol/l debida 
conjuntamente a fumar y aumentar el índice de masa corporal es mayor en valor 
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas 
a cada factor por separado. En otras palabras, los datos del estudio EURAMIC 
apuntan a un posible efecto supraaditivo o sinérgico del índice de masa corporal y 
el tabaco sobre los niveles de colesterol HDL. 
−
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un consumo 
de alc hol de 20 g/día es
 54
yˆ (28,5; 20; 0) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 = 1,091, 
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un 
consumo de alcohol de 20 g/día es 
yˆ (25, 20, 1) = 1,49  0,016 ⋅25 + 0,0029⋅20 + 0,18  0,010 ⋅25 = 1,070 
y el de los fumadores actuales con un elevado índice de masa corporal de 28,5 
kg/m2 y un consumo de alcohol de 20 g/día es  
yˆ (28,5; 20; 1) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 + 0,18 - 0,010⋅28,5 = 0,978. 
Tomando como referencia a los sujetos no fumadores con un índice de masa 
corporal de 25 kg/m2, los no fumadores con un elevado índice de masa corporal 
de 28,5 kg/m2 presentan una disminución en la media del colesterol HDL de  
yˆ (28,5; 20; 0) - yˆ (25, 20, 0) = 1,091 - 1,148 = -0,057, 
los fumadores actuales con el mismo índice de masa corporal de 25 kg/m2 de 
yˆ (25, 20, 1) - yˆ (25, 20, 0) = 1,070 - 1,148 = -0,078 
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de 
yˆ (28,5; 20; 1) - yˆ (25, 20, 0) = 0,978 - 1,148 = -0,170. 
Así, la disminución media del colesterol HDL de -0,170 mmol/l debida 
conjuntamente a fumar y aumentar el índice de masa corporal es mayor en valor 
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas 
a cada factor por separado. En otras palabras, los datos del estudio EURAMIC 
apuntan a un posible efecto supraaditivo o sinérgico del índice de masa corporal y 
el tabaco sobre los niveles de colesterol HDL. 
− −
y el de los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 y un 
consum  de alcohol de 20 g/día es 
 54
yˆ (28,5; 20; 0) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 = 1,091, 
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un 
consumo de alcohol de 20 g/día es 
yˆ (25, 20, 1) = 1,49 - 0,016⋅25 + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070 
y el de los fumadores actuales con un elevado índice de masa corporal de 28,5 
kg/m2 y un consumo de alcohol de 20 g/dí  es  
yˆ (28,5; 20; 1) = 1,49  0,016 ⋅28,5 + 0,0029⋅20 + 0,18  0,010 ⋅28,5 = 0,978. 
Tomando como referencia a los sujetos no fumadores con un índice de masa 
corporal de 25 kg/m2, los no fumadores con un elevado índice de masa corporal 
de 28,5 kg/m2 presentan una disminución en la media del colesterol HDL de  
yˆ (28,5; 20; 0) - yˆ (25, 20, 0) = 1,091 - 1,148 = -0,057, 
los fumadores actuales con el mismo índice de masa corporal de 25 kg/m2 de 
yˆ (25, 20, 1) - yˆ (25, 20, 0) = 1,070 - 1,148 = -0,078 
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de 
yˆ (28,5; 20; 1) - yˆ (25, 20, 0) = 0,978 - 1,148 = -0,170. 
Así, la disminución media del colesterol HDL de -0,170 mmol/l debida 
conjuntamente a fumar y aumentar el índice de masa corporal es mayor en valor 
absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debid s 
a cada factor por separado. En otras palabras, los datos del estudio EURAMIC 
apuntan a un posible efecto supraaditivo o sinérgico del índice de masa corporal y 
el tabaco sobre los niveles de colesterol HDL. 
− −
Tomando como referencia a los sujetos no fumadores con un índice de masa corporal de 
25 kg/m2, los no fumadores con un elevado índice de masa corporal de 28,5 kg/m2 
presentan una disminución en la media del colesterol HDL de 
 54
yˆ (28,5; 20; 0) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 = 1,091, 
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un 
consumo de alcohol de 20 g/día es 
yˆ (25, 20, 1) = 1,49 - 0,016⋅25 + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070 
y el de los fumadores actuales con un elevado índice de masa corporal de 28,5 
kg/m2 y un consumo de alcohol de 20 g/día es  
yˆ (28,5; 20; 1) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 + 0,18 - 0,010⋅28,5 = 0,978. 
Tomando co o referencia a los sujetos no fumadores con un índice de masa 
corporal de 25 kg/m2, los no fumadores con un elevado índice de masa corporal 
de 28,5 kg/m2 pres ntan una disminució  en la media del colester l HDL e  
yˆ (28,5; 20; 0)  yˆ (25, 20, 0) = 1,091  1,148 =  0,057, 
los fuma ores actuales co  el mism  índice de masa c rporal de 25 kg/m2 de 
yˆ (25, 20, 1) - yˆ (25, 20, 0) = 1,070 - 1,148 = -0,078 
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de 
yˆ (28,5; 20; 1) - yˆ (25, 20, 0) = 0,978 - 1,148 = -0,170. 
Así, la disminución media del colesterol HDL de -0,170 mmol/l debida 
conjuntament  a fum r y aume tar el índice d  masa corp al es mayor en valor 
abso uto que la suma de l s disminuci nes -0,057 - 0,078 = -0,135 mmol/l debidas 
a cada f ctor por sep rado. En o ras palabras, los datos del estudio EURAMIC 
puntan a n po ible ef cto supraadit vo o sinérgico del índice de masa corporal y 
el t b co s bre lo  niveles de c lestero  HDL. 
− − −
los fumadores actuales co  el mismo índice de asa corporal d  25 kg/m2 de
 54
yˆ (28,5; 20; 0) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 = 1,091, 
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un 
consumo de lc hol de 20 g/día es 
yˆ (25, 20, 1) = 1,49 - 0,016⋅25 + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070 
y el de los fu adores actuales con un elevado índice de masa c rporal de 28,5 
kg/m2 y un consumo de alcohol de 2  g/dí  es  
yˆ (28,5; 20; 1) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 + 0,18 - 0,010⋅28,5 = 0,978. 
Toma do c mo referencia a los sujetos no fumadores con un índice de masa 
c rporal de 25 kg/m2, los no fumadores c n un elevado í dice de masa corporal 
de 28,5 kg/m2 presentan u a disminución en la m dia del col st rol HDL de  
yˆ (28,5; 20; 0) - yˆ ( 5, 20, 0) = 1,091 - 1, 48 = -0,057, 
los fumadores actual s on e  mismo índice de masa corporal de 25 kg/ 2 de 
yˆ (25, 20, 1)  yˆ (25, 20, 0) = 1,070  1,148 =  0,078 
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de 
yˆ (28,5; 20; 1) - yˆ (25, 20, 0) = 0,978 - 1,148 = -0,170. 
Así, la disminución media del colesterol HDL de -0,170 mmol/l debida 
conjuntamente a fumar y aumentar el índice de masa corporal es mayor en valor 
absolu o que la suma de l s disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas
 cad factor por separado. En otra  palabras, los datos del estudio EURAMIC 
puntan a u sible efecto supra ditivo o sinérgico del índice e masa corporal y 
el tab co sobre los niv les de colester l HDL. 
− − −
y los fumadores actuales con un elevado índice d  masa corporal de 28,5 kg/m2 de
 54
yˆ (28,5; 20; 0) = 1,49 - 0,016⋅28,5 + 0,0029⋅20 = 1,091, 
el de los fumadores actuales con un índice de masa corporal de 25 kg/m2 y un 
consumo de alc hol de 20 g/día es 
yˆ (25, 20, 1) = 1,49 - 0,016⋅25 + 0,0029⋅20 + 0,18 - 0,010⋅25 = 1,070 
y el de los fumadores actuales con un levado índice de masa corporal e 28,5 
kg/m2 y un consumo de alcohol de 20 g/dí  es  
yˆ (28,5; 20; 1) = 1,49 - 0, 16⋅28,5 + , 029⋅20 + ,18 - 0,010⋅28,5 = 0,978. 
Tomando como referencia a los sujetos no fumadores con un índice de masa 
corp ral de 25 kg/m2, los no fumadore  c n un elevado í dice de masa corporal 
de 28,5 kg/m2 pres ntan u disminució  en la m dia del col st rol HDL de  
yˆ (28,5; 20; 0) - yˆ (25, 20, 0) = 1,091 - 1,148 = -0,057, 
los fumadores actuales con el mismo índice de masa corporal de 25 kg/m2 de 
yˆ (25, 20, 1) - yˆ (25, 20, 0) = 1,070 - 1,148 = -0,078 
y los fumadores actuales con un elevado índice de masa corporal de 28,5 kg/m2 de 
yˆ (28,5; 20; 1)  yˆ (25, 20, 0) = 0,978  1,148 =  0,170. 
Así, la disminución media del colesterol HDL de -0,170 mmol/l debida 
conjuntamente a fumar y aumentar el índice de masa corporal es mayor en valor 
abso uto que la suma de l s disminuci nes -0,057 - 0,078 = -0,135 mmol/l debidas 
cada f ctor por sep rado. En o ras palabras, los dato  del estudio EURAMIC 
punt n a n ible ef cto supra dit vo o sinérgico del índice e mas corporal y 
el t b co s bre lo  niveles de c lest ro  HDL. 
− − −
Así, la disminución media del colesterol HDL de – 0,170 mmol/l debida conjuntamente a 
fumar y aumentar el índice de masa corporal es mayor en valor absoluto que la suma de 
las disminuciones – 0,057 – 0,078 = – ,135 mmol/l debidas a cada factor por separado. 
En otras palabras, los datos del estudio EURAMIC apuntan a un posible efecto supraaditivo 
o sinérgico del índice de masa corporal y el tabaco sobre los niveles de colesterol HDL.
228
Regresión lineal múltiple
Pastor-Barriuso R.
11.8 APÉNDICE: FORMULACIÓN MATRICIAL DE LA REGRESIÓN LINEAL 
MÚLTIPLE
Según la estructura de la regresión lineal múltiple presentada en el Apartado 11.2, cada una de 
las n observaciones independientes (yi, xi1, …, xip) presenta la relación lineal
 55
11.8 APÉNDICE: FORMULACIÓN MATRICIAL DE LA REGRESIÓN LINEAL 
MÚLTIPLE 
Según la estructura de la regresión lineal múltiple presentada en el Apartado 11.2, cada 
una de las n observaciones independientes (yi, xi1, …, xip) pres nta la relación lineal 
yi = β0 + β1xi1 + … + βpxip + ε i, i = 1, …, n, 
donde los errores aleatorios εi son independientes y están distribuidos normalmente con 
media 0 y varianza constante σ 2. Estas n ecuaciones lineales pueden reescribirse en 
forma matricial como 
















+




























=
















n
p
npn
p
n xx
xx
y
y
ε
ε
β
β
β





1
1
0
1
1111
1
1
 
o, abreviadamente, 
y = Xβ + ε, 
donde y es un vector n × 1 con los valores de la variable respuesta, X es una matriz de 
dimensión n × (p + 1) cuyas columnas son los valores de cada variable explicativa más 
una primera columna de unos, β es un vector (p + 1) × 1 con los coeficientes de 
regresión y ε es un vector n × 1 con los errores aleatorios. El vector de errores aleatorios 
ε sigue entonces una distribución normal multivariante con media 0 y matriz diagonal 
de varianzas-covarianzas σ 2I, 
ε ~ N(0, σ 2I), 
donde 0 denota el vector nulo n × 1 con todos sus componentes iguales a cero e I denota 
la matriz identidad n × n con unos en la diagonal y ceros fuera de ella. Notar que, por la 
donde los errores aleatorios εi son independientes y están distribuidos normalmente con media 
0 y varianza constante σ2. Estas n ecuaciones li eales pueden reescribirse en forma matricial 
como
 55
11.8 APÉNDICE: FORMULACIÓN MATRICIAL DE LA REGRESIÓN LINEAL 
MÚLTIPLE 
Segú  la estructura de la regresión lineal múltiple presentada en el Apartado 11.2, cada 
una de las n observaciones independientes (yi, xi1, …, xip) presenta la relación lineal 
yi = β0 + β1xi1 + … + βpxip + ε i, i = 1, …, n, 
donde los errores aleatorios εi son independientes y están distribuidos normalmente con 
media 0 y varianza constante σ 2. Estas n ecuaciones lineales pueden reescribirse en 
f rm m tricial como 














+


























=














n
p
npn
p
n xx
xx
y
y
ε
ε
β
β
β





1
1
0
1
1111
1
1
 
o, abreviadamente, 
y = Xβ + ε, 
donde y es un vector n × 1 con los valores de la variable respuesta, X es una matriz de 
dimensión n × (p + 1) cuyas columnas son los valores de cada variable explicativa más 
una prim ra columna de unos, β es un v ctor (p + 1) × 1 con lo  coeficientes de 
regr sión y ε es un vector n × 1 con los errores aleatorios. El vector d  rrores aleatorios 
ε sigue entonces una distribución normal multivariante con media 0 y matriz iagonal 
de var a zas-covarianzas σ 2I, 
ε ~ N(0, σ 2I), 
donde 0 denota el vector nulo n × 1 con todos sus componentes iguales a cero e I denota 
la matriz identidad n × n con unos en la diagonal y ceros fuera de ella. Notar que, por la 
o, abreviadamente,
 55
11.8 APÉNDICE: FORMULACIÓN MATRICIAL DE LA REGRESIÓN LINEAL 
MÚLTIPLE 
Según la estructura de la regresión lineal múltiple presentada en el Apartado 11.2, cada 
una de l s n obse vaciones independientes (yi, xi1, …, xip) prese ta la relación lineal 
yi = β0 + β1xi1 + … + βpxip + ε i, i = 1, …, n, 
donde los errores aleatorios εi son independientes y están distribuidos normalmente con 
media 0 y varianz  constante σ 2. Estas n ecuaciones line le  pueden r escribirse en 
form matricial com  
















+




























=
















n
p
npn
p
n xx
xx
y
y
ε
ε
β
β
β





1
1
0
1
1111
1
1
 
o, abreviadamente, 
y = Xβ  + ε, 
donde y es un vector n × 1 con los valores de la variable respuesta, X es una matriz de 
imensión n × (p + 1) cuyas column s son los valores de cada variabl  explicativa más 
una primera columna de unos, β es un vector (p + 1) × 1 con los coefici ntes de 
regresión y ε es un vector  × 1 con los err res aleatorios. El vect r de rrores aleatorios 
ε sigue entonces una distribución normal multivariante con media 0 y matriz diagonal 
de varianzas- ovari nzas σ 2I, 
ε ~ N(0, σ 2I), 
donde 0 denota el vector nulo n × 1 con todos sus componentes iguales a cero e I denota 
la matriz identidad n × n con u os en la diagonal y ceros fuera de ella. Notar que, por la 
donde y es un vector n × 1 con los valores de la variable respuesta, X es una matriz de dimensión 
n × (p + 1) cuyas columnas son l s valores de cada variable explicativa más una pri e a columna 
de unos, β es un vector (p + 1) × 1 con los coeficientes de regresión y ε es un vector n × 1 con 
los error  aleatorios. El vector de errores aleatorios ε sigue ntonces una distribución normal 
multivariante con media 0 y matriz diagonal de varianzas-covarianzas σ2I,
 55
11.8 APÉNDICE: FORMULACIÓN MATRICIAL DE LA REGRESIÓN LINEAL 
MÚLTIPLE 
Según la estructura de la regresión lineal múltiple presentada en el Apartado 11.2, cada 
una de las n observaciones independientes (yi, xi1, …, xip) presenta la relación lineal 
yi = β0 + β1xi1 + … + βpxip + ε i, i = 1, …, n, 
donde los errores aleatorios εi son independientes y están distribuidos normalmente con 
media 0 y varianza constante σ 2. Estas n ecuaciones lineales pueden reescribirse en 
forma matricial como 
















+




























=
















n
p
npn
p
n xx
xx
y
y
ε
ε
β
β
β





1
1
0
1
1111
1
1
 
o, breviadamente, 
y = Xβ  + ε, 
donde y es un vector n × 1 con los valores de la variable respuesta, X es una matriz de 
dimensión n × (p + 1) cuyas columnas son los valores de cada variable explicativa más 
una primera columna de unos, β es un vector (p + 1) × 1 con los coeficientes de 
regresión y ε es un vector n × 1 con los errores aleatorios. El vector de errores aleatorios 
ε sigue enton es una di tribución normal multivariante con medi  0 y matriz diagona  
e varianzas-covarianzas σ 2I, 
ε ~ N(0, σ  2I), 
donde 0 denota el vector nulo n × 1 con todos sus componentes iguales a cero e I denota 
la matriz identidad n × n con unos en la diagonal y ceros fuera de ella. Notar que, por la 
donde 0 de ota l vector nulo n × 1 co  todos sus comp n ntes iguales a c ro I denota la 
matriz identidad n × n con u os e la diagonal y ceros fuera d  ella. Notar que, por la asunción 
de ho oge eidad de la varia za, todas la  varianz s d  la diagonal de la matr z de varianzas-
cov rianzas son igu les a σ 2 y que, por trat rse de observaciones indep ndientes, las cova ianzas 
de fuera de la diagonal son iguales a cero.
A partir de esta formulación matricial del modelo de regresión lineal múltiple, resulta sencillo 
calcular las estimaciones de los coeficientes de regresión por el método de mínimos cuadrados. 
En el Apartado 11.3.1, se comprobó que estas estimaciones vienen dadas por la solución al 
sistema de p + 1 ecuaciones lineales
 56
asunción de homogeneidad de la varianza, todas las varianzas de la diagonal de la 
matriz de varianzas-covarianzas son iguales a σ 2 y que, por tratarse de observaciones 
independientes, las covarianzas de fuera de la diagonal son iguales a cero. 
A partir de esta formulación matricial del modelo de regresión lineal múltiple, resulta 
sencillo calcular las estimaciones de los coeficientes de regresión por el método de 
mínimos cuadrados. En el Ap rtado 11.3.1, s  comprobó que est s estimaciones vienen 
dadas por la solución al sistema de p + 1 ecuaciones lineales 
,...
,...
,...
1
2
1
11
1
0
1
1
1
1
2
11
1
10
1
1
11
110
1



====
====
===
+++=
+++=
+++=
n
i
ipp
n
i
ipi
n
i
ip
n
i
iip
n
i
ipip
n
i
i
n
i
i
n
i
ii
n
i
ipp
n
i
i
n
i
i
xbxxbxbyx
xxbxbxbyx
xbxbnby

 
que puede representarse matricialmente como 








































=




























p
npn
p
npp
n
n
npp
n
b
b
b
xx
xx
xx
xx
y
y
xx
xx













1
0
1
111
1
111
1
1
111
1
1
1111
 
o, abreviadamente, 
X′y = X′Xb, 
donde X′ es la matriz traspuesta de X y b es el vector (p + 1) × 1 con las estimaciones 
de los coeficientes. Como el modelo de regresión lineal múltiple asume que las 
variables explicativas son linealmente independientes y que el número de observaciones 
n es superior o igual al número de coeficientes p + 1, la matriz X tiene rango p + 1 y, en 
consecuencia, la matriz cuadrada X′X es no singular. Multiplicando ambos lados de la 
229
Apéndice: formulación matricial de la regresión lineal múltiple
Pastor-Barriuso R.
que puede representarse matricialmente como
 56
asunción de homogeneidad de la varianza, todas las varianzas de la diagonal de la 
matriz de varianzas-covarianzas son iguales a σ 2 y que, por tratarse de observaciones 
independientes, las covarianzas de fuera de la diagonal son iguales a cero. 
A partir de esta formulación matricial del modelo de regresión lineal múltiple, resulta 
sencillo calcular las estimaciones de los coeficientes de regresión por el método de 
mínimos cuadrados. En el Apartado 11.3.1, se comprobó que estas estimaciones vienen 
dadas por la solución al sistema de p + 1 ecuaciones lineales 
,...
,...
,...
1
2
1
11
1
0
1
1
1
1
2
11
1
10
1
1
11
110
1



====
====
===
+++=
+++=
+++=
n
i
ipp
n
i
ipi
n
i
ip
n
i
iip
n
i
ipip
n
i
i
n
i
i
n
i
ii
n
i
ipp
n
i
i
n
i
i
xbxxbxbyx
xxbxbxbyx
xbxbnby

 
que puede representarse matricialmente como 








































=




























p
npn
p
npp
n
n
npp
n
b
b
b
xx
xx
xx
xx
y
y
xx
xx













1
0
1
111
1
111
1
1
111
1
1
1111
 
o, abreviadamente, 
X′y = X′Xb, 
donde X′ es la matriz traspuesta de X y b es el vector (p + 1) × 1 con las estimaciones 
de los coeficientes. Como el modelo de regresión lineal múltiple asume que las 
variables explicativas son linealmente independientes y que el número de observaciones 
n es superior o igual al número de coeficientes p + 1, la matriz X tiene rango p + 1 y, en 
consecuencia, la matriz cuadrada X′X es no singular. Multiplicando ambos lados de la 
o, abreviadamente,
 56
asunción de homogeneidad de la varianza, todas las varianzas de la diagonal de la 
matriz de varianzas-covarianzas son iguales a σ 2 y que, por tratarse de observaciones 
independientes, las covarianzas de fuera de la diagonal son iguales a cero. 
A partir de esta formulación matricial del modelo de regresión lineal múltiple, resulta 
sencillo calcular las estimaciones de los coeficientes de regresión por el método de 
mínimos cuadrados. En el Apartado 11.3.1, se comprobó que estas estimaciones vienen 
dadas por la solución al sistema de p + 1 ecuaciones lineales 
,...
,...
,...
1
2
1
11
1
0
1
1
1
1
2
11
1
10
1
1
11
110
1



====
====
===
+++=
+++=
+++=
n
i
ipp
n
i
ipi
n
i
ip
n
i
iip
n
i
ipip
n
i
i
n
i
i
n
i
ii
n
i
ipp
n
i
i
n
i
i
xbxxbxbyx
xxbxbxbyx
xbxbnby

 
que puede representarse matricialmente como 






























=



















p
npn
p
npp
n
n
npp
n
b
b
b
xx
xx
xx
xx
y
y
xx
xx










1
0
1
111
1
111
1
1
111
1
1
1111
 
o, abreviadamente, 
X′y = X′Xb, 
donde X′ es la matriz traspuesta de X y b es el vector (p + 1) × 1 con las estimaciones 
de los coeficientes. Como el modelo de regresión lineal múltiple asume que las 
variables explicativas son linealmente independientes y que el número de observaciones 
n es superior o igual al número de coeficientes p + 1, la matriz X tiene rango p + 1 y, en 
consecuencia, la matriz cuadrada X′X es no singular. Multiplicando ambos lados de la 
donde X' es la matriz traspuesta de X y b es el vector (p + 1) × 1 con las estimaciones de los 
coeficientes. Como el modelo de regresión lineal múltiple asume que las variables explicativas 
son linealmente independientes y que el número de observaciones n es superior o igual al 
núm r  de coeficientes p + 1, la matriz X tiene rango p + 1 y, en consecuencia, la matriz 
cuadrada X'X es no singular. Multiplicando ambos lados de la ecuación anterior por la matriz 
inversa (X'X)–1, se obtienen las esti aciones de los coeficient s de regresión
 57
ecuación anterior por la matriz inversa (X′X)-1, se obtienen las estimaciones de los 
coeficientes de regresión 
b = (X′X) 1X′y. 
D  esta formula matrici l se desprende que los estimadores de mínim s cuadra os b 
son combinaciones lineales de los valores de la variable respuesta y, cuyos coeficientes 
dependen de los valores de las variables explicativas X que se asumen constantes. En 
consecuencia, si el tamaño muestral n es suficientemente grande, puede aplicarse una 
generalización del teorema central del límite para demostrar que los estimadores b 
siguen aproximadamente una distribución normal multivariante con media 
 E(b) = E{(X′X)-1X′y} = E{(X′X)-1X′(Xβ + ε)} 
  = β + (X′X)-1X′E(ε) = β 
y matriz de varianzas-covarianzas 
 var(b) = E{(b - β)(b - β)′} = E{(X′X)-1X′εε′X(X′X)-1} 
  = (X′X)-1X′E(εε′)X(X′X)-1 = (X′X)-1X′(σ 2I)X(X′X)-1 
  = σ 2(X′X)-1, 
ya que E(ε) = 0 y E(εε′) = var(ε) = σ 2I por las asunciones de linealidad, aditividad, 
homogeneidad de la varianza e independencia. Cada estimador de mínimos cuadrados bj 
es entonces un estimador insesgado de su correspondiente coeficiente de regresión βj y 
sigue aproximadamente la distribución normal 
bj →~  N(βj, σ 2vjj), j = 0, 1, …, p, 
donde vjj es el elemento (j, j)-ésimo de la matriz (X′X)-1. Además, los estimadores bj y 
bk de distintos coeficientes de regresión están correlacionados con una covarianza 
cov(bj, bk) = σ 2vjk. Cabe destacar que estas distribuciones muestrales no requieren de la 
−
De esta formula matricial se desprende que los estimadores de mínimos cuadrados b son 
combina iones lineales de los valor  d  la variable respuesta y, cuy s coeficiente  penden 
de los valores de las variables explicativas X que se asumen constantes. En consecuencia, si el 
tamaño muestr l n es suficientemente grande, puede aplica se una generalización del teorema 
central del límite para demostrar que los estimadores b siguen aproximadamente una distribución 
normal multivariante c n media
 57
ecuación anterior por la matriz inversa (X′X)-1, se obtie en las estimaciones de los 
coeficientes de regresión 
b = (X′X)-1X′y. 
De esta formula matricial se desprende que los estimadores de ínimos cuadrados b 
s n combinaciones lineales de los valores de la variable respuesta y, cuyos coeficientes 
dependen de los valores de las variables explicativas X que se asumen constantes. En 
consecuencia, si el tamaño muestral  s s ficientemente gran , puede aplic rse una 
generalización del teorema central del límite para de ostrar que los estimadores b 
siguen aproximadamente una distribución n rmal multiv riante con edia 
 E(b) = E{(X′X) 1X′y} = E{(X′X) 1X′(Xβ  + ε)} 
  = β  + (X′X) 1X′E(ε) = β  
y matriz de varianzas-covarianzas 
 var(b) = E{(b - β)(b - β)′} = E{(X′ )-1X′εε′ (X′X)-1} 
  = (X′X)-1X′E(εε′)X(X′X)-1 = (X′X)-1X′(σ 2I)X(X′X)-1 
  = σ 2(X′X)-1, 
ya que E(ε) = 0 y E(εε′) = var(ε) = σ 2I por las asunciones de linealidad, aditividad, 
homogeneidad de la varianza e independencia. Cada estimador de mínimos cuadrados bj 
es entonces un estimador insesgado de su correspondiente coeficiente de regresión βj y 
sigue aproximadamente la distribución normal 
bj →~  N(βj, σ 2vjj), j = 0, 1, …, p, 
donde vjj es el elemento (j, j)-ésimo de la matriz (X′X)-1. Además, los estimadores bj y 
bk de distintos coeficientes de regresión están correlacionados con una covarianza 
cov(bj, bk) = σ 2vjk. Cabe destacar que estas distribuciones muestrales no requieren de la 
− −
−
y matriz de varianzas-covarianzas
 57
ecuación anterior por la matriz inversa (X′X)-1, se obtienen las estimaciones de los 
coeficie tes de regresión 
b = (X′X)-1X′y. 
De sta formula matricial se desprende que los estimadores de mínimos cuadrados b 
so  o bi aciones lineales de los valores de la varia le respuesta y, cuyos co ficientes 
ependen d  los valores de las variables explicativas X que se asumen constantes. En 
consecuencia, si el tamaño muestral n es suficientemente grande, puede aplicarse una 
g n ralización del teorema central del límit  para de ostrar qu  los estimadores b 
siguen aproximadamente una distribución normal multivariante con media 
 E(b) = E{(X′X)-1X′y} = E{(X′X)-1X′(Xβ  + ε)} 
   β  + (X′X)-1X′E(ε) = β  
y matriz de varianzas-cov ria zas
 var(b) = E{(b  β)(b  β)′} = E{(X′X) 1X′εε ′X(X′X) 1} 
  = (X′X) 1X′E(εε ′)X(X′X) 1 = (X′X) 1X′(σ 2 I)X(X′X) 1 
  = σ  2(X′X) 1, 
ya que E(ε) = 0 y E(εε′) = var(ε) = σ
 2I por las asunciones de linealidad, aditividad, 
homogeneidad de la varianza e independencia. Cada estimador de mínimos cua rados bj 
es entonces un estimador insesga o de su correspondiente coeficiente de regresión βj y 
sigue aproximadamente la distribución normal 
bj →~  N(βj, σ 2vjj), j = 0, 1, …, p, 
d nde vjj s el el mento (j, j)-és mo de la matriz (X′X)-1. Además, los estimadores bj y 
bk de distintos coeficientes d  regresión están correlaciona s con una covarianza 
cov(bj, bk) = σ 2vjk. Cabe destacar que estas distribuciones muestrales no requieren de la 
−−
− −
− − − −
−
ya que E(ε) = 0 y E(εε') = var(ε) = σ 2I por las asunciones de linealidad, aditividad, homogeneidad 
de la varianza e independencia. Cada estimador de mínimos cuadrados bj es entonces un 
estimador insesgado de su correspondiente coeficiente de regresión βj y sigue aproximadamente 
la distribución normal
 57
ecuación anterior por la matriz inversa (X′X)-1, se obtienen las estimaciones de los 
coeficientes d  regr sión 
b = (X′X)-1X′y. 
De esta formula matricial se desprende que los estimadores de mínimos cuadrados b 
son combinaciones lineales de los valores de la variable respuesta y, cuyos coeficientes 
dependen de los valores de las variables explicativas X que se asumen constantes. En 
cons cuencia, si el tamaño muestral n es suficientemente grande, puede aplicarse una
generaliz ción del teor  central del límit  p ra demostrar qu  los estimad res b
siguen aproximad mente un  dist bución normal multivariante con media 
 E(b) = E{(X′X)-1X′y} = E{(X′X)-1X′(Xβ  + ε)} 
  = β  + (X′X)-1X′E(ε) = β  
y matriz de varianzas-covarianza  
 var(b) = E{(b - β)(b - β)′} = E{(X′X)-1X′εε ′X(X′X)-1} 
  = (X′X)-1X′E(εε ′)X(X′X)-1 = (X′X)-1X′(σ 2 I)X(X′X)-1 
  = σ  2(X′X)-1, 
ya que E(ε) = 0 y E(εε′) = var(ε) = σ 2I por las asunciones de linealidad, aditividad, 
homogeneidad de la varianza e independencia. Cada estimador de mínimos cuadrados bj 
es entonces un estimador insesgad  de su correspon iente coeficiente de regresión βj y 
sigue aproximadamente la distribución normal 
bj →~  N(β j, σ  2vjj), j = 0, 1, …, p, 
donde vjj es el elemento (j, j)-ésimo de la matriz (X′X)-1. Además, los estimadores bj y 
bk de distintos coeficientes de regresión están correlacionados con una covarianza 
cov(bj, bk) = σ 2vjk. Cabe destacar que estas distribuciones muestrales no requieren de la 
donde vjj es l elem nto (j, j)-ésimo de la matr z (X'X)–1. Además, los estimadores bj y bk de 
distintos coeficientes d  regresión están correlacionados con una covarianza cov(bj, bk) = σ 2vjk. 
Cabe destacar que estas distr buciones muestrales no requier n de la asunción de normalidad y 
son válida  para ualquier distribución subyacente de la v riable respuesta, siempre que el 
tamaño muestral sea suficientemente gra de.
230
Regresión lineal múltiple
Pastor-Barriuso R.
Una vez estimados los coeficientes de regresión, el valor esperado de la variable respuesta Y 
dados unos valores fijos x0 = (1, x01, …, x0p)' de las variables explicativas puede estimarse como
 58
asunción de normalidad y son válidas para cualquier distribución subyacente de la 
variable respuesta, siempre que el tamaño muestral sea suficientemente grande. 
Una vez estimados los coeficientes de regresión, el valor esperado de la variable 
respuesta Y dados unos valores fijos x0 = (1, x01, …, x0p)′ de las variables explicativas 
puede stimarse como 
0yˆ  = b0 + b1x01 + … + bpx0p = 0x′ b 
que, al ser una combinación lineal de b, también se distribuye de forma 
aproximadamente normal en muestras suficientemente grandes, con media 
E( 0yˆ ) = 0x′ E(b) = 0x′ β 
y varianza 
var( 0yˆ ) = 0x′ E{(b - β)(b - β)′}x0 = σ 2 0x′ (X′X)-1x0 = σ 2h0; 
es decir, 
0yˆ  →
~  N( 0x′ β, σ 2h0), 
donde el leverage h0 = 0x′ (X′X)
-1x0 es una medida estandarizada de la desviación de x0 
respecto de las medias muestrales de las variables explicativas. El valor predicho 0yˆ  es 
un estimador insesgado no sólo de la esperanza o media poblacional de la variable 
respuesta 0x′ β, sino también de la respuesta individual de un nuevo sujeto y0 = 0x′ β + ε0 
ya que 
E( 0yˆ  - y0) = E{ 0x′ (b - β) - ε0} = 0x′ E(b - β) - E(ε0) = 0. 
Como el valor predicho 0yˆ  no depende de la nueva observación y0, la varianza de esta 
diferencia es 
que, al ser una combinación lineal de b, también se distribuye de forma aproximadamente 
normal en muestras suf cienteme te grandes, con media
E( 0yˆ ) = 0x E(b) = 0x  
var( 0yˆ ) = 0x E{(b )(b )}x0 =  2 0x (XX) 1x0 =  2h0; – – –
y varianza
E( 0yˆ )     0  
var( 0yˆ ) = 0x E{(b )(   2 0 ( X) 1x0 =  2h0;  – –
es decir,
 58
asunción de normalidad y son válidas para cualquier distribución subyacente de la 
variable respuesta, siempre que el tamaño muestral sea suficientemente grande. 
Una vez estimados los coeficientes de regresión, el valor esperado de la variable 
respuesta Y dados unos valores fijos x0 = (1, x01, …, x0p)′ de las variables explicativas 
puede estimarse como 
0yˆ  = b0 + b1x01  + … + bpx0p = 0x′ b 
que, al ser una combinación lineal de b, también se distribuye de forma 
aproximadamente normal en muestras suficientemente grandes, con media 
E( 0yˆ ) = 0x′ E(b) = 0x′ β  
y varianza 
var( 0yˆ ) = 0x′ E{(b - β)(b - β)′}x0 = σ 2 0x′ (X′X)-1x0 = σ 2h0; 
es decir, 
0yˆ  →~  N( 0x′ β , σ  2h0), 
donde el leverage h0 = 0x′ (X′X)
-1x0 es una medida estandarizada de la desviación de x0 
respecto de las medias muestrales de las variables explicativas. El valor predicho 0yˆ  es 
un estimador insesgado no sólo de la esperanza o media poblacional de la variable 
respuesta 0x′ β, sino también de la respuesta individual de un nuevo sujeto y0 = 0x′ β + ε0 
ya que 
E( 0yˆ  - y0) = E{ 0x′ (b - β) - ε0} = 0x′ E(b - β) - E(ε0) = 0. 
Como el valor predicho 0yˆ  no depende de la nueva observación y0, la varianza de esta 
diferencia es 
donde el leverage h0 = 
230
Regresión lineal múltiple
Pastor-Barriuso R.
Una vez estimados los coeficientes de regresión, el valor esperado de la variable respuesta Y
dados unos valores fijos x0 = (1, x01, …, x0p)' de las variables explicativas puede estimarse como
0yˆ  = b0 + b1x01 + … + bpx0p  0x′ b 
que, al ser una combinación lineal de b, también se distribuye de forma aproximadamente 
normal en muestras suficientemente grandes, on media
E( 0yˆ ) = 0xc E(b) = 0xc E 
y varianza
var( 0yˆ ) = 0xc E{(b E)(b E)c}x0 = V 2 0xc (XcX) 1x0 = V 2h0; –– –
es decir,
0yˆ  →~  N( 0x′ β , σ  2h0), 
donde el leverage h0 = x0'(X'X)–1x0 es una medida estandarizada de la desviación de x0 respecto 
de las medias muestrales de las variables explicativas. El valor predicho ŷ0 es un estimador 
insesgado no sólo de la esperanza o media poblacional de la variable respuesta x'0β, sino también 
de la respuesta individual de un nuevo sujeto y0 = x'0β + ε0 ya que
E( 0yˆ y0) = E{ 0x′ (b  β)  ε0} = 0x′ E(b  β)  E(ε0) = 0. − − − − −
Como el valor predicho ŷ0 no depende de la nueva observación y0, la varianza de esta diferencia es
var( 0yˆ   y0) = 0x′ E{(b  β)(b  β)′}x0 + var(ε0) 
 = σ  2{1 + 0x′ (X′X) 1x0} = σ  2(1 + h0). 
− − −
−
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción de 
normalidad), la diferencia ŷ0 – y0 también seguirá la distribución normal
0yˆ   y0 ~ N(0, σ  2(1 + h0)).−
En el caso particular de una única variable explicativa, todos los resultados anteriores se 
reducen a los obtenidos en regresión lineal simple (véase Apartados 10.3.1, 10.3.3 y 10.3.4). 
Así, se tiene que
,)(
1 2
2
1
2
1
0
»
»
¼
º
«
«
¬
ª
−
−
−
=
»
¼
º
«
¬
ª
»
¼
º
«
¬
ª
=»
¼
º
«
¬
ª
=
¦¦¦
¦¦¦¦
¦
¦
¦
¦¦
¦ −
iiii
iiiii
i
ii
i
ii
i
yxyxn
yxxyx
xxn
yx
y
xx
xn
b
b
b
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la pendiente es
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−
¦
¦
=
=
1
2
1
)(
))((
 (X'X)–1x0 es una medida estandarizada de la desviación de x0 respecto 
de las medias muestrales de las variables explicativas. El valor predicho ŷ0 es un estimador 
insesgado no sólo de la esperanza o media poblacional de la variable respuesta 
230
Regresión lineal múltiple
Pastor-Barriuso R.
Una vez estimados los coeficientes de regresión, el valor esperado de la variable respuesta Y
dados unos valores fijos x0 = (1, x01, …, x0p)' de las variables explicativas puede estimarse como
0yˆ  = b0 + b1x01 + … + bpx0p = 0x′ b 
que, al er una combinación lineal de b, también se distribuye de forma aproximadamente 
normal en muestras suficientemente grandes, con media
E( 0yˆ ) = 0xc E(b) = 0xc E 
y varianza
var( 0yˆ ) = 0xc E{(b E)(b E)c}x0 = V 2 0xc (XcX) 1x0 = V 2h0; –– –
es decir,
0yˆ  →~  N( 0x′ β , σ  2h0), 
donde el leverage h0 = '(X'X)–1x0 es u a medida estandarizada de la desviación de x0 respecto 
de las medias muestrales  l s variables explicativas. El valor predicho ŷ0 es un estimador 
insesgado no sólo de la esperanza o media poblacional de la variable respuesta x'0β, sino también 
de la respuesta individual de un nuevo sujeto y0 = x'0β + ε0 ya que
E( 0yˆ y0) = E{ 0x′ (b  β)  ε0} = 0x′ E(b  β)  E(ε0) = 0. − − − − −
Como el valor predicho ŷ0 no depende de la nueva observación y0, la varianza de esta diferencia es
var( 0yˆ   y0) = 0x′ E{(b  β)(b  β)′}x0 + v r(ε0) 
 = σ  2{1 + 0x′ (X′X) 1x0} = σ  2(1 + h0). 
− − −
−
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción de 
normalidad), la diferencia ŷ0 – y0 también seguirá la distribución normal
0yˆ   y0 ~ N(0, σ  2(1 + h0)).−
En el caso particular de una única variable explicativa, todos los resultados anteriores se 
reducen a los obtenidos en regresión lineal simple (véase Apartados 10.3.1, 10.3.3 y 10.3.4). 
Así, se tiene que
,)(
1 2
2
1
2
1
0
»
»
¼
º
«
«
¬
ª
−
−
−
=
»
¼
º
«
¬
ª
»
¼
º
«
¬
ª
=»
¼
º
«
¬
ª
=
¦¦¦
¦¦¦¦
¦
¦
¦
¦¦
¦ −
iiii
iiiii
i
ii
i
ii
i
yxyxn
yxxyx
xxn
yx
y
xx
xn
b
b
b
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la pendiente es
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−
¦
¦
=
=
1
2
1
)(
))((
 β, sino también 
de la respuesta individual de un nuevo sujeto y0 = 
230
Regresión lineal múltiple
Pastor-Barriuso R.
Una vez estimados los coeficientes de regres ón, el valor esperado de la vari ble respuesta Y
dados unos valores fijos x0 = (1, x01, …, x0p)' de las variables explicativas puede estimarse como
0yˆ  = b0 + b1x01 + … + bpx0p  0x′ b 
que, al ser una combinación lineal de b, ambién s  distribuye de forma aproximadamente 
normal en muestras suficientemente grandes, con media
E( 0yˆ ) = 0xc E(b) = 0xc E 
y varianza
var( 0yˆ ) = 0xc E{(b E)(b E)c}x0 = V 2 0xc (XcX) 1x0 = V 2h0; –– –
es decir,
0yˆ  →~  N( 0x′ β , σ  2h0), 
donde el leverage h 0'(X'X)–1x0 es una e ida estandarizada de a d svia ión de x0 especto 
de las medias muestrales de las variables explicativas. El valor predicho ŷ0 es un estimador 
insesgado no sólo de la esperanza o media poblacional  la variable respuesta '0β, sino también 
de la respuesta individual de un nuevo sujeto y0 = x'0β + ε0 ya que
E( 0yˆ y0) = E{ 0x′ (b  β)  ε0} = 0x′ E(b  β)  E(ε0) = 0. − − − −
Como el valor predicho ŷ0 no depende de la nueva observación y0, la varianza de esta diferencia es
var( 0yˆ   y0) = 0x′ E{(b  β)(b β)′}x0 + var(ε0) 
 = σ  2{1 + 0x′ (X′X) 1x0} = σ  2(1 + h0). 
− − −
−
Si además el error ε0 de la nueva observación se distribuye de forma normal (asun  de 
normalidad), la dif r ncia ŷ0 – y0 ambién seguirá la distribución normal
0yˆ   y0 ~ N(0, σ  2(1 + h0)).−
En el caso particular de una ú ica variable explicativa, todos los resultados anteriores se 
reducen a los obtenidos en regresión lineal simple (véase Apartados 10.3.1, 10.3.3 y 10.3.4). 
Así, se tiene que
,)(
1 2
2
1
2
1
0
»
»
¼
º
«
«
¬
ª
−
−
−
=
»
¼
º
«
¬
ª
»
º
«
¬
ª
=»
¼
º
«
¬
ª
=
¦¦¦
¦¦¦
¦
¦
¦
¦
¦ −
iiii
iiiii
i
ii
i
ii
i
yxyxn
yxxyx
xxn
yx
y
xx
xn
b
b
b
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la pendiente es
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−
¦
¦
=
=
1
2
1
)(
))((
 β + ε0 ya que
 58
asunción de normalidad y son válidas para cualquier distribución subyacente de la 
variable respuesta, siempre que el tamaño muestral sea suficientemente grande. 
Una vez estimados los coeficientes de regresión, el valor esperado de la variable 
respuesta Y dados unos valores fijos x0 = (1, x01, …, x0p)′ de las variables explicativas 
puede estimarse como 
0yˆ  = b0 + b1x01  + … + bpx0p = 0x′ b 
que, al ser una combinación lineal de b, también se distribuye de forma 
aproximadamente normal en muestras suficientemente grandes, con media 
E( 0yˆ ) = 0x′ E(b) = 0x′ β  
y varianza 
var( 0yˆ ) = 0x′ E{(b - β)(b - β)′}x0 = σ 2 0x′ (X′X)-1x0 = σ 2h0; 
es decir, 
0yˆ  →~  N( 0x′ β , σ  2h0), 
donde el leverage h0 = 0x′ (X′X)
-1x0 es una medida estandarizada de la desviación de x0 
respecto de las medias muestrales de las variables explicativas. El valor predicho 0yˆ  es 
un estimador insesgado no sólo de la esperanza o media poblacional de la variable 
respuesta 0x′ β, sino también de la respuesta individual de un nuevo sujeto y0 = 0x′ β + ε0 
ya que 
E( 0yˆ y0) = E{ 0x′ (b  β)  ε0} = 0x′ E(b  β)  E(ε0) = 0. 
Como el valor predi ho 0yˆ  no depende de la nueva observación y0, la varianza de esta 
diferencia es 
− − − − −
Como el valor predicho ŷ0 no depende de la nueva observación y0, la varianza de esta diferencia es
 59
 var( 0yˆ   y0  = 0x′ E{(b  β)(b β)′}x0 + v r(ε0) 
  = σ  2{1 + 0x′ (X′X) 1x0} = σ  2(1 + h0). 
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción 
d  normalida ), l  dif r ncia 0yˆ  - y0 también seguirá la distribución normal 
0yˆ  - y0 ~ N(0, σ
 2(1 + h0)). 
 En el caso particular de una única variable explicativa, tod s los resultados 
anteriores se reducen a los obtenidos en regresión lineal simple (véase Apartados 
10.3.1, 10.3.3 y 10.3.4). Así, se tiene que 
,
)(
1 2
2
1
2
1
0




−
−
−
=












=



=






 −
iiii
iiiii
i
ii
i
ii
i
yxyxn
yxxyx
xxn
yx
y
xx
xn
b
b
b
 
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la 
pendiente es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
 
y la estimación de la constante es 
b0 = xby
xx
yyxxxxxy
n
i
i
n
i
ii
n
i
i
1
1
2
11
2
)(
))(()(
−=
−
−−−−


=
== . 
Además, la matriz de varianzas-covarianzas de estos estimadores es 
− − −
−
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción de 
normalidad), la diferencia ŷ0 – y0 también seguirá la distribución normal
 59
 v r( 0yˆ  - y0) = 0x′ E{(b - β)(b - β)′}x0 + r(ε0)
  = σ  2{1 + 0x′ (X′X)-1x0} = σ  2(1 + h0). 
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción 
de normalidad), la diferencia 0yˆ  - y0 también seguirá la distribución normal 
0yˆ   y0 ~ N(0, σ  2(1 + h0)). 
 En el caso particular de una ún  vari ble explicativa, t dos los resul ados 
nteriores se r ducen a lo  obtenidos en regresión lineal simple (véase Apartados 
10.3.1, 10.3.3 y 10.3.4). Así, se tiene que 
,
)(
1 2
2
1
2
1
0




−
−
−
=












=



=






 −
iiii
iiiii
i
ii
i
ii
i
yxyxn
yxxyx
xxn
yx
y
xx
xn
b
b
b
 
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la 
pendiente es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
 
y la estimación de la constante es 
b0 = xby
xx
yyxxxxxy
n
i
i
n
i
ii
n
i
i
1
1
2
11
2
)(
))(()(
−=
−
−−−−


=
== . 
Además, la matriz de varianzas-covarianzas de estos estimadores es 
−
En el caso particular de un  única varia le explicativ , todos los resultados anteriores se 
reducen a los obtenidos en regresión lineal simple (véase Apartados 10.3.1, 10.3.3 y 10.3.4). 
Así, se tiene que
 59
 var( 0yˆ  - y0) = 0x′ E{(b - β)(b - β)′}x0 + var(ε0) 
  = σ  2{1 + 0x′ (X′X)-1x0} = σ  2(1 + h0). 
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción 
de normalidad), la diferencia 0yˆ  - y0 también seguirá la distribución normal 
0yˆ  - y0 ~ N(0, σ  2(1 + h0)). 
 En el caso pa ticular de una única variable explicativa, todos los resultados 
anteriores se reducen a los obtenidos en regresión lineal simple (véase Apartados 
10.3.1, 10.3.3 y 10.3.4). Así, se tiene que 
,
)(
1 2
2
1
2
1
0




−
−
−
=












=



=






 −
iiii
iiiii
i
ii
i
ii
i
yxyxn
yxxyx
xxn
yx
y
xx
xn
b
b
b
 
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la 
pendiente es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
 
y la estimación de la constante es 
b0 = xb
xx
yyxxxxxy
n
i
i
n
i
ii
n
i
i
1
1
2
11
2
)(
))(()(
−=
−
−−−−


=
== . 
Además, l  matriz de varianzas-covarianzas de estos estimadores es 
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la pendiente es
 59
 var( 0yˆ  - y0) = 0x′ E{(b - β)(b - β)′}x0 + var(ε0) 
  = σ  2{1 + 0x′ (X′X)-1x0} = σ  2(1 + h0). 
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción 
de normalidad), la diferencia 0yˆ  - y0 también seguirá la distribución normal 
0yˆ  - y0 ~ (0, σ  2(1 + h0)). 
 n el caso particular de una única variable explicativa, todos l s resultados 
anteriores se reducen a los obtenidos en regresión lineal simple (véase Apartados 
10.3.1, 10.3.3 y 10.3.4). Así, se tiene que 
,
)(
1 2
2
1
2
1
0




−
−
−
=












=



=






 −
iiii
iiiii
i
ii
i
ii
i
yxyx
yxxyx
xxn
yx
y
xx
xn
b
b
b
 
don e t dos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la 
pendiente es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
 
y la estimación de la constante es 
b0 = xby
xx
yyxxxxxy
n
i
i
n
i
ii
n
i
i
1
1
2
11
2
)(
))(()(
−=
−
−−−−


=
== . 
Además, la matriz de varianzas-covarianzas de estos estimadores es 
231
Apéndice: formulación matricial de la regresión lineal múltiple
Pastor-Barriuso R.
y la estimación de la constante es
 59
 var( 0yˆ  - y0) = 0x′ E{(b - β)(b - β)′}x0 + var(ε0) 
  = σ  2{1 + 0x′ (X′X)-1x0} = σ  2(1 + h0). 
Si además el error ε0 de la nueva observación se distribuye de forma normal (asunción 
de normalidad), la diferencia 0yˆ  - y0 también seguirá la distribución normal 
0yˆ  - y0 ~ N(0, σ  2(1 + h0)). 
 En el caso particular de una única variable explicativa, todos los resultados 
anteriores se reducen a los obtenidos en regresión lineal simple (véase Apartados 
10.3.1, 10.3.3 y 10.3.4). Así, se tiene que 
,
)(
1 2
2
1
2
1
0




−
−
−
=












=



=






 −
iiii
iiiii
i
ii
i
ii
i
yxyxn
yxxyx
xxn
yx
y
xx
xn
b
b
b
 
donde todos los sumatorios son sobre i = 1, …, n. Por tanto, la estimación de la 
pendiente es 
b1 = 
x
y
n
i
i
n
i
ii
s
s
r
xx
yyxx
=
−
−−


=
=
1
2
1
)(
))((
 
y la estimación de la constante es 
b0 = xby
xx
yyxxxxxy
n
i
i
n
i
ii
n
i
i
1
1
2
11
2
)(
))(()(
−=
−
−−−−


=
== . 
Además, la matriz de varianzas-covarianzas de estos estimadores es 
Además, la matriz de varianzas-covarianzas de estos estimadores es
 60
,
)(
)var(),cov(
),cov()var(
)var(
2
2
2
1
2
2
110
100




−
−
−
=






=



=




 −
nx
xx
xxn
xx
xn
bbb
bbb
i
ii
i
ii
i
σ
σb
 
de donde se sigue que 
var(b0) = 



−
+=
−
+−


=
=
2
2
2
1
2
2
1
2
2
)1(
1
)(
)(
x
n
i
i
n
i
i
sn
x
nxxn
xnxx
σσ , 
var(b1) = 2
2
1
2
2
)1()( x
n
i
i
snxx −
=
−
=
σσ , 
cov(b0, b1) = 2
2
1
2
2
)1()( x
n
i
i
sn
x
xx
x
−
−
=
−
−

=
σσ . 
Por último, para un valor fijo x0 de la variable explicativa, la varianza del valor predicho 
0yˆ  = b0 + b1x0 es 
,
)1(
)(1
)(
)()(
1
]1[
)(
1
]1[)ˆvar(
2
2
02
1
2
2
0
1
2
2
0
2
02
2
0
1
20
2
0




−
−
+=
−
−+−
=








−
−
−
=









=







=
=
−
x
n
i
i
n
i
i
i
ii
i
ii
i
sn
xx
nxxn
xxnxx
xnx
xx
x
xxn
xxx
xn
xy
σσ
σ
σ
 
donde se observa que el leverage del valor x0 
h0 = 2
2
0
)1(
)(1
xsn
xx
n −
−
+  
de donde se sigue que
 60
,
)(
)var(),cov(
),cov()var(
)var(
2
2
2
1
2
2
110
100




−
−
−
=






=



=




 −
nx
xx
xxn
xx
xn
bbb
bbb
i
ii
i
ii
i
σ
σb
 
de donde se sigue que 
var(b0) = 



−
+=
−
+−


=
=
2
2
2
1
2
2
1
2
2
)1(
1
)(
)(
x
n
i
i
n
i
i
sn
x
nxxn
xnxx
σσ , 
var(b1) = 2
2
1
2
2
)1()( x
n
i
i
snxx −
=
−
=
σσ , 
cov(b0, b1) = 2
2
1
2
2
)1()( x
n
i
i
sn
x
xx
x
−
−
=
−
−

=
σσ . 
Por último, para un valor fijo x0 de la variable explicativa, la varianza del valor predicho 
0yˆ  = b0 + b1x0 es 
,
)1(
)(1
)(
)()(
1
]1[
)(
1
]1[)ˆvar(
2
2
02
1
2
2
0
1
2
2
0
2
02
2
0
1
20
2
0




−
−
+=
−
−+−
=








−
−
−
=









=







=
=
−
x
n
i
i
n
i
i
i
ii
i
ii
i
sn
xx
nxxn
xxnxx
xnx
xx
x
xxn
xxx
xn
xy
σσ
σ
σ
 
donde se observa que el leverage del valor x0 
h0 = 2
2
0
)1(
)(1
xsn
xx
n −
−
+  
Por último, para un valor fijo x0 de la variable explicativa, la varianza del valor predicho 
ŷ0 = b0 + b1x0 es
 60
,
)(
)var(),cov(
),cov()var(
)var(
2
2
2
1
2
2
110
100




−
−
−
=






=



=




 −
nx
xx
xxn
xx
xn
bbb
bbb
i
ii
i
ii
i
σ
σb
 
de donde se sigue que 
var(b0) = 



−
+=
−
+−


=
=
2
2
2
1
2
2
1
2
2
)1(
1
)(
)(
x
n
i
i
n
i
i
sn
x
nxxn
xnxx
σσ , 
var(b1) = 2
2
1
2
2
)1()( x
n
i
i
snx −
=
−
=
σσ , 
cov(b0, b1) = 2
1
2
2
)1()( x
n
i
i
sn
x
xx
x
−
−
=
−
−

=
σσ . 
Por último, para un valor fijo x0 de la variable explicativa, la varianza del valor predicho 
0yˆ  = b0 + b1x0 es 
,
)1(
)(1
)(
)()(
1
]1[
)(
1
]1[)ˆvar(
2
2
02
1
2
2
0
1
2
2
0
2
02
2
0
1
20
2
0




−
−
+=
−
−+−
=








−
−
−
=









=







=
=
−
x
n
i
i
n
i
i
i
ii
i
ii
i
sn
xx
nxxn
xxnxx
xnx
xx
x
xxn
xxx
xn
xy
σσ
σ
σ
 
donde se observa que el leverage del valor x0 
h0 = 2
2
0
)1(
)(1
xsn
xx
n −
−
+  
donde se observa que el leverage del valor x0
 60
,
)(
)var(),cov(
),cov()var(
)var(
2
2
2
1
2
2
110
100




−
−
−
=






=



=




 −
nx
xx
xxn
xx
xn
bbb
bbb
i
ii
i
ii
i
σ
σb
 
de donde se s gue que 
var(b0) = 



−
+=
−
+−


=
=
2
2
2
1
2
2
1
2
2
)1(
1
)(
)(
x
n
i
i
n
i
i
sn
x
nxxn
xnxx
σσ , 
var(b1) = 2
2
1
2
2
)1()( x
n
i
i
snxx −
=
−
=
σσ , 
cov(b0, b1) = 2
2
1
2
2
)1()( x
n
i
i
sn
x
xx
x
−
−
=
−
−

=
σσ . 
Por último, para un valor fijo x0 de la variable explicativa, la varianza del valor predicho 
0yˆ  = b0 + b1x0 es 
,
)1(
)(1
)(
)()(
1
]1[
)(
1
]1[)ˆvar(
2
2
02
1
2
2
0
1
2
2
0
2
02
2
0
1
20
2
0




−
−
+=
−
+−
=








−
−
−
=









=







=
=
−
x
n
i
i
n
i
i
i
ii
i
ii
i
sn
xx
nxxn
xxnxx
xnx
xx
x
xxn
xxx
xn
xy
σσ
σ
σ
 
donde se observa que el leverage del valor x0 
h0 = 2
2
0
)1(
)(1
xsn
xx
n −
−
+  
es una medida estandarizada de su desviación respecto de la media muestral 
 
 5
1.2 MEDIDAS DE TENDENCIA CENTRAL 
Las medidas de tendencia central informan acerca de cuál es el valor más representativo 
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 
alrededor de qué valor se agrupan los datos observados. Las medidas de tendencia 
central de la muestra sirven tanto para resumir los resultados observados como para 
realizar inferencias acerca de los parámetros poblacionales correspondientes. A 
continuación se describen los principales estimadores de la tendencia central de una 
variable. 
1.2.1 Media aritmética 
La m dia aritmética, denotada por x , se define como la suma de cada uno de los 
valores muestrales dividida por el número de observaciones realizadas. Si denotamos 
por n el tamaño muestral y por xi el valor observado para el sujeto i-ésimo, i = 1, ..., n, 
la media vendría dada por   
n
xxx
x
n
x n
n
i
i
+++
== 
=
...1 21
1
. 
La media es la medida de tendencia central más utilizada y de más fácil 
interpretación. Corresponde al “centro de gravedad” de los datos de la muestra. Su 
principal limitación es que está muy influenciada por los valores extremos y, en este 
caso, puede no ser un fiel reflejo de la tendencia central de la distribución. 
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 
utilizarán los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 
estudio “European Study on Antioxidants, Myocardial Infarction and Cancer of 
the Breast“ (EURAMIC), un estudio multicéntrico de casos y controles realizado 
entre 1991 y 1992 en ocho países Europeos e Israel para evaluar el efecto de los 
 de la variable 
explicativa.
232
Regresión lineal múltiple
Pastor-Barriuso R.
11.9 REFERENCIAS
 1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth 
Edition. Oxford: Blackwell Science, 2002.
 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. 
Englewood Cliffs, NJ: Prentice Hall, 1977.
 3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury 
Press, 2002.
 4. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley 
& Sons, 1998.
 5. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and 
Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008.
 6. McCullagh P, Nelder JA. Generalized Linear Models, Second Edition. London: Chapman 
& Hall, 1989.
 7. Peña D. Estadística: Modelos y Métodos, Volumen 2, Modelos Lineales y Series 
Temporales. Madrid: Alianza Editorial, 1987.
 8. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 
2006.
 9. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: 
Lippincott Williams & Wilkins, 2008.
 10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley 
& Sons, 2003.
 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State 
University Press, 1989.
 12. Stuart A, Ord JK, Arnold S. Kendall’s Advanced Theory of Statistics, Volume 2A, Classical 
Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
 13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons, 
2005.
233
APÉNDICE
TABLAS ESTADÍSTICAS
Pastor-Barriuso R.
234
Tablas estadísticas
Pastor-Barriuso R.
Tabla 1 Probabilidades 
 2
T bla 1 Probabilidad  P(X = k) = knkk
n
−
−


 )1( ππ  para la distribución binomial X con 
parámetros n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.* 
 π 
 
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 
 
2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500 
 1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000 
 2 0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500 
            
3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250 
 1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750 
 2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750 
 3 0,0001 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250 
            
4 0 0,8145 0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625 
 1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500 
 2 0,0135 0,0486 0,0975 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750 
 3 0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500 
 4 0,0000 0,0001 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625 
            
5 0 0,7738 0,5905 0,4437 0,3277 0,2373 0,1681 0,1160 0,0778 0,0503 0,0313 
 1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563 
 2 0,0214 0,0729 0,1382 0,2048 0,2637 0,3087 0,3364 0,3456 0,3369 0,3125 
 3 0,0011 0,0081 0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125 
 4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0284 0,0488 0,0768 0,1128 0,1563 
 5 0,0000 0,0000 0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313 
            
6 0 0,7351 0,5314 0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156 
 1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938 
 2 0,0305 0,0984 0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344 
 3 0,0021 0,0146 0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125 
 4 0,0001 0,0012 0,0055 0,0154 0,0330 0,0595 0,0951 0,1382 0,1861 0,2344 
 5 0,0000 0,0001 0,0004 0,0015 0,0044 0,0102 0,0205 0,0369 0,0609 0,0938 
 6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156 
            
7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078 
 1 0,2573 0,3720 0,3960 0,3670 0,3115 0,2471 0,1848 0,1306 0,0872 0,0547 
 2 0,0406 0,1240 0,2097 0,2753 0,3115 0,3177 0,2985 0,2613 0,2140 0,1641 
 3 0,0036 0,0230 0,0617 0,1147 0,1730 0,2269 0,2679 0,2903 0,2918 0,2734 
 4 0,0002 0,0026 0,0109 0,0287 0,0577 0,0972 0,1442 0,1935 0,2388 0,2734 
 5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641 
 6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547 
 7 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078 
            
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039 
 1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313 
 2 0,0515 0,1488 0,2376 0,2936 0,3115 0,2965 0,2587 0,2090 0,1569 0,1094 
 3 0,0054 0,0331 0,0839 0,1468 0,2076 0,2541 0,2786 0,2787 0,2568 0,2188 
 4 0,0004 0,0046 0,0185 0,0459 0,0865 0,1361 0,1875 0,2322 0,2627 0,2734 
 5 0,0000 0,0004 0,0026 0,0092 0,0231 0,0467 0,0808 0,1239 0,1719 0,2188 
 6 0,0000 0,0000 0,0002 0,0011 0,0038 0,0100 0,0217 0,0413 0,0703 0,1094 
 7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0012 0,0033 0,0079 0,0164 0,0313 
 a la distribución binomial X con 
parámetros n = 2, 3, ..., 20 y π = 0,05, 0,10, ..., 0,50.*
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
2 0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750
2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
3 0,0001 ,0010 ,0034 0,008 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
4 0 0,8145 0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
2 0,0135 0,0486 0,0975 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750
3 0,0005 ,0036 0115 ,025 0,046 0,0756 0,1115 0,1 36 0,2005 0,2500
4 0,0000 0,0001 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625
5 0 0,7738 0,5905 0,4437 0,3277 0,2373 0,1681 0,1160 0,0778 0,0503 0,0313
1 0,2036 0,3281 0,3915 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563
2 0,0214 ,0729 ,1382 0,2048 0,2637 0,3087 0,3364 ,3456 ,3369 0,3125
3 0,0011 0,0081 0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0284 0,0488 0,0768 0,1128 0,1563
5 0,0000 0,0000 0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313
6 0 0,7351 0,5314 0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
2 0,0305 0,0984 0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
3 0,0021 0,0146 0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125
4 0,0001 0,0012 0,0055 0,0154 0,0330 0,0595 0,0951 0,1382 0,1861 0,2344
5 0,0000 0,0001 0,0004 0,0015 0,0044 0,0102 0,0205 0,0369 0,0609 0,0938
6 0,0 ,0000 00 0, 01 0,0002 0,0007 0,0 18 ,0041 ,0083 0,0156
7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
1 0,2573 0,3720 0,3960 0,3670 0,3115 0,2471 0,1848 0,1306 0,0872 0,0547
2 0,0406 ,1240 2097 0,2753 0,31 0,3177 0,29 5 0,2613 ,2140 0,1641
3 0,0 36 ,0230 ,0617 0,1147 0,1730 0,2269 0,2679 0,2903 0,2918 0,2734
4 0,0002 0,0026 0,0109 0,0287 0,0577 0,0972 0,1442 0,1935 0,2388 0,2734
5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
7 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078
8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
2 0,0515 0,1488 0,2376 0,2936 0,3115 0,2965 0,2587 0,2090 0,1569 0,1094
3 0,0054 0,0331 0,0839 0,1468 0,2076 0,2541 0,2786 0,2787 0,2568 0,2188
4 0,0004 0,0046 0,0185 0,0459 0,0865 0,1361 0,1875 0,2322 0,2627 0,2734
0,0 ,0004 26 0, 0,02 0,0467 0,0808 0,1239 0,1719 0,2188
6 0,0000 0,0000 0,0002 0,0011 0,0038 0,0100 0,0217 0,0413 0,0703 0,1094
7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0012 0,0033 0,0079 0,0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039
235
Tablas estadísticas
Pastor-Barriuso R.
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
9 0 0,6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020
1 0,2985 0,3874 0,3679 0,3020 0,2253 0,1556 0,1004 0,0605 0,0339 0,0176
2 0,0629 0,1722 0,2597 0,3020 0,3003 0,2668 0,2162 0,1612 0,1110 0,0703
3 0,0077 0,0446 0,1069 0,1762 0,2336 0,2668 0,2716 0,2508 0,2119 0,1641
4 0,0006 0,0074 0,0283 0,0661 0,1168 0,1715 0,2194 0,2508 0,2600 0,2461
5 0,0000 0,0008 0,0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0,2461
6 0,0000 0,0001 0,0006 0,0028 0,0087 0,0210 0,0424 0,0743 0,1160 0,1641
7 0,0000 0,0000 0,0000 0,0003 0,0012 0,0039 0,0098 0,0212 0,0407 0,0703
8 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0035 0,0083 0,0176
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020
10 0 0,5987 0,3487 0,1969 0,1074 0,0563 0,0282 0,0135 0,0060 0,0025 0,0010
1 0,3151 0,3874 0,3474 0,2684 0,1877 0,1211 0,0725 0,0403 0,0207 0,0098
2 0,0746 0,1937 0,2759 0,3020 0,2816 0,2335 0,1757 0,1209 0,0763 0,0439
3 0,0105 0,0574 0,1298 0,2013 0,2503 0,2668 0,2522 0,2150 0,1665 0,1172
4 0,0010 0,0112 0,0401 0,0881 0,1460 0,2001 0,2377 0,2508 0,2384 0,2051
5 0,0001 0,0015 0,0085 0,0264 0,0584 0,1029 0,1536 0,2007 0,2340 0,2461
6 0,0000 0,0001 0,0012 0,0055 0,0162 0,0368 0,0689 0,1115 0,1596 0,2051
7 0,0000 0,0000 0,0001 0,0008 0,0031 0,0090 0,0212 0,0425 0,0746 0,1172
8 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0043 0,0106 0,0229 0,0439
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016 0,0042 0,0098
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
11 0 0,5688 0,3138 0,1673 0,0859 0,0422 0,0198 0,0088 0,0036 0,0014 0,0005
1 0,3293 0,3835 0,3248 0,2362 0,1549 0,0932 0,0518 0,0266 0,0125 0,0054
2 0,0867 0,2131 0,2866 0,2953 0,2581 0,1998 0,1395 0,0887 0,0513 0,0269
3 0,0137 0,0710 0,1517 0,2215 0,2581 0,2568 0,2254 0,1774 0,1259 0,0806
4 0,0014 0,0158 0,0536 0,1107 0,1721 0,2201 0,2428 0,2365 0,2060 0,1611
5 0,0001 0,0025 0,0132 0,0388 0,0803 0,1321 0,1830 0,2207 0,2360 0,2256
6 0,0000 0,0003 0,0023 0,0097 0,0268 0,0566 0,0985 0,1471 0,1931 0,2256
7 0,0000 0,0000 0,0003 0,0017 0,0064 0,0173 0,0379 0,0701 0,1128 0,1611
8 0,0000 0,0000 0,0000 0,0002 0,0011 0,0037 0,0102 0,0234 0,0462 0,0806
9 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018 0,0052 0,0126 0,0269
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005
12 0 0,5404 0,2824 0,1422 0,0687 0,0317 0,0138 0,0057 0,0022 0,0008 0,0002
1 0,3413 0,3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 0,0029
2 0,0988 0,2301 0,2924 0,2835 0,2323 0,1678 0,1088 0,0639 0,0339 0,0161
3 0,0173 0,0852 0,1720 0,2362 0,2581 0,2397 0,1954 0,1419 0,0923 0,0537
4 0,0021 0,0213 0,0683 0,1329 0,1936 0,2311 0,2367 0,2128 0,1700 0,1208
5 0,0002 0,0038 0,0193 0,0532 0,1032 0,1585 0,2039 0,2270 0,2225 0,1934
6 0,0000 0,0005 0,0040 0,0155 0,0401 0,0792 0,1281 0,1766 0,2124 0,2256
7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0,1489 0,1934
8 0,0000 0,0000 0,0001 0,0005 0,0024 0,0078 0,0199 0,0420 0,0762 0,1208
9 0,0000 0,0000 0,0000 0,0001 0,0004 0,0015 0,0048 0,0125 0,0277 0,0537
10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0025 0,0068 0,0161
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
Tabla 1 (Continuación)
236
Tablas estadísticas
Pastor-Barriuso R.
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
13 0 0,5133 0,2542 0,1209 0,0550 0,0238 0,0097 0,0037 0,0013 0,0004 0,0001
1 0,3512 0,3672 0,2774 0,1787 0,1029 0,0540 0,0259 0,0113 0,0045 0,0016
2 0,1109 0,2448 0,2937 0,2680 0,2059 0,1388 0,0836 0,0453 0,0220 0,0095
3 0,0214 0,0997 0,1900 0,2457 0,2517 0,2181 0,1651 0,1107 0,0660 0,0349
4 0,0028 0,0277 0,0838 0,1535 0,2097 0,2337 0,2222 0,1845 0,1350 0,0873
5 0,0003 0,0055 0,0266 0,0691 0,1258 0,1803 0,2154 0,2214 0,1989 0,1571
6 0,0000 0,0008 0,0063 0,0230 0,0559 0,1030 0,1546 0,1968 0,2169 0,2095
7 0,0000 0,0001 0,0011 0,0058 0,0186 0,0442 0,0833 0,1312 0,1775 0,2095
8 0,0000 0,0000 0,0001 0,0011 0,0047 0,0142 0,0336 0,0656 0,1089 0,1571
9 0,0000 0,0000 0,0000 0,0001 0,0009 0,0034 0,0101 0,0243 0,0495 0,0873
10 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0022 0,0065 0,0162 0,0349
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0012 0,0036 0,0095
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
14 0 0,4877 0,2288 0,1028 0,0440 0,0178 0,0068 0,0024 0,0008 0,0002 0,0001
1 0,3593 0,3559 0,2539 0,1539 0,0832 0,0407 0,0181 0,0073 0,0027 0,0009
2 0,1229 0,2570 0,2912 0,2501 0,1802 0,1134 0,0634 0,0317 0,0141 0,0056
3 0,0259 0,1142 0,2056 0,2501 0,2402 0,1943 0,1366 0,0845 0,0462 0,0222
4 0,0037 0,0349 0,0998 0,1720 0,2202 0,2290 0,2022 0,1549 0,1040 0,0611
5 0,0004 0,0078 0,0352 0,0860 0,1468 0,1963 0,2178 0,2066 0,1701 0,1222
6 0,0000 0,0013 0,0093 0,0322 0,0734 0,1262 0,1759 0,2066 0,2088 0,1833
7 0,0000 0,0002 0,0019 0,0092 0,0280 0,0618 0,1082 0,1574 0,1952 0,2095
8 0,0000 0,0000 0,0003 0,0020 0,0082 0,0232 0,0510 0,0918 0,1398 0,1833
9 0,0000 0,0000 0,0000 0,0003 0,0018 0,0066 0,0183 0,0408 0,0762 0,1222
10 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0049 0,0136 0,0312 0,0611
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0033 0,0093 0,0222
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0056
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0009
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
15 0 0,4633 0,2059 0,0874 0,0352 0,0134 0,0047 0,0016 0,0005 0,0001 0,0000
1 0,3658 0,3432 0,2312 0,1319 0,0668 0,0305 0,0126 0,0047 0,0016 0,0005
2 0,1348 0,2669 0,2856 0,2309 0,1559 0,0916 0,0476 0,0219 0,0090 0,0032
3 0,0307 0,1285 0,2184 0,2501 0,2252 0,1700 0,1110 0,0634 0,0318 0,0139
4 0,0049 0,0428 0,1156 0,1876 0,2252 0,2186 0,1792 0,1268 0,0780 0,0417
5 0,0006 0,0105 0,0449 0,1032 0,1651 0,2061 0,2123 0,1859 0,1404 0,0916
6 0,0000 0,0019 0,0132 0,0430 0,0917 0,1472 0,1906 0,2066 0,1914 0,1527
7 0,0000 0,0003 0,0030 0,0138 0,0393 0,0811 0,1319 0,1771 0,2013 0,1964
8 0,0000 0,0000 0,0005 0,0035 0,0131 0,0348 0,0710 0,1181 0,1647 0,1964
9 0,0000 0,0000 0,0001 0,0007 0,0034 0,0116 0,0298 0,0612 0,1048 0,1527
10 0,0000 0,0000 0,0000 0,0001 0,0007 0,0030 0,0096 0,0245 0,0515 0,0916
11 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0074 0,0191 0,0417
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052 0,0139
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0032
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
16 0 0,4401 0,1853 0,0743 0,0281 0,0100 0,0033 0,0010 0,0003 0,0001 0,0000
1 0,3706 0,3294 0,2097 0,1126 0,0535 0,0228 0,0087 0,0030 0,0009 0,0002
2 0,1463 0,2745 0,2775 0,2111 0,1336 0,0732 0,0353 0,0150 0,0056 0,0018
3 0,0359 0,1423 0,2285 0,2463 0,2079 0,1465 0,0888 0,0468 0,0215 0,0085
Tabla 1 (Continuación)
237
Tablas estadísticas
Pastor-Barriuso R.
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
4 0,0061 0,0514 0,1311 0,2001 0,2252 0,2040 0,1553 0,1014 0,0572 0,0278
5 0,0008 0,0137 0,0555 0,1201 0,1802 0,2099 0,2008 0,1623 0,1123 0,0667
6 0,0001 0,0028 0,0180 0,0550 0,1101 0,1649 0,1982 0,1983 0,1684 0,1222
7 0,0000 0,0004 0,0045 0,0197 0,0524 0,1010 0,1524 0,1889 0,1969 0,1746
8 0,0000 0,0001 0,0009 0,0055 0,0197 0,0487 0,0923 0,1417 0,1812 0,1964
9 0,0000 0,0000 0,0001 0,0012 0,0058 0,0185 0,0442 0,0840 0,1318 0,1746
10 0,0000 0,0000 0,0000 0,0002 0,0014 0,0056 0,0167 0,0392 0,0755 0,1222
11 0,0000 0,0000 0,0000 0,0000 0,0002 0,0013 0,0049 0,0142 0,0337 0,0667
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0040 0,0115 0,0278
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0029 0,0085
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
17 0 0,4181 0,1668 0,0631 0,0225 0,0075 0,0023 0,0007 0,0002 0,0000 0,0000
1 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001
2 0,1575 0,2800 0,2673 0,1914 0,1136 0,0581 0,0260 0,0102 0,0035 0,0010
3 0,0415 0,1556 0,2359 0,2393 0,1893 0,1245 0,0701 0,0341 0,0144 0,0052
4 0,0076 0,0605 0,1457 0,2093 0,2209 0,1868 0,1320 0,0796 0,0411 0,0182
5 0,0010 0,0175 0,0668 0,1361 0,1914 0,2081 0,1849 0,1379 0,0875 0,0472
6 0,0001 0,0039 0,0236 0,0680 0,1276 0,1784 0,1991 0,1839 0,1432 0,0944
7 0,0000 0,0007 0,0065 0,0267 0,0668 0,1201 0,1685 0,1927 0,1841 0,1484
8 0,0000 0,0001 0,0014 0,0084 0,0279 0,0644 0,1134 0,1606 0,1883 0,1855
9 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855
10 0,0000 0,0000 0,0000 0,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484
11 0,0000 0,0000 0,0000 0,0001 0,0005 0,0026 0,0090 0,0242 0,0525 0,0944
12 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0081 0,0215 0,0472
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0021 0,0068 0,0182
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
18 0 0,3972 0,1501 0,0536 0,0180 0,0056 0,0016 0,0004 0,0001 0,0000 0,0000
1 0,3763 0,3002 0,1704 0,0811 0,0338 0,0126 0,0042 0,0012 0,0003 0,0001
2 0,1683 0,2835 0,2556 0,1723 0,0958 0,0458 0,0190 0,0069 0,0022 0,0006
3 0,0473 0,1680 0,2406 0,2297 0,1704 0,1046 0,0547 0,0246 0,0095 0,0031
4 0,0093 0,0700 0,1592 0,2153 0,2130 0,1681 0,1104 0,0614 0,0291 0,0117
5 0,0014 0,0218 0,0787 0,1507 0,1988 0,2017 0,1664 0,1146 0,0666 0,0327
6 0,0002 0,0052 0,0301 0,0816 0,1436 0,1873 0,1941 0,1655 0,1181 0,0708
7 0,0000 0,0010 0,0091 0,0350 0,0820 0,1376 0,1792 0,1892 0,1657 0,1214
8 0,0000 0,0002 0,0022 0,0120 0,0376 0,0811 0,1327 0,1734 0,1864 0,1669
9 0,0000 0,0000 0,0004 0,0033 0,0139 0,0386 0,0794 0,1284 0,1694 0,1855
10 0,0000 0,0000 0,0001 0,0008 0,0042 0,0149 0,0385 0,0771 0,1248 0,1669
11 0,0000 0,0000 0,0000 0,0001 0,0010 0,0046 0,0151 0,0374 0,0742 0,1214
12 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0047 0,0145 0,0354 0,0708
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0045 0,0134 0,0327
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0039 0,0117
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0031
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006
Tabla 1 (Continuación)
238
Tablas estadísticas
Pastor-Barriuso R.
π
n k 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0 0,3774 0,1351 0,0456 0,0144 0,0042 0,0011 0,0003 0,0001 0,0000 0,0000
1 0,3774 0,2852 0,1529 0,0685 0,0268 0,0093 0,0029 0,0008 0,0002 0,0000
2 0,1787 0,2852 0,2428 0,1540 0,0803 0,0358 0,0138 0,0046 0,0013 0,0003
3 0,0533 0,1796 0,2428 0,2182 0,1517 0,0869 0,0422 0,0175 0,0062 0,0018
4 0,0112 0,0798 0,1714 0,2182 0,2023 0,1491 0,0909 0,0467 0,0203 0,0074
5 0,0018 0,0266 0,0907 0,1636 0,2023 0,1916 0,1468 0,0933 0,0497 0,0222
6 0,0002 0,0069 0,0374 0,0955 0,1574 0,1916 0,1844 0,1451 0,0949 0,0518
7 0,0000 0,0014 0,0122 0,0443 0,0974 0,1525 0,1844 0,1797 0,1443 0,0961
8 0,0000 0,0002 0,0032 0,0166 0,0487 0,0981 0,1489 0,1797 0,1771 0,1442
9 0,0000 0,0000 0,0007 0,0051 0,0198 0,0514 0,0980 0,1464 0,1771 0,1762
10 0,0000 0,0000 0,0001 0,0013 0,0066 0,0220 0,0528 0,0976 0,1449 0,1762
11 0,0000 0,0000 0,0000 0,0003 0,0018 0,0077 0,0233 0,0532 0,0970 0,1442
12 0,0000 0,0000 0,0000 0,0000 0,0004 0,0022 0,0083 0,0237 0,0529 0,0961
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0024 0,0085 0,0233 0,0518
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0082 0,0222
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0022 0,0074
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0 0,3585 0,1216 0,0388 0,0115 0,0032 0,0008 0,0002 0,0000 0,0000 0,0000
1 0,3774 0,2702 0,1368 0,0576 0,0211 0,0068 0,0020 0,0005 0,0001 0,0000
2 0,1887 0,2852 0,2293 0,1369 0,0669 0,0278 0,0100 0,0031 0,0008 0,0002
3 0,0596 0,1901 0,2428 0,2054 0,1339 0,0716 0,0323 0,0123 0,0040 0,0011
4 0,0133 0,0898 0,1821 0,2182 0,1897 0,1304 0,0738 0,0350 0,0139 0,0046
5 0,0022 0,0319 0,1028 0,1746 0,2023 0,1789 0,1272 0,0746 0,0365 0,0148
6 0,0003 0,0089 0,0454 0,1091 0,1686 0,1916 0,1712 0,1244 0,0746 0,0370
7 0,0000 0,0020 0,0160 0,0545 0,1124 0,1643 0,1844 0,1659 0,1221 0,0739
8 0,0000 0,0004 0,0046 0,0222 0,0609 0,1144 0,1614 0,1797 0,1623 0,1201
9 0,0000 0,0001 0,0011 0,0074 0,0271 0,0654 0,1158 0,1597 0,1771 0,1602
10 0,0000 0,0000 0,0002 0,0020 0,0099 0,0308 0,0686 0,1171 0,1593 0,1762
11 0,0000 0,0000 0,0000 0,0005 0,0030 0,0120 0,0336 0,0710 0,1185 0,1602
12 0,0000 0,0000 0,0000 0,0001 0,0008 0,0039 0,0136 0,0355 0,0727 0,1201
13 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0045 0,0146 0,0366 0,0739
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0049 0,0150 0,0370
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0148
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0046
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
* Para π = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n – k) donde Y es la distribución binomial con parámetros n y 
1 – π.
Tabla 1 (Continuación)
239
Tablas estadísticas
Pastor-Barriuso R.
Tabla 2 Probabilidades 
 7
Tabla 2 Probabilidades P(X = k) = !k
e kμμ−  para la distribución de Poisson X con 
parámetro μ de 0,5 a 20 en intervalos de 0,5. 
 μ 
 
 k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 
 
 0 0,6065 0,3679 0,2231 0,1353 0,0821 0,0498 0,0302 0,0183 0,0111 0,0067 
 1 0,3033 0,3679 0,3347 0,2707 0,2052 0,1494 0,1057 0,0733 0,0500 0,0337 
 2 0,0758 0,1839 0,2510 0,2707 0,2565 0,2240 0,1850 0,1465 0,1125 0,0842 
 3 0,0126 0,0613 0,1255 0,1804 0,2138 0,2240 0,2158 0,1954 0,1687 0,1404 
 4 0,0016 0,0153 0,0471 0,0902 0,1336 0,1680 0,1888 0,1954 0,1898 0,1755 
 5 0,0002 0,0031 0,0141 0,0361 0,0668 0,1008 0,1322 0,1563 0,1708 0,1755 
 6 0,0000 0,0005 0,0035 0,0120 0,0278 0,0504 0,0771 0,1042 0,1281 0,1462 
 7 0,0000 0,0001 0,0008 0,0034 0,0099 0,0216 0,0385 0,0595 0,0824 0,1044 
 8 0,0000 0,0000 0,0001 0,0009 0,0031 0,0081 0,0169 0,0298 0,0463 0,0653 
 9 0,0000 0,0000 0,0000 0,0002 0,0009 0,0027 0,0066 0,0132 0,0232 0,0363 
 10 0,0000 0,0000 0,0000 0,0000 0,0002 0,0008 0,0023 0,0053 0,0104 0,0181 
 11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0019 0,0043 0,0082 
 12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0034 
 13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0013 
 14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0005 
 15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 
 16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 
 
 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 
 
 0 0,0041 0,0025 0,0015 0,0009 0,0006 0,0003 0,0002 0,0001 0,0001 0,0000 
 1 0,0225 0,0149 0,0098 0,0064 0,0041 0,0027 0,0017 0,0011 0,0007 0,0005 
 2 0,0618 0,0446 0,0318 0,0223 0,0156 0,0107 0,0074 0,0050 0,0034 0,0023 
 3 0,1133 0,0892 0,0688 0,0521 0,0389 0,0286 0,0208 0,0150 0,0107 0,0076 
 4 0,1558 0,1339 0,1118 0,0912 0,0729 0,0573 0,0443 0,0337 0,0254 0,0189 
 5 0,1714 0,1606 0,1454 0,1277 0,1094 0,0916 0,0752 0,0607 0,0483 0,0378 
 6 0,1571 0,1606 0,1575 0,1490 0,1367 0,1221 0,1066 0,0911 0,0764 0,0631 
 7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901 
 8 0,0849 0,1033 0,1188 0,1304 0,1373 0,1396 0,1375 0,1318 0,1232 0,1126 
 9 0,0519 0,0688 0,0858 0,1014 0,1144 0,1241 0,1299 0,1318 0,1300 0,1251 
 10 0,0285 0,0413 0,0558 0,0710 0,0858 0,0993 0,1104 0,1186 0,1235 0,1251 
 11 0,0143 0,0225 0,0330 0,0452 0,0585 0,0722 0,0853 0,0970 0,1067 0,1137 
 12 0,0065 0,0113 0,0179 0,0263 0,0366 0,0481 0,0604 0,0728 0,0844 0,0948 
 13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729 
 14 0,0011 0,0022 0,0041 0,0071 0,0113 0,0169 0,0240 0,0324 0,0419 0,0521 
 15 0,0004 0,0009 0,0018 0,0033 0,0057 0,0090 0,0136 0,0194 0,0265 0,0347 
 16 0,0001 0,0003 0,0007 0,0014 0,0026 0,0045 0,0072 0,0109 0,0157 0,0217 
 17 0,0000 0,0001 0,0003 0,0006 0,0012 0,0021 0,0036 0,0058 0,0088 0,0128 
 18 0,0000 0,0000 0,0001 0,0002 0,0005 0,0009 0,0017 0,0029 0,0046 0,0071 
 19 0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0008 0,0014 0,0023 0,0037 
 20 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0006 0,0011 0,0019 
 21 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0003 0,0005 0,0009 
 22 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0004 
 23 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 
 24 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 
 25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 
 
 ra la distribución de Poiss  X con 
parámetro μ de 0,5 a 20 en intervalos de 0,5.
μ
k 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
0 0,6065 0,3679 0,2231 0,1353 0,0821 0,0498 0,0302 0,0183 0,0111 0,0067
1 0,3033 0,3679 0,3347 0,2707 0,2052 0,1494 0,1057 0,0733 0,0500 0,0337
2 0,0758 0,1839 0,2510 0,2707 0,2565 0,2240 0,1850 0,1465 0,1125 0,0842
3 0,0126 0,0613 0,1255 0,1804 0,2138 0,2240 0,2158 0,1954 0,1687 0,1404
4 0,0016 0,0153 0,0471 0,0902 ,1336 680 888 0,1954 0,1898 0,1755
5 0,0002 0,0031 0,0141 0,0361 0,0668 0,1008 0,1322 0,1563 0,1708 0,1755
6 0,0000 0,0005 0,0035 0,0120 0,0278 0,0504 0,0771 0,1042 0,1281 0,1462
7 0,0000 0,0001 0,0008 0,0034 0,0099 0,0216 0,0385 0,0595 0,0824 0,1044
8 0,0000 0,0000 0,0001 0,0009 0,0031 0,0081 0,0169 0,0298 0,0463 0,0653
9 0,0000 0,0000 0,0000 0,0002 0,0009 0,0027 0,0066 0,0132 0,0232 0,0363
10 0,0 0 0,0 0,0 0,00 ,0002 08 023 0, 053 0,0104 0,0181
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0019 0,0043 0,0082
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0034
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0013
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
16 0,0 0 0,0 0,0 0,000 ,0000 00 0, 0,0 0 0,0000
5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0
0 0,0041 0,0025 0,0015 0,0009 0,0006 0,0003 0,0002 0,0001 0,0001 0,0000
1 0,0225 0,0149 0,0098 0,0064 0,0041 0,0027 0,0017 0,0011 0,0007 0,0005
2 0,0618 0,0446 0,0318 0,0223 0,0156 0,0107 0,0074 0,0050 0,0034 0,0023
3 0,1133 0,0892 0,0688 0,0521 , 389 , 286 , 208 0, 1 0,0107 0,0076
4 0,1558 0,133 0,111 0,091 , 729 , 573 , 443 0, 337 0,0254 0,0189
5 0,1714 0,1606 0,1454 0,1277 0,1094 0,0916 0,0752 0,0607 0,0483 0,0378
6 0,1571 0,1606 0,1575 0,1490 0,1367 0,1221 0,1066 0,0911 0,0764 0,0631
7 0,1234 0,1377 0,1462 0,1490 0,1465 0,1396 0,1294 0,1171 0,1037 0,0901
8 0,0849 0,1033 0,1188 0,1304 0,1373 0,1396 0,1375 0,1318 0,1232 0,1126
9 0,0519 0,068 0,0858 0,1014 , 144 , 41 , 0, 0,1 0,125
10 0,0285 0,0413 0,05 8 0,0710 , 858 93 4 0, 0,1 0,125
11 0,0143 0,0225 0,0330 0,0452 0,0585 0,0722 0,0853 0,0970 0,1067 0,1137
12 0,0065 0,0113 0,0179 0,0263 0,0366 0,0481 0,0604 0,0728 0,0844 0,0948
13 0,0028 0,0052 0,0089 0,0142 0,0211 0,0296 0,0395 0,0504 0,0617 0,0729
14 0,0011 0,0022 0,0041 0,0071 0,0113 0,0169 0,0240 0,0324 0,0419 0,0521
15 0,0004 0,0009 0,0018 0,0033 0,0057 0,0090 0,0136 0,0194 0,0265 0,0347
16 0,0 1 0,0 3 0,0 7 0,0014 ,0026 45 72 0, 109 0,0157 0,0217
17 0,0000 0,0001 0,0003 0,0006 0,0012 0,0021 0,0036 0,0058 0,0088 0,0128
18 0,0000 0,0000 0,0001 0,0002 0,0005 0,0009 0,0017 0,0029 0,0046 0,0071
19 0,0000 0,0000 0,0000 0,0001 0,0002 0,0004 0,0008 0,0014 0,0023 0,0037
20 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0006 0,0011 0,0019
21 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0003 0,0005 0,0009
2 0,0 0 0,0 0,0 0,000 ,0000 00 1 0, 1 0,0 2 0,0004
23 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
24 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
240
Tablas estadísticas
Pastor-Barriuso R.
μ
k 10,5 11,0 11,5 12,0 12,5 13,0 13,5 14,0 14,5 15,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0003 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0015 0,0010 0,0007 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000
3 0,0053 0,0037 0,0026 0,0018 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002
4 0,0139 0,0102 0,0074 0,0053 0,0038 0,0027 0,0019 0,0013 0,0009 0,0006
5 0,0293 0,0224 0,0170 0,0127 0,0095 0,0070 0,0051 0,0037 0,0027 0,0019
6 0,0513 0,0411 0,0325 0,0255 0,0197 0,0152 0,0115 0,0087 0,0065 0,0048
7 0,0769 0,0646 0,0535 0,0437 0,0353 0,0281 0,0222 0,0174 0,0135 0,0104
8 0,1009 0,0888 0,0769 0,0655 0,0551 0,0457 0,0375 0,0304 0,0244 0,0194
9 0,1177 0,1085 0,0982 0,0874 0,0765 0,0661 0,0563 0,0473 0,0394 0,0324
10 0,1236 0,1194 0,1129 0,1048 0,0956 0,0859 0,0760 0,0663 0,0571 0,0486
11 0,1180 0,1194 0,1181 0,1144 0,1087 0,1015 0,0932 0,0844 0,0753 0,0663
12 0,1032 0,1094 0,1131 0,1144 0,1132 0,1099 0,1049 0,0984 0,0910 0,0829
13 0,0834 0,0926 0,1001 0,1056 0,1089 0,1099 0,1089 0,1060 0,1014 0,0956
14 0,0625 0,0728 0,0822 0,0905 0,0972 0,1021 0,1050 0,1060 0,1051 0,1024
15 0,0438 0,0534 0,0630 0,0724 0,0810 0,0885 0,0945 0,0989 0,1016 0,1024
16 0,0287 0,0367 0,0453 0,0543 0,0633 0,0719 0,0798 0,0866 0,0920 0,0960
17 0,0177 0,0237 0,0306 0,0383 0,0465 0,0550 0,0633 0,0713 0,0785 0,0847
18 0,0104 0,0145 0,0196 0,0255 0,0323 0,0397 0,0475 0,0554 0,0632 0,0706
19 0,0057 0,0084 0,0119 0,0161 0,0213 0,0272 0,0337 0,0409 0,0483 0,0557
20 0,0030 0,0046 0,0068 0,0097 0,0133 0,0177 0,0228 0,0286 0,0350 0,0418
21 0,0015 0,0024 0,0037 0,0055 0,0079 0,0109 0,0146 0,0191 0,0242 0,0299
22 0,0007 0,0012 0,0020 0,0030 0,0045 0,0065 0,0090 0,0121 0,0159 0,0204
23 0,0003 0,0006 0,0010 0,0016 0,0024 0,0037 0,0053 0,0074 0,0100 0,0133
24 0,0001 0,0003 0,0005 0,0008 0,0013 0,0020 0,0030 0,0043 0,0061 0,0083
25 0,0001 0,0001 0,0002 0,0004 0,0006 0,0010 0,0016 0,0024 0,0035 0,0050
26 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 0,0008 0,0013 0,0020 0,0029
27 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0004 0,0007 0,0011 0,0016
28 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0009
29 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
30 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002
31 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
32 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
33 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
1 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
2 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
3 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
4 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000
5 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001
6 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002
7 0,0079 0,0060 0,0045 0,0034 0,0025 0,0019 0,0014 0,0010 0,0007 0,0005
8 0,0153 0,0120 0,0093 0,0072 0,0055 0,0042 0,0031 0,0024 0,0018 0,0013
9 0,0264 0,0213 0,0171 0,0135 0,0107 0,0083 0,0065 0,0050 0,0038 0,0029
10 0,0409 0,0341 0,0281 0,0230 0,0186 0,0150 0,0120 0,0095 0,0074 0,0058
11 0,0577 0,0496 0,0422 0,0355 0,0297 0,0245 0,0201 0,0164 0,0132 0,0106
12 0,0745 0,0661 0,0580 0,0504 0,0432 0,0368 0,0310 0,0259 0,0214 0,0176
Tabla 2 (Continuación)
241
Tablas estadísticas
Pastor-Barriuso R.
μ
k 15,5 16,0 16,5 17,0 17,5 18,0 18,5 19,0 19,5 20,0
13 0,0888 0,0814 0,0736 0,0658 0,0582 0,0509 0,0441 0,0378 0,0322 0,0271
14 0,0983 0,0930 0,0868 0,0800 0,0728 0,0655 0,0583 0,0514 0,0448 0,0387
15 0,1016 0,0992 0,0955 0,0906 0,0849 0,0786 0,0719 0,0650 0,0582 0,0516
16 0,0984 0,0992 0,0985 0,0963 0,0929 0,0884 0,0831 0,0772 0,0710 0,0646
17 0,0897 0,0934 0,0956 0,0963 0,0956 0,0936 0,0904 0,0863 0,0814 0,0760
18 0,0773 0,0830 0,0876 0,0909 0,0929 0,0936 0,0930 0,0911 0,0882 0,0844
19 0,0630 0,0699 0,0761 0,0814 0,0856 0,0887 0,0905 0,0911 0,0905 0,0888
20 0,0489 0,0559 0,0628 0,0692 0,0749 0,0798 0,0837 0,0866 0,0883 0,0888
21 0,0361 0,0426 0,0493 0,0560 0,0624 0,0684 0,0738 0,0783 0,0820 0,0846
22 0,0254 0,0310 0,0370 0,0433 0,0496 0,0560 0,0620 0,0676 0,0727 0,0769
23 0,0171 0,0216 0,0265 0,0320 0,0378 0,0438 0,0499 0,0559 0,0616 0,0669
24 0,0111 0,0144 0,0182 0,0226 0,0275 0,0328 0,0385 0,0442 0,0500 0,0557
25 0,0069 0,0092 0,0120 0,0154 0,0193 0,0237 0,0285 0,0336 0,0390 0,0446
26 0,0041 0,0057 0,0076 0,0101 0,0130 0,0164 0,0202 0,0246 0,0293 0,0343
27 0,0023 0,0034 0,0047 0,0063 0,0084 0,0109 0,0139 0,0173 0,0211 0,0254
28 0,0013 0,0019 0,0028 0,0038 0,0053 0,0070 0,0092 0,0117 0,0147 0,0181
29 0,0007 0,0011 0,0016 0,0023 0,0032 0,0044 0,0058 0,0077 0,0099 0,0125
30 0,0004 0,0006 0,0009 0,0013 0,0019 0,0026 0,0036 0,0049 0,0064 0,0083
31 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0022 0,0030 0,0040 0,0054
32 0,0001 0,0001 0,0002 0,0004 0,0006 0,0009 0,0012 0,0018 0,0025 0,0034
33 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007 0,0010 0,0015 0,0020
34 0,0000 0,0000 0,0001 0,0001 0,0002 0,0002 0,0004 0,0006 0,0008 0,0012
35 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0005 0,0007
36 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0002 0,0003 0,0004
37 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002
38 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
39 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
40 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
Tabla 2 (Continuación)
242
Tablas estadísticas
Pastor-Barriuso R.
Tabla 3 Función de distribución normal estandarizada Φ(z) = P(Z ≤ z) para valores z 
de 0 a 3,99 en intervalos de 0,01.*
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
* Para valores z negativos, Φ(z) = P(Z ≤ z) = P(Z ≥ – z) = 1 – P(Z ≤ – z) = 1 – Φ(– z).
243
Tablas estadísticas
Pastor-Barriuso R.
Tabla 4 Tabla de 1000 dígitos aleatorios.
1–5 6–10 11–15 16–20 21–25 26–30 31–35 36–40 41–45 46–50
1 28068 97497 24717 94945 71584 46975 80676 37564 85194 26562
2 77798 61589 36980 18859 78471 07605 41910 98737 97310 76984
3 33911 76198 97068 89844 07886 96716 18354 66921 85958 59963
4 45302 20953 65158 70637 42792 85207 32911 93401 90088 88104
5 31759 68429 61028 00200 02062 92555 82037 69832 74185 76010
6 81262 04831 92203 25447 65875 71086 12676 42753 79223 63135
7 27510 88900 41437 07409 87437 79309 83499 50721 40752 82801
8 84888 90443 23200 86340 07731 64171 76935 02931 66982 30842
9 92551 42420 29984 87522 19370 30357 33530 58101 59423 91700
10 48644 97274 33475 71381 27387 50740 03176 96910 94049 65052
11 71226 14223 27559 00943 46943 40680 96829 09265 94401 98461
12 59902 65129 28077 80487 79160 56426 47978 08556 20753 10206
13 24973 51863 86605 16991 58423 33341 70147 06005 81833 00868
14 27005 74018 05569 70982 80438 76901 80061 11144 91733 07228
15 25651 65765 98249 24231 32819 26680 17613 29917 47814 92539
16 34255 68331 66861 37285 34606 68167 55636 70101 51328 57528
17 74791 18769 92325 19959 90031 27008 25857 68520 41469 45100
18 63485 89564 62107 80055 08094 85412 33589 71900 05892 63260
19 99762 44503 91645 15352 25957 73662 71146 26161 98418 10195
20 85157 99008 25927 31118 65466 48706 20302 26133 04751 34701
244
Tablas estadísticas
Pastor-Barriuso R.
Tabla 5 Percentiles de la distribución t de Student para distintos grados de libertad.
Grados de 
libertad
Percentil
0,75 0,80 0,85 0,90 0,95 0,975 0,99 0,995 0,9995
1 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657 636,619
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 31,599
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 12,924
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 6,869
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 5,959
7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 5,408
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 4,781
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437
12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 4,221
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,140
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 4,015
17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,965
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,922
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,850
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,819
22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,768
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,725
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,674
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,646
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 3,551
60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 3,460
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 3,373
∞ 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 3,291
245
Tablas estadísticas
Pastor-Barriuso R.
Tabla 6 Percentiles de la distribución chi-cuadrado para distintos grados de libertad d.
Percentil
d 0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,99 0,995
1 0,000 0,0002 0,001 0,004 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,63 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,81 9,35 11,34 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,73 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,57 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,07 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,26 7,01 8,23 9,39 10,86 13,68 17,34 21,60 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,93 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
35 17,19 18,51 20,57 22,47 24,80 29,05 34,34 40,22 46,06 49,80 53,20 57,34 60,27
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
45 24,31 25,90 28,37 30,61 33,35 38,29 44,34 50,98 57,51 61,66 65,41 69,96 73,17
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,43 104,21
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,88 106,63 112,33 116,32
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,57 113,15 118,14 124,12 128,30
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,14 118,50 124,34 129,56 135,81 140,17
246
Tablas estadísticas
Pastor-Barriuso R.
Tabla 7 Percentiles de la distribución F de Fisher para distintos grados de libertad del 
numerador d1 y del denominador d2.*
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
1 0,90 39,86 49,50 53,59 55,83 57,24 58,20 59,44 60,19 61,22 61,74 62,26 63,33
0,95 161,45 199,50 215,71 224,58 230,16 233,99 238,88 241,88 245,95 248,01 250,10 254,31
0,975 647,79 799,50 864,16 899,58 921,85 937,11 956,66 968,63 984,87 993,10 1001,4 1018,3
0,99 4052,2 4999,5 5403,4 5624,6 5763,7 5859,0 5981,1 6055,9 6157,3 6208,7 6260,7 6365,9
0,995 16211 20000 21615 22500 23056 23437 23925 24224 24630 24836 25044 25464
2 0,90 8,53 9,00 9,16 9,24 9,29 9,33 9,37 9,39 9,42 9,44 9,46 9,49
0,95 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50
0,975 38,51 39,00 39,17 39,25 39,30 39,33 39,37 39,40 39,43 39,45 39,46 39,50
0,99 98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,40 99,43 99,45 99,47 99,50
0,995 198,50 199,00 199,17 199,25 199,30 199,33 199,37 199,40 199,43 199,45 199,47 199,50
3 0,90 5,54 5,46 5,39 5,34 5,31 5,28 5,25 5,23 5,20 5,18 5,17 5,13
0,95 10,13 9,55 9,28 9,12 9,01 8,94 8,85 8,79 8,70 8,66 8,62 8,53
0,975 17,44 16,04 15,44 15,10 14,88 14,73 14,54 14,42 14,25 14,17 14,08 13,90
0,99 34,12 30,82 29,46 28,71 28,24 27,91 27,49 27,23 26,87 26,69 26,50 26,13
0,995 55,55 49,80 47,47 46,19 45,39 44,84 44,13 43,69 43,08 42,78 42,47 41,83
4 0,90 4,54 4,32 4,19 4,11 4,05 4,01 3,95 3,92 3,87 3,84 3,82 3,76
0,95 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,86 5,80 5,75 5,63
0,975 12,22 10,65 9,98 9,60 9,36 9,20 8,98 8,84 8,66 8,56 8,46 8,26
0,99 21,20 18,00 16,69 15,98 15,52 15,21 14,80 14,55 14,20 14,02 13,84 13,46
0,995 31,33 26,28 24,26 23,15 22,46 21,97 21,35 20,97 20,44 20,17 19,89 19,32
5 0,90 4,06 3,78 3,62 3,52 3,45 3,40 3,34 3,30 3,24 3,21 3,17 3,10
0,95 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,56 4,50 4,36
0,975 10,01 8,43 7,76 7,39 7,15 6,98 6,76 6,62 6,43 6,33 6,23 6,02
0,99 16,26 13,27 12,06 11,39 10,97 10,67 10,29 10,05 9,72 9,55 9,38 9,02
0,995 22,78 18,31 16,53 15,56 14,94 14,51 13,96 13,62 13,15 12,90 12,66 12,14
6 0,90 3,78 3,46 3,29 3,18 3,11 3,05 2,98 2,94 2,87 2,84 2,80 2,72
0,95 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,94 3,87 3,81 3,67
0,975 8,81 7,26 6,60 6,23 5,99 5,82 5,60 5,46 5,27 5,17 5,07 4,85
0,99 13,75 10,92 9,78 9,15 8,75 8,47 8,10 7,87 7,56 7,40 7,23 6,88
0,995 18,63 14,54 12,92 12,03 11,46 11,07 10,57 10,25 9,81 9,59 9,36 8,88
7 0,90 3,59 3,26 3,07 2,96 2,88 2,83 2,75 2,70 2,63 2,59 2,56 2,47
0,95 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,64 3,51 3,44 3,38 3,23
0,975 8,07 6,54 5,89 5,52 5,29 5,12 4,90 4,76 4,57 4,47 4,36 4,14
0,99 12,25 9,55 8,45 7,85 7,46 7,19 6,84 6,62 6,31 6,16 5,99 5,65
0,995 16,24 12,40 10,88 10,05 9,52 9,16 8,68 8,38 7,97 7,75 7,53 7,08
8 0,90 3,46 3,11 2,92 2,81 2,73 2,67 2,59 2,54 2,46 2,42 2,38 2,29
0,95 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,15 3,08 2,93
0,975 7,57 6,06 5,42 5,05 4,82 4,65 4,43 4,30 4,10 4,00 3,89 3,67
0,99 11,26 8,65 7,59 7,01 6,63 6,37 6,03 5,81 5,52 5,36 5,20 4,86
0,995 14,69 11,04 9,60 8,81 8,30 7,95 7,50 7,21 6,81 6,61 6,40 5,95
9 0,90 3,36 3,01 2,81 2,69 2,61 2,55 2,47 2,42 2,34 2,30 2,25 2,16
0,95 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,14 3,01 2,94 2,86 2,71
0,975 7,21 5,71 5,08 4,72 4,48 4,32 4,10 3,96 3,77 3,67 3,56 3,33
0,99 10,56 8,02 6,99 6,42 6,06 5,80 5,47 5,26 4,96 4,81 4,65 4,31
0,995 13,61 10,11 8,72 7,96 7,47 7,13 6,69 6,42 6,03 5,83 5,62 5,19
10 0,90 3,29 2,92 2,73 2,61 2,52 2,46 2,38 2,32 2,24 2,20 2,16 2,06
0,95 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,98 2,85 2,77 2,70 2,54
0,975 6,94 5,46 4,83 4,47 4,24 4,07 3,85 3,72 3,52 3,42 3,31 3,08
0,99 10,04 7,56 6,55 5,99 5,64 5,39 5,06 4,85 4,56 4,41 4,25 3,91
0,995 12,83 9,43 8,08 7,34 6,87 6,54 6,12 5,85 5,47 5,27 5,07 4,64
12 0,90 3,18 2,81 2,61 2,48 2,39 2,33 2,24 2,19 2,10 2,06 2,01 1,90
0,95 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,62 2,54 2,47 2,30
0,975 6,55 5,10 4,47 4,12 3,89 3,73 3,51 3,37 3,18 3,07 2,96 2,72
247
Tablas estadísticas
Pastor-Barriuso R.
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
0,99 9,33 6,93 5,95 5,41 5,06 4,82 4,50 4,30 4,01 3,86 3,70 3,36
0,995 11,75 8,51 7,23 6,52 6,07 5,76 5,35 5,09 4,72 4,53 4,33 3,90
14 0,90 3,10 2,73 2,52 2,39 2,31 2,24 2,15 2,10 2,01 1,96 1,91 1,80
0,95 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,46 2,39 2,31 2,13
0,975 6,30 4,86 4,24 3,89 3,66 3,50 3,29 3,15 2,95 2,84 2,73 2,49
0,99 8,86 6,51 5,56 5,04 4,69 4,46 4,14 3,94 3,66 3,51 3,35 3,00
0,995 11,06 7,92 6,68 6,00 5,56 5,26 4,86 4,60 4,25 4,06 3,86 3,44
16 0,90 3,05 2,67 2,46 2,33 2,24 2,18 2,09 2,03 1,94 1,89 1,84 1,72
0,95 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,35 2,28 2,19 2,01
0,975 6,12 4,69 4,08 3,73 3,50 3,34 3,12 2,99 2,79 2,68 2,57 2,32
0,99 8,53 6,23 5,29 4,77 4,44 4,20 3,89 3,69 3,41 3,26 3,10 2,75
0,995 10,58 7,51 6,30 5,64 5,21 4,91 4,52 4,27 3,92 3,73 3,54 3,11
18 0,90 3,01 2,62 2,42 2,29 2,20 2,13 2,04 1,98 1,89 1,84 1,78 1,66
0,95 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,27 2,19 2,11 1,92
0,975 5,98 4,56 3,95 3,61 3,38 3,22 3,01 2,87 2,67 2,56 2,44 2,19
0,99 8,29 6,01 5,09 4,58 4,25 4,01 3,71 3,51 3,23 3,08 2,92 2,57
0,995 10,22 7,21 6,03 5,37 4,96 4,66 4,28 4,03 3,68 3,50 3,30 2,87
20 0,90 2,97 2,59 2,38 2,25 2,16 2,09 2,00 1,94 1,84 1,79 1,74 1,61
0,95 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,04 1,84
0,975 5,87 4,46 3,86 3,51 3,29 3,13 2,91 2,77 2,57 2,46 2,35 2,09
0,99 8,10 5,85 4,94 4,43 4,10 3,87 3,56 3,37 3,09 2,94 2,78 2,42
0,995 9,94 6,99 5,82 5,17 4,76 4,47 4,09 3,85 3,50 3,32 3,12 2,69
25 0,90 2,92 2,53 2,32 2,18 2,09 2,02 1,93 1,87 1,77 1,72 1,66 1,52
0,95 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,01 1,92 1,71
0,975 5,69 4,29 3,69 3,35 3,13 2,97 2,75 2,61 2,41 2,30 2,18 1,91
0,99 7,77 5,57 4,68 4,18 3,85 3,63 3,32 3,13 2,85 2,70 2,54 2,17
0,995 9,48 6,60 5,46 4,84 4,43 4,15 3,78 3,54 3,20 3,01 2,82 2,38
30 0,90 2,88 2,49 2,28 2,14 2,05 1,98 1,88 1,82 1,72 1,67 1,61 1,46
0,95 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,01 1,93 1,84 1,62
0,975 5,57 4,18 3,59 3,25 3,03 2,87 2,65 2,51 2,31 2,20 2,07 1,79
0,99 7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,98 2,70 2,55 2,39 2,01
0,995 9,18 6,35 5,24 4,62 4,23 3,95 3,58 3,34 3,01 2,82 2,63 2,18
35 0,90 2,85 2,46 2,25 2,11 2,02 1,95 1,85 1,79 1,69 1,63 1,57 1,41
0,95 4,12 3,27 2,87 2,64 2,49 2,37 2,22 2,11 1,96 1,88 1,79 1,56
0,975 5,48 4,11 3,52 3,18 2,96 2,80 2,58 2,44 2,23 2,12 2,00 1,70
0,99 7,42 5,27 4,40 3,91 3,59 3,37 3,07 2,88 2,60 2,44 2,28 1,89
0,995 8,98 6,19 5,09 4,48 4,09 3,81 3,45 3,21 2,88 2,69 2,50 2,04
40 0,90 2,84 2,44 2,23 2,09 2,00 1,93 1,83 1,76 1,66 1,61 1,54 1,38
0,95 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 1,92 1,84 1,74 1,51
0,975 5,42 4,05 3,46 3,13 2,90 2,74 2,53 2,39 2,18 2,07 1,94 1,64
0,99 7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,80 2,52 2,37 2,20 1,80
0,995 8,83 6,07 4,98 4,37 3,99 3,71 3,35 3,12 2,78 2,60 2,40 1,93
60 0,90 2,79 2,39 2,18 2,04 1,95 1,87 1,77 1,71 1,60 1,54 1,48 1,29
0,95 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,84 1,75 1,65 1,39
0,975 5,29 3,93 3,34 3,01 2,79 2,63 2,41 2,27 2,06 1,94 1,82 1,48
0,99 7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,63 2,35 2,20 2,03 1,60
0,995 8,49 5,79 4,73 4,14 3,76 3,49 3,13 2,90 2,57 2,39 2,19 1,69
120 0,90 2,75 2,35 2,13 1,99 1,90 1,82 1,72 1,65 1,55 1,48 1,41 1,19
0,95 3,92 3,07 2,68 2,45 2,29 2,18 2,02 1,91 1,75 1,66 1,55 1,25
0,975 5,15 3,80 3,23 2,89 2,67 2,52 2,30 2,16 1,94 1,82 1,69 1,31
0,99 6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,47 2,19 2,03 1,86 1,38
0,995 8,18 5,54 4,50 3,92 3,55 3,28 2,93 2,71 2,37 2,19 1,98 1,43
Tabla 7 (Continuación)
248
Tablas estadísticas
Pastor-Barriuso R.
d1
d2 Percentil 1 2 3 4 5 6 8 10 15 20 30 ∞
∞ 0,90 2,71 2,30 2,08 1,94 1,85 1,77 1,67 1,60 1,49 1,42 1,34 1,00
0,95 3,84 3,00 2,60 2,37 2,21 2,10 1,94 1,83 1,67 1,57 1,46 1,00
0,975 5,02 3,69 3,12 2,79 2,57 2,41 2,19 2,05 1,83 1,71 1,57 1,00
0,99 6,63 4,61 3,78 3,32 3,02 2,80 2,51 2,32 2,04 1,88 1,70 1,00
0,995 7,88 5,30 4,28 3,72 3,35 3,09 2,74 2,52 2,19 2,00 1,79 1,00
* Para percentiles inferiores α = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2,α = 1/ Fd2,d1,1–α.
Tabla 7 (Continuación)
249
Tablas estadísticas
Pastor-Barriuso R.
Tabla 8 Percentiles de la distribución bajo H0 de la suma de rangos de Wilcoxon U = 
 17
Tabla 8 Percentiles de la distribución bajo H0 de la suma de rangos de Wilcoxon U = 

=
1
1
n
i
ir  en la muestra de menor tamaño n1 ≤ n2 para n1 = 3, 4, ..., 8.* 
 Percentil 0,95 Percentil 0,975 
 n1 n1 
 
 n2 3 4 5 6 7 8 3 4 5 6 7 8 
 
 3 14      15      
 4 17 24     18 25     
 
 5 19 27 35    20 28 37    
 6 21 30 39 49   22 31 41 51   
 7 24 33 43 54 65  25 34 44 56 68  
 8 26 36 46 58 70 84 27 37 48 60 73 86 
 9 28 39 50 62 75 89 30 41 52 64 78 92 
 
 10 31 42 53 66 80 95 32 44 56 69 83 98 
 11 33 45 57 70 85 100 35 47 60 73 88 104 
 12 36 48 61 75 90 105 37 50 63 78 93 109 
 13 38 51 64 79 94 111 40 53 67 82 98 115 
 14 40 54 68 83 99 116 42 56 71 87 103 121 
 
 15 43 57 71 87 104 122 45 59 75 91 108 126 
 16 45 59 75 91 109 127 47 62 79 95 113 132 
 17 47 62 79 96 113 132 50 66 82 100 118 137 
 18 50 65 82 100 118 138 52 69 86 104 123 143 
 19 52 68 86 104 123 143 55 72 90 109 128 149 
 
 20 54 71 89 108 128 148 57 75 94 113 133 154 
 21 57 74 93 112 133 154 60 78 97 117 138 160 
 22 59 77 96 116 137 159 62 81 101 122 143 166 
 23 61 80 100 121 142 165 65 84 105 126 148 171 
 24 64 83 104 125 147 170 67 88 109 131 153 177 
 
 25 66 86 107 129 152 175 70 91 112 135 158 182 
 26 68 89 111 133 156 181 72 94 116 139 163 188 
 27 71 92 114 137 161 186 75 97 120 144 168 194 
 28 73 95 118 142 166 191 77 100 124 148 173 199 
 29 75 98 121 146 171 197 79 103 127 152 178 205 
 
 30 78 101 125 150 176 202 82 106 131 157 183 210 
 31 80 104 129 154 180 207 84 109 135 161 188 216 
 32 82 107 132 158 185 213 87 113 139 166 193 222 
 33 85 110 136 162 190 218 89 116 142 170 198 227 
 34 87 113 139 167 195 223 92 119 146 174 203 233 
 
 35 89 116 143 171 199 229 94 122 150 179 208 238 
 36 92 119 146 175 204 234 97 125 154 183 213 244 
 37 94 122 150 179 209 240 99 128 158 187 218 250 
 38 96 125 154 183 214 245 102 131 161 192 223 255 
 39 99 127 157 187 218 250 104 134 165 196 228 261 
 
 40 101 130 161 192 223 256 107 138 169 201 233 266 
 41 103 133 164 196 228 261 109 141 173 205 238 272 
 42 106 136 168 200 233 266 112 144 176 209 243 278 
 43 108 139 171 204 237 272 114 147 180 214 248 283 
 44 110 142 175 208 242 277 117 150 184 218 253 289 
 
 45 113 145 179 212 247 282 119 153 188 223 258 294 
 46 115 148 182 217 252 288 121 156 191 227 263 300 
 47 117 151 186 221 257 293 124 159 195 231 268 306 
 48 119 154 189 225 261 298 126 162 199 236 273 311 
 49 122 157 193 229 266 304 129 166 203 240 278 317 
 
 en 
la muestra de menor tamaño n1 ≤ n2 para n1 = 3, 4, ..., 8.*
Percentil 0,95 
n1
Percentil 0,975 
n1
n2 3 4 5 6 7 8 3 4 5 6 7 8
3 14 15
4 17 24 18 25
5 19 27 35 20 28 37
6 21 30 39 49 22 31 41 51
7 24 33 43 54 65 25 34 44 56 68
8 26 36 46 58 70 84 27 37 48 60 73 86
9 28 39 50 62 75 89 30 41 52 64 78 92
10 31 42 53 66 80 95 32 44 56 69 83 98
11 33 45 57 70 85 100 35 47 60 73 88 104
12 36 48 61 75 90 105 37 50 63 78 93 109
13 38 51 64 79 94 111 40 53 67 82 98 115
14 40 54 68 83 99 116 42 56 71 87 103 121
15 43 57 71 87 104 122 45 59 75 91 108 126
16 45 59 75 91 109 127 47 62 79 95 113 132
17 47 62 79 96 113 132 50 66 82 100 118 137
18 50 65 82 100 118 138 52 69 86 104 123 143
19 52 68 86 104 123 143 55 72 90 109 128 149
20 54 71 89 108 128 148 57 75 94 113 133 154
21 57 74 93 112 133 154 60 78 97 117 138 160
22 59 77 96 116 137 159 62 81 101 122 143 166
23 61 80 100 121 142 165 65 84 105 126 148 171
24 64 83 104 125 147 170 67 88 109 131 153 177
25 66 86 107 129 152 175 70 91 112 135 158 182
26 68 89 111 133 156 181 72 94 116 139 163 188
27 71 92 114 137 161 186 75 97 120 144 168 194
28 73 95 118 142 166 191 77 100 124 148 173 199
29 75 98 121 146 171 197 79 103 127 152 178 205
30 78 101 125 150 176 202 82 106 131 157 183 210
31 80 104 129 154 180 207 84 109 135 161 188 216
32 82 107 132 158 185 213 87 113 139 166 193 222
33 85 110 136 162 190 218 89 116 142 170 198 227
34 87 113 139 167 195 223 92 119 146 174 203 233
35 89 116 143 171 199 229 94 122 150 179 208 238
36 92 119 146 175 204 234 97 125 154 183 213 244
37 94 122 150 179 209 240 99 128 158 187 218 250
38 96 125 154 183 214 245 102 131 161 192 223 255
39 99 127 157 187 218 250 104 134 165 196 228 261
40 101 130 161 192 223 256 107 138 169 201 233 266
41 103 133 164 196 228 261 109 141 173 205 238 272
42 106 136 168 200 233 266 112 144 176 209 243 278
43 108 139 171 204 237 272 114 147 180 214 248 283
44 110 142 175 208 242 277 117 150 184 218 253 289
45 113 145 179 212 247 282 119 153 188 223 258 294
46 115 148 182 217 252 288 121 156 191 227 263 300
47 117 151 186 221 257 293 124 159 195 231 268 306
48 119 154 189 225 261 298 126 162 199 236 273 311
49 122 157 193 229 266 304 129 166 203 240 278 317
250
Tablas estadísticas
Pastor-Barriuso R.
Percentil 0,99 
n1
Percentil 0,995 
n1
n2 3 4 5 6 7 8 3 4 5 6 7 8
3 15 15
4 18 26 18 26
5 21 29 38 21 30 39
6 24 32 42 53 24 33 43 54
7 26 36 46 58 70 27 37 48 59 72
8 29 39 50 62 76 90 30 40 52 64 77 92
9 31 42 54 67 81 96 32 44 56 69 83 98
10 34 46 58 72 86 102 35 47 60 74 88 104
11 37 49 62 77 92 108 38 51 64 79 94 110
12 39 52 66 81 97 114 40 54 68 83 99 116
13 42 56 70 86 102 119 43 58 72 88 105 122
14 45 59 74 91 108 125 46 61 77 93 110 129
15 47 62 78 95 113 131 48 64 81 98 116 135
16 50 66 82 100 118 137 51 68 85 103 121 141
17 52 69 86 104 123 143 54 71 89 107 127 147
18 55 72 90 109 129 149 57 75 93 112 132 153
19 58 76 94 114 134 155 59 78 97 117 138 159
20 60 79 98 118 139 161 62 81 101 122 143 165
21 63 82 102 123 144 167 65 85 105 127 149 171
22 66 86 106 128 150 173 67 88 110 131 154 177
23 68 89 110 132 155 179 70 92 114 136 159 184
24 71 92 114 137 160 185 73 95 118 141 165 190
25 73 96 118 141 166 190 75 99 122 146 170 196
26 76 99 122 146 171 196 78 102 126 151 176 202
27 79 102 126 151 176 202 81 105 130 155 181 208
28 81 105 130 155 181 208 84 109 134 160 187 214
29 84 109 134 160 187 214 86 112 138 165 192 220
30 86 112 138 165 192 220 89 116 142 170 197 226
31 89 115 142 169 197 226 92 119 147 174 203 232
32 92 119 146 174 202 232 94 123 151 179 208 238
33 94 122 150 178 208 238 97 126 155 184 214 244
34 97 125 154 183 213 243 100 129 159 189 219 250
35 99 129 158 188 218 249 102 133 163 193 225 256
36 102 132 162 192 223 255 105 136 167 198 230 263
37 105 135 166 197 229 261 108 140 171 203 235 269
38 107 139 170 202 234 267 110 143 175 208 241 275
39 110 142 174 206 239 273 113 146 179 213 246 281
40 112 145 178 211 244 279 116 150 183 217 252 287
41 115 148 182 215 250 285 119 153 188 222 257 293
42 118 152 186 220 255 290 121 157 192 227 263 299
43 120 155 190 225 260 296 124 160 196 232 268 305
44 123 158 194 229 265 302 127 164 200 236 273 311
45 126 162 198 234 271 308 129 167 204 241 279 317
46 128 165 202 238 276 314 132 170 208 246 284 323
47 131 168 205 243 281 320 135 174 212 251 290 329
48 133 172 209 248 286 326 137 177 216 255 295 335
49 136 175 213 252 292 332 140 181 220 260 301 341
* Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, uα = n1(n1 + n2 + 1) – u1–α.
Tabla 8 (Continuación)
251
Tablas estadísticas
Pastor-Barriuso R.
Tabla 9 Percentiles de la distribución bajo H0 de la suma de rangos positivos de Wilcoxon 
W = 
 19
Tabla 9 Percentiles de la distribución bajo H0 de la suma de rangos positivos de 
Wilcoxon  = 
=
m
i
ir
1
 para un número de parejas con diferencias no nulas n ≤ 16.* 
 Percentil 
 
 n 0,95 0,975 0,99 0,995 
 
 5 14 15 15 15 
 6 18 20 21 21 
 7 24 25 27 28 
 8 30 32 34 35 
 
 9 36 39 41 43 
 10 44 46 49 51 
 11 52 55 58 60 
 12 60 64 68 70 
 
 13 69 73 78 81 
 14 79 83 89 92 
 15 89 94 100 104 
 16 100 106 112 116 
 
* Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, wα = n(n + 1)/2 - w1-α. 
 para un nú ero de parejas con diferencias no nulas n ≤ 16.*
n
Percentil
0,95 0,975 0,99 0,995
5 14 15 15 15
6 18 20 21 21
7 24 25 27 28
8 30 32 34 35
9 36 39 41 43
10 44 46 49 51
11 52 55 58 60
12 60 64 68 70
13 69 73 78 81
14 79 83 89 92
15 89 94 100 104
16 100 106 112 116
* Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, wα = n(n + 1)/2 – w1–α.
Tabla 10 Percentiles de la distribución bajo H0 del coeficiente de correlación rs de 
Spearman en muestras de tamaño n ≤ 10.*
n
Percentil
0,95 0,975 0,99 0,995
4 0,800 1,000 1,000 1,000
5 0,800 0,900 0,900 1,000
6 0,771 0,829 0,886 0,943
7 0,679 0,750 0,857 0,893
8 0,619 0,714 0,810 0,857
9 0,583 0,683 0,767 0,817
10 0,552 0,636 0,733 0,782
* Para percentiles inferiores α = 0,005, 0,01, 0,025 y 0,05, rs,α = – rs,1–α.