
ESTRATEGIAS DE MUESTREO
Por Juan M. Gutierrez
En los proyectos de investigación sobre el comportamiento de los agentes económicos que intervienen en los mercados surge la necesidad de contar con una muestra que represente con la mayor precisión el comportamiento de la población. Y la diciplina estadística crea una rama denominada muestreo con menos propaganda en los cursos de análisis de datos, pero de total importancia que no debe subestimarse ni obviar sus métodos si lo que deseamos es una aplicación que responda al fenómeno conductual que deseamos inferir.
La recolección de datos puede ser muy costosa en recursos humanos y monetarios, y dependerá del enfoque sobre el presupuesto del proyecto para contar con bases de datos precisas y que cumplan la representatividad de la población como principal objetivo, así en esta entrada de blog podemos resumir 3 estrategias clave en proyectos de ciencias económicas, financieras, y sociales suponiendo que se conoce el número representativo de la población. Una de ellas para un investigador independiente ya sea estudiante que busca datos para su tesis o un consultor que busca datos para su informe, las otras dos estarán orientadas para una empresa con recursos para lograr sin problema sus objetivos de muestreo.
Diseño de la muestra
Antes de cualquier estudio enfrentamos el desafío de determinar el tamaño de la muestra, en el diseño entran algunos pasos importantes como el tipo de muestreo o estrategia de muestreo, el parámetro a estimar, el error admisible muestral, la varianza poblacional y el nivel de confianza.
El porcentaje de confianza
El nivel de confianza elegido será aquel que generalice los datos de la muestra hacia la población total, según Klein para una muestra que proviene de la normal existen los siguientes.
| Nivel de Confianza | Valores de Z |
|---|---|
| 99.73% | 3.00 |
| 99% | 2.58 |
| 98% | 2.33 |
| 96% | 2.05 |
| 95.45% | 2.00 |
| 95% | 1.96 |
| 90% | 1.645 |
| 80% | 1.28 |
| 68.27% | 1.00 |
| 50% | 0.6745 |
Tamaño de la muestra
¿Cuál es el número mínimo de unidades muestrales (personas, hogares, cosas, etcétera) que necesitamos para conformar una muestra (n)? Este tamaño nos permitirá minimizar el error estándar menor que 0.01 porque la población es grande con muchos elementos y necesitaremos información previa como la población total de la región donde realizamos el levantamiento de información.
Luego calcularemos la probabilidad de ocurrencia de y el valor estimado que se acerque al valor real de la población, por ejemplo, si fijamos el error estándar en 0.01, sugerimos que la población fluctuara en promedio de nuestro valor estimado respecto a la población total no sea mayor a 0.01, es decir que de 100 casos 99 veces nuestra predicción sea correcta y que nuestro valor estimado este comprendido en el intervalo de confianza que contenga el valor de .
Para tener buenas propiedades asintóticas construimos el tamaño muestral con los datos conocidos de la población si los hubiere (casi siempre los hay en las oficinas de estadísticas nacionales) utilizando la varianza poblacional.
Donde d es el error estándar o error máximo prefijado que proviene de:
Para el nivel de confianza que es la medida de precisión de nuestra estimación que se infiere de:
Ahora si la varianza de la población es desconocida el tratamiento será tomar una pequeña muestra con una encuesta que será muestra piloto, con ella se estima la varianza poblacional y será evaluada en la fórmula 1.
Ahora para determinar el tamaño de la muestra cuando los datos son cualitativos usaremos la siguiente fórmula.
Conociendo que
Muestreo aleatorio simple
Comenzamos por lo más difícil pero más fácil de conseguir, parece una contradicción, pero la explicación proviene de la consecución de una muestra aleatoria (lo difícil), y el método es el más asequible y sencillo de conseguir que son las encuestas. La selección de la muestra representativa suele ser altamente complicado de obtener, por ejemplo, acotamos la idea de investigación y decidimos la muestra objetivo, por ejemplo, aquellas personas que posean un automóvil Ferrari, lo complicado es conocer quien tiene un auto así y quieran participar del estudio. O por ejemplo aquellas personas que son candidatos a contraer Diabetes tipo 2 se deberá conocer los determinantes de esta enfermedad para construir una encuesta con las enfermedades determinantes, pero aún no hay un consenso científico sobre algunos determinantes, así encontrar un grupo que represente a esa población es bastante difícil.
Habitualmente los métodos que se aplican encarecen el estudio y aumentan el sesgo de selección, para encarar este propósito asumiendo estos inconvenientes, existen dos estrategias efectivas, la primera usar preguntas de control que condicionen que la encuesta sea la que se encargue de seleccionar los individuos que buscamos que cumplan estas condiciones, sin embargo, puede resultar tedioso no encontrar la cantidad de personas necesarias para que cumpla la representatividad de una muestra, y renunciando a la aleatoriedad por la casualidad, pero manteniendo buenas propiedades asintóticas sobre nuestra muestra. Un factor que determinará buenas propiedades será el lugar de recolección.
El otro método consiste en combinar estrategias, incluir las peguntas de control, y realizar un levantamiento de datos piloto o de prueba para determinar si las preguntas, el entorno y los lugares que decidimos levantar la encuesta es el correcto, de esta manera acotamos el error de selección, pero encarecemos los costos del estudio.
Muestreo indirecto
La realidad que los investigadores enfrentan en estudios concretos es bastante desilusionante por la ausencia de datos y de recursos sin embargo, es posible en ocasiones acceder a características que la población comparte con aquellos que la muestra que buscamos también comparte, como la distribución de la edad, lugar de nacimiento, ingresos etcétera, este proceso es conocido como Muestreo Indirecto, pero surgen problemas técnicos que pueden costar al investigador horas de trabajo por lo intrincado de homogenizar los datos disponibles con la muestra que el recogió. Una de las técnicas que aplican los estadísticos para solucionar estos problemas es aplicar una ponderación generalizada principalmente porque sus estimadores tienen buenas propiedades llegando a ser insesgados.
Así un comienzo podría ser el uso de las encuestas de la población existentes en las oficinas nacionales de estadísticas como por ejemplo un censo. Luego aplicar una encuesta propia que trate de llenar los vacíos muestrales que nuestra investigación necesita.
Muestreo de probabilidades proporcionales
Las estrategias que mencionamos antes utilizan la selección de individuos con la probabilidad de inclusión o de selección es idéntica para todos, que no tienen en cuenta la heterogeneidad de las características idiosincráticas a través de la población, por lo que tendrían una gran variación. Así para obtener mejores estimadores la implementación de algoritmos que seleccionen proporcionalmente la inclusión dependiendo del caso de investigación respecto al total de las características de las variables auxiliares incluidas de la población conocida. Así existen diseños muestrales como el de Poisson que es una generalización del muestreo de Bernoulli, un caso donde es aplicado es el censo anual de las manufacturas en Estados Unidos de Norte América.
Otro tipo de diseño estratégico de muestreo es el denominado muestreo con reemplazo, aplicando el algoritmo de Lahiri (1951), para tamaños poblacionales grandes que sugiere dos pasos, primero seleccionar el número del parámetro de Lahiri de manera aleatoria de una distribución de probabilidad uniforme discreta . Y segundo será seleccionar un número de forma aleatoria de una distribución de probabilidad uniforme discreta .
Z-score
Z-scores are an essential tool in the world of statistics and data analysis. They can help you measure how far or close your observations (or data points) are from the mean.
Series temporales by hand: Proceso autorregresivo AR(p)
Hallaremos de forma manual empleando las propiedades de los estimadores de series de tiempo la media, varianza, autocovarianzas, condiciones de estacionariedad y las funciones de autocorrelación simple y parcial de un proceso AR(p).

¿Te gustó este contenido?
Obtén certificados verificables en Python, Data Science y Machine Learning.
Ver Certificaciones Disponibles →