O ensino do modelo clássico de regressão linear por meio de simulação de Monte Carlo

Palavras-chave: Simulação de Monte Carlo, Modelo clássico de regressão linear, Distribuição amostral, Estimadores de mínimos quadrados

Resumo

Este trabalho apresenta um conjunto de estudos de Monte Carlo, usando softwares de planilha eletrônica, que pode ser usado para facilitar a aprendizagem do conceito de distribuição amostral em um contexto de aprendizagem do modelo clássico de regressão linear. A partir da construção de duas planilhas básicas, uma para regressão simples e outra para regressão múltipla, outras planilhas podem ser facilmente obtidas com pequenas alterações no processo gerador de dados. As alterações que podem ser introduzidas incluem variações no tamanho das amostras e em diversas características do termo de erro, como sua variância, valor médio e função de probabilidade. Também podem ser introduzidas correlações entre os regressores no modelo de regressão múltipla. Um professor de econometria introdutória pode usar o conjunto de planilhas de modo a obter figuras e tabelas que facilitam a visualização do desempenho dos estimadores de mínimos quadrados ordinários para diferentes situações. Deste modo, os estudantes podem compreender na prática como as violações nas premissas do modelo clássico de regressão linear afetam om desempenho dos estimadores de mínimos quadrados ordinários e dos testes de hipóteses usualmente empregados no contexto da análise de regressão. As violações trabalhadas no presente trabalho incluem heterocedasticidade, omissão de variáveis relevantes, erros não normais e multicolinearidade.

Downloads

Não há dados estatísticos.
Publicado
2018-12-28
Como Citar
Pagliarussi, M. S. (2018). O ensino do modelo clássico de regressão linear por meio de simulação de Monte Carlo. Revista De Contabilidade E Organizações, 12, e152100. https://doi.org/10.11606/issn.1982-6486.rco.2018.152100
Seção
Casos e Outras contribuições didáticas

1 INTRODUÇÃO

Muito provavelmente, um professor de econometria básica que segue os bons livros existentes sobre o assunto irá desenvolver aulas que requerem um nível razoavelmente elevado de raciocínio teórico e matemático. Tal abordagem é comum inclusive em cursos direcionados ao público da área de negócios (Becker e Greene, 2001). Este mesmo professor, ao abordar o conceito de distribuição amostral de um estimador, provavelmente irá perceber nos olhos dos seus alunos a dificuldade de compreender o seu significado. Diversos professores-autores relataram tal percepção. Becker e Greene (2001) observaram que seus alunos compreendiam facilmente o papel que o acaso representa na obtenção de uma dada amostra. Porém, os autores notaram que os alunos têm imensa dificuldade em entender que as estatísticas calculadas a partir de tal amostra são igualmente fruto do acaso, cujos valores podem ser representados em um histograma de modo a produzir a distribuição amostral da estatística.

Kennedy (1998) afirma que, contrariamente ao que imaginam os professores, ao final do curso de econometria básica a ampla maioria dos estudantes não compreende a lógica fundamental da estatística, representada pelo conceito de distribuição amostral. O autor ressalta que os alunos aprendem a realizar procedimentos, como calcular a variância, executar uma regressão, testar uma hipótese, e eles sabem que serão aprovados no curso se memorizarem como tais técnicas funcionam. Entretanto, usualmente os cursos levam os alunos à percepção de que a estatística é um ramo da matemática, e estes não desenvolvem a habilidade de usar a estatística como uma lente para enxergar o mundo, pois o conceito de distribuição amostral constitui essa lente (Kennedy, 1998).

Barreto e Howland (2005), Chance, Garfield e del Mas (1999) e Dyck e Gee (1998) manifestaram essencialmente o mesmo desconforto com suas observações de que muitos estudantes aprovados com boas notas em econometria básica não desenvolvem a compreensão necessária do conceito de distribuição amostral, nem a capacidade de aplicar o conceito em uma linha de raciocínio coerente. Chance, del Mas e Garfield (2004) explicam que a dificuldade em apreender o conceito de distribuição amostral pode residir no fato de que o conceito requer que os estudantes integrem e apliquem vários outros conceitos obtidos em diferentes momentos do curso de estatística, assim como raciocinem a respeito do comportamento hipotético de muitas amostras. Na visão dos autores, mesmo que o Teorema do Limite Central forneça um modelo teórico para o comportamento das distribuições amostrais, os alunos têm dificuldade em aplicar tal modelo em contextos práticos.

Kennedy (1998) sugere que uma mudança fundamental deveria ocorrer nos cursos de econometria básica: a inserção de estudos de Monte Carlo como ferramenta pedagógica para investigação das propriedades da distribuição amostral de um estimador. O autor inclusive chega a afirmar que havia suprimido a maior parte das demonstrações matemáticas em seus cursos. Para Kennedy (1998), a investigação de distribuições amostrais por meio de estudos de Monte Carlo deveria constituir a maior parte da carga horária dos cursos de econometria, pois tal atividade permite aos estudantes alcançar a compreensão de todas as dimensões do curso. O autor conclui que a apresentação de técnicas de estimação avançadas não agrega nada se os estudantes não compreendem os princípios fundamentais que as sustentam.

Apesar dos fortes argumentos de Kennedy (1998), o uso de estudos de Monte Carlo no ensino de econometria é pouco difundido. Becker e Greene (2001) destacam que a maioria dos professores deixa o desenvolvimento do conceito de distribuição amostral a cargo da imaginação dos estudantes, mesmo tendo à sua disposição computadores e softwares que permitem o desenvolvimento real do histograma dos valores possíveis de uma estatística amostral. Bekkerman (2015) também chama a atenção para o pouco uso de simulações no ensino de econometria, possivelmente pela falta de conhecimento dos professores a respeito dos potenciais benefícios pedagógicos da ferramenta.

Barreto e Howland (2005) ressaltam sua frustração com o ensino de econometria baseado em equações e na prova de proposições. Tal abordagem, segundo os autores, resulta na ênfase na memorização ao invés do uso efetivo do conceito em situações reais. O uso de simulações permite a visualização dinâmica e a repetição de situações interessantes. Por exemplo, por meio do Excel os estudantes podem instantaneamente obter resultados novos e reconstruir tabelas e gráficos após terem alterado o valor de um parâmetro ou obtido uma nova amostra (Barreto e Howland, 2005). Os autores defendem que, por meio do uso de planilhas, os estudantes conseguem associar os valores com os símbolos abstratos presentes nas equações, e conseguem ver um teorema em operação quando um resultado esperado é observado repetidamente em muitas amostras. Barreto e Howland (2005) concluem que é irônico que as simulações desempenhem papel proeminente nos estudos avançados de econometria, enquanto que o ensino da disciplina padece nos métodos ultrapassados de memorização e prova.

Com base nas recomendações de Kennedy (1998), Judge (1999) desenvolveu um exercício de Monte Carlo simples em Excel, direcionado a permitir que os estudantes simulem a obtenção de 100 amostras aleatórias contendo observações de duas variáveis, X e Y, e calculem as estimativas dos parâmetros de um modelo de regressão simples Y= β 1 + β 2 X+u para cada amostra. Entre os objetivos do exercício estavam a análise da distribuição amostral dos 100 valores obtidos do estimador de mínimos quadrados ordinários β ^ 2MQO, como sua média, variância e a discussão de questões como viés e ausência de viés. Além disso, os estudantes precisavam analisar se o histograma construído com os 100 valores obtidos de β ^ 2 MQO se assemelhava a uma distribuição normal. Craft (2003) oferece contribuição semelhante ao detalhar as etapas necessárias para modelar o processo gerador de dados, obter amostras aleatórias repetidas e calcular as estimativas dos parâmetros de uma regressão simples usando planilhas eletrônicas.

Mais recentemente, Briand e Hill (2013) expõem detalhadamente a realização de estudos de Monte Carlo usando planilhas em uma aplicação envolvendo regressão linear simples. Os autores desenvolvem dois exercícios. No primeiro, explicam como os alunos podem obter a distribuição amostral do estimador de inclinação por meio do procedimento de mínimos quadrados ordinários. No segundo, são obtidas as estimativas de intervalos de confiança para o coeficiente de inclinação β ^ 2 MQO .

O presente artigo estende as propostas de Judge (1999), Craft (2003) e Briand e Hill (2013) ao apresentar vários exercícios desenvolvidos por meio da aplicação da simulação de Monte Carlo aplicada em situações de regressão linear simples como múltipla. Por meio da ferramenta pedagógica apresentada aqui, os estudantes poderão desenvolver simulações com o objetivo de: (1) obter a distribuição amostral dos estimadores β ^ MQO calculados para 1.000 amostras aleatórias repetidas; (2) analisar as propriedades da distribuição amostral dos estimadores, como média, variância e forma; (3) analisar como o tamanho da amostra impacta no desempenho do teste F para significância global da regressão, e do teste t para significância dos coeficientes individuais; (4) analisar como as violações das premissas do modelo clássico de regressão linear afetam as propriedades da distribuição amostral dos estimadores e o desempenho dos testes F e t. As violações analisadas incluem termo de erro com variância heterocedástica, termo de erro com distribuição não normal, termo de erro com média diferente de zero, omissão de variáveis relevantes e existência de multicolinearidade entre regressores.

A seção 2 a seguir apresenta a técnica de simulação de Monte Carlo e sua aplicação em um contexto de análise de regressão linear. Na seção 3, são explicados os procedimentos para obtenção das amostras repetidas, estimação pontual e intervalar dos parâmetros do modelo de regressão e obtenção das estatísticas da regressão, como R², F, t e suas respectivas significâncias. A seção 4 apresenta uma breve discussão da abordagem proposta e suas possíveis extensões. Por fim, a última seção conclui brevemente a proposta.

2 ESTUDOS DE MONTE CARLO E SUA APLICAÇÃO NO CONTEXTO DA ANÁLISE DE REGRESSÃO LINEAR

Simulação de Monte Carlo refere-se ao emprego de modelos artificiais para representar processos reais de geração de dados, de modo a obter uma maior compreensão de tais processos (Barreto e Howland, 2005). As simulações usam geradores de números aleatórios para recriar os processos estocásticos, e o fazem repetidas vezes para observar os resultados obtidos (Barreto e Howland, 2005; Hill, Griffiths e Lim, 2011). Por meio da simulação, podem ser criadas muitas amostras de tamanho N e assim examinar as propriedades de diferentes métodos de estimação, inclusive o seu comportamento em situações distantes do ideal, como é o caso de muitas aplicações na área de negócios (Hill, Griffiths e Lim, 2011). A Figura 1 a seguir apresenta o fluxo de trabalho em um estudo de Monte Carlo.

Estrutura de um estudo de Monte Carlo. Adaptada de Kennedy (2003)

Figura 1: Estrutura de um estudo de Monte Carlo. Adaptada de Kennedy (2003)

Do ponto de vista pedagógico, uma razão importante para o uso de experimentos de Monte Carlo é propiciar o entendimento dos conceitos de amostragem repetida e propriedades da distribuição de amostragem de um estimador, que são conceitos cruciais para o entendimento de econometria (Kennedy, 2003). O autor descreve as etapas do desenvolvimento de um estudo de Monte Carlo (2003):

  1. Modelar o processo gerador de dados: um estudo de Monte Carlo se inicia com a construção do modelo que permita ao computador imitar o processo gerador de dados, incluindo seu componente estocástico. Por exemplo, pode ser especificado que N valores de X 1 e X 2 e um termo de erro u irão produzir N valores de Y de acordo com a equação Y= β 1 + β 2 X 1 +u . Na equação, β1e β2 são números específicos e conhecidos, as N observações de X1e X2 correspondem a realizações exógenas dos valores das respectivas variáveis, e os N valores de u são obtidos aleatoriamente a partir de uma distribuição normal com média zero e variância conhecida σ2. Quaisquer características especiais do processo gerador de dados podem ser incluídas no modelo. Por exemplo, o termo de erro pode ser gerado a partir de uma distribuição normal com média diferente de zero e variância conhecida σ2. Também é possível fazer com que a variância do termo de erro dependa seja função de X1. Por fim, os erros podem ser gerados a partir de uma distribuição de probabilidade diferente da normal. Um aspecto importante a destacar é que todos os valores dos parâmetros são conhecidos, porque a pessoa que conduz o estudo é que escolhe tais valores.

  2. Criação dos conjuntos de dados: após o modelo do processo gerador de dados ter sido construído e inserido no computador, os dados artificiais podem ser criados. Deste modo, uma amostra completa com N valores de Y,X1,X2 e u é obtida. Note que tal conjunto artificial de dados pode ser enxergado como um exemplo dos dados reais que um pesquisador iria obter quando tivesse que lidar com o problema de estimação que o modelo representa. É importante destacar também que o conjunto de dados depende crucialmente dos valores obtidos para o termo de erro. Um conjunto diferente de N valores de u iria alterar significativamente os valores de Y obtidos para o mesmo problema. Se tal processo de amostragem for repetido 1.000 vezes, por exemplo, teremos 1.000 conjuntos de amostras com tamanho N, chamadas amostras repetidas.

  3. Cálculo das estimativas: cada uma das amostras obtidas será usada como input para o cálculo do valor do estimador β ^ 2 . Então, se estivermos trabalhando com 1.000 amostras, podemos obter 1.000 estimativas β ^ 2 para o parâmetro β 2 . As estimativas podem ser vistas como 1.000 sorteios aleatórios de valores retirados da distribuição de β ^ 2 .

  4. Estimação das propriedades da distribuição amostral: as 1.000 extrações aleatórias da distribuição amostral de β ^ 2 podem ser usadas como dados para estimar as propriedades dessa distribuição. As propriedades de maior interesse são o valor esperado e a variância, os quais podem ser usados para estimar o viés e o erro quadrático médio do estimador. Na etapa 3 as estimativas obtidas por meio de um estimador alternativo β ^ 2 * também podem ser obtidas, de modo que as propriedades da distribuição amostral de β ^ 2 * podem ser comparadas com as propriedades da distribuição de β ^ 2 .

Assim, de acordo com a abordagem de Briand e Hill (2013), e as orientações de Kennedy (1998, 2003), as aplicações a seguir foram desenvolvidas com o objetivo de servirem como ferramentas pedagógicas e contribuir para o entendimento das propriedades dos estimadores e testes associados à regressão linear simples e múltipla, a partir da simulação de um processo de amostragem repetida.

3 APLICAÇÕES DA SIMULAÇÃO DE MONTE CARLO NA ANÁLISE DE REGRESSÃO USANDO O EXCEL

Nesta seção são desenvolvidas duas aplicações da simulação de Monte Carlo. Na Aplicação 1, as etapas da construção do processo de simulação que irá resultar na obtenção de 1.000 amostras de pares de valores (x,y) em uma planilha eletrônica são detalhadamente descritas. Na sequência da obtenção das amostras, é apresentado o passo a passo da obtenção das estimativas de ponto e de intervalo, das estatísticas de regressão. Também são obtidas as estatísticas F e t e os resultados dos respectivos testes de hipóteses. A Aplicação 2 estende os procedimentos da Aplicação 1 para o contexto de regressão linear múltipla.

3.1 Aplicação 1: estimação dos parâmetros na RLS usando diferentes tamanhos de amostra

O desenvolvimento de estudos de Monte Carlo começa com a definição do processo gerador de dados. Assim, a partir de um modelo Y= β 1 + β 2 X 1 +u é necessário definir os valores dos parâmetros β 1 e β 2 e os valores de X na amostra. Em seguida, deve-se inserir a fórmula para obtenção dos valores de Y. Isto é feito usando a função ALEATÓRIO do Excel para gerar os valores de u, de modo a tornar a relação entre Y e X não determinística. A Tabela 1 a seguir apresenta os parâmetros definidos para as simulações da Aplicação 1.

Tabela 1:
Parâmetros do processo gerador de dados Y= β 1 + β 2 X 1 +u
A B C D
1 N= 20 sigma= 25
2 X11= 100 beta1= 50
3 X12= 200 beta2= 0.25
4
5 X y
6 =$B$2
7 =$B$2
...
15 =$B$2
16 =$B$3
...
25 =$B$3

Fonte: Elaborado pelo autor.

Inicialmente a o processo envolverá amostras aleatórias com 20 observações de X, u e Y. Em cada amostra, 10 observações terão valor x1=100 e 10 terão valor x2=200. Tais valores irão permanecer fixos no processo de amostragem repetida.

Os valores escolhidos para β1 e β2 são 50 e 0,25 respectivamente, e os valores de u em cada amostra são distribuídos de forma independente e normal, com média zero e variância homocedástica, ou seja, σ2=625 para qualquer valor de x. O termo de erro de cada observação é gerado a partir da combinação entre as funções do Excel INV.NORM.N e ALEATÓRIO. A primeira função retorna o inverso da distribuição cumulativa normal para valores específicos de média e desvio padrão. Sua sintaxe é INV.NORM.N(probabilidade;média;desv_padrão), na qual a probabilidade é P(X≤x), definida entre 0 e 1.

Deste modo, para obter valores aleatórios de um termo de erro com distribuição normal, média zero e variância constante igual a 625, basta inserir na fórmula de y o termo INV.NORM.N(ALEATÓRIO();0;25), uma vez que a função ALEATÓRIO() retorna um valor aleatório uniformemente distribuído entre 0 e 1. Como x é fixo nas amostras repetidas, resulta que y irá se distribuir normalmente com média E( yx )= β 1 + β 2 x . A Tabela 2 mostra a fórmula utilizada para gerar os valores de y da primeira amostra (y1), com os pares de valores (x,y1). As fórmulas inseridas nas células B6:B25 devem ser coladas no mesmo intervalo das colunas C a ALM, produzindo assim 1.000 amostras, {x,y1},{x,y2},{x,y3},…,{x,y1000}.

Tabela 2:
Configurações do processo gerador de dados para um estudo de Monte Carlo em regressão linear simples
A B C D
1 N= 20 sigma= 25
2 X11= 100 beta1= 50
3 X12= 200 beta2= 0.25
4
5 x y1 y2 y3
6 100 =$D$2+$D$3*A6+INV.NORM.N(ALEATÓRIO();0;$D$1)
7 100
...
15 100 ...
16 200
...
25 200 =$D$2+$D$3*A25+INV.NORM.N(ALEATÓRIO();0;$D$1)

Fonte: Elaborado pelo autor.

A Figura 2 a seguir apresenta os resultados obtidos com a simulação de 1.000 amostras contendo pares de realizações de x e y, sendo que os valores de x são fixos em todas as amostras. Tais resultados foram obtidos colando as fórmulas do intervalo B6:B25 da planilha para o mesmo intervalo nas colunas C à ALM.

Recorte de tela com os parâmetros do modelo e os valores simulados para 1.000 amostras de valores (x,y)

Figura 2: Recorte de tela com os parâmetros do modelo e os valores simulados para 1.000 amostras de valores (x,y)

Com as 1.000 amostras disponíveis, o próximo passo é proceder com a estimativa dos parâmetros de regressão para cada y em função de x. A função PROJ.LIN do Excel calcula as estatísticas da regressão linear obtidas por meio do processo de estimação por mínimos quadrados ordinários e retorna uma matriz com tais estatísticas. Como a função retorna uma matriz de valores, ela precisa ser inserida como uma fórmula de matriz, mas é possível obter o valor de uma célula específica da matriz combinando a função PROJ.LIN com a função ÍNDICE, como será descrito a seguir.

A função PROJ.LIN parte da equação da reta y=mx+b ou y= m 1 x 1 + m 2 x 2 +...+b , em que os valores y são função dos valores x e de uma constante b, e uma matriz contendo as estimativas para os coeficientes mi e b e as estatísticas de regressão adicionais, como o erro padrão dos coeficientes, o R-quadrado, o erro padrão de y, a estatística F, os graus de liberdade, a soma dos quadrados da regressão e dos resíduos. A Tabela 3 mostra a ordem em que as estatísticas são retornadas.

Tabela 3:
Matriz obtida com a aplicação da função PROJ.LIN
1 2 3 4 5 6
1 mn m(n-1) ... m2 m1 b
2 epn ep(n-1) ... ep2 ep1 epb
3 R2 epy
4 F gl
5 SQreg SQres

Fonte: Elaborado pelo autor.

A sintaxe da função PROJ.LIN é: PROJ.LIN(val_conhecidos_y, [val_conhecidos_x], [constante], [estatísticas]).

Na qual val_conhecidos_y representa a coluna com os valores de y, [val_conhecidos_x] representa a(s) coluna(s) com os valores de xi, [constante] deve assumir um valor “0” ou “Falso” caso a regressão seja estimada sem o termo b, e “1” ou “Verdadeiro” caso queiramos que a regressão seja estimada com o termo b. Igualmente, se quisermos as estatísticas adicionais da regressão deveremos colocar “1” ou “Verdadeiro” em [estatísticas], ou “0” ou “Falso” caso não queiramos as estatísticas adicionais.

É possível desmembrar as células da matriz resultante da função PROJ.LIN por meio da função ÍNDICE, a qual retorna o valor que existe dentro de uma tabela. Deste modo, podemos obter o resultado de cada célula da matriz descrita na Tabela 3 individualmente, o qual pode ser convenientemente posicionado na planilha sem estar vinculado a uma matriz. A sintaxe da função ÍNDICE é: ÍNDICE(matriz; núm_linha; [núm_coluna]).

No nosso caso, PROJ.LIN representará a matriz a que se refere a sintaxe da função ÍNDICE. Os termos núm_linha e [núm_coluna] são usados para especificar a célula da matriz que contém o valor a ser exibido. Por exemplo, se quisermos obter a estatística F da regressão entre os valores de y1 e x apresentados na Figura 2, devemos selecionar uma célula vazia da planilha e inserir a fórmula =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);4;1). Os dois últimos termos da fórmula se referem à posição da estatística F na matriz dos resultados de PROJ.LIN, conforme indicado na Tabela 3. Do mesmo modo, se quisermos obter o R-quadrado da mesma regressão, devemos selecionar uma célula vazia da planilha e inserir a fórmula =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);3;1), e assim por diante.

A partir da aplicação das funções PROJ.LIN e ÍNDICE, iremos obter, para cada regressão de yi em função de x, as seguintes informações:

  • A estatística R2;

  • A estatística F;

  • A informação se o valor da estatística F é significante a 5% ou não;

  • A estimativa do parâmetro β1, obtida por meio do estimador de mínimos quadrados ordinários β ^ 1;

  • A estimativa do intervalo de confiança a 95% para o parâmetro β 1;

  • A informação se o intervalo de confiança contêm β 1;

  • O valor-p de β ^ 1;

  • A informação se a estimativa para β 1 é significante a 5%;

  • A estimativa do parâmetro β 2 , obtida por meio do estimador de mínimos quadrados ordinários β ^ 2;

  • A estimativa do intervalo de confiança a 95% para o parâmetro β 2 ;

  • A informação se o intervalo de confiança contêm β 2;

  • O valor-p de β ^ 2;

  • A informação se a estimativa para β 2 é significante a 5%.

De posse de tais informações, iremos contar:

  • O número de regressões para as quais foi obtido um valor de F significante a 5%;

  • O número de regressões para as quais os intervalos de confiança contêm β 1;

  • O número de regressões para os quais o valor estimado para β 1 é significante a 5%;

  • O número de regressões para as quais os intervalos de confiança contêm β 2;

  • O número de regressões para os quais o valor estimado de β 2 é significante a 5%.

Para obter tais informações é necessário fazer uso de outras funções do Excel, tais como:

  • DIST.F: retorna o resultado da distribuição de probabilidade F, para um dado valor de F e seus respectivos graus de liberdade;

  • SE: permite que sejam feitas comparações lógicas entre um valor e aquilo que se espera;

  • OU: determina se alguma condição em um teste é verdadeira;

  • CONT.SE: conta o número de células que atendem a um critério;

  • DIST.T.BC: retorna o valor da distribuição t de Student bicaudal, para um dado valor de t e seu respectivo número de graus de liberdade;

  • INV.T.BC: retorna o inverso bicaudal da distribuição t de Student, para uma dada probabilidade e um número de graus de liberdade.

A Tabela 4 mostra as fórmulas usadas para obter as informações das regressões realizadas com as 1.000 amostras obtidas na simulação.

Tabela 4:
Fórmulas para obter as estimativas dos parâmetros, estatísticas adicionais e demais informações na regressão simples
Célula Fórmula Resultado Copiada para
B30 =INV.T.BC(0.05;C29) t crítico (95%)
B31 =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);3;1) R2 C31:ALM31
B32 =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);4;1) Estatística F C32:ALM32
B33 =DIST.F(B32;$B$29;$C$29;FALSO) F de significância C33:ALM33
B34 =SE(OU(B33<0.05);"Sim";"Não") Sim ou Não C34:ALM34
B35 =CONT.SE(B34:ALM34;"Sim") Número de regressões com F significante a 5%
B37 =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);1;2) Estimativa para beta 1 C37:ALM37
B38 =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);2;2) Erro padrão da estimativa para beta 1 C38:ALM38
B39 =B38-$B$30*B39 Limite inferior (95%) para beta 1 C39:ALM39
B40 =B38+$B$30*B39 Limite superior (95%) para beta 1 C40:ALM40
B41 =SE(OU($E$2<B40;$E$2>B41);"Não";"Sim") Reporta se o IC contém beta 1 C41:ALM41
B42 =CONT.SE(B42:ALM42;"Sim") Número de IC que contém beta 1
B43 =DIST.T.BC(ABS(B38/B39);$C$29) Valor-p da estimativa de beta 1 C43:ALM43
B44 =SE(OU(B44<0.05);"Sim";"Não") Se a estimativa de beta 1 é significante ou não C44:ALM44
B45 =CONT.SE(B45:ALM45;"Sim") Número de regressões que produziram estimativas de beta 1 significantes a 5% C45:ALM45
B47 =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);1;1) Estimativa para beta 2 C47:ALM47
B48 =ÍNDICE(PROJ.LIN(B6:B25;$A$6:$A$25;1;1);2;1) Erro padrão da estimativa de beta 2 C48:ALM48
B49 =B49-$B$30*B50 Limite inferior (95%) para beta 2 C49:ALM49
B50 =B49+$B$30*B50 Limite superior (95%) para beta 2 C50:ALM50
B51 =SE(OU($E$3<B51;$E$3>B52);"Não";"Sim") Reporta se o IC contém beta 2 C51:ALM51
B52 =CONT.SE(B53:ALM53;"Sim") Número de IC que contém beta 2
B53 =DIST.T.BC(ABS(B49/B50);$C$29) Valor-p da estimativa de beta 2 C31:ALM31
B54 =SE(OU(B55<0.05);"Sim";"Não") Se a estimativa de beta 2 é significante ou não C31:ALM31
B55 =CONT.SE(B56:ALM56;"Sim") Número de regressões que produziram estimativas de beta 2 significantes a 5%

Fonte: Elaborado pelo autor.

Deste modo, obtemos uma planilha que contém a simulação de 1.000 amostras com valores de y e x, e para cada amostra obtivemos também os resultados e as estatísticas da análise de regressão por mínimos quadrados ordinários. A Figura 3 apresenta um recorte de tela da planilha obtida.

Recorte de tela da planilha com as estimativas e estatísticas das 1.000 regressões simples simuladas

Figura 3: Recorte de tela da planilha com as estimativas e estatísticas das 1.000 regressões simples simuladas

Conforme a Figura 3 mostra, depois de inseridas as fórmulas na planilha, é possível desenvolver uma série de análises a respeito do processo de estimação, no que se refere ao desempenho dos estimadores e dos testes de hipóteses realizados. Por exemplo, pode-se inserir uma modificação na planilha de modo a ampliar o tamanho da amostra para 40, e depois para 80 observações, de modo a analisar como isso afeta o desempenho dos estimadores e dos testes de hipóteses. Também é possível alterar as características do termo de erro, de modo a violar as premissas do modelo clássico de regressão linear, e consequentemente analisar o que ocorrer com os estimadores e os testes quando tais violações estão presentes. Um roteiro detalhado para aplicação da planilha aqui desenvolvida em uma disciplina de econometria básica é apresentado em arquivo suplementar.

3.2 Aplicação 2: estimação dos parâmetros na RLM usando diferentes tamanhos de amostra

Para estender os procedimentos da Aplicação 1 para o caso da regressão linear múltipla, três mudanças são necessárias. Primeiramente, é preciso introduzir uma nova variável X 2 no modelo do processo gerador de dados, tornando Y= β 1 + β 2 X 1 + β 3 X 2 . Depois, os valores de X2 e β3 precisam ser definidos. E por fim, a fórmula para obtenção de Y precisa ser alterada para tornar a variável efetivamente uma função das duas variáveis, X1 e X2. A Tabela 4 apresenta a nova configuração do processo gerador de dados. Os valores escolhidos para os dois níveis de X2 foram 80 e 160, e β3 foi definido como 0,35. É importante chamar a atenção para a forma como os pares de valores (x1,x2) estão distribuídos, de modo a resultar em completa ausência de correlação entre os dois regressores.

Tabela 5:
Configurações do processo gerador de dados para um estudo de Monte Carlo em regressão linear múltipla
A B C D E F
1 N= 20 sigma= 25
2 X11= 100 X21= 80 beta1= 50
3 X12= 200 X22= 160 beta2= 0.25
4 beta3= 0.35
5
6 x1 x2 y1
7 100 80 =$F$2+$F$3*$A7+$F$4*$B7+INV.NORM.N(ALEATÓRIO();0;$F$1) y2 y3 y4
8 100 80
9 100 80
10 100 80
11 100 80
12 100 160
13 100 160
14 100 160
15 100 160
16 100 160 ...
17 200 80
18 200 80
19 200 80
20 200 80
21 200 80
22 200 160
23 200 160
24 200 160
25 200 160
26 200 160 ==$F$2+$F$3*$A26+$F$4*$B26+INV.NORM.N(ALEATÓRIO();0;$F$1)

Fonte: Elaborado pelo autor.

A Figura 4 a seguir apresenta os resultados obtidos com a simulação de 1.000 amostras contendo trincas de realizações de x1, x2 e y, sendo que os valores de x1 e x2 são fixos em todas as amostras. Tais resultados foram obtidos colando as fórmulas do intervalo B7:B26 da planilha para o mesmo intervalo nas colunas C à ALN.

Recorte de tela com os parâmetros do modelo e os valores simulados para 1.000 amostras de valores (x1,x2,y)

Figura 4: Recorte de tela com os parâmetros do modelo e os valores simulados para 1.000 amostras de valores (x1,x2,y)

A Tabela 6 a seguir apresenta as fórmulas usadas para obter as informações das regressões múltiplas realizadas com as 1.000 amostras obtidas na simulação. Na Aplicação 2 o foco recai sobre a estimação dos parâmetros β2 e β3 da regressão linear múltipla, portanto a análise não inclui as informações relativas à estimação de β1.

Tabela 6:
Fórmulas para obter as estimativas dos parâmetros, estatísticas adicionais e demais informações na regressão múltipla
Célula Fórmula Resultado Copiada para
B31 =INV.T.BC(0.05;D30) t crítico (95%)
B32 =ÍNDICE(PROJ.LIN(C7:C26;$A$7:$B$26;1;1);3;1) R2 C32:ALN32
B33 =1-(((1-C32)*($C$28-1))/$D$30) R2 ajustado C33:ALN33
B34 =ÍNDICE(PROJ.LIN(C7:C26;$A$7:$B$26;1;1);4;1) Estatística F C34:ALN34
B35 =DIST.F.CD(C34;$C$30;$D$30) F de significância C35:ALN35
B36 =SE(OU(C35<0.05);"Sim";"Não") Sim ou Não C36:ALN36
B37 =CONT.SE(C36:ALN36;"Sim") Número de regressões com F significante a 5%
B39 =ÍNDICE(PROJ.LIN(C7:C26;$A$7:$B$26;1;1);1;2) Estimativa para beta 2 C39:ALN39
B40 =ÍNDICE(PROJ.LIN(C7:C26;$A$7:$B$26;1;1);2;2) Erro padrão da estimativa de beta 2 C40:ALM40
B41 =C40-$C$31*C41 Limite inferior (95%) para beta 2 C41:ALN41
B42 =C40+$C$31*C41 Limite superior (95%) para beta 2 C42:ALN42
B43 =SE(OU($F$3<C42;$F$3>C43);"Não";"Sim") Reporta se o IC contém beta 2 C43:ALN43
B44 =CONT.SE(C44:ALN44;"Sim") Número de IC que contém beta 2
B45 =DIST.T.BC(ABS(C40/C41);$D$30) Valor-p da estimativa de beta 2 C45:ALN45
B46 =SE(OU(B44<0.05);"Sim";"Não") Se a estimativa beta 2 é significante ou não C46:ALN46
B47 =CONT.SE(C47:ALN47;"Sim") Número de regressões que produziram estimativas de beta 2 significantes a 5%
B49 =ÍNDICE(PROJ.LIN(C7:C26;$A$7:$B$26;1;1);1;1) Estimativa para beta 3 C49:ALN49
B50 =ÍNDICE(PROJ.LIN(C7:C26;$A$7:$B$26;1;1);2;1) Erro padrão da estimativa de beta 3 C50:ALN50
B51 =C51-$C$31*C52 Limite inferior (95%) para beta 3 C51:ALN51
B52 =C51+$C$31*C52 Limite superior (95%) para beta 3 C52:ALN52
B53 =SE(OU($F$4<C51;$F$4>C52);"Não";"Sim") Reporta se o IC contém beta 3 C53:ALN53
B54 =CONT.SE(C53:ALN53;"Sim") Número de IC que contém beta 3
B55 =DIST.T.BC(ABS(C49/C50);$D$30) Valor-p da estimativa de beta 3 C55:ALN55
B56 =SE(OU(C55<0.05);"Sim";"Não") Se a estimativa de beta 3 é significante ou não C56:ALN56
B57 =CONT.SE(C56:ALN56;"Sim") Número de regressões que produziram estimativas de beta 3 significantes a 5%

Fonte: Elaborado pelo autor.

Deste modo, obtemos uma planilha que contém a simulação de 1.000 amostras contendo trincas de realizações de x1,x2 e y, e para cada amostra obtivemos também os resultados e as estatísticas da análise de regressão múltipla por mínimos quadrados ordinários. A Figura 5 apresenta um recorte de tela da planilha obtida.

Recorte de tela da planilha com as estimativas e estatísticas das 1.000 regressões múltiplas simuladas

Figura 5: Recorte de tela da planilha com as estimativas e estatísticas das 1.000 regressões múltiplas simuladas

Depois que a planilha é construída, é possível desenvolver uma série de análises a respeito do processo de estimação no contexto de regressão linear múltipla, no que se refere ao desempenho dos estimadores e dos testes de hipóteses quando ocorrem violações das premissas do modelo clássico de regressão linear. Por exemplo, é possível estimar os parâmetros de uma regressão de Y apenas como função de X1, de modo a analisar o viés de omissão de variável. Também é possível introduzir correlações diferentes de zero entre os regressores, de modo a analisar como tal situação impacta no processo de estimação e nos testes de hipóteses. O arquivo suplementar contém o detalhamento dos procedimentos que podem ser utilizados para aplicação do caso como ferramenta pedagógica.

4 CONCLUSÕES

Contribuir para que os estudantes de econometria básica compreendam o conceito de distribuição amostral é um dos grandes desafios que os professores da disciplina enfrentam. A ampla maioria dos livros disponíveis para serem adotados como livro-texto em um curso introdutório em econometria trata do assunto de forma extensamente matematizada e abstrata. Apesar de vários professores-autores terem chamado a atenção para o potencial das ferramentas de simulação no ensino de econometria, seu uso ainda pode ser considerado pouco frequente.

A presente ferramenta pedagógica compreende a utilização da simulação de Monte Carlo como meio para contribuir para o aprendizado do conceito de distribuição amostral, em um contexto de estimação de parâmetros no modelo clássico de regressão linear simples e múltipla. As atividades demonstram como um software comercial de planilha eletrônica pode ser utilizado para produzir 1.000 simulações de um processo gerador de dados, representando o que seria um sorteio de 1.000 amostras com as variáveis usadas na regressão. As subsequentes estimações são obtidas a partir das amostras, e o desempenho dos estimadores e dos testes podem ser analisados, de modo a ilustrar o conceito de distribuição amostral.

O roteiro de aplicação da ferramenta, disponível em arquivo suplementar, demostra o seu potencial de aplicação como técnica de ensino do conceito de distribuição amostral de estimadores no contexto do modelo clássico de regressão linear. Por meio da aplicação das atividades propostas, os estudantes podem construir tabelas e visualizar como o desempenho dos estimadores pontuais e intervalares, e dos testes F e t, é afetado quando ocorrem violações nas premissas do modelo clássico de regressão, como heterocedasticidade, multicolinearidade entre regressores e viés de omissão de variáveis.

Deste modo, as atividades aqui apresentadas, quando aplicados em um curso de econometria de forma complementar à apresentação das definições matemáticas do conceito de distribuição amostral, tem potencial para ampliar o entendimento dos estudantes, pois fortalece a conexão entre teoria e prática. Conceitos como erro tipo I e erro tipo II são facilmente ilustrados com as atividades desenvolvidas neste caso de ensino. A simulação desenvolvida aqui é especialmente útil para viabilizar o entendimento da probabilidade do erro tipo II, que depende do verdadeiro valor do parâmetro que está sendo estimado.

REFERÊNCIAS

  1. , (). . . Cambridge University Press. .
  2. , (). Teaching statistics and econometrics to undergraduates. The Journal of Economic Perspectives 15(4), 169-182. https://doi.org/https://doi.org/110.1257/jep.15.4.169.
  3. (). The role of simulations in econometrics pedagogy. Wiley Interdisciplinary Reviews: Computational Statistics 7(2), 160-165. https://doi.org/https://doi.org/10.1002/wics.1342
  4. , (). Teaching basic econometric concepts using Monte Carlo simulations in Excel. International Review of Economics Education 12, 60-79. https://doi.org/https://doi.org/10.1016/j.iree.2013.04.001
  5. , , ..
  6. , , , , (). . . Dordrecht, The Netherlands: Kluwer Academic Publishers. .295-323.
  7. (). Using spreadsheets to conduct Monte Carlo experiments for teaching introductory econometrics. Southern Economic Journal 726-735. https://doi.org/https://doi.org/10.2307/1061705.
  8. , (). A sweet way to teach students about the sampling distribution of the mean. Teaching of Psychology 25(3), 192-195. https://doi.org/https://doi.org/10.1207/s15328023top2503_6.
  9. (). Simple Monte Carlo studies on a spreadsheet. Computers in Higher Education Economics Review 13(2), 12-14.
  10. (). Teaching undergraduate econometrics: A suggestion for fundamental change. The American Economic Review 88(2), 487-492.
  11. (). . . MIT press. .

ROTEIRO DE APLICAÇÃO DAS ATIVIDADES DE ENSINO DO MODELO CLÁSSICO DE REGRESSÃO LINAR POR MEIO DE SIMULAÇÃO DE MONTE CARLO

1 INTRODUÇÃO

Sugiro que a aplicação da atividade de simulação de Monte Carlo ocorra depois que os conteúdos relacionados a estimação, inferência estatística e análise de regressão linear simples e múltipla tenham sido trabalhados com os alunos. Deste modo, a base teórica estará pronta para ser acessada pelos alunos, e as atividades de simulação desempenharão um papel ilustrativo dos conceitos de forma mais efetiva.

Recomendo também que, antes da apresentação dos exercícios aqui apresentados, seja solicitado aos alunos a leitura da seção 2.10 do livro “A guide to econometrics”, de Peter Kennedy (Kennedy, 1998). A apresentação que o autor faz da estrutura de um estudo de Monte Carlo é exatamente a que foi utilizada para embasar as atividades aqui apresentadas.

O professor pode começar a aplicação da simulação de Monte Carlo apresentando aos alunos as situações problema que deverão ser investigadas. Uma possibilidade é apresentar aos alunos a tarefa de buscar respostas para seis perguntas, por meio do desenvolvimento de uma série de estudos de Monte Carlo. São elas:

  1. O que ocorre com a distribuição de amostragem dos estimadores βMQO quando usamos amostras de tamanho 20, 40 e 80 em uma regressão linear simples?

  2. Como a distribuição de amostragem do estimador β2MQO é afetada pela violação da premissa de homocedasticidade?

  3. Como as distribuições de amostragem dos estimadores βMQO são afetadas quando há violação da premissa de que os erros têm média zero?

  4. Como as distribuições de amostragem dos estimadores βMQO são afetadas quando há violação da premissa de que os erros seguem distribuição normal?

  5. Como a distribuição de amostragem do estimador β2MQO é afetada quando há um viés de omissão de variável?

  6. Como as distribuições de amostragem dos estimadores β2MQO e β3MQO são afetadas quando há violação de premissa de ausência de relações lineares exatas entre os regressores?

A busca das respostas para as perguntas deve se basear no processo sugerido por Kennedy (2003) para a realização de estudos de Monte Carlo. Deste modo, o professor pode resgatar com os alunos as etapas do processo, as quais são:

  1. Modelar o processo gerador de dados

  2. Gerar M conjuntos de dados

  3. Calcular os M valores de β ^

  4. Obter a distribuição amostral de β ^

  5. Analisar as propriedades da distribuição amostral de β ^

Já conhecendo o processo para construção da planilha de simulação, conforme descrito nas seções 3.1 e 3.2 do artigo, o professor pode conduzir os alunos na tarefa de, passo a passo, desenvolver as etapas do estudo de Monte Carlo. Por exemplo, o processo deve se iniciar com a definição dos valores dos parâmetros. Recomendo que o professor conduza a atividade de modo que o valor selecionado para β2 não seja muito elevado, preferencialmente entre 0 e 0,5, para permitir a visualização dos problemas relacionados aos testes de hipóteses, notadamente o erro tipo I e erro tipo II.

Posteriormente, deverão ser escolhidos os valores de X. Mais uma vez, o ideal é direcionar a escolha para apenas dois níveis de valores de X, para facilitar a análise das violações das premissas do modelo clássico de regressão, principalmente a de homocedasticidade e a de ausência de colinearidade entre os regressores. Uma justificativa que pode ser oferecida aos alunos para a adoção de apenas dois níveis de X é que, no contexto de causalidade, os dois níveis podem representar a ausência ou presença do tratamento.

Definidos os valores dos parâmetros e da variável independente X, a próxima etapa é construir uma formula que represente o processo gerador de Y. Neste momento, é necessário ressaltar o papel do termo de erro como responsável pela natureza do processo estocástico, e a função ALEATÓRIO do Excel deve surgir naturalmente na discussão. Construída a primeira realização dos valores de Y, a obtenção das demais 999 amostras deve ressaltar a questão dos valores de X serem fixos nas amostras repetidas. Ao final do processo, os alunos terão desenvolvido no computador a planilha contendo as 1.000 amostras contendo pares de dados (x,y).

A partir do momento em que as 1.000 amostras foram obtidas, o professor pode apresentar aos alunos as funções PROJ.LIN e ÍNDICE do Excel, de modo a obter as estimativas para os parâmetros e as estatísticas adicionais da regressão.

2 PROCESSO DE CONSTRUÇÃO DAS RESPOSTAS DAS PERGUNTAS DO TRABALHO

A primeira pergunta, “O que ocorre com a distribuição de amostragem dos estimadores βMQO quando usamos amostras de tamanho 20, 40 e 80 em uma regressão linear simples?”, envolve a análise do valor médio e do erro padrão dos estimadores β ^ 1 e β ^ 2 . Com base nas informações obtidas por meio da aplicação das fórmulas da Tabela 4 do caso de ensino, os alunos podem construir uma tabela semelhante à Tabela 1, a qual apresenta os resultados obtidos para a simulação de 1.000 regressões simples para três tamanhos de amostra.

Tabela 1:
Resultados da realização de 1.000 análises de regressão linear simples com três tamanhos de amostra diferentes
n= 20 n= 40 n= 80
F sig 560 864 990
E(b1) 51,583 48,584 49,096
ep(b1) 17,817 11,653 9,140
E(b2) 0,237 0,259 0,254
ep(b2) 0,113 0,072 0,058
b1 no IC 488 943 943
b2 no IC 955 948 944
b1 sig 758 970 1000
b2 sig 560 864 990

Fonte: Elaborado pelo autor.

Nota: Parâmetros do modelo Y= β 1 + β 2 X 1 +u :β1=50; β2=0,25

Deste modo, os alunos podem analisar o que ocorre com o valor esperado e com o erro padrão das estimativas conforme aumenta o tamanho da amostra, de modo a observar a tendência de aproximação do valor estimado para o verdadeiro valor do parâmetro, com variância decrescente conforme aumenta o tamanho da amostra. Tal tendência pode ser observada graficamente por meio da construção de um histograma a partir dos valores estimados para β ^ 2 , para os três tamanhos de amostra, conforme mostra a Figura 1.

Histograma representativo da distribuição amostral de β
 
 2
 
 
 MQO
 para diferentes tamanhos de amostra

Figura 5: Histograma representativo da distribuição amostral de β 2 MQO para diferentes tamanhos de amostra

Adicionalmente, a Tabela 1 permite observar que os testes F e t não são capazes de detectar a existência de relação linear entre Y e X em 44% dos casos quando n=20, conforme mostram a primeira e a última linha da Tabela 1. Por outro lado, a estimativa por intervalo de confiança para β 2 apresenta resultados consistentes com o nível de confiança estabelecido, conforme mostra a antepenúltima linha da Tabela 1. Deste modo, a análise se estende para além das propriedades da distribuição amostral dos estimadores, e passa a incluir também a questão do desempenho dos testes de hipóteses no que se refere ao erro tipo II.

Para o caso da regressão múltipla, primeiramente é necessário que os alunos pensem nas mudanças que são necessárias ao processo gerador de dados para permitir tanto a obtenção das amostras tal que Y= β 1 + β 2 X 1 + β 3 X 2 +u como também no processo de estimação dos parâmetros β ^ 2 e β ^ 3 . A seção 3.2 do artigo detalha a construção da planilha para realização da simulação das 1.000 amostras que serão utilizadas na regressão múltipla. O primeiro passo é escolher os valores de X 2 e β 3 . No que se refere à distribuição dos valores de os valores de X 2 na planilha, o professor pode deixar os alunos fazerem isso livremente. É comum que os alunos distribuam os valores de X 1 e X 2 de modo a resultar em uma correlação perfeita entre as variáveis, de modo que o Excel irá retornar o valor zero para a estimativa de um dos betas. Tal situação representa uma oportunidade interessante para iniciar a discussão do problema da multicolinearidade, mesmo que esta violação seja explorada mais adiante apenas.

Conforme os alunos construírem o entendimento de que X 1 e X 2 devem ser não correlacionados, o trabalho prossegue conforme descrito na seção 3.2 do artigo, poderão ser construídas tabelas como a Tabela 2, que apresenta os resultados do processo de estimação da regressão múltipla (Aplicação 2 do artigo).

Tabela 2:
Resultados da realização de 1.000 análises de regressão linear múltipla, para três tamanhos de amostra diferentes e sem correlação entre os regressores
n= 20 n= 40 n= 80
ρ X1 X2 = 0 ρ X1 X2 = 0 ρ X1 X2 = 0 /
F sig 788 996 1000
E(b2) 0,263 0,248 0,246
ep(b2) 0,091 0,072 0,058
E(b3) 0,356 0,345 0,352
ep(b3) 0,145 0,101 0,065
b2 no IC 951 960 953
b3 no IC 954 958 951
b2 sig 587 867 993
b3 sig 639 948 998
r2 ajust 0,356 0,357 0,360

Fonte: Elaborado pelo autor.

Nota: Parâmetros do modelo Y= β 1 + β 2 X 1 + β 3 X 2 +u : β1=50; β2=0,25; β3=0,35

Conforme se observa na primeira coluna da Tabela 2, o uso de amostras pequenas (n=20) prejudica sensivelmente a potência dos testes de hipóteses, pois em apenas 58,7% dos casos rejeita-se a hipótese nula de que β2 é diferente de zero. Para o caso de β3, em apenas 63,9% dos casos o teste t rejeitou a hipótese nula de que o valor do parâmetro é zero. Os resultados dos testes melhoram significativamente conforme o tamanho da amostra aumenta para 40 e depois para 80. De modo semelhante à Tabela 1, ao observar o valor esperado e o erro padrão das estimativas dos parâmetros é possível observar que o valor esperado se aproxima cada vez mais dos valores verdadeiros 0,25 e 0,35.

Para responder à segunda pergunta, “Como a distribuição de amostragem do estimador β2MQO é afetada pela violação da premissa de homocedasticidade?” é importante fazer os alunos refletirem a respeito de quais alterações serão necessárias no processo gerador de dados, notadamente no termo de erro. A sugestão é que o professor peça aos alunos sugestões a respeito de como a variância do termo de erro pode tornar-se heterocedástica.

Uma sugestão apresentada aqui é fazer com que o desvio padrão do erro quando x=200 seja duas vezes maior que quando x=100, na planilha de regressão simples. A análise continua sendo desenvolvida para três tamanhos de amostra, n=20, n=40 e n=80. Assim, de posse das novas estimações e resultados dos testes de hipóteses, pode ser construída uma tabela semelhante à Tabela 3.

Tabela 3:
Resultados da realização de 1.000 análises de regressão linear simples, em condições de erros homocedásticos e heterocedásticos
Erros homocedásticos Erros heterocedásticos
n= 20 n= 40 n= 80 n= 20 n= 40 n= 80
F sig 560 864 990 262 503 794
E(b1) 51,583 48,584 49,096 50,746 49,713 50,064
ep(b1) 17,817 11,653 9,140 21,786 16,133 10,570
E(b2) 0,237 0,259 0,254 0,241 0,252 0,249
ep(b2) 0,113 0,072 0,058 0,173 0,127 0,085
b1 no IC 488 943 943 512 985 986
b2 no IC 955 948 944 955 952 955
b1 sig 758 970 1000 389 705 978
b2 sig 560 864 990 262 503 794

Fonte: Elaborado pelo autor.

Nota: Parâmetros do modelo Y= β 1 + β 2 X 1 +u : β1=50; β2=0,25

Ao analisar as linhas E(b2) e ep(b2) da Tabela 3, os alunos poderão observar que, conforme alguns livros apontam (por exemplo, Wooldridge, 2009), a heterocedasticidade não causa viés ou inconsistência nos estimadores de mínimos quadrados. Entretanto, o comportamento do erro padrão do estimador β2MQO (linha ep(b2) na Tabela 3) mostra que, na presença de heterocedasticidade, a variância do estimador passa a ser viesada, o que impacta na construção dos intervalos de confiança e na obtenção das estatísticas de teste. A estatística t usualmente empregada para o teste de hipótese dos parâmetros, que é baseada no erro padrão dos estimadores, não irá mais seguir a distribuição t na presença de heterocedasticidade, e este problema não é resolvido aumentando o tamanho da amostra (Wooldridge, 2009). De modo similar, a estatística F da regressão não seguirá a distribuição F. Em síntese, as estatísticas usadas para os testes de hipóteses não são válidas na presença de heterocedasticidade. A primeira e a última linha da Tabela 3 ilustram esta situação, pois os testes de hipóteses perdem confiabilidade.

Para responder à questão 3, “Como as distribuições de amostragem dos estimadores βMQO são afetadas quando há violação da premissa de que os erros têm média zero?” também será necessário alterar os parâmetros do termo de erro na função geradora dos valores de Y. O último termo da função descrita na Tabela 2 do artigo pode passar a ser INV.NORM.N(ALEATÓRIO();5;$D$1) ao invés de INV.NORM.N(ALEATÓRIO();0;$D$1). Posteriormente, os alunos podem construir uma tabela semelhante à Tabela 1 aqui apresentada, e ficará evidente que quando o termo de erro tem média diferente de zero, apenas a estimação do parâmetro β1 é prejudicada.

Para investigar questão quatro, “Como as distribuições de amostragem dos estimadores βMQO são afetadas quando há violação da premissa de que os erros seguem distribuição normal?”, o professor pode questionar aos alunos qual modificação deve ser feita no processo gerador de dados que possibilite a investigação. Como sugestão, recomendo modelar os erros como sendo extraídos de uma distribuição uniforme em [a,b]. No caso, os valores de a e b devem ser simétricos, de modo a resultar em um termo de erro com média zero, e também devem ser escolhidos de modo a produzir um termo de erro com variância não muito diferente de 625, de modo a garantir a comparabilidade.

No caso da adoção de uma termo de erro extraído de uma distribuição uniforme, o último termo da função geradora de Y seria a+(b-a)*ALEATÓRIO() ao invés de INV.NORM.N(ALEATÓRIO();0;$D$1). Por exemplo, para fazer o termo de erro ser extraído de uma distribuição uniforme no intervalo [-50,50] a função geradora de Y descrita na Tabela 2 do artigo de ensino teria a fórmula $D$2+$D$3*A6+(-50)+(100)*ALEATÓRIO().

Conforme Wooldridgre (2009) destaca, a normalidade dos estimadores de mínimos quadrados ordinários depende crucialemente da normalidade da distribuição do termo de erro u. Se os erros para cada observação são extraídos a partir de outra distribuição que não a normal, as estatísticas de teste t e F não seguirão as respectivas distribuições de probabilidade. Este problema pode afetar seriamente os resultados dos valores-p que são obtidos usando tais distribuições (Wooldridge, 2009). A Tabela 4 exibe as informações obtidas com a estimação dos parâmetros β1 e β2 em situações em que os erros são normais (três primeiras colunas) e não normais (três ultimas colunas), para diferentes tamanhos de amostra.

Tabela 4:
Resultados da realização de 1.000 análises de regressão linear simples, em condições de erros normais e não normais
Erros normais Erros não normais
n= 20 n= 40 n= 80 n= 20 n= 40 n= 80
F sig 575 861 990 429 759 972
E(b1) 50,589 50,199 50,686 49,677 49,714 50,542
ep(b1) 17,584 12,800 8,943 20,836 14,137 9,912
E(b2) 0,244 0,253 0,249 0,252 0,251 0,248
ep(b2) 0,112 0,082 0,057 0,131 0,088 0,063
b1 no IC 459 951 953 468 955 958
b2 no IC 949 946 947 950 964 952
b1 sig 744 971 1000 926 926 1000
b2 sig 575 861 990 429 759 972

Fonte: Elaborado pelo autor.

Nota: Parâmetros do modelo Y= β 1 + β 2 X 1 +u : β1=50; β2=0,25

Conforme a Tabela 4 permite observar, o estimador de β2 continua não viesado e consistente (ver as linhas E(b2) e ep(b2)). Já a última linha permite observar que o desempenho dos testes de hipótese para β2 é pior quando os erros são não normais e as amostras pequenas, mas o problema praticamente deixa de existir quando o tamanho da amostra é 80. Tal situação pode ser usada pelo professor para ilustrar a operação do Teorema do Limite Central.

A questão 5 solicita aos alunos a análise do efeito do viés de omissão de variáveis no processo de estimação. É importante conduzir o estudo da questão 5 em duas circunstâncias: (1) a correlação entre X1 e X2 é zero e (2) quando a correlação entre X1 e X2 é diferente de zero (no caso, foi escolhido o valor 0,4). As mudanças que devem ser introduzidas na planilha nesta etapa possivelmente são mais sofisticadas e mais difíceis para os alunos alcançarem sozinhos, uma vez que é necessário gerar os valores de Y em função de X1 e X2, mas deve-se estimar os parâmetros de um modelo de regressão simples, Y= β 1 + β 2 X 1 +u .

Wooldridge (2009) argumenta que a omissão de uma variável relevante que seja correlacionada a qualquer um dos regressores faz com que seja violada a premissa de que o erro não tem correlação com nenhum dos regressores, e introduz um viés na estimação dos parâmetros. Entretanto, se a variável relevante omitida não for correlacionada a nenhum regressor no modelo, os estimadores de mínimos quadrados permanecem não enviesados (Wooldridge, 2009).

Deste modo, para efeito de aprendizagem, sugiro que a análise da omissão de variáveis no processo de estimação seja desenvolvida da seguinte maneira: (1) os valores de Y continuam sendo gerados pela função β 1 + β 2 X 1 + β 3 X 2 +u ; (2) os valores de X1 e X2 na amostra continuam sendo x11=100, x12=200, x21=80 e x22=160; (3) uma planilha será construída com os valores de X1 e X2 sendo distribuídos de tal forma que a correlação entre as variáveis seja zero e outra planilha será construída com os valores de X1 e X2 sendo distribuídos de tal forma que a correlação entre as variáveis seja 0,4; (4) a estimação se dará, nas duas planilhas, por meio do modelo incompleto Y= β 1 + β 2 X 1 +u .

A partir dos resultados das estimações, pode ser construída uma tabela semelhante à Tabela 5 a seguir, que exibe o resultado da estimação dos parâmetros do modelo incompleto Y= β 1 + β 2 X 1 +u , o qual omite a variável relevante X2.

Tabela 5:
Resultados da realização de 1.000 análises de regressão linear do modelo incompleto Y= β 1 + β 2 X 1 +u para diferentes tamanhos de amostra e correlações entre X 1 e a variável omitida X 2
ρ X1 X2 = 0 ρ X1 X2 = 0,4
n= 20 n= 40 n= 80 n= 20 n= 40 n= 80
F sig 422 791 984 793 989 1000
E(b1) 90,755 90,607 92,294 74,811 75,938 75,328
ep(b1) 17,264 12,571 8,324 16,965 14,010 9,488
E(b2) 0,254 0,259 0,248 0,363 0,351 0,359
ep(b2) 0,114 0,078 0,054 0,106 0,089 0,062
b1 no IC 509 148 7 817 632 255
b2 no IC 976 973 980 914 804 599
b1 sig 992 1000 1000 955 999 1000
b2 sig 422 791 984 793 989 1000
r2 0,187 0,175 0,166 0,309 0,307 0,297

Fonte: Elaborado pelo autor.

Nota: Parâmetros do modelo Y= β 1 + β 2 X 1 + β 3 X 2 +u : β1=50; β2=0,25; β3=0,35 (omitido)

Por fim, a sexta questão, “O que ocorre com a distribuição de amostragem do estimador βMQO quando há violação de premissa de ausência de relações lineares exatas entre os regressores?”, foi elaborada para permitir aos alunos compreenderem na prática o impacto da multicolinearidade na análise de regressão múltipla. Wooldridge (2009) afirma que a existência de relação linear forte entre X1 e X2 pode levar a um grande aumento na variância dos estimadores de inclinação β ^ i MQO. Gujarati e Porter (2009) demonstram que a existência de relação linear forte entre X 1 e X 2 torna difícil avaliar o efeito de X 1 em Y, mantendo X 2 constante, e vice versa. Os autores também afirmam que a multicolinearidade reduz a precisão e a exatidão da estimativa dos coeficientes de inclinação, pois seu erro padrão aumenta muito em comparação ao próprio valor dos coeficientes.

Na aplicação das atividades de ensino desenvolvidas aqui, sugere-se que as análises de regressão múltipla sejam realizadas em três condições: ρ X1 X2 = 0; ρ X1 X2 = 0,4 e ρ X1 X2 = 0,8. As alterações necessárias na planilha envolvem as distribuições dos valores de X 1 e X 2 nas amostras. Por exemplo, se X 1 e X 2 assumem dois valores, x 11 =100, x 12 =200, x 21 =80 e x 22 =160. A Tabela 6 a seguir ilustra as possíveis distribuições de 20 realizações de X 1 e X 2 para três níveis de correlação diferentes.

Tabela 6:
Distribuições possíveis para X 1 e X 2 com diferentes níveis de correlação
ρ X1 X2 = 0 ρ X1 X2 = 0,4 ρ X1 X2 = 0,8
X 1 X 2 X 1 X 2 X 1 X 2
100 80 100 80 100 80
100 80 100 80 100 80
100 80 100 80 100 80
100 80 100 80 100 80
100 80 100 80 100 80
100 160 100 80 100 80
100 160 100 80 100 80
100 160 100 160 100 80
100 160 100 160 100 80
100 160 100 160 100 160
200 80 200 80 200 80
200 80 200 80 200 160
200 80 200 80 200 160
200 80 200 160 200 160
200 80 200 160 200 160
200 160 200 160 200 160
200 160 200 160 200 160
200 160 200 160 200 160
200 160 200 160 200 160
200 160 200 160 200 160

Fonte: Elaborado pelo autor.

A partir das distribuições apresentadas na Tabela 6, e estendendo-as para tamanhos de amostra iguais a 40 a 80 observações, o processo de análise é semelhante ao realizado anteriormente. Obtém-se as 1.000 amostras para cada condição, são estimados os parâmetros e obtidos as estatísticas de regressão e os resultados dos testes de hipóteses. Com tais resultados em mãos, pode ser construída uma tabela semelhante à Tabela 7, sintetiza os resultados obtidos.

Tabela 7:
Resultados da realização de 1.000 análises de regressão linear múltipla para diferentes tamanhos de amostra e correlações entre X1 e X2
ρ X1 X2 = 0 ρ X1 X2 = 0,4 ρ X1 X2 = 0,8
n= 20 n= 40 n= 80 n= 20 n= 40 n= 80 n= 20 n= 40 n= 80
F sig 788 996 1000 899 999 1000 971 1000 1000
E(b2) 0,263 0,248 0,236 0,233 0,256 0,254 0,258 0,251 0,265
ep(b2) 0,091 0,072 0,058 0,120 0,080 0,061 0,176 0,126 0,078
E(b3) 0,356 0,345 0,362 0,355 0,360 0,353 0,342 0,355 0,343
ep(b3) 0,145 0,101 0,065 0,153 0,122 0,073 0,217 0,165 0,102
b2 no IC 951 960 953 960 958 949 948 944 947
b3 no IC 954 958 951 953 952 957 937 945 949
b2 sig 587 867 993 499 810 982 251 433 762
b3 sig 639 948 998 590 892 997 283 550 827
r2 ajust 0,356 0,357 0,360 0,436 0,437 0,439 0,504 0,503 0,505

Fonte: Elaborado pelo autor.

Nota: Parâmetros do modelo Y= β 1 + β 2 X 1 + β 3 X 2 +u : β 1 =50; β 2 =0,25; β 3 =0,35

A análise da Tabela 7 permite observar uma série de efeitos derivados da multicolinearidade. Por exemplo, o erro padrão dos estimadores aumenta com a correlação entre X 1 e X 2 . As linhas b2 sig e b3 sig na tabela mostra que probabilidade de erro tipo II no teste de hipóteses relativo as coeficientes aumenta com a correlação entre X 1 e X 2 . Quando n=20 e a correlação entre as variáveis é 0,8, em menos de 30% das amostras o teste rejeitou a hipótese nula de que os coeficientes são iguais a zero. Ao mesmo tempo, o teste F indica em 97,1% das amostras que pelo menos um dos coeficientes é diferente de zero, e o R 2 ajustado médio foi de 0,504, bem maior que o valor 0,356 observado no caso em que n=20 e a correlação entre as variáveis é 0.

Encerra-se aqui o roteiro de aplicação do artigo “O ensino do modelo clássico de regressão linear por meio de simulação de Monte Carlo”. As seis questões apresentadas no presente roteiro e o detalhamento do uso da simulação de Monte Carlo para buscar respostas às questões demonstram o potencial da ferramenta para o ensino de Econometria Básica.

REFERÊNCIAS

  1. , (). . . McGraw-Hill International Edition. .
  2. (). . . Canada: South-Western Cengage Learning. .