Estudo sobre Construção de Escalas com Base na Teoria da Resposta ao Item: Avaliação de Pro�ciência em Conteúdos Matemáticos Básicos. Tânia Robaskiewicz Coneglian Fujii Orientadora: Prof. Dra. Aparecida Donizete Pires de Souza Coorientadora: Prof. Dra. Mariana Curi Programa: Matemática Aplicada e Computacional Presidente Prudente, maio de 2018 UNIVERSIDADE ESTADUAL PAULISTA Faculdade de Ciências e Tecnologia de Presidente Prudente Programa de Pós-Graduação em Matemática Aplicada e Computacional Estudo sobre Construção de Escalas com Base na Teoria da Resposta ao Item: Avaliação de Pro�ciência em Conteúdos Matemáticos Básicos. Tânia Robaskiewicz Coneglian Fujii Orientadora: Prof. Dra. Aparecida Donizete Pires de Souza Coorientadora: Prof. Dra. Mariana Curi Dissertação apresentada ao Programa de Pós-graduação em Matemática Aplicada e Computacional da Faculdade de Ciências e Tecnologia da UNESP, para a obtenção do título de mestre em Matemática Aplicada e Computacional, sob orientação da Prof. Dra. Aparecida Donizete Pires de Souza. Presidente Prudente, maio de 2018 Ao meu querido e amado tesouro, Heliomar. Agradecimentos Agradeço em primeiro lugar a Deus, por me fazer forte e perseverante e me manter sempre �rme nas horas difíceis. A todos os meus familiares, meus pais, meu irmão, meus cunhados, cunhadas, sobri- nhos, minha sogra, pelo apoio incondicional e compreensão pelas minhas ausências por conta da dedicação aos estudos. Agradeço especialmente ao meu querido esposo, meu �tesouro�, por sonhar meus so- nhos, pelo apoio, incentivo e compreensão sempre. A todos os professores que tive durante o mestrado, pelo aprendizado, pelo apoio e incentivo. Agradeço em especial a minha orientadora professora Dra Aparecida Donizete Pires de Souza, pela orientação, compreensão e por acreditar em mim. A professora Monica Furkotter, por toda sua contribuição para o trabalho. A todos os professores do departamento de Matemática e Computação da FCT/UNESP que também contribuíram. A professora Dra Mariana Curi, pela colaboração como coorientadora neste trabalho. Ao professor Dr Adriano Ferreti Borgatto, por sua grande colaboração, pelas sugestões e por ser sempre tão gentil e disposto a ajudar. Agradeço a todos os amigos que �z durante essa jornada, em especial as � meninas do posMAC�, minhas queridas Clícia, Débora, Karlla e Thais, amizades que vou levar para sempre em meu coração, mesmo que nossos caminhos nos distanciem umas das outras. Ao meu amigo Enrico, que sempre me deu incentivo, acreditando que sou capaz mesmo eu muitas vezes não acreditando. A CAPES pelo apoio �nanceiro. �Lute com determinação, abrace a vida com paixão, perca com classe e vença com ousadia, porque o mundo pertence a quem se atreve e a vida é muito bela para ser insigni�cante.� Charles Chaplin Resumo Neste trabalho realizou-se um estudo sobre construção de escalas, com base na Teoria da Resposta ao Item (TRI), resultando na construção e interpretação pedagógica de uma escala de conhecimento para medir a pro�ciência em conteúdos matemáticos, necessá- rios para o acompanhamento das disciplinas de cálculo e similares dos ingressantes nos cursos da área de exatas. O modelo matemático adotado nesta pesquisa foi o logístico unidimensional de três parâmetros. A estimação dos parâmetros dos itens e das pro�- ciências dos respondentes foi feita sob enfoque bayesiano, utilizando-se o amostrador de Gibbs, algoritmo da classe dos Métodos de Monte Carlo via Cadeia de Markov (MCMC), implementado via software OpenBUGS (Bayesian inference Using Gibbs Sampling), dire- cionado para análise bayesiana de modelos complexos. O software BILOG-MG também foi utilizado para comparação dos resultados. O instrumento utilizado para a medida do conhecimento consistiu em uma prova composta por trinta e seis itens de múltipla escolha, cada um com cinco alternativas, sendo somente uma a correta. Os itens foram elaborados com base em uma matriz de referência construída para este �m, dividida em três temas, sendo estes �espaço e forma�, �grandezas e medidas� e �números e operações/álgebra e funções�. Cada tema é composto por competências e cada competência descreve uma ha- bilidade que se deseja medir. Para a construção da escala proposta, optou-se por adotar uma escala com média 250 e desvio padrão 50. Nesta escala foram selecionados níveis para serem interpretados em um intervalo de 75 a 425. Para interpretação da escala proposta, foram comparados alguns métodos de posicionamento de itens âncora nos níveis seleciona- dos. Buscando a interpretação da escala, em toda a sua amplitude, optou-se por utilizar a análise de agrupamentos hierárquicos para segmentar a escala em grupos, ou seja, em faixas de pro�ciência. A escala foi dividida em cinco grupos, cada grupo caracterizado com base nos itens posicionados como âncora, a partir de suas probabilidades de resposta correta e de seus valores para o parâmetro de discriminação. Embora os resultados sejam consistentes, apontam para a necessidade de um processo contínuo de aprimoramento do banco de questões e da escala de pro�ciência. Palavras-Chave: Teoria da Resposta ao Item; Pro�ciência em Conteúdos Matemáticos Básicos; Inferência Bayesiana; Segmentação da Escala. Abstract In this work, a study was carried out on the construction of scales, based on the Item Response Theory (IRT), resulting in the construction and pedagogical interpretation of a scale of knowledge to measure the pro�ciency in mathematical contents, necessary for the follow-up of Calculus and similar subjects of the students in the courses of the Exact Sciences Area. The mathematical model adopted in this research was the three parameters one-dimensional logistic. The parameters estimation of the items and pro�ciencies of the respondents was done using a Bayesian approach using the Gibbs sampler, Monte Carlo Methods via Markov Chain algorithm (MCMC), implemented using OpenBUGS software (Bayesian inference Using Gibbs Sampling), directed to Bayesian analysis of complex models. The BILOG-MG software was also used to compare the results. The instrument used for the measurement of knowledge consisted of a test composed of thirty-six multiple choice items, each with �ve alternatives, with only one correct. The items were elaborated based on a reference matrix constructed for this purpose, divided in three themes, being these �space and form�, �quantities and measures� and �numbers and operations/ algebra and functions�. Each subject is composed of competencies and each competency describes a skill that one wishes to measure. In order to construct the proposed scale, we chose to adopt a scale with a mean of 250 and standard deviation of 50. In this scale, we selected levels to be interpreted in a range of 75 to 425. For the interpretation of the proposed scale, some methods of positioning anchor items at the selected levels were compared. In order to interpret the scale in all its amplitude, it was decided to use hierarchical groupings analysis to segment the scale into groups, that is, in skill bands. The scale was divided into �ve groups, each group was characterized based on the items positioned as anchor, from their correct response probabilities and their values for the discrimination parameter. Although the results are consistent, they point to the need for an ongoing upgrading process of questions bank and pro�ciency scale. Keywords: Item Response Theory; Pro�ciency in Basic Mathematical Content; Bayesian Inference; Scale Segmentation. . Lista de Figuras 3.1 Exemplo de uma curva característica do item - CCI. . . . . . . . . . . . . . 41 3.2 Exemplos de curva característica do item com valores diferentes para o parâmetro de discriminação. . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Exemplos de curva característica do item com valores diferentes para o parâmetro de di�culdade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.1 Relação entre o número de acertos e número de indivíduos. . . . . . . . . . 76 4.2 CCI's para os 34 itens considerados. . . . . . . . . . . . . . . . . . . . . . . 78 4.3 Curvas características dos itens 1 e 25. . . . . . . . . . . . . . . . . . . . . 79 4.4 Curvas características dos itens 3 e 36. . . . . . . . . . . . . . . . . . . . . 79 4.5 Curvas de informação dos itens. . . . . . . . . . . . . . . . . . . . . . . . . 80 4.6 Curva de informação e curva característica do item 36. . . . . . . . . . . . 80 4.7 Curva de informação do teste. . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.8 Relação entre números de acertos e pro�ciências estimadas. . . . . . . . . . 81 4.9 Posicionamento dos itens âncora nos níveis âncora da escala representados por réguas, de acordo com o sugerido por Beaton e Allen (1992) e baseados nos procedimentos utilizado pelo SAEB e SARESP. . . . . . . . . . . . . . 86 4.10 Dendograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 D.1 Curva característica e curva de informação do item 2 . . . . . . . . . . . . 119 D.2 Curva característica e curva de informação do item 3 . . . . . . . . . . . . 120 D.3 Curva característica e curva de informação do item 4 . . . . . . . . . . . . 120 D.4 Curva característica e curva de informação do item 5 . . . . . . . . . . . . 121 D.5 Curva característica e curva de informação do item 6 . . . . . . . . . . . . 121 D.6 Curva característica e curva de informação do item 7 . . . . . . . . . . . . 122 D.7 Curva característica e curva de informação do item 8 . . . . . . . . . . . . 122 D.8 Curva Característica e curva de informação do item 9 . . . . . . . . . . . . 123 D.9 Curva característica e curva de informação do item 10 . . . . . . . . . . . . 123 D.10 Curva característica e curva de informação do item 11 . . . . . . . . . . . . 124 D.11 Curva característica e curva de informação do item 12 . . . . . . . . . . . . 124 D.12 Curva característica e curva de informação do item 13 . . . . . . . . . . . . 125 D.13 Curva característica e curva de informação do item 14 . . . . . . . . . . . . 125 D.14 Curva característica e curva de informação do item 15 . . . . . . . . . . . . 126 D.15 Curva característica e curva de informação do item 16 . . . . . . . . . . . . 126 D.16 Curva característica e curva de informação do item 17 . . . . . . . . . . . . 127 D.17 Curva característica e curva de informação do item 18 . . . . . . . . . . . . 127 D.18 Curva característica e curva de informação do item 19 . . . . . . . . . . . . 128 D.19 Curva característica e curva de informação do item 20 . . . . . . . . . . . . 128 D.20 Curva característica e curva de informação do item 21 . . . . . . . . . . . . 129 D.21 Curva característica e curva de informação do item 22 . . . . . . . . . . . . 129 11 LISTA DE FIGURAS 12 D.22 Curva característica e curva de informação do item 23 . . . . . . . . . . . . 130 D.23 Curva característica e curva de informação do item 24 . . . . . . . . . . . . 130 D.24 Curva característica e curva de informação do item 25 . . . . . . . . . . . . 131 D.25 Curva característica e curva de informação do item 26 . . . . . . . . . . . . 131 D.26 Curva característica e curva de informação do item 27 . . . . . . . . . . . . 132 D.27 Curva característica e curva de informação do item 28 . . . . . . . . . . . . 132 D.28 Curva característica e curva de informação do item 29 . . . . . . . . . . . . 133 D.29 Curva característica e curva de informação do item 31 . . . . . . . . . . . . 133 D.30 Curva característica e curva de informação do item 32 . . . . . . . . . . . . 134 D.31 Curva característica e curva de informação do item 33 . . . . . . . . . . . . 134 D.32 Curva característica e curva de informação do item 34 . . . . . . . . . . . . 135 D.33 Curva característica e curva de informação do item 35 . . . . . . . . . . . . 135 D.34 Curva característica e curva de informação do item 36 . . . . . . . . . . . . 136 Lista de Quadros 4.1 Relação dos itens que foram acrescentados e modi�cados para atual proposta de prova. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2 Descrição da escala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 2.1 Tema I: Espaço e Forma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .133 2.2 Tema II: Grandezas e Medidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 2.3 Tema III: Números e Operações/ Álgebra e Funções. . . . . . . . . . . . . . . . . . 133 13 Lista de Tabelas 1.1 Nível de Pro�ciência em Matemática dos alunos do 3o ano do Ensino Médio (SARESP 2016). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.1 Número mínimo, média e máximo de acertos por sala para cada curso avaliado de um total de 35 itens considerados. . . . . . . . . . . . . . . . . 74 4.2 Número de acertos, de respostas ausentes, total de respostas e percentual de acerto para cada item considerado de 277 respondentes. . . . . . . . . . 75 4.3 Estimativas para os parâmetros ai de discriminação, bi de di�culdade e ci de acerto ao acaso e seus respectivos intervalos de credibilidade (IC) de 95%. 77 4.4 Probabilidade de resposta correta para cada um dos itens considerados, condicionada ao nível de pro�ciência na escala intercalados por um desvio padrão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.5 Probabilidade de resposta correta para cada um dos itens considerados, condicionada ao nível de pro�ciência na escala intercalados por meio desvio padrão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.6 Probabilidade de resposta correta para cada um dos itens considerados, condicionada ao nível de pro�ciência na escala intercalados por meio desvio padrão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.7 Número de grupos selecionados, intervalo da escala para cada grupo, por- centagem de alunos em cada grupo e o número de itens âncora posicionados. 87 4.8 Número de grupos selecionados, intervalo da escala para cada grupo, por- centagem de alunos em cada grupo e o número de itens âncora posicionados. 87 4.9 Probabilidade de resposta correta para cada um dos itens considerados nos níveis selecionados pertencentes ao grupo 1. . . . . . . . . . . . . . . . . . 89 4.10 Probabilidade de resposta correta para cada um dos itens considerados nos níveis selecionados pertencentes ao grupo 2. . . . . . . . . . . . . . . . . . 90 4.11 Probabilidade de resposta correta para cada um dos itens considerados nos níveis selecionados pertencentes ao grupo 3. . . . . . . . . . . . . . . . . . 91 4.12 Probabilidade de resposta correta para cada um dos itens considerados nos níveis selecionados pertencentes ao grupo 4. . . . . . . . . . . . . . . . . . 92 4.13 Probabilidade de resposta correta para cada um dos itens considerados nos níveis selecionados pertencentes ao grupo 5. . . . . . . . . . . . . . . . . . 93 4.14 Nome atribuído para cada grupo de acordo com a divisão da escala. . . . . 94 C.1 Número de acertos e pro�ciência por indivíduo na escala (250,50). . . . . . 115 D.1 Gabarito, percentuais de resposta e parâmetros do item 2. . . . . . . . . . 119 D.2 Gabarito, percentuais de resposta e parâmetros do item 3. . . . . . . . . . 119 D.3 Gabarito, percentuais de resposta e parâmetros do item 4. . . . . . . . . . 120 D.4 Gabarito, percentuais de resposta e parâmetros do item 5. . . . . . . . . . 120 D.5 Gabarito, percentuais de resposta e parâmetros do item 6. . . . . . . . . . 121 15 LISTA DE TABELAS 16 D.6 Gabarito, percentuais de resposta e parâmetros do item 7. . . . . . . . . . 121 D.7 Gabarito, percentuais de resposta e parâmetros do item 8. . . . . . . . . . 122 D.8 Gabarito, percentuais de resposta e parâmetros do item 9. . . . . . . . . . 122 D.9 Gabarito, percentuais de resposta e parâmetros do item 10. . . . . . . . . . 123 D.10 Gabarito, percentuais de resposta e parâmetros do item 11. . . . . . . . . . 123 D.11 Gabarito, percentuais de resposta e parâmetros do item 12. . . . . . . . . . 124 D.12 Gabarito, percentuais de resposta e parâmetros do item 13. . . . . . . . . . 124 D.13 Gabarito, percentuais de resposta e parâmetros do item 14. . . . . . . . . . 125 D.14 Gabarito, percentuais de resposta e parâmetros do item 15. . . . . . . . . . 125 D.15 Gabarito, percentuais de resposta e parâmetros do item 16. . . . . . . . . . 126 D.16 Gabarito, percentuais de resposta e parâmetros do item 17. . . . . . . . . . 126 D.17 Gabarito, percentuais de resposta e parâmetros do item 18. . . . . . . . . . 127 D.18 Gabarito, percentuais de resposta e parâmetros do item 19. . . . . . . . . . 127 D.19 Gabarito, percentuais de resposta e parâmetros do item 20. . . . . . . . . . 128 D.20 Gabarito, percentuais de resposta e parâmetros do item 21. . . . . . . . . . 128 D.21 Gabarito, percentuais de resposta e parâmetros do item 22. . . . . . . . . . 129 D.22 Gabarito, percentuais de resposta e parâmetros do item 23. . . . . . . . . . 129 D.23 Gabarito, percentuais de resposta e parâmetros do item 24. . . . . . . . . . 130 D.24 Gabarito, percentuais de resposta e parâmetros do item 25. . . . . . . . . . 130 D.25 Gabarito, percentuais de resposta e parâmetros do item 26. . . . . . . . . . 131 D.26 Gabarito, percentuais de resposta e parâmetros do item 27. . . . . . . . . . 131 D.27 Gabarito, percentuais de resposta e parâmetros do item 28. . . . . . . . . . 132 D.28 Gabarito, percentuais de resposta e parâmetros do item 29. . . . . . . . . . 132 D.29 Gabarito, percentuais de resposta e parâmetros do item 31. . . . . . . . . . 133 D.30 Gabarito, percentuais de resposta e parâmetros do item 32. . . . . . . . . . 133 D.31 Gabarito, percentuais de resposta e parâmetros do item 33. . . . . . . . . . 134 D.32 Gabarito, percentuais de resposta e parâmetros do item 34. . . . . . . . . . 134 D.33 Gabarito, percentuais de resposta e parâmetros do item 35. . . . . . . . . . 135 D.34 Gabarito, percentuais de resposta e parâmetros do item 36. . . . . . . . . . 135 Lista de Siglas ANA: Avaliação Nacional da Alfabetização. ANAEB: Avaliação Nacional da Educação Básica. ANRESC: Avaliação Nacional do Rendimento Escolar. BIB: Blocos Incompletos Balanceados. BUGS: Bayesian inference Using Gibbs Sampling. CCI: Curva Característica do Item. EAP: Expected a Posteriori. EF: Ensino Fundamental. EM: Ensino Médio. EMV: Estimador de Máxima Verossimilhança. ENEM: Exame Nacional do Ensino Médio. IDEB: Índice de Desenvolvimento da Educação Básica. INEP: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. MCMC: Métodos de Monte Carlo via Cadeias de Markov. MEC: Ministério da Educação. ML1: Modelo Logístico de 1 Parâmetro. ML2: Modelo Logístico de 2 Parâmetros. ML3: Modelo Logístico de 3 parâmetros. MV: Máxima Verossimilhança. MVC: Máxima Verossimilhança Conjunta. MVM: Máxima Verossimilhança Marginal. PDE: Plano de Desenvolvimento da Educação. SAEB: Sistema de Avaliação da Educação Básica. SEE/SP: Secretaria da Educação do Estado de São Paulo. SARESP: Sistema de Avaliação de Rendimento Escolar do Estado de São Paulo. TCT: Teoria Clássica de Testes. TRI: Teoria da Resposta ao Item. 17 Sumário Resumo 7 Abstract 9 Lista de Figuras 11 Lista de Quadros 13 Lista de Tabelas 15 Lista de Siglas 17 Capítulos 1 Introdução 21 1.1 Construção de Escalas para Avaliação de Pro�ciência com base na Teoria da Resposta de Item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.2 Teoria da Resposta ao Item . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3 Construção e Interpretação da Escala para a Avaliação da Pro�ciência em Conteúdos Matemáticos Básicos . . . . . . . . . . . . . . . . . . . . . . . . 23 1.4 Apresentação da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2 Construção de Escalas para Avaliação de Pro�ciências 25 2.1 Sistemas Brasileiros de Avaliação em Larga Escala . . . . . . . . . . . . . . 25 2.1.1 A Organização do SAEB . . . . . . . . . . . . . . . . . . . . . . . . 26 2.1.2 A Organização do ENEM . . . . . . . . . . . . . . . . . . . . . . . 28 2.1.3 A Organização do SARESP . . . . . . . . . . . . . . . . . . . . . . 29 2.2 A Escala de Pro�ciência da TRI . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1 Construção das Escalas de Pro�ciência do SAEB . . . . . . . . . . 32 2.2.2 Construção da Escala de Pro�ciência do ENEM . . . . . . . . . . . 34 2.2.3 Construção das Escalas de Pro�ciência do SARESP . . . . . . . . . 35 2.3 Proposta para Construção da Escala a partir de sua Segmentação . . . . . 36 3 Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Pa- râmetros 37 3.1 Modelos Matemáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.2 O Modelo Logístico Unidimensional de três Parâmetros (ML3) . . . . . . . 39 3.2.1 Curva Característica do Item - CCI: Interpretação e Representação Grá�ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.2.2 Função de Informação do Item . . . . . . . . . . . . . . . . . . . . . 43 3.2.3 Função de Informação do Teste . . . . . . . . . . . . . . . . . . . . 44 3.2.4 Suposições do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3 Estimação dos Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.3.1 Uma Breve Descrição dos Métodos Propostos na Literatura . . . . . 45 3.3.2 Estimação Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.3.3 Descrição da Função de Verossimilhança . . . . . . . . . . . . . . . 48 3.3.4 Descrição da Distribuição a Priori . . . . . . . . . . . . . . . . . . . 48 3.3.5 Descrição da Distribuição a Posteriori . . . . . . . . . . . . . . . . . 50 3.3.6 Descrição das Distribuições Condicionais Completas . . . . . . . . . 51 3.3.7 Estimação das Pro�ciências . . . . . . . . . . . . . . . . . . . . . . 52 4 Construção e Interpretação da Escala de Pro�ciência em Conteúdos Ma- temáticos 53 4.1 Matriz de Referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.2 Elaboração do Instrumento de Avaliação . . . . . . . . . . . . . . . . . . . 54 4.2.1 Tema I: Espaço e Forma . . . . . . . . . . . . . . . . . . . . . . . . 56 4.2.2 Tema II. Grandezas e Medidas . . . . . . . . . . . . . . . . . . . . . 57 4.2.3 Tema III. Números e Operações/Álgebra e Funções . . . . . . . . . 59 4.3 Aplicação da Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.4 Discussão dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.4.1 Análise Descritiva dos Resultados . . . . . . . . . . . . . . . . . . . 74 4.4.2 Análise dos Resultados Obtidos com Base na Teoria da Resposta ao Item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.4.3 Posicionamentos de Itens na Escala . . . . . . . . . . . . . . . . . . 82 4.5 Construção e Interpretação da Escala de Pro�ciência em Conteúdos Mate- máticos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.5.1 Construção da Escala . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.5.2 Interpretação da Escala . . . . . . . . . . . . . . . . . . . . . . . . 94 5 Considerações Finais e Perspectivas Futuras 97 Referências 99 Apêndices A Instrumento de Avaliação 103 B Termo de Consentimento Livre e Esclarecido 113 C Pro�ciência dos Indivíduos em função do Número de Acertos 115 D Curva Característica e Curva de Informação de cada Item 119 Anexos 1 Cartão Resposta 137 2 Matriz de Referência 139 Capítulo 1 Introdução Tradicionalmente, quando se deseja medir a pro�ciência de um indivíduo em determi- nada área do conhecimento, aplica-se uma prova (teste) com um determinado número de itens (questões) e com base no número de acertos determina-se seu escore. A pontuação obtida segue os princípios da Teoria Clássica de Testes (TCT). Neste contexto, a pro�- ciência do indivíduo dependerá fortemente do teste ao qual foi submetido e comparações entre indivíduos submetidos a provas diferentes são difíceis de realizar. Com o intuito de superar essas di�culdades e permitir uma medida mais adequada da pro�ciência de um indivíduo, entra em cena a Teoria da Resposta ao Item (TRI), que permite mensurar características que não podem ser medidas diretamente (traço latente) por meio de um conjunto de respostas a itens de um instrumento de avaliação. Desta forma, o elemento principal para esse tipo de análise é o item e não o instrumento. Embora a TRI tenha surgido inicialmente dentro da Teoria Psicométrica em avaliações psicológicas, atualmente, é amplamente utilizada em avaliações educacionais. Com base na TRI, pode-se estabelecer escalas de pro�ciência interpretáveis que possibilitam, por exemplo, a comparação entre indivíduos e o acompanhamento da evolução dos sistemas de ensino ao longo dos anos. Alguns exemplos de avaliação, utilizando a TRI, no âmbito internacional são: o exame de pro�ciência em língua inglesa -Test of English as a Foreign Language (TOEFL); a Ava- liação Nacional do Progresso Educacional - National Assessment of Educational Progress (NAEP); o Programa Internacional de Avaliação de Estudantes - Programme for Interna- tional Student Assessment (PISA) e o Scholastic Aptitude Test ou Scholastic Assessment Test (SAT), que consiste em um exame educacional padronizado, utilizado como critério para admissão nas universidades norte-americanas, semelhante ao ENEM no Brasil. No âmbito nacional, o Sistema de Avaliação da Educação Básica (SAEB), o Exame Nacional do Ensino Médio (ENEM) e o Sistema de Avaliação de Rendimento Escolar do Estado de São Paulo (SARESP), são exemplos de sistemas de avaliação educacional que utilizam a TRI. Mais especi�camente, a TRI consiste em uma família de modelos matemáticos que relaciona variáveis observáveis (as respostas dadas aos itens de uma prova, por exemplo) e variáveis que não podem ser observadas diretamente (a pro�ciência de um indivíduo em matemática básica, por exemplo). As etapas para a aplicação dos modelos TRI envolvem a construção de uma matriz de referência para o traço latente (pro�ciência), a elaboração de itens para a construção da prova, a aplicação da prova e a leitura dos dados, a especi�cação do modelo, a estimação dos parâmetros dos itens e da pro�ciência dos respondentes e, �nalmente, a construção e a interpretação da escala. 21 1. Introdução 22 Considerando a importância do tema, os objetivos deste trabalho consistem em um estudo sobre construções de escalas baseadas na TRI com ênfase na área educacional e a partir disto, a construção e interpretação de uma escala de pro�ciência em conteúdos matemáticos básicos. Neste capítulo apresenta-se uma síntese do conteúdo deste trabalho e a motivação para o seu desenvolvimento. 1.1 Construção de Escalas para Avaliação de Pro�ciên- cia com base na Teoria da Resposta de Item Como já mencionado, as etapas para a aplicação dos modelos TRI envolvem a cons- trução de uma matriz de referência para o traço latente em questão, a elaboração de itens para a construção da prova, a aplicação da prova, a leitura dos dados, a especi�cação do modelo a ser utilizado, a estimação dos parâmetros dos itens e da pro�ciência dos respondentes e, �nalmente, a construção e interpretação da escala. As escalas de conhecimento (ou pro�ciência) são escalas que possibilitam a interpre- tação pedagógica dos valores das pro�ciências estimadas. Estas escalas de conhecimento são de�nidas a partir de níveis selecionados para serem interpretados pedagogicamente, de acordo com os itens que forem posicionados, seguindo algum critério. Alguns critérios propostos na literatura e discutidos neste trabalho envolvem o pro- posto por Beaton e Allen (1992), os critérios de posicionamento utilizados pelos grandes sistemas de avaliação educacional, a saber o SAEB, o ENEM e o SARESP e o critério adotado nesta pesquisa, que foi o de segmentar a escala de pro�ciência proposta em faixas de pro�ciência a partir da análise de agrupamentos hierárquicos. O SAEB, criado em 1990, é composto por três avaliações externas em larga escala. Passou a utilizar a TRI a partir do ano de 1995, permitindo a elaboração de escalas de pro�ciências comuns entre anos e comparáveis com anos anteriores. O ENEM é aplicado anualmente desde 1998, pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP) e Ministério da Educação (MEC). Sua �nalidade é avaliar o desempenho escolar ao �nal do Ensino Médio. Começou-se a utilizar a TRI a partir de 2009, quando foram estabelecidas as matrizes de referência para cada uma de suas áreas do conhecimento avaliadas. O SARESP é aplicado anualmente pela Secretaria do Estado de São Paulo (SEE/SP) desde 1996, com o objetivo de produzir um diagnóstico da situação da escolaridade básica paulista. Utiliza a TRI em suas avaliações desde sua implantação. A partir da criação de escalas de pro�ciências interpretáveis, os resultados obtidos ao longo dos anos nas séries/anos consecutivos são comparados. 1.2 Teoria da Resposta ao Item Segundo Andrade, Tavares e Valle (2000), os primeiros modelos da TRI surgiram na década de 50. Estes modelos consideravam apenas uma única pro�ciência de um único grupo (ou população) e itens corrigidos de forma dicotômica (certo ou errado). Inicialmente, foram especi�cados na forma de uma função ogiva normal, e mais tarde descritos na forma da função logística. Atualmente, os modelos propostos na literatura consideram itens dicotômicos ou não, uma ou mais populações e um ou mais traços latentes. 1. Introdução 23 Nas avaliações educacionais, os testes (provas) mais comuns são os compostos por itens de múltipla escolha, corrigidos como certo ou errado, ou seja, de maneira dicotômica. A TRI busca inferir a pro�ciência de um indivíduo em um determinado contexto. Para isso, utiliza um modelo matemático adequado, que expressa a probabilidade de resposta correta a um item em função do traço latente do indivíduo e dos parâmetros do item. No âmbito educacional, o modelo matemático comumente utilizado e adotado nesta pesquisa é o logístico unidimensional de três parâmetros, que leva em consideração a discriminação (parâmetro a), a di�culdade (parâmetro b) e a probabilidade de acerto ao acaso (parâmetro c) do item. Quando esses parâmetros são desconhecidos, tanto dos itens quanto das pro�ciências dos indivíduos, métodos de estimação precisam ser utilizados para fazer a�rmações sobre os seus valores. Graças ao avanço tecnológico, ao longo dos anos, foram desenvolvidos software que facilitaram em muito a aplicação da TRI, pois devido à complexidade desses modelos se faz necessário o uso de métodos numéricos para o processo de inferência sobre os parâmetros dos itens e da pro�ciência dos indivíduos. O processo de inferência sobre os parâmetros pode ser feito de acordo com a abordagem clássica ou bayesiana. Na abordagem clássica, em geral, a estimação dos parâmetros de interesse é feita pelo Método da Máxima Verossimilhança. Neste trabalho optou-se pela abordagem bayesiana, utilizando-se o amostrador de Gibbs, algoritmo da classe dos Métodos de Monte Carlo via Cadeia de Markov (MCMC), já implementado no software OpenBUGS (Bayesian Inference Using Gibbs Sampler) (LUNN et al., 2009). A ideia básica do MCMC é gerar amostras da distribuição a posteriori, a partir de distribuições condicionais completas, que formam o núcleo de uma cadeia de Markov. Sob condições gerais de regularidade a distribuição da cadeia gerada pelo amostrador de Gibbs, converge para a distribuição de equilíbrio, neste caso a posteriori conjunta. Para a comparação dos resultados clássicos e bayesianos utilizou-se o software BILOG- MG (inferência clássica), este também utilizado pelo INEP. 1.3 Construção e Interpretação da Escala para a Ava- liação da Pro�ciência em Conteúdos Matemáticos Básicos A edição 2016 do SARESP aferiu a pro�ciência média em Matemática dos estudantes da 3a Série do Ensino Médio como 278,1. Essa pro�ciência média está associada ao nível de pro�ciência Básico. No entanto, deve-se ressaltar que um grande número de alunos tem sua pro�ciência no nível abaixo do básico ou básico como pode ser visto na Tabela 1.1. Esses resultados mostram que a maior parte dos alunos saem do Ensino Médio com defasagem nos conteúdos matemáticos básicos (SÃO PAULO, 2017b). Tabela 1.1: Nível de Pro�ciência em Matemática dos alunos do 3o ano do Ensino Médio (SARESP 2016). Nível de Pro�ciência % Abaixo do Básico 47,6 Básico 47,3 Adequado 4,8 Avançado 0,3 Fonte: http://saresp.vunesp.com.br/resultados3em.html. Acesso em 30 out. 2017. 1. Introdução 24 O relatório do vestibular UNESP de 2016, emitido pela Fundação VUNESP, informa através do questionário socioeconômico que 47, 1% dos alunos ingressantes nos cursos das áreas de exatas cursaram o ensino médio todo ou em maior parte em escolas públicas. Esses dados e os altos índices de retenção e evasão em disciplinas do núcleo básico dos cursos de graduação na área de exatas, motivaram a construção e a interpretação de uma escala de pro�ciência em conteúdos matemáticos básicos, necessários para o acompanha- mento das disciplinas de cálculo e similares. Este trabalho, dá continuidade à pesquisa desenvolvida por Rossi (2015), que construiu a matriz de referência utilizada nesta pes- quisa e aplicou uma avaliação composta por 32 itens com o objetivo de testá-los. A matriz de referência está dividida em três grupos de conteúdos (Espaço e Forma, Grandezas e Medidas e Números e Operações/Álgebra e Funções) e estes divididos por competências. Cada competência descreve uma habilidade em conteúdos matemáticos básicos que se deseja inferir. Neste trabalho foram propostos 36 itens, um item para cada uma das habilidades descritas na matriz de referência. Todos os itens são de múltipla escolha com cinco alternativas cada um, sendo apenas uma a correta. Antes das aplicações das provas, foram feitas reuniões com os professores do Departamento de Matemática e Computação da FCT/UNESP que analisaram as questões propostas, a �m de corrigir possíveis erros e avaliar se estas estavam adequadas para inferir as habilidades esperadas. A prova foi aplicada aos alunos matriculados no primeiro semestre do primeiro ano dos cursos da área de exatas da FCT/UNESP, no ano de 2017, totalizando 8 cursos, nos dias e horários de aulas disponibilizados pelos professores responsáveis pelas disciplinas de Cálculo diferencial e Integral I e Matemática Elementar I, durante os meses de agosto e setembro 2017. Conforme já mencionado, a construção da escala se dá após a estimação dos parâmetros dos itens e das pro�ciências. Para isso, foram apresentadas formas de posicionamento de itens e escolha de níveis, denominados âncora. Após a análise destas formas, optou-se por dividir a escala em faixas de pro�ciência, a partir da análise de agrupamentos hierárquicos, possibilitando a interpretação da escala em toda a sua amplitude. 1.4 Apresentação da Dissertação O objetivo geral deste trabalho consistiu em um estudo sobre construções de escalas baseadas na TRI com ênfase na área educacional. Como objetivo especí�co a construção e interpretação de uma escala de pro�ciência em conteúdos matemáticos básicos. Para atingir os objetivos propostos, apresenta-se no Capítulo 2 uma descrição de como estão organizados e a construção das escalas de pro�ciências de três grandes sistemas brasileiros de avaliação educacional. Também é apresentado neste capítulo a metodologia adotada para interpretação da escala proposta nesta pesquisa. No Capítulo 3 apresenta- se o modelo logístico unidimensional de três parâmetros e o método de estimação, sob o enfoque bayesiano, adotados para este trabalho. Também é apresentada uma síntese sobre modelos propostos na literatura e sobre outros métodos de estimação. No Capítulo 4 apresenta-se a construção da escala e interpretação da mesma, en- volvendo a apresentação da matriz de referência, a elaboração e aplicação da prova e a discussão dos resultados. E por �m, no Capítulo 5 são apresentadas as considerações �nais e perspectivas futuras. Capítulo 2 Construção de Escalas para Avaliação de Pro�ciências Com base na TRI pode-se estabelecer uma escala métrica padrão para mensurar o co- nhecimento, permitindo que a comparação de resultados entre avaliações se torne possível. Sabe-se que os conhecimentos adquiridos por um estudante não podem ser mensurados diretamente, mais pode-se utilizar instrumentos de medida que busquem mensurá-los in- diretamente. Sendo estes instrumentos de medida do conhecimento (traço latente), as provas aplicadas nas avaliações educacionais. O uso da TRI em avaliações educacionais no Brasil iniciou-se em 1995 com o SAEB. Desde então, a TRI vem sendo amplamente utilizada na área educacional. Embora, seja vasta sua disseminação em abordagens educacionais, pode-se encontrar na literatura apli- cações da TRI nas mais diversas áreas tais como no grau de satisfação, avaliação de intangíveis nas empresas, gestão organizacional, gestão escolar, avaliação de intenções comportamentais, avaliação de atitudes, orientação pro�ssional, avaliação de qualidade de vida, avaliação de sintomas depressivos ou ansiedade, gestão de qualidade, sociologia, nível socioeconômico, raciocínio diagnóstico, usabilidade de sites, avaliação de emissão de poluentes, avaliação de itens constrangedores, avaliações psicológicas diversas, inteligência emocional, percepção emocional, na área da saúde, na medicina, na genética, na epide- miologia, na odontologia, na avaliação de raciocínio verbal, no marketing, na gestão do conhecimento, na avaliação empresarial e também em testes adaptativos informatizados. Referências bibliográ�cas nestas áreas podem ser consultadas no estudo publicado por (MOREIRA JUNIOR, 2010). Neste capítulo será apresentada a escala de pro�ciência da TRI e sua aplicação em três grandes sistemas de avaliação brasileiros. Sendo estes, o SAEB, o ENEM e o SARESP e a proposta utilizada neste trabalho para a construção da escala. Desta forma, na Seção 2.1 apresenta-se a organização destes três sistemas de avaliação, na Seção 2.2 são apresentadas as escalas da TRI e a construção das escalas de pro�ciência destes sistemas educacionais e na Seção 2.3 é apresentada a proposta de segmentação da escala utilizada nesta pesquisa. 2.1 Sistemas Brasileiros de Avaliação em Larga Escala O SAEB, o ENEM e o SARESP são os principais sistemas brasileiros de avaliação em larga escala que fazem uso da TRI. Na sequência descreve-se como cada um destes sistemas está organizado. 25 2. Construção de Escalas para Avaliação de Pro�ciências 26 2.1.1 A Organização do SAEB O SAEB foi criado em 1990. Seu principal objetivo é realizar um diagnóstico da educa- ção básica brasileira. Produzindo informações que subsidiem a formulação, reformulação e o monitoramento das políticas públicas nas esferas municipal, estadual e federal, tendo em vista contribuir para a melhoria da qualidade, equidade e e�ciência do ensino. Além disso, fornece dados e indicadores sobre fatores de in�uência do desempenho dos alunos, nas áreas e anos avaliados (BRASIL, 2017a). De acordo com Brasil (2017a) o SAEB foi reestruturado em 2005 e passou a ser com- posto por duas avaliações: a Avaliação Nacional da Educação Básica (ANEB), que man- teve as características, os objetivos e os procedimentos da avaliação efetuada até então, avaliando escolas públicas e particulares e a Avaliação Nacional do Rendimento Escolar (ANRESC), conhecida como Prova Brasil, criada com o objetivo de avaliar a qualidade do ensino ministrado somente nas escolas das redes públicas. Posteriormente, em 2013, foi incorporada ao SAEB a Avaliação Nacional da Alfabetização (ANA), com o objetivo de avaliar os níveis de alfabetização e letramento em Língua Portuguesa, alfabetização Matemática e condições de oferta do Ciclo de Alfabetização das redes públicas, aplicadas somente no �nal do ciclo de alfabetização. As disciplinas abordadas atualmente nos três tipos de avaliação são as disciplinas de Língua Portuguesa (foco em leitura) e de Matemá- tica (foco na resolução de problemas). A partir de informações obtidas em Brasil (2017a), descreve-se a seguir um pouco sobre cada uma dessas avaliações. A ANRESC ou Prova Brasil é uma avaliação bianual, com abrangência censitária. Envolve alunos do 5o e 9o ano do Ensino Fundamental (EF) das escolas públicas com no mínimo 20 alunos matriculados em cada um dos anos. Tem por objetivo principal, mensu- rar a qualidade do ensino ministrado nas escolas das redes públicas, fornecendo resultados para cada unidade escolar participante, bem como para as redes de ensino em geral. Tam- bém, apresenta, indicadores contextuais sobre as condições extra e intraescolares em que ocorre o trabalho da escola. A ANEB ou Prova do SAEB utiliza os mesmos instrumentos da Prova Brasil e é apli- cada com a mesma periodicidade. Diferencia-se por abranger, de forma amostral, escolas e alunos das redes públicas e privadas do País, em áreas urbanas e rurais, matriculados no 5o e 9o ano do EF e no 3o ano do Ensino Médio (EM) regular. Essa prova mantém as características, os objetivos e os procedimentos efetuados até 2005 pelo SAEB. Tem como foco, avaliar a qualidade, a equidade e a e�ciência da educação básica brasileira, sendo os resultados apresentados por regiões geográ�cas do País e unidades da federação. Para os 5o e 9o anos do EF de escolas públicas, urbanas ou rurais, é aplicada em turmas com 10 a 19 alunos e nos 3o anos do EM nas escolas públicas, urbanas e rurais, nas turmas com 10 alunos ou mais. Nos 5o e 9o anos do EF e 3o anos do EM das escolas privadas, urbanas e rurais, em turmas com 10 alunos ou mais, abrangendo assim, escolas e alunos, que não atendem aos critérios de participação da Prova Brasil. Para a aplicação da Prova Brasil e da ANEB foram construídas matrizes de referência para cada uma das áreas do conhecimento abordadas (Língua Portuguesa e Matemática), estruturadas de acordo com as séries avaliadas. Para cada uma delas, são de�nidos o conjunto de conteúdos (tópicos ou temas) e habilidades a serem avaliadas representando o que se espera dos alunos ao �nal dos anos avaliados. Para a construção dessas matrizes de referência o INEP baseou-se em Parâmetros Curriculares Nacionais, consulta nacional aos currículos propostos pelas Secretarias Estaduais de Educação e por algumas redes municipais. Ainda, foram consultados professores regentes das redes e examinados os livros didáticos mais utilizados para os anos avaliados. As matrizes de referência, como o próprio nome sugere, são utilizadas como referência para a elaboração dos itens (questões) 2. Construção de Escalas para Avaliação de Pro�ciências 27 da prova. Desta forma, não devem ser confundidas com as propostas curriculares das redes ou das escolas, pois não englobam todo o currículo escolar. Com base na matriz de referência de cada área do conhecimento e ano avaliado, são elaborados os itens que compõem os testes. Para montar os cadernos de prova, o INEP utiliza uma metodologia conhecida como Blocos Incompletos Balanceados (BIB), com o objetivo de permitir que um grande número de itens seja aplicado ao conjunto de alunos avaliados, sem que estes precisem responder a todas as questões que cobrem a matriz de referência. Além disso, o BIB permite uniformizar a exposição dos itens, blocos e cadernos aos alunos respondentes. Para a avaliação do 5o ano por exemplo, o processo de confecção dos cadernos de prova para cada uma das áreas do conhecimento é realizado do seguinte modo: são montados 7 blocos com 11 itens cada, totalizando 77 itens de múltipla escolha para cada área. Feito isto, cada caderno é montado agrupando-se dois blocos de cada área do conhecimento. De acordo com a metodologia utilizada, obtém-se 21 cadernos de prova diferentes. Cada aluno avaliado responde somente a um caderno no dia da avaliação. Assim, o caderno contém 22 questões de Língua Portuguesa e 22 questões de Matemática. Para o 9o ano, o caderno é montado seguindo a mesma metodologia, porém, cada bloco contém 13 itens, totalizando 91 itens de múltipla escolha para cada área. Desta forma, o caderno de prova respondido pelos alunos do 9o ano é composto por 26 itens de Língua Portuguesa e 26 itens de Matemática. As provas da ANEB e da Prova Brasil são acompanhadas de questionários que são res- pondidos pelos alunos, professores dos anos avaliados e diretores das unidades escolares. Os aplicadores da prova também respondem a um questionário da escola. Este levanta- mento de dados é fundamental para que a análise da Prova Brasil leve em consideração o contexto dos alunos e da escola. O INEP, realizou em novembro de 2015, a 13o edição do SAEB. De acordo com o Censo da Educação Básica 2015, esta edição, contou com a participação de todas as escolas públicas brasileiras com, pelo menos, 20 alunos matriculados no 5o ou 9o anos do EF. Participaram também, uma amostra de escolas privadas com 10 ou mais estudantes matriculados no 5o ou 9o anos do EF ou no 3o ano do EM, assim como uma amostra de escolas públicas municipais e estaduais com 10 a 19 alunos matriculados no 5o ou 9o anos do EF e uma amostra de escolas públicas municipais e estaduais com 10 ou mais alunos matriculados no 3o ano do EM, totalizando 3.986.190 estudantes participantes. Para a ANA, avaliação censitária anual, aplicada para o 3o ano do EF das escolas públicas, foram realizadas apenas três edições até o momento. A primeira ocorreu no ano de sua criação em 2013, a segunda em 2014 e a terceira em 2016. Nesta última edição, participaram da ANA, todas as escolas públicas, urbanas e rurais que, até o dia 31 de agosto do mesmo ano, haviam registrado no sistema Educacenso pelo menos 10 estudantes matriculados em turmas regulares do 3o ano do EF, sendo esta a última etapa do ciclo de alfabetização. Segundo Brasil (2017c), nesta edição os testes foram aplicados para 2,5 milhões de estudantes referentes a 50 mil escolas e 100 mil turmas. O Educacenso é uma ferramenta que permite o detalhamento do sistema educacional brasileiro. É possível obter dados individualizados de cada estudante, professor, turma e escola do País, tanto das redes públicas (federal, estaduais e municipais) quanto da rede privada. A partir dos dados do Educacenso é feito o cálculo do Índice de Desenvolvi- mento da Educação Básica (IDEB) e o planejamento da distribuição de recursos para alimentação, transporte escolar e livros didáticos, entre outros (BRASIL, 2017b). As matrizes de referência da ANA, assim como, da ANEB e da Prova Brasil, foram elaboradas a partir de contribuições de diferentes pesquisadores e especialistas de várias universidades, no campo da alfabetização e letramento. Também colaboraram para a ela- 2. Construção de Escalas para Avaliação de Pro�ciências 28 boração das matrizes, representantes de diversas instituições do governo e da sociedade civil como o MEC, o Conselho Nacional de Educação (CNE), a União Nacional dos Di- rigentes Municipais de Educação (UNDIME), a Associação Nacional de Pós-Graduação e Pesquisa em Educação (ANPED), a União Nacional dos Conselhos Municipais de Educa- ção (UNCME), o Conselho Nacional de Secretários de Educação (CONSED), as Secreta- rias de Educação, dentre outras. Os alunos que participam da ANA respondem a um teste composto por 20 itens de língua Portuguesa, sendo 17 itens objetivos de múltipla escolha e 3 itens de produção escrita e 20 itens de Matemática, sendo estes todos de múltipla escolha. Para a coleta de informações a respeito das condições de oferta, são aplicados questionários direcionados aos professores e gestores das instituições de ensino que atendem ao ciclo de alfabetização. Os questionários tem como foco veri�car informações sobre as condições de infraestrutura; formação de professores; gestão da unidade escolar e organização do trabalho pedagógico. 2.1.2 A Organização do ENEM O ENEM tem por �nalidade principal a avaliação do desempenho escolar e acadêmico ao �m do Ensino Médio. O exame é realizado anualmente desde de 1998 pelo INEP e MEC. Qualquer pessoa pode fazer o exame, contudo, os participantes menores de 18 anos que não concluirão o EM no mesmo ano letivo de sua participação no exame, só poderão usar os resultados para uma autoavaliação de conhecimentos. A avaliação do ENEM é composta por questões objetivas de múltipla escolha e uma redação. A partir de 2009, as provas objetivas do ENEM passaram a ser estruturadas com base em matrizes de referência. Assim, foram construídas matrizes de referência para quatro áreas de conhecimento sendo elas: • Linguagens, códigos e suas tecnologias, que abrange o conteúdo de Língua Portu- guesa (Gramática e Interpretação de Texto), Língua Estrangeira Moderna, Litera- tura, Artes, Educação Física e Tecnologias da Informação; • Matemática e suas tecnologias; • Ciências da Natureza e suas tecnologias, que abrange os conteúdos de Química, Física e Biologia; • Ciências Humanas e suas tecnologias, que abrange os conteúdos de Geogra�a, His- tória, Filoso�a e Sociologia. As questões que compõem os cadernos de prova são construídas com base nas matri- zes de referência para cada área do conhecimento. São 45 questões de múltipla escolha para cada uma dessas áreas, divididas em dois dias de aplicação. A partir de 2017 as provas foram organizadas da seguinte forma: No primeiro dia são 45 questões da área de Linguagens, códigos e suas tecnologias e 45 questões da área de Ciências Humanas e suas tecnologias, totalizando 90 questões de múltipla escolha mais uma proposta de redação. No segundo dia são aplicadas 45 questões para área de Matemática e suas tecnologias e 45 questões da área Ciências da Natureza e suas Tecnologias totalizando 90 questões de múltipla escolha. As redações são avaliadas de acordo com 5 competências sendo que, dois corretores independentes atribuem notas de zero (0) a duzentos (200) pontos para cada uma das competências, sendo elas: 1. Demonstrar domínio da norma padrão da língua escrita. 2. Construção de Escalas para Avaliação de Pro�ciências 29 2. Compreender a proposta de redação e aplicar conceitos das várias áreas de conheci- mento, para desenvolver o tema dentro dos limites estruturais do texto dissertativo- argumentativo. 3. Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argu- mentos em defesa de um ponto de vista. 4. Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação. 5. Elaborar proposta de intervenção para o problema abordado, respeitando os direitos humanos. As informações obtidas a partir dos resultados do ENEM são utilizadas para permitir a autoavaliação do participante, para continuidade de sua formação e inserção no mercado de trabalho, para criar uma referência nacional para o aperfeiçoamento dos currículos do Ensino Médio, para acesso a educação superior, como mecanismo único, alternativo ou complementar, para acesso a programas governamentais de �nanciamento ou o apoio ao estudante da educação superior, acesso a Instituições de Ensino Superior Portuguesas, para ingresso em diferentes setores do mundo do trabalho e para desenvolver estudos e indicadores sobre a educação brasileira. As informações fornecidas aqui, podem ser obtidas em (BRASIL, 2017d) 2.1.3 A Organização do SARESP Segundo São Paulo (2017), o SARESP, aplicado pela SEE/SP, tem como objetivo produzir um diagnóstico da situação da escolaridade básica paulista, a �m de contribuir para melhoria da qualidade da educação. São avaliados atualmente pelo SARESP os alunos de 3o, 4o, 5o, 7o e 9o anos do EF e 3o ano do EM da rede estadual. Os resultados obtidos são utilizados para orientar ações a respeito da educação e também integrar o cálculo do Índice de Desenvolvimento da Educação do Estado de São Paulo (IDESP). O IDESP tem o papel de dialogar com a escola, fornecendo dados sobre sua qualidade, aponta os pontos em que precisa melhorar e sinaliza sua evolução ano a ano. A avaliação do SARESP é censitária e vem sendo aplicada anualmente desde 1996. O sistema passou por algumas mudanças no ano de 2007, com isso, a partir de 2008, a avaliação passou a ser aplicada para todas as áreas curriculares, alternado ano a ano a periodicidade das áreas avaliadas. Anualmente são avaliadas as disciplinas de Língua Portuguesa, redação e Matemática e, anual e alternadamente as áreas de Ciências da Natureza, Contemplando as disciplinas de Ciências, Física, Química e Biologia e Ciên- cias Humanas, contemplando as disciplinas de História e Geogra�a. Também foi feita a adequação da matriz de referência do 5o e 9o ano do EF e 3o ano do EM às matrizes de referência do SAEB/Prova Brasil. Para a construção das matrizes de referência do SARESP, assim como nas avaliações citadas anteriormente, contou-se com a colaboração de vários especialistas. Uma pri- meira proposta foi organizada por especialistas em avaliação, tendo por base a Proposta Curricular do Estado de São Paulo. Considerou-se também, documentos que cercam as avaliações nacionais e internacionais. Esta Primeira versão das matrizes foram apresen- tadas aos autores da proposta curricular, que contribuíram com uma leitura crítica do documento, especialistas da Coordenadoria de Estudos e Normas Pedagógicas (CENP) da SEE/SP também realizaram a leitura do documento, fornecendo sugestões e ajustes. Além disso, as matrizes foram discutidas em reuniões técnicas (o�cinas) com professores 2. Construção de Escalas para Avaliação de Pro�ciências 30 coordenadores de o�cinas pedagógicas das áreas envolvidas na avaliação. Deste cuidadoso trabalho realizado por diferentes equipes, resultou as matrizes de referência do SARESP. Para cada um dos anos/séries avaliados foram construídas matrizes de referência em cada uma das áreas do conhecimento avaliadas. Para cada um deles, são de�nidos o con- junto de conteúdos (tópicos ou temas) e as habilidades a serem examinadas em cada uma das áreas. Essas habilidades foram classi�cadas em três grupos. O primeiro grupo é o grupo das competências para observar, o segundo para realizar e o terceiro para compre- ender. Para a redação, são levadas em consideração a avaliação de cinco competências, sendo elas tema, gênero, coesão/coerência, registro e proposição. A edição de 2016 do SARESP contou com a participação de 956.820 alunos distribuídos em 5.105 escolas da rede Estadual, 73.894 alunos distribuídos em 514 escolas das redes municipais, 19.451 alunos de 200 Escolas Técnicas Estaduais (ETE) administradas pelo Centro Estadual de Educação Tecnológica Paula Souza e vinculados à Secretaria Estadual do Desenvolvimento do Estado de São Paulo e 1.869 alunos de 20 escolas particulares. A participação das escolas particulares se deu por adesão voluntária das mesmas. No ano de 2016, assim como no ano anterior 2015, foram avaliadas somente as disci- plinas de Língua Portuguesa e Matemática. A avaliação censitária englobou alunos do 3o, 5o e 9o anos do EF e 3o ano do EM. A avaliação dos alunos do 7o do EF da rede estadual da SEE/SP foi realizada por amostragem, com uma amostra correspondente a 10% da população em questão. Para o 3o ano do EF o caderno de prova para a avaliação de Língua Portuguesa era composto por 8 questões de resposta aberta e 5 questões objetivas, de múltipla escolha. Para a avaliação de Matemática, os cadernos de prova eram compostos com 13 questões de resposta aberta e 5 questões objetivas. Essas provas foram corrigidas online por professores especialistas. Os alunos do 5o, 7o e 9o anos do EF, e da 3a série do EM foram avaliados por 104 questões objetivas de Língua Portuguesa e 104 questões objetivas de Matemática. Estas, foram divididas em 13 blocos contendo 8 questões cada um, para cada uma das áreas de conhecimento. Cada caderno de prova foi montado segundo a metodologia de Blocos Incompletos Balanceados, agrupando-se três blocos de cada área. Com a utilização da metodologia adotada, foram montados 26 cadernos diferentes contendo 24 itens de língua portuguesa e 24 itens de Matemática. 2.2 A Escala de Pro�ciência da TRI Na TRI a pro�ciência de um indivíduo pode assumir teoricamente qualquer valor real entre −∞ e +∞, diferente do que acontece na medida escore de um teste com I questões corrigidas como certo ou errado, onde a pro�ciência assume valores de acordo com pontuações propostas inicialmente. Seguindo a metodologia da TRI, para a de�nição de uma escala é necessário estabelecer uma origem e uma unidade de medida, escolhidas de modo que representem, respectivamente, o valor médio e o desvio padrão dos indivíduos da população em estudo. Na prática, frequentemente, se utiliza a escala (0,1). Isto é, a escala com média igual a 0 e desvio padrão igual a 1. Nesta escala, os valores do parâmetro b variam (tipicamente) entre −3 e +3 e espera-se que o parâmetro a assuma valores maiores que 0, sendo considerados os valores de a maiores que 1 os mais apropriados segundo Andrade, Tavares e Valle (2000). No entanto, não faz a menor diferença que se estabeleça outros valores quaisquer de média e desvio padrão para a escala, o que importa de fato são as relações de ordem existentes entre esses pontos. Por exemplo, um indivíduo com pro�ciência 1, 5 na escala (0, 1) está 1, 5 desvios padrão acima da média. Este mesmo 2. Construção de Escalas para Avaliação de Pro�ciências 31 indivíduo numa escala (500, 100) (escala utilizada pelo ENEM) terá pro�ciência 650, que continua sendo 1, 5 desvios padrão acima da média. A escala (0, 1), como citado no parágrafo anterior, na prática é a mais utilizada para construção de escalas de pro�ciência. Esta, por sua vez, não se apresenta de forma tão elegante, pois exibirá níveis de pro�ciência com valores negativos e também números decimais, o que pode causar certo desconforto na utilização da escala. Deste modo, após a estimação dos parâmetros dos itens (também conhecida como calibração dos itens) e das pro�ciências utilizando a escala (0, 1), é possível efetuar uma transformação para qualquer outra escala que o pesquisador desejar utilizar, sendo que este procedimento tem como único propósito, facilitar a construção e utilização da escala, trabalhando com números positivos e inteiros. Essa transformação é feita de maneira que a(θ − b) = (a/σ)[(σ × θ + µ)− (σ × b+ µ)] onde µ e σ, representam a média e o desvio padrão respectivamente e a(θ−b) é a parte do modelo probabilístico proposto envolvida na transformação. Portanto, na escala transfor- mada tem-se que (i) θ∗ = σ × θ + µ; (ii) b∗ = σ × b+ µ; (iii) a∗ = a/σ; (iv) P (Ui = 1 | θ) = P (Ui = 1 | θ∗) Ui é a variável dicotômica (corrigida como certo ou errado) que assume valor 1 quando o indivíduo com pro�ciência θ responde corretamente ao item i e 0 caso contrário. É importante ressaltar que independente da escala com a qual se está trabalhando, a probabilidade de um indivíduo responder corretamente a um certo item é sempre a mesma, ou seja, a pro�ciência de um indivíduo é invariante à escala de medidas. Para que seja possível construir escalas de pro�ciência, é necessário que todos os parâmetros dos itens e que todas as pro�ciências dos indivíduos respondentes (tanto in- dividuais como populacionais) de todos os grupos avaliados, estejam numa mesma escala de medida, ou seja, que todos os parâmetros envolvidos possam ser comparados. As estimativas dos parâmetros dos itens e das pro�ciências segue uma natureza arbi- trária. Devido a este fato, a menos que se faça uma ligação desses valores obtidos com os conteúdos envolvidos na prova, é possível somente comparar entre si as pro�ciências obtidas para os diferentes indivíduos. Porém, não é possível qualquer interpretação peda- gógica. Sem essa ligação, pode-se dizer apenas que um indivíduo que possui pro�ciência 1, 5 na escala (0, 1) deve possuir um conhecimento maior sobre o conteúdo avaliado do que um indivíduo que possui pro�ciência −1, por exemplo, e que o indivíduo com pro�ciência 1, 5 está a 1, 5 desvios padrão acima da média de pro�ciência da população avaliada, ao mesmo tempo que o indivíduo com pro�ciência −1 está a 1 desvio padrão abaixo da média das pro�ciências dessa mesma população. Mas, não podemos a�rmar nada a respeito do que o primeiro indivíduo sabe a mais do que o segundo (ANDRADE; TAVARES; VALLE, 2000). Para tornar possível a interpretação pedagógica dos valores das pro�ciências, criou-se as escalas de conhecimento (ou escalas de pro�ciências). As escalas de conhecimento são de�nidas a partir de níveis, conhecido como níveis âncoras, que são de�nidos por itens 2. Construção de Escalas para Avaliação de Pro�ciências 32 conhecidos como itens âncora. Os níveis âncora são pontos na escala selecionados pelo pesquisador (analista) para serem interpretados pedagogicamente. Já os itens âncora, po- dem ser de�nidos de acordo com algum critério como o da de�nição sugerida por Beaton e Allen (1992) e também apresentada por Andrade, Tavares e Valle (2000). De�nição: Considere dois níveis âncora consecutivos Y e Z com Y < Z. Dizemos que um determinado item é âncora para o nível Z se, e somente se, as 3 condições abaixo forem satisfeitas simultaneamente (1) P (U = 1 | θ = Z) ≥ 0, 65 e (2) P (U = 1 | θ = Y ) < 0, 50 e (3) P (U = 1 | θ = Z)− P (U = 1 | θ = Y ) ≥ 0, 30. Ou seja, para um item ser âncora de um determinado nível âncora da escala, ele precisa ser respondido corretamente por uma grande proporção de indivíduos (≥ 65%) com este nível de pro�ciência Z considerado (satisfazendo a primeira condição). Deve ser respondido corretamente por uma proporção menor de indivíduos (< 50%) com um nível de pro�ciência imediatamente inferior (satisfazendo a segunda condição). Além disso, a diferença entre a proporção de indivíduos que responderam corretamente esse item com esses níveis de pro�ciência deve ser maior que 30% (satisfazendo a terceira e última condição). Previamente, não se pode ter certeza de quantos itens âncoras serão selecionados para cada um dos níveis âncora escolhidos e nem se serão selecionados itens âncora (no teste aplicado) para todos os níveis âncora �xados. Diante disto, é essencial que os níveis âncora sejam escolhidos de maneira que não �quem muito próximos uns dos outros e também que sejam aplicados uma grande quantidade de itens, a �m de possibilitar a construção e interpretação da escala de pro�ciência. 2.2.1 Construção das Escalas de Pro�ciência do SAEB A TRI começou a ser utilizada nas avaliações aplicadas pelo SAEB a partir do ano de 1995. O emprego da TRI permitiu a elaboração de escalas de pro�ciência comuns entre as séries e na mesma escala obtida em anos anteriores. Possibilitando assim, a comparação e acompanhamento da evolução do sistema de ensino ao longo dos anos. Para que os alunos de todas as séries e de todos os anos sejam postos em uma mesma escala de pro�ciência, de maneira que seus desempenhos possam ser comparados, o SAEB utiliza itens comuns entre séries e anos avaliados viabilizando, assim, o um processo deno- minado equalização. O modelo utilizado para estimação dos parâmetros e das pro�ciências é o modelo Logístico Unidimensional de três parâmetros, o processo de estimação utilizado é a Estimação por Máxima Verossimilhança Marginal onde são atribuídas distribuições a priori para os parâmetros dos itens e pro�ciências. Os parâmetros dos itens são estimados de forma conjunta, para todos os itens de todas as séries de uma mesma disciplina com a utilização do programa BILOG-MG que, implementa uma extensão da TRI a grupos múltiplos de respondentes, onde as diferentes séries/anos são os grupos. Esta extensão da TRI de uma população (ou grupo) para várias populações (ou grupos) diferentes é feita atribuindo-se distribuições a priori distintas para cada grupo. Com o intuito de evitar a indeterminação do modelo, é atribuída uma distribuição a priori para um grupo tomado como grupo de referência. Desta maneira, é feita a estimação conjunta dos pa- râmetros das distribuições a priori dos outros grupos e dos parâmetros dos itens. Este procedimento permite que se faça simultaneamente a equalização entre séries e, quando 2. Construção de Escalas para Avaliação de Pro�ciências 33 for o caso, a equalização entre anos. Para mais detalhes sobre a TRI aplicada a grupos múltiplos pode-se consultar (BOCK; ZIMOWSKI, 1997). Klein (2009) traz uma descrição detalhada de como ocorreu o processo de construção da escala do SAEB nos anos de 1995, 1997, 1999 e 2001. A primeira escala comum entre séries e entre anos utilizada pelo SAEB foi baseada na avaliação aplicada em 1997, onde a média e o desvio padrão da distribuição de pro�ciência da 8a série (9o ano) deste ano foram, respectivamente, 250 e 50, atribuídos de forma arbitrária. Esta escala foi baseada na estimação conjunta dos parâmetros dos itens de todas as séries das avaliações aplicadas em 1995 e 1997, utilizando a 8a série de 1997 como grupo de referência e todas as respostas individuais de todos os alunos das três séries nos anos de 1995 e 1997. Na avaliação aplicada em 1999 a equalização entre anos para a mesma disciplina e a estimação dos parâmetros dos itens da avaliação aplicada neste ano na mesma escala de 1997, foram obtidos conjuntamente com a calibração entre séries, sendo incluída todas as respostas individuais de todos os alunos da amostra de 1997. A 8a série de 1997 foi novamente utilizada como grupo de referência. A equalização entre anos e a estimação dos parâmetros da avaliação aplicada pelo SAEB em 2001 na mesma escala de 1997, foram obtidos também conjuntamente com a calibração entre as séries, desta vez acrescentando-se todas as respostas individuais dos alunos das três séries da amostra de 1999 e a 8a série deste ano foi utilizada como grupo de referência, isto foi possível, pois a avaliação aplicada em 2001 tinha itens comuns com a avaliação aplicada em 1999 em todas as séries avaliadas. Neste ano (2001) foi utilizada a escala (0, 1) para o grupo de referência, como os parâmetros dos itens de todas as séries de 1999 ja eram conhecidos, estimados na escala (250, 50), foi feita uma transformação nos parâmetros desses itens para a escala (0, 1). Após a calibração foi feita novamente a transformação para que os parâmetros dos itens (aplicados em 1999) voltassem ao valor original e os parâmetros dos itens novos �cassem na escala comum (250, 50), adotada pelo SAEB. Para a estimação das pro�ciências dos alunos, foi pressuposto uma distribuição a priori para as pro�ciências dos alunos de cada grupo, a distribuição adotada pelo SAEB foi a distribuição normal com média zero e desvio padrão um, para todos os grupos. No processo usado para estimar os parâmetros dos itens obtém-se a distribuição a posteriori de pro�ciência, condicional às respostas dadas no teste para cada aluno. Assim, a pro�ciência do aluno foi calculada utilizando-se a média dessa distribuição a posteriori, conhecida como EAP (expected a posteriori). Sendo este, o método para estimação das pro�ciências dos alunos utilizado atualmente pelo SAEB em todas as suas avaliações. Em relação à interpretação da escala, sabe-se que é necessário a seleção de alguns níveis da escala, os chamados níveis âncora e para estes são identi�cados itens âncora, de acordo com alguma metodologia, estes por sua vez são utilizados para a interpretação da escala. Nos anos de 1995 e 1997 foi utilizada a metodologia indicada por Beaton e Allen (1992). Com a utilização dessa metologia foram observados problemas tais como: • A necessidade de se escolher níveis âncora muito espaçados a �m de conseguir muitos itens âncora; • A necessidade de ampliar o conceito de nível âncora para quase âncora (item não satisfaz as três condições) e assim conseguir mais itens facilitando a interpretação da escala; • A di�culdade dos especialistas de utilizarem o conceito de discriminação entre níveis só usando praticamente itens considerados dominados pelos alunos em torno do nível; 2. Construção de Escalas para Avaliação de Pro�ciências 34 • Alguns descritores cobertos por alguns itens não aparecerem na descrição, pois mesmo sendo bons itens, não eram classi�cados como itens âncora. Para contornar esses problemas, no ano de 1999 e também em 2001 foi adotada uma nova metodologia para identi�cação dos itens âncora. Foram selecionados pontos da escala de 100 a 425, com intervalos de 25 o que incluía o ponto 250 (média adotada em 1997). Feita a estimação do percentual de acerto dos alunos em cada nível para cada item, estes foram posicionados como âncora se atendesse as seguintes condições: (i) O número de alunos no nível que respondeu (corretamente ou não) ao item foi maior que 50; (ii) O percentual de acerto do item nos níveis anteriores é menor que 65%; (iii) O percentual de acerto do item no nível considerado e nos níveis acima é maior que 65%; (iv) O ajuste da curva é bom. Segundo informações fornecidas pelo Serviço de informação ao Cidadão-SIC (infor- mação pessoal)1 o ajuste da curva é bom quando as proporções de resposta empíricas e esperadas estão em bom ajuste com curva obtida por meio dos parâmetros dos itens. De acordo com Klein (2009), utilizando esta metodologia para identi�car os itens âncora, todo item considerado bom será utilizado, pois será âncora em algum nível, a não ser que seja muito difícil. Esta metodologia continua sendo empregada nas avaliações aplicadas pelo SAEB para identi�cação dos itens âncora. A escala interpretada no SAEB atualmente tem média 250 e desvio padrão 50 conside- rando intervalos de comprimento 25 (meio desvio padrão), a �m de se obter uma melhor precisão na descrição pedagógica da escala. 2.2.2 Construção da Escala de Pro�ciência do ENEM A TRI começou a ser utilizada no ENEM a partir de 2009, quando foram estabelecidas as matrizes de referência para cada área do conhecimento avaliada. Neste ano foi estabele- cida uma escala, a escala �ENEM�, a �m de possibilitar o acompanhamento e comparação dos participantes ao longo dos anos. Para a construção desta escala, foram considerados os participantes concluintes do EM regular de 2009, como grupo de referência e foram de�nidos a média e o desvio padrão desse grupo como sendo 500 e 100 respectivamente. No ENEM, de acordo com informações fornecidas através do SIC (informação pes- soal)2, o modelo da TRI utilizado também é o logístico de três parâmetros. Durante as análises, primeiro são estimados os parâmetros dos itens para, em seguida, estimar-se as pro�ciências dos participantes. O método utilizado para a estimação dos parâmetros dos itens, assim como no SAEB, é o de Máxima Verossimilhança Marginal. A estimação das pro�ciências tem como base o método bayesiano EAP. A implementação do modelo também é feita utilizado o software BILOG-MG. As pro�ciências na TRI são estimadas em uma escala que não possui mínimo ou máximo pré-estabelecidos, variando de acordo com as características que contém os itens que compõem o exame aplicado a cada edição, isto é, o mínimo e o máximo no ENEM varia em cada edição da prova. Assim sendo, se um aluno acertar todos os itens no exame do ENEM, não signi�ca que este terá uma pro�ciência igual a 1000. Do mesmo modo 1Informação fornecida pelo SIC através do protocolo 23480-006786/2018-56 em 29 mar. 2018. 2Informação fornecida pelo SIC através do protocolo 23480.028994/2017-25 em 18 jan. 2018. 2. Construção de Escalas para Avaliação de Pro�ciências 35 que, um participante que erra todas as questões não terá pro�ciência igual a zero, este recebe o valor mínimo do exame. (BRASIL, 2017e). 2.2.3 Construção das Escalas de Pro�ciência do SARESP A TRI vem sendo utilizada nas avaliações do SARESP desde de sua implantação em 1996. Nos primeiros anos de aplicação, a avaliação era realizada ano a ano em cada série/ano de maneira isolada com itens totalmente distintos de um ano para o outro, impedindo o processo de equalização, que tornaria possível a comparação entre anos, proporcionando a veri�cação de ganho de conhecimento de uma série/ano para a seguinte. Para resolver esse problema foi criada uma prova de ligação, composta por itens que haviam sido submetidos às duas populações (de um ano e do ano seguinte). Com a utilização dessas provas de ligação foi possível a criação de uma escala única para as séries/anos consecutivos, permitindo assim a comparação dos resultados e a criação de escalas de pro�ciência interpretáveis para cada disciplina avaliada. O trabalho publicado por Valle (2000) traz uma discussão detalhada de como foi feito o processo de equalização das avaliações aplicadas nos anos de 1996, 1997 e 1998 utilizado a prova de ligação. Atualmente, de acordo com Saresp (2017), a análise dos resultados das avaliações apli- cadas pelo SARESP é realizada por meio da análise clássica dos itens e da TRI. A análise clássica, implementada no ItemAN, plataforma de software que automatiza a criação de relatórios de análise de itens com base na teoria clássica de testes, é utilizada para compor o relatório sobre os itens. Uma das medidas utilizadas para análise de discriminação do item, segundo a teoria clássica, é a correlação bisserial, apresentada para cada alternativa do item, é uma medida de associação entre o desempenho no item e o desempenho no teste. Os itens são examinados quando algum distrator (alternativas incorretas) tem coe�ciente bisserial maior que a da alternativa correta, quando a alternativa correta tem coe�ciente bisserial negativo ou muito próximo de zero ou quando o item tem várias alternativas com coe�cientes bisseriais positivos. A TRI é utilizada para fornecer um estudo mais detalhado sobre os itens e sobre a pro�ciência dos alunos. Na última prova aplicada pelo SARESP em 2016, o modelo adotado para análise dos parâmetros dos itens de múltipla escolha foi o da Ogiva Normal e para análise das provas com itens de resposta aberta, o modelo adotado foi o de Resposta Gradual. O processo de calibração dos itens e das pro�ciências utilizando o Modelo Ogiva Normal foi feito pelo software BILOG-MG e para o 3o ano EF, que é constituído de perguntas abertas, o processo de calibração dos itens e das pro�ciências utilizando o modelo de Resposta Gradual foi utilizado software IRTPro. O método adotado para a estimação dos parâmetros dos itens foi o de Máxima Veros- similhança Marginal e a estimação das pro�ciências foi obtida pela média da distribuição a posteriori utilizando a distribuição normal padrão como distribuição da pro�ciência. Para de�nir o posicionamento dos itens na escala foram utilizados os seguintes critérios: • Itens de resposta aberta - posicionado no nível da escala no qual a probabilidade de resposta na categoria mais alta do nível considerado foi maior ou igual a 0, 65; • Itens de múltipla escolha - Posicionado no nível da escala se a probabilidade de acerto no nível considerado for maior ou igual a 0, 65 e a probabilidade de acerto do item no nível dois espaçamentos anterior ao nível considerado foi menor que 0, 50. Os resultados das pro�ciências obtidas no SARESP para todas as séries/anos avaliados estão na mesma escala do SAEB, com média 250 e desvio padrão 50. Para interpretação das escalas, os níveis são escolhidos como no SAEB com espaçamento de 25 pontos, o equivalente a meia unidade de desvio padrão da escala de pro�ciência. A Escala de 2. Construção de Escalas para Avaliação de Pro�ciências 36 Matemática, por exemplo, é interpretada nos pontos 75, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 450 e 475. A descrição de cada um dos pontos é feita com base nos resultados de desempenho dos alunos na prova de Matemática e de acordo com as habilidades detalhadas nas Matrizes de Referência para Avaliação do SARESP. Os pontos da escala, por sua vez, são agrupados em quatro níveis de pro�ciência, sendo estes, abaixo do básico, básico, adequado e avançado. O agrupamento dos pontos da escala são feitos de acordo com os resultados das pro�ciências obtidos para cada uma das séries/anos submetidos à avaliação e em cada uma das áreas de conhecimento avaliadas. A escala está dividida em pontos que vão de 0 (zero) a 500 (quinhentos), porém, é im- portante ressaltar, novamente, que as escalas de pro�ciência na TRI não possuem máximo ou mínimo pré-estabelecidos. Estes valores irão variar de acordo com as características dos itens que compõem a avaliação de cada edição. 2.3 Proposta para Construção da Escala a partir de sua Segmentação Um dos objetivos deste trabalho foi realizar um estudo sobre construções de escalas baseadas na TRI e a partir disto, construir e interpretar uma escala de pro�ciência em conteúdos matemáticos básicos, adotando-se uma das técnicas estudadas que melhor se adequasse ao contexto abordado. De acordo com o que foi apresentado até o momento, sobre a construção de escalas na TRI e as técnicas adotadas pelos grandes sistemas de avaliação educacional estudados, pôde-se observar que em geral são selecionados níveis âncora na escala adotada, que serão interpretados de acordo com os itens âncora posi- cionados, seguindo algum critério especí�co. Desta forma, como já mencionado, não é possível prever o número de itens que serão posicionados como âncora e nem se serão posicionados itens em todos os níveis escolhidos para interpretação. Corre-se o risco de que níveis selecionados não possam ser interpretados. Buscando melhorar a interpretação da escala em toda a sua extensão, baseado na proposta adotada por Barros (2016), que utilizou a técnica de agrupamentos hierárquicos para construção de uma escala para medida do nível socioeconômico familiar, optou-se por fazer a segmentação da escala classi�cando os indivíduos em faixas de pro�ciência, formando grupos e interpretando as faixas dentro de cada grupo. Assim, para atingir este objetivo será aplicada a técnica para segmentação, denominada análise de agrupamentos hierárquicos, a partir do método de Ward. De acordo com Hair et al. (2009), os proce- dimentos hierárquicos foram os primeiros métodos de agrupamento desenvolvidos, sendo utilizados para classi�car indivíduos/elementos em grupos de modo que cada indivíduo é muito semelhante aos indivíduos do grupo que pertence e diferente dos demais grupos. Com a utilização dessa técnica classi�ca-se em grupos os níveis selecionados na escala de pro�ciência e a partir do posicionamento dos itens como âncora nesses níveis, realiza-se a interpretação dentro de cada grupo. Para informações mais detalhadas sobre a análise de agrupamentos hierárquicos e outros métodos de agrupamentos pode-se consultar (HAIR et al., 2009). Capítulo 3 Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros O principal foco da TRI, como o próprio nome sugere, é o item e não o teste como um todo, contemplando a análise de itens através das estimativas de seus parâmetros e a análise do instrumento de medida como um todo. Dentro deste contexto, a medida da pro�ciência de um aluno, por exemplo, não depende dos itens apresentados a ele, e os parâmetros de discriminação e di�culdade do item não dependem do grupo de respon- dentes. Isto é, na TRI um item mede determinado conhecimento, independentemente de quem o está respondendo bem como, a pro�ciência de um indivíduo não depende dos itens apresentados a ele (ANJOS; ANDRADE, 2012). Segundo Anjos e Andrade (2012), a TRI foi desenvolvida com o propósito de superar problemas da Teoria Clássica de Testes, (que utiliza o escore do teste como referência de medida), como a dependência da medida de pro�ciência em relação ao teste aplicado e a dependência dos parâmetros dos itens em relação ao número de respondentes. De acordo com Andrade, Tavares e Valle (2000), a TRI consiste em um conjunto de modelos matemáticos, que representam a probabilidade de um indivíduo dar uma resposta certa a um item em função dos parâmetros do item e da pro�ciência (ou traço latente) do respondente. Essa relação é sempre expressa de tal modo que, quanto maior a pro�ciência, maior será a probabilidade de resposta correta ao item. Os diversos modelos propostos na literatura dependem fundamentalmente de três fatores: (i) da natureza do item, podem ser dicotômicos ou não; (ii) do número de populações envolvidas, pode-se ter apenas uma ou mais de uma; (iii) da quantidade de traços latentes que está sendo medida, pode-se medir apenas um (modelo unidimensional) ou mais de um (modelo multidimensional). Dentro do contexto da TRI é importante que se deixe claro o conceito de grupo e de população. De acordo com Andrade, Tavares e Valle (2000) quando se utiliza o termo grupo, este se refere a uma amostra de indivíduos de uma população e quando é feita referência a dois grupos - ou mais - de indivíduos, estes serão dois conjuntos distintos, amostrados de duas - ou mais - populações. Nas seções que se seguem, serão apresentados, os conceitos, de�nições e métodos de estimação dos parâmetros e pro�ciências na TRI. Na Seção 3.1 apresenta-se alguns dos mo- delos matemáticos presentes na literatura. Na Seção 3.2 o modelo logístico unidimensional de três parâmetros, modelo utilizado nesta pesquisa para a estimação da pro�ciência em 37 3. Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros 38 conteúdos matemáticos básicos de alunos matriculados no primeiro semestre do primeiro ano nos cursos da área de exatas. E por �m, na Seção 3.3 apresenta-se alguns métodos de estimação existentes com ênfase no método bayesiano de estimação dos parâmetros e das pro�ciências, adotado neste trabalho. 3.1 Modelos Matemáticos Como citado , a TRI consiste em um conjunto de modelos matemáticos que dependem fundamentalmente: da natureza do item; no número de populações envolvidas e do número de traços latentes que está sendo medido. Assim, encontra-se na literatura, modelos que são utilizados quando um teste é aplicado a um único grupo de respondentes e modelos que são utilizados quando se tem duas ou mais populações. Para os testes aplicados a um único grupo de respondentes, encontra-se modelos utilizados para itens dicotômicos (ou dicotomizados) e modelos utilizados para itens não dicotômicos (ou politômicos). Já para testes aplicados a duas ou mais populações, os modelos utilizados, sugeridos da literatura, são extensões dos modelos aplicados a um único grupo de respondentes. Os modelos de resposta ao item mais utilizados para itens dicotômicos, são os chama- dos modelos logísticos que, segundo Andrade, Tavares e Valle (2000), podem ser aplicados tanto para análise de itens de múltipla escolha dicotomizados, ou seja, corrigidos como certo ou errado, quanto para a análise de itens abertos, isto é, de resposta livre, cor- rigidos de forma dicotomizada. Existem essencialmente três modelos logísticos que se diferem pelo número de parâmetros. São conhecidos como modelo logístico de um pa- râmetro (ML1) onde é levado em consideração somente a di�culdade do item, de dois parâmetros (ML2) onde são considerados os parâmetros de di�culdade e discriminação e o de três parâmetros (ML3) que considera os parâmetros de di�culdade, discriminação e a probabilidade de acerto ao acaso (chute). O modelo logístico unidimensional de três parâmetros (ML3) será apresentado com mais detalhes visto que, este foi o modelo utilizado no presente trabalho para avaliar res- postas dicotomizadas (corrigidas como certo ou errado), com o intuito de medir apenas um traço latente (ou pro�ciência), por esta razão, chamado de modelo unidimensional. A saber, mediu-se a pro�ciência em conteúdos matemáticos básicos, necessários para o acompanhamento das disciplinas de cálculo e similares dos alunos matriculados no pri- meiro semestre do primeiro ano nos cursos da área de exatas, utilizando como instrumento de medida uma prova composta por itens de múltipla escolha. Quando se tem itens classi�cados como não dicotômicos, são encontrados na literatura modelos para análise de itens abertos (os de resposta livre) e modelos para análise de itens de múltipla escolha que são avaliados de forma graduada, itens deste tipo são construídos ou corrigidos de forma que se tenha uma ou mais categorias intermediárias ordenadas entre as categorias certo ou errado. Este tipo de item não leva-se em conta somente se o indivíduo respondeu de forma correta ou não a alternativa, considera-se também qual foi a resposta dada por ele. Os modelos de Resposta Nominal, de Resposta Gradual, de Escala Gradual, de Crédito Parcial e o modelo de Crédito Parcial Generalizado são exemplos de modelos utilizados para itens não dicotômicos. O Modelo de Resposta Nominal pode ser aplicado a todas as categorias de respostas escolhidas em um teste com itens de múltipla escolha. Este modelo tem o objetivo de potencializar a precisão do traço latente estimado usando toda a informação contida nas respostas dos indivíduos e não somente se o item foi respondido corretamente ou não. O modelo de Resposta Gradual admite que as categorias de resposta de um item possam ser ordenadas entre si, tendo este o mesmo propósito do modelo de Resposta Nominal. O modelo de Escala Gradual corresponde a um caso particular do Modelo de Resposta 3. Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros 39 Gradual, que também é aplicado a itens com categoria de respostas ordenadas. Além disso, supõe-se que os escores das categorias são igualmente espaçados. O modelo de Crédito Parcial também pode ser utilizado para análise de respostas adquiridas de categorias ordenadas e tem o mesmo propósito dos modelos anteriores. O modelo de Crédito Parcial Generalizado, também indicado para análise de itens não dicotômicos, como citado, é baseado no modelo de Crédito Parcial. Informações mais detalhadas sobre esses modelos podem ser obtidas em (ANDRADE; TAVARES; VALLE, 2000). Para testes aplicados a duas ou mais populações são encontradas na literatura exten- sões dos modelos aplicados a um único grupo de respondentes. De acordo com Andrade, Tavares e Valle (2000) generalizações dos modelos logísticos unidimensionais de 1, 2 e 3 parâmetros são utilizados para um teste aplicado a dois ou mais grupos de respondentes. O que acontece em geral é que indivíduos pertencentes a diferentes populações não são submetidos aos mesmos testes. Mas, para que seja possível efetuar comparações entre as populações é necessário haver alguns itens comuns entre eles. A utilização de itens comuns em testes diferentes aplicados a populações diferentes, possibilita que ao �nal do processo de estimação, todos os parâmetros (dos itens e tam- bém das pro�ciências) estejam em uma mesma escala, viabilizando comparações entre as populações e a construção de escalas de pro�ciência (ou escalas de conhecimento) que pos- sam ser interpretadas, o que é de grande importância para área educacional. O processo que possibilita a inclusão de todos os parâmetros, tanto dos itens quanto das pro�ciên- cias em uma mesma métrica é conhecido como processo de equalização. O processo de equalização pode ser feito de duas maneiras diferentes. O caso mais recorrente acontece em populações distintas que respondem provas parcialmente diferentes. Informações mais detalhadas sobre este processo de equalização e outros tipos diferentes de equalizações podem ser vistos em (ANDRADE; TAVARES; VALLE, 2000). 3.2 O Modelo Logístico Unidimensional de três Parâ- metros (ML3) Como mencionado na Seção 3.1, os modelos mais utilizados para itens dicotômicos são os modelos logísticos. O modelo logístico de dois parâmetros foi modi�cado por Birnbaum (1968) para incluir o parâmetro c que representa a probabilidade de acerto ao acaso. O modelo resultante tornou-se conhecido como modelo logístico de três parâmetros (ML3) que é considerado o mais completo, sendo possível obter os modelos de 1 e 2 parâmetros facilmente a partir deste. O modelo logístico unidimensional de três parâmetros (ML3) conforme citado , foi o modelo utilizado neste trabalho, pois os itens que fazem parte da prova aplicada aos alunos matriculados no primeiro semestre do primeiro ano dos cursos da área de exatas, serão analisados de maneira dicotômica (corrigidos como certo ou errado) e utilizados para avaliar apenas um traço latente de interesse nesta pesquisa que é a pro�ciência em conteúdos matemáticos básicos. De acordo com Andrade, Tavares e Valle (2000) o modelo (ML3) é dado por P (Uij = 1 | θj) = ci + (1− ci) 1 1 + exp−Dai(θj−bi) (3.1) com i = 1, 2, · · · , I, e j = 1, 2, · · · , n, em que: • I representada o número de item que compõem o teste; • n representa o número de respondentes; 3. Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros 40 • Uij corresponde a uma variável dicotômica que assume os valores, 1 quando o res- pondente j responde corretamente o item i, ou 0 caso contrário; • θj corresponde ao traço latente (ou pro�ciência) do j -ésimo indivíduo; • P (Uij = 1 | θj) corresponde a probabilidade de um indivíduo j com traço latente θj responder corretamente o item i, chamada de Função de Resposta do Item - FRI; • bi corresponde ao parâmetro de di�culdade (ou de posição) do item i, medido na mesma escala do traço latente; • ai corresponde ao parâmetro de discriminação (ou inclinação) do item i, com valor proporcional à inclinação da Curva Característica do Item - CCI no ponto bi; • ci corresponde ao parâmetro do item que representa a probabilidade de indivíduos com baixa pro�ciência responderem corretamente a um item i (muitas vezes men- cionada como a probabilidade de acerto casual); • D corresponde a um fator de escala, constante e igual a 1. Quando se desejar que a função logística forneça resultados semelhantes aos da função ogiva normal, utiliza-se para o fator D o valor 1,7. 3.2.1 Curva Característica do Item - CCI: Interpretação e Repre- sentação Grá�ca A curva característica do item possui formato em �S� e descreve a relação entre a probabilidade de resposta correta a um item e a escala de pro�ciência. De acordo com Andrade, Tavares e Valle (2000), a escala de pro�ciência é uma escala arbitrária onde o que importa são as relações de ordem existentes entre seus pontos e não necessariamente a sua magnitude. A relação entre a probabilidade de um indivíduo j com pro�ciência θj responder cor- retamente a um item i, dada por P (Uij = 1 | θj), e a escala de pro�ciência, bem como os parâmetros do modelo e sua forma em �S�, podem ser visualizadas na Figura 3.1. Pode-se observar que para valores mais baixos de pro�ciência, a probabilidade de resposta correta se encontra nos níveis mais baixos. Para indivíduos com maiores pro�ciências as probabi- lidades de resposta correta é maior. Observe que essa relação é não linear. Baker (2001) enfatiza que a Curva Característica do Item é alicerce de construção básico da TRI e que dela dependem todas as outras construções, razão pela qual ele a�rma que deve ser dada a esta curva considerável atenção dentro da teoria. 3. Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros 41 Figura 3.1: Exemplo de uma curva característica do item - CCI. I P (U ij= 1 | θ j) habilidade i i i c b a Fonte: Elaborado pela autora (adaptado de (ANDRADE; TAVARES; VALLE, 2000)). O parâmetro a é proporcional à derivada da tangente da curva no ponto de in�exão. Portanto, não são esperados itens com valores de a negativo para este modelo, pois isto indicaria que a probabilidade de responder corretamente o item diminui com o aumento da pro�ciência, o que seria contraditório, uma vez que o modelo proposto baseia-se no fato de que indivíduos com maior pro�ciência tem maior probabilidade de acertar o item. Se o parâmetro a possui um valor baixo, obtem-se curvas características com uma inclinação menor, o que indica que o item tem pouco poder de discriminação. Quando isso acontece, indivíduos com pro�ciência baixa e indivíduos com pro�ciência alta terão aproximadamente a mesma probabilidade de acertar o item. Se o parâmetro a possui um valor alto, obtem-se curvas características �íngremes�, que acabam dividindo os indivíduos em dois grupos: os que possuem pro�ciência abaixo da localização do item e os que possuem pro�ciência acima dessa localização. Isso pode ser observado na Figura 3.2. O exemplo (a) traz a CCI de um item com pa- râmetro a de valor mais baixo, menos discriminativo. Pode-se observar que um indivíduo com pro�ciência 0 por exemplo, tem probabilidade de responder corretamente o item bem próxima a probabilidade do indivíduo com pro�ciência 2. O exemplo (b) mostra a curva de um item com valor de a alto, bem discriminativo e apresenta uma CCI �íngreme�. Os dois exemplos (a) e (b) tem parâmetro de di�culdade b= −0.638, posição onde o item está localizado na escala. Pode-se observar que a maior parte dos indivíduos com pro�ciência abaixo deste valor em (b), tem a mesma probabilidade de responder corretamente ao item sendo esta, a probabilidade de acerto ao acaso para o item. 3. Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros 42 Figura 3.2: Exemplos de curva característica do item com valores diferentes para o parâ- metro de discriminação. −4 −3 −2 −1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 habilidade pr ob ab ili da de d e re sp os ta c or re ta (a) a=0,603 −4 −3 −2 −1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 habilidade pr ob ab ili da de d e re sp os ta c or re ta (b) a=2,833 Fonte: Elaborado pela autora. O parâmetro b é medido na mesma escala da pro�ciência θ, representando a pro�ciência necessária para uma probabilidade de acerto dada por (1+ c)/2 (ANDRADE; TAVARES; VALLE, 2000). Deste modo, quanto maior o valor de b mais difícil será o item e quanto menor o valor do parâmetro, mais fácil o item será considerado. A Figura 3.3 mostra dois exemplos de CCI's, onde o valor do parâmetro a e c são os mesmos para os dois exemplos, 0, 938 e 0, 215 respectivamente. No exemplo (a), a curva está representando um item fácil, podemos observar que a probabilidade de resposta correta é alta já para níveis de pro�ciência baixos. No exemplo (b), a curva representa um item difícil, podemos observar que só apresenta probabilidade alta de resposta correta, indivíduos com níveis muito altos de pro�ciência. Figura 3.3: Exemplos de curva característica do item com valores diferentes para o parâ- metro de di�culdade. −4 −3 −2 −1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 habilidade pr ob ab ili da de d e re sp os ta c or re ta (a) b=-2,729 −4 −3 −2 −1 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 habilidade pr ob ab ili da de d e re sp os ta c or re ta (b) b=2,351 Fonte: Elaborado pela autora. O parâmetro c representa a probabilidade de um indivíduo com baixa pro�ciência responder corretamente a um item, essa probabilidade pode ser chamada de probabilidade de acerto ao acaso. Segundo Andrade, Tavares e Valle (2000) quando não é permitido �chutar�, o parâmetro c é igual a 0 e o parâmetro b representa o ponto na escala de pro�ciência onde a probabilidade de acertar o item é de 0.5. 3. Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros 43 3.2.2 Função de Informação do Item A função de informação do item é uma medida bastante utilizada em conjunto com a CCI. Permite analisar quanto um item contém de informação para a medida de pro�ciên- cia. Conforme apresentado por Andrade, Tavares e Valle (2000) a função de informação de um item é dada por Ii(θ) = [ ∂ ∂θ Pi(θ) ]2 Pi(θ)Qi(θ) , (3.2) onde: Ii(θ) é a informação fornecida pelo item i no nível de pro�ciência θ; Pi(θ) = P (Uij = 1 | θ); Qi(θ) = 1− Pi(θ) e ∂ ∂θ é a derivada da função em relação a θ. Para o modelo logístico de três parâmetros (ML3), a equação pode ser escrita como: Ii(θ) = D2a2i Qi(θ) Pi(θ) [ Pi(θ)− ci 1− ci ]2 . (3.3) de fato, Ii(θ) = [ (1− ci)e−Dai(θj−bi)Dai (1 + e−Dai(θj−bi))2 ]2 [ ci + 1− ci 1 + e−Dai(θj−bi) ][ 1− ( ci + 1− ci 1 + e−Dai(θj−bi) )] = D2a2i (1− ci)2(e−Dai(θj−bi))2 (1 + e−Dai(θj−bi))4[ ci ( 1 + e−Dai(θj−bi) ) + (1− ci) ][ (1− ci)e−Dai(θj−bi) ] (1 + e−Dai(θj−bi))2 = D2a2i (1− ci)(e−Dai(θj−bi)) (1 + e−Dai(θj−bi)) · 1 (1 + e−Dai(θj−bi)) [ ci ( 1 + e−Dai(θj−bi) ) + (1− ci) ] = D2a2iQi(θ) 1( 1 + e−Dai(θj−bi) )2[ ci ( 1 + e−Dai(θj−bi) ) + (1− ci) ] 1 + e−Dai(θj−bi) = D2a2i Qi(θ) Pi(θ) [ 1( 1 + e−Dai(θj−bi) )2] = D2a2i Qi(θ) Pi(θ) [ (1− ci)2( 1 + e−Dai(θj−bi) )2 (1− ci)2 ] = D2a2i Qi(θ) Pi(θ) [ Pi(θ)− ci 1− ci ]2 . Segundo Baker (2001) a função de informação do item de um modelo logístico de três parâmetros (ML3), com os mesmos valores para os parâmetros a e b de um modelo logístico de dois parâmetros (ML2), oferece uma quantidade menor de informação, o que é aceitável, pois obter o item correto por adivinhação não deve aumentar a precisão com que um nível de pro�ciência é estimado. O máximo da função de informação também 3. Teoria da Resposta ao Item: Conceitos, De�nições e Estimação de Parâmetros 44 não ocorre a um nível de pro�ciência equivalente ao parâmetro de di�culdade b. Sendo assim, a equação (3.3) mostra a importância que têm os três parâmetros sobre o total de informação do item. A informação será maior quando: (i) bi se aproxima de θ; (ii) maior for o ai; (iii) mais ci se aproximar de 0. 3.2.3 Função de Informação do Teste De acordo com Baker (2001) uma vez que se utiliza um teste para estimar a pro�ci- ência de um indivíduo, a quantidade de informação produzida pelo teste para qualquer nível de pro�ciência também pode ser obtida. Um teste é composto por um conjunto de itens, assim a informação fornecida pelo teste em um determinado nível de pro�ciência é simplesmente a soma das informações dos itens nesse nível. Desta forma, a informa- ção fornecida pelo teste é dada pela soma das informações fornecidas pelos itens que o compõe. Segundo Andrade, Tavares e Valle (2000) a função de informação do teste é dada por I(θ) = I∑ i=1 Ii(θ) (3.4) onde, (i) I(θ) representa a quantidade de informação fornecida pelo teste no nível de pro�ci- ência θ; (ii) Ii(θ) representa a quantidade de informação fornecida pelo i -ésimo item no nível de pro�ciência θ; (iii) I representa a quantidade de itens que compõe o teste. A função de informação do teste tem a característica de expressar o quão bem o teste está estimando as pro�ciências em toda a gama de pontuação de pro�ciências. Pode-se notar que a medida de informação em (3.4) depende do valor de θ. Assim, a amplitude do intervalo de con�ança para θ também dependerá do seu valor. 3.2.4 Suposições do Modelo As suposições consideradas fundamentais em modelos da TRI são a unidimensionali- dade e a independência local embora, segundo Nojosa (2002) a independência local não é mais vista como uma suposição e sim como uma consequência da unidimensionalidade. Para o modelo proposto a suposição de unidimensionalidade do teste exige que apenas um único traço latente (ou pro�ciência) esteja sendo medido pelo conjunto de itens. Essa suposição não pode ser estritamente cumprida, uma vez que para a execução de qualquer tarefa uma pessoa põe em prática mais de um traço latente. Fatores, tais como o nível de motivação, a ansiedade, a capacidade de trabalhar rapidamente, a tendência de adivinhar quando em dúvida sobre respostas são exemplos de habilidades que podem ser utilizadas conjuntamente com a pro�ciência que se quer medir quando um indivíduo é submetido a um teste. Para que o postulado de unidimensionalidade seja satisfeito é necessário admitir que existe uma pro�ciência dominante (ou fator dominante) responsável pelo 3. Teor