� �� � �� � � � � � �� � �� �� � �� � �� �� ��� ���� ���� ��� IFT Instituto de F́ısica Teórica Universidade Estadual Paulista TESE DE DOUTORADO IFT–T.001/2011 Aspectos Relativ́ısticos da Teoria da Informação Quântica André G. S. Landulfo Orientador George E. A. Matsas i Agradecimentos À Aline, por todo seu amor, compreensão e ajuda durante todo esse tempo. Esse trabalho é dedicado a você. Aos meus pais Ilton e Sueli, meus avós Vito e Adélia, meus irmãos Thiago e Carol além de meus tios Francisco, Maria Aparecida e Antônio. À minha recém adquirida famı́lia, João Carlos, Conceição, Alais e Ana Karla. Aos meus amigos da USP, Michel Navarro, Vinicius Busti e Dorival Gonçalves. Ao Instituto de F́ısica Teórica por todo o suporte durante esses anos e a todos os colegas de IFT. Um agradecimento especial, apesar de não estar mais no IFT, à minha amiga Patricia. Aos atuais colegas de grupo, Adriano, Raissa e Katja e aos antigos colegas de grupo Clóvis, Bruno e Douglas. Aos professores Daniel Vanzella, Alberto Saa e Reuven Opher pela prazerosa convivência ao longo desses anos. Um profundo agradecimento ao George, por toda a amizade e orientação dedicada ao longo de todos esses anos. Um agradecimento especial por todo tempo dedicado às valiosas discussões sobre f́ısica. À FAPESP pelo apoio financeiro. ii Resumo Mesmo tratando a gravidade classicamente, a Teoria Quântica de Campos em Espaços- Tempos Curvos (TQCEC) faz previsões impressionantes sobre o comportamento de cam- pos quânticos na presença de campos gravitacionais. Entretanto, ao mesmo tempo em que nos revela efeitos surpreendentes, a TQCEC levanta uma série de questionamentos. O desenvolvimento de uma teoria na interface entre a teoria da relatividade, a mecânica quântica e a teoria da informação poderá não só lançar uma nova luz em tais questões como também nos permitir descobrir novos efeitos de gravitação quântica de baixas ener- gias. Entretanto, os efeitos que a teoria da relatividade causa na teoria da informação quântica são não triviais já no espaço-tempo de Minkowski. Faz-se necessária portanto uma análise cuidadosa de tais efeitos já no contexto da relatividade especial. Sendo assim, estudamos primeiro o comportamento das desigualdades de Bell usando férmions de spin 1/2 e fótons quando os detetores que medem spin e polarização, respectivamente, movem- se com certa velocidade. Além disso, usamos o limite de Holevo para estudar sistemas de comunicação quando as partes que trocam informação tem um movimento relativo. Como um desenvolvimento natural, estudamos diversos aspectos da teoria da informação quântica no contexto da teoria quântica de campos e, em particular, do efeito Unruh. Tais resultados nos permitiram prever o comportamento de qubits nas vizinhanças de um buraco negro de Schwarzschild. Palavras Chaves: Informação Quântica; Emaranhamento; Relatividade; Efeito Unruh; Buracos Negros. Áreas do conhecimento: Mecânica Quântica; Teoria da Informação Quântica; Teoria da Relatividade; Teoria Quântica de Campos em Espaços-Tempos Curvos. iii Abstract Although it treats gravity classically, the Quantum Field Theory in Curved Spaceti- mes (QFTCS) makes remarkable predictions about de behavior of quantum fields in the presence of gravitational fields. However, these striking discoveries raises several issues. The development of a theory at the interface between the theory of relativity, quantum mechanics and information theory could not only shed new light on such questions as well as allow us to uncover new low-energy quantum gravity effects. However, relativity affects quantum information theory in a highly non-trivial way already in Minkowski spacetime. Therefore, a careful analysis of these effects in the context of special relativity is needed. For this purpose, we begin investigating how the movement of the spin and polarization detectors influences the Bell inequalities using spin 1/2 fermions and photons, respecti- vely. Then, we use the Holevo bound to investigate quantum communication channels when the parts that trade information have a relative motion. As a natural development, we use quantum field theory and, in particular, the Unruh effect to analyze several aspects of quantum information theory. This enables us to predict the behavior of qubits in the vicinity of a Schwarzschild black hole. iv [The black hole] teaches us that space can be crumpled like a piece of paper into an infinitesimal dot, that time can be extinguished like a blown-out flame, and that the laws of physics that we regard as “sacred”, as immutable, are anything but. Behind it all is surely an idea so simple, so beautiful, that when we grasp it - in a decade, a century, or a millennium - we will all say to each other, how could it have been otherwise? How could we have been so stupid? John Archibald Wheeler (1911-2008) The reader should not be discouraged if...he does not have the prerequisites for reading the prerequisites. Paul Halmos (1916-2006) Quantum theory needs no interpretation. Asher Peres (1934-2005) Sumário 1 Introdução 1 2 Teoria da Informação Clássica 6 2.1 Medidas de Informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Sistemas de Comunicação sem Rúıdos . . . . . . . . . . . . . . . . . . . . 15 3 Teoria da Informação Quântica 18 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos . . . . . . . . . . . 20 3.1.1 Os Postulados da Mecânica Quântica . . . . . . . . . . . . . . . . 21 3.1.2 Medições Generalizadas e POVM . . . . . . . . . . . . . . . . . . . 22 3.1.3 Mapeamentos Quânticos . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2 Medidas de Informação Quântica . . . . . . . . . . . . . . . . . . . . . . . 27 3.3 Sistemas Quânticos de Comunicação . . . . . . . . . . . . . . . . . . . . . 30 3.3.1 O Limite de Holevo . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.3.2 O Teorema de Schumacher . . . . . . . . . . . . . . . . . . . . . . 32 3.4 Emaranhamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.4.1 Definição de Emaranhamento . . . . . . . . . . . . . . . . . . . . . 33 3.4.2 Aplicações do Emaranhamento . . . . . . . . . . . . . . . . . . . . 34 3.4.3 Medidas de Emaranhamento . . . . . . . . . . . . . . . . . . . . . 39 3.5 Correlações Clássica e Quântica . . . . . . . . . . . . . . . . . . . . . . . . 41 4 Relatividade Especial e a Teoria da Informação Quântica 45 4.1 As Representações Unitárias Irredut́ıveis do Grupo de Poincaré . . . . . . 46 4.1.1 Classificação das Representações Irredut́ıveis de P̃↑ + . . . . . . . . 49 4.2 A Influência do Movimento dos Detetores nas Desigualdades de Bell . . . 51 4.3 A Influência do Movimento dos Detetores em Medidas com Fótons Emara- nhados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.4 O Limite de Holevo e Canais Quânticos Relativ́ısticos . . . . . . . . . . . 67 5 O Efeito Unruh e a Teoria da Informação Quântica 73 5.1 Teoria Quântica de Campos em Espaços-Tempos Curvos . . . . . . . . . . 73 SUMÁRIO vi 5.1.1 Quantização do Campo Escalar Real em Espaços-Tempos Global- mente Hiperbólicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.1.2 Transformações de Bogoliubov . . . . . . . . . . . . . . . . . . . . 77 5.1.3 Quantização em Espaços-Tempos Estáticos . . . . . . . . . . . . . 79 5.1.4 O Efeito Unruh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2 Morte Súbita do Emaranhamento e Perda de Fidelidade no Teletransporte via o Efeito Unruh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.2.1 O Qubit como um Detetor de Dois Nı́veis . . . . . . . . . . . . . . 86 5.2.2 Qubit Emaranhado e o Efeito Unruh . . . . . . . . . . . . . . . . . 89 5.2.3 Teletransporte e o efeito Unruh . . . . . . . . . . . . . . . . . . . . 96 5.2.4 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.3 Mudança Súbita no Comportamento das Correlações Clássicas e Quânticas e o Efeito Unruh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.3.1 Dinâmica das Correlações Clássicas e Quânticas . . . . . . . . . . . 100 5.3.2 Medida Simétrica de Correlação Quântica e a Discódia Quântica . 103 5.3.3 Comentários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6 Informação Quântica nas Vizinhanças de um Buraco Negro 109 6.1 O Efeito Unruh no Espaço-Tempo de Schwarzschild . . . . . . . . . . . . 109 6.2 Qubits nas Vizinhanças de um Buraco Negro . . . . . . . . . . . . . . . . 113 7 Considerações Finais 116 A Matriz Densidade e o Teorema da Não Clonagem 118 A.1 Matriz Densidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 A.2 Teorema da Não Clonagem . . . . . . . . . . . . . . . . . . . . . . . . . . 120 B A Decomposição de Schimdt 121 C Classificação das Representações Irredut́ıveis de P̃↑ + 122 D Demonstração da Equação (5.15) 130 Referências Bibliográficas 131 Caṕıtulo 1 Introdução A Teoria Quântica de Campos em Espaços-Tempos Curvos (TQCEC) é uma teoria cons- trúıda na interface entre Relatividade Geral e Mecânica Quântica e estuda a propagação de campos quânticos em um espaço-tempo de fundo fixo bem como sua retro-ação no espaço-tempo via a equação de Einstein semi-clássica [1]: Rab − 1 2 Rgab = 8π〈Tab〉ω, (1.1) onde Rab é o tensor de Ricci, Tab é o operador tensor energia-momento do campo e 〈 〉ω representa o valor esperado no estado ω. (Estaremos usando, durante todo o texto, uni- dades naturais onde � = c = G = kB = 1.) Como o espaço-tempo é tratado de acordo com a Relatividade Geral, ele será descrito por um par (M, gab) onde M é uma varie- dade diferenciável quadrimensional e gab é uma métrica Lorentziana [2, 3]. Os campos se propagando em um dado espaço-tempo (M, gab) são quantizados de acordo com as regras da Teoria Quântica de Campos (usando, por exemplo, quantização canônica). Apesar de tratar a gravidade classicamente, a TQCEC é responsável pelas previsões de baixas ener- gias que temos atualmente de gravitação quântica. A mais impressionante delas provém de espaços-tempos que contém buracos negros. Em 1974, S. Hawking, estudando a quan- tização de campos em um espaço-tempo que descreve uma estrela que sofre colapso for- mando um buraco negro, mostrou que buracos negros irradiam a uma taxa constante (a tempos longos) e com espectro térmico com relação a observadores estáticos no infinito [4]. A temperatura medida por esses observadores é dada por TH = κ/2π, (1.2) onde κ é a gravidade superficial do buraco negro [1, 5, 6] (para buracos negros estacionários sem carga e momento angular, κ = 1/4M, onde M é a massa do buraco negro). Esse resultado foi recebido com perplexidade já que mostrou que: (i) buracos negros não são negros, eles irradiam todas as espécies de part́ıculas com um espectro térmico a uma temperatura TH = κ/2π e (ii) a quantidade SBN = 1 4 ABN , (1.3) 1 Introdução 2 onde ABN é a área do horizonte de eventos do buraco negro, deve ser interpretada como a entropia do buraco negro. Desde então, ficou claro que as leis mecânicas dos buracos negros [7]: 1. Para um buraco negro estacionário, gravidade superficial κ é constante; 2. Se M é a massa do buraco negro, J e Q seu momento angular e carga, respectiva- mente, então δM = κ 8π δABN +ΩδJ +ΦδQ, onde Φ é o potencial eletrostático, κ é a gravidade superficial do horizonte, Ω sua velocidade angular e ABN sua área; 3. δABN ≥ 0, são efetivamente as leis da termodinâmica aplicadas a buracos negros [8]. Tal interpretação é justificada ao se analisar a validade da chamada segunda lei generalizada que afirma que, em sistemas que contém matéria ordinária e um buraco negro, a entropia total, S ≡ SBN + Smat, (1.4) nunca decresce (veja por exemplo [8, 9] e suas referências). Entretanto, os itens (i) e (ii) levantam diversas questões que vem intrigando a comu- nidade cient́ıfica desde então. O item (i) está diretamente ligado ao chamado paradoxo da perda de informação em buracos negros [1]. Considere, por simplicidade, que o estado final do colapso seja um buraco negro neutro esfericamente simétrico com massa M. Ao levar em conta a retro-ação do campo quântico no espaço-tempo, o fluxo de energia que provém do buraco negro fará com que este perca massa. Como TH = 1/8πM, ao perder massa o buraco negro se tornará mais quente, e com isso, emitirá part́ıculas cada vez mais energéticas, o que o fará perder massa mais rapidamente. Esse processo poderá levar, eventualmente, à evaporação total do buraco negro. Entretanto, isso levaria o es- tado puro que descreve o sistema antes do colapso em um estado misto térmico. Com isso, informação contida no estado inicial seria perdida. A Figura 1.1 mostra um posśıvel diagrama de Penrose [3] para o processo de evaporação. Como os seus estágios finais exigem o conhecimento da f́ısica na escala de Planck (ainda desconhecida), o processo de evaporação total do buraco negro, levando consigo parte da informação contida no estado inicial, é apenas uma das possibilidades. Outras possibilidades comumente propostas são: (1) a radiação Hawking não seria exatamente térmica e carregaria, ao final do processo de evaporação, toda a informação contida inicialmente e (2) o buraco negro não evaporaria completamente; haveria um remanescente (com escala de Planck) do buraco negro que teria estados internos suficientes para estarem correlacionados com a radiação emitida. O estado total então permaneceria puro apesar do estado fora do remanescente ser alta- mente misto. Entretanto, as alternativas (1) e (2) apresentam algumas dificuldades. É 1 Introdução 3 + J J + Figura 1.1: Diagrama espaço-temporal do processo de colapso de uma estrela gerando um buraco negro que, por sua vez, evapora após um tempo finito (como medido por observadores estáticos no infinito). dif́ıcil compatibilizar (1) com a descrição semi-clássica desse processo (que é válida por um longo peŕıodo da evaporação se considerarmos um buraco negro inicial grande o suficiente para que efeitos quânticos sejam despreźıveis) [1]. Quanto a (2), como o buraco negro inicial pode ser arbitrariamente grande, o remanescente teria que conter um número arbi- trariamente alto de estados internos para poderem estar correlacionados com a radiação emitida e com isso, garantir que a informação não seja perdida. Porém, o buraco negro remanescente terá dimensões de Planck (ou seja, sua área é Arem ∼ 1 em unidades natu- rais). Com isso, a formula (1.3) da entropia sugere que Srem ∼ 1, onde Srem é a entropia remanescente do buraco negro. Isso sugere que esse estado final teria ∼ 1 estado interno. Já com relação a (ii), i.e., que SBN deve ser interpretada como a entropia f́ısica do buraco negro, sabemos de mecânica estat́ıstica que a entropia conta o número de micro-estados acesśıveis ao sistema. Entretanto, o estado final (que não varia mais com o tempo) de um buraco negro não guarda nenhuma memória dos detalhes da estrela que o formou bem como de seu colapso. Ele depende apenas de três parâmetros: sua massa M, carga Q e momento angular J. Como consequência, a natureza dos micro-estados que levam à entropia SBN se torna obscura. Vemos então que qualquer tentativa de resolver as questões acima (entre outras) passa por um melhor entendimento da entropia, emaranhamento e processamento de informação em contextos relativ́ısticos. A teoria da informação quântica oferece o arcabouço teórico necessário para o estudo do processamento e transmissão da informação bem como para o estudo do emaranhamento e sua dinâmica [10]. Entretanto, a teoria da informação quântica é aplicada, em geral, em contextos não relativ́ısticos. Portanto se faz necessário estender a teoria da informação quântica para que ela leve em conta os efeitos da teoria 1 Introdução 4 da relatividade. Esse é o moto inspirador para essa tese de doutorado. Recentemente, A. Peres, P. Scudo e D. Terno [11] estudaram o comportamento da en- tropia de von Neumann no espaço-tempo de Minkowski em diferentes referenciais inerciais. Usando como bit quântico os graus de liberdade de spin de uma part́ıcula massiva de spin 1/2, eles mostraram que a entropia de von Neumann de spin não é invariante de Lorentz e que, em geral, não existe nenhuma lei de transformação que nos permita obter a matriz densidade de spin em um referencial inercial a partir da matriz densidade de spin em ou- tro referencial. Isso mostra o quão não triviais são os efeitos relativ́ısticos em informação quântica já no contexto da relatividade especial. Com isso, um entendimento profundo sobre entropia, emaranhamento, teletransporte, correlações, etc. em espaços-tempos cur- vos exige antes um estudo cuidadoso de seu comportamento em espaços planos. Isso por sua vez nos permite analisar a influência da relatividade em diversos contextos conhecidos em informação quântica, como por exemplo, nas desigualdades de Bell [12] e no teletrans- porte quântico [13]. A análise de tal influência torna-se especialmente relevante devido às novas tendências de testar a mecânica quântica e implementar protocolos de informação quântica em escalas globais usando satélites e estações terrestres [14, 15, 16]. Essa tese está organizada da seguinte maneira: • No Caṕıtulo 2, estudamos brevemente a teoria da informação clássica. Isso servirá para mostrar o que é uma teoria de informação bem como para introduzir conceitos que serão úteis durante todo o texto, como a entropia de Shannon e a informação mútua; • No Caṕıtulo 3, estudamos a teoria da informação quântica. Assim, poderemos mos- trar suas diferenças com relação à teoria clássica bem como introduzir conceitos e efeitos que serão estudados depois no contexto relativ́ıstico, a saber, a entropia de von Neumann, informação mútua quântica, o limite de Holevo, o emaranhamento, as desigualdades de Bell, o teletransporte quântico e as correlações clássicas e quânticas presentes em sistemas quânticos; • A partir do Caṕıtulo 4, descreveremos a parte original da tese. Nesse caṕıtulo, estu- daremos as desigualdades de Bell com part́ıculas de spin 1/2 em um contexto rela- tiv́ıstico [17]. Em seguida, motivados pelas tendências atuais de se implementar pro- tocolos de informação quântica em escalas globais, estudaremos como o movimento dos detetores influencia as medições em estados de fótons emaranhados [18]. Por fim, usaremos o limite de Holevo para analisarmos brevemente sistemas quânticos de comunicação quando as partes que se comunicam estão em movimento relativo [19]; • No Caṕıtulo 5, estudaremos vários aspectos da teoria da informação quântica no contexto da teoria quântica de campos. Começaremos estudando o emaranhamento e o teletransporte, via o efeito Unruh, quando um dos qubits do par emaranhado 1 Introdução 5 acelera uniformemente por um tempo próprio finito Δ [20]. Em seguida, ainda nesse contexto, analisaremos o comportamento das correlações clássicas e quânticas [21]; • No Caṕıtulo 6, mostraremos como os resultados do Caṕıtulo 5 podem ser usados para fazer previsões sobre um par de qubits emaranhados (um em queda livre e o outro estático) nas vizinhanças do horizonte de eventos de um buraco negro. Isso nos permitirá começar a entender o comportamento do emaranhamento, das correlações, etc, em espaços-tempos curvos; • O Caṕıtulo 7 é reservado para conclusões e comentários finais. Caṕıtulo 2 Teoria da Informação Clássica A teoria da informação tem por objetivo quantificar o conceito de informação bem como estudar seu armazenamento e transmissão. Mais precisamente, ela cria um modelo ma- temático para os chamados sistemas de comunicação [22, 23, 24], descritos esquematica- mente na Figura 2.1. A teoria da informação clássica estuda sistemas de comunicação que podem ser descritos de acordo com as leis da f́ısica clássica. Fisicamente, cada um de seus blocos pode ser visto como: • Fonte: Uma fonte gera a mensagem a ser transmitida. Esta pode ser uma sequência de letras, uma função do tempo f(t) como a que descreve variações de pressão em um telefone, três funções fi(x, y, t), i ∈ {1, 2, 3}, associadas às cores vermelha, verde e azul, como em TV a cores, etc; • Codificador: É qualquer aparelho que age na mensagem produzindo um sinal con- veniente para a transmissão pelo canal. Um exemplo de codificador é o usado em telefonia que transforma diferenças de pressão em sinais elétricos; • Canal: É a maneira ou o meio em que a mensagem, devidamente codificada, é transmitida. Pode ser, por exemplo, um par de cabos coaxiais; • Decodificador: Realiza a operação inversa do codificador, recuperando (da melhor maneira posśıvel) a mensagem original. Como foi dito acima, a teoria da informação cria um modelo matemático para os siste- mas de comunicação, ou seja, modela matematicamente cada um dos blocos da Figura 2.1 e a relação entre eles. A base matemática para a teoria da informação foi posta por Claude Shannon em seu trabalho seminal [25]. Os conceitos centrais nesse modelo matemático são o de entropia de Shannon (que é um limite inferior para o número de bits necessários para caracterizar uma mensagem) e o de informação mútua (que mede a correlação entre duas variáveis aleatórias). Tais conceitos serão estudados nas seções seguintes. Contudo, mesmo sem ainda dispor de suas definições, podemos fazer uma breve incursão sobre o modelo matemático dos sistemas de comunicação [22, 23, 24]: 2 Teoria da Informação Clássica 7 Figura 2.1: Sistema de comunicação. • Fonte: Uma fonte é geralmente definida por uma sequência de variáveis aleatórias Xk, k ∈ N que assumiremos como sendo independentes e identicamente distribúıdas. O conjunto dos valores que as variáveis aleatórias assumem é chamado alfabeto. Uma variável aleatória discreta e finita é uma função X que toma os valores xi com probabilidades pi ≡ PX(xi), onde PX é a distribuição de probabilidades associada com a variável aleatória X∗ e i ∈ {1, ..., N}. Os elementos Xk da sequência são independentes e identicamente distribúıdos se todos assumem os mesmos valores e a probabilidade de ocorrência de (z1, ..., zn), zk ∈ {x1, ..., xN} é ∏n k=1 PX(zk), k ∈ {1, ..., N}. Um exemplo simples de variável aleatória é a que descreve os posśıveis resultados para o lançamento de uma moeda honesta. Quando o resultado é cara, X toma o valor x1 = 0 e quando é coroa, X toma o valor x2 = 1. A probabilidade de se obter cara ou coroa em um lançamento é PX(x1) = 1/2 ou PX(x2) = 1/2, respectivamente; • Codificador: O processo de codificação tem por objetivo retirar todas as redundâncias da mensagem original para transmitir a informação da maneira mais econômica posśıvel e depois (no caso de haver rúıdo na transmissão) adicionar redundâncias de maneira controlada para minimizar o efeito do rúıdo na transmissão da mensagem. Tais ações são realizadas associando a cada elemento (ou bloco de elementos) do alfabeto um caractere (chamado palavra código) de um certo conjunto fixo chamado alfabeto de códigos. Suponha, por exemplo, que desejamos transmitir o resultado do lançamento de uma moeda honesta. Esta, é descrita pela variável aleatória X definida no item anterior. Uma posśıvel codificação, é usar as palavras código 000 ∗Se (S,Ω, P ) é um espaço de probabilidade e (M,Σ) é um espaço de medida, uma variável aleatória é uma função mensurável X : S → M . Tomaremos sempre M = R e Σ como sendo a σ-álgebra de Borel. O espaço de observação é dado por (K,EX , P̂X) onde K = X(S), EX é a σ-álgebra induzida em K por Σ e P̂X = P ◦X−1. Uma variável aleatória é discreta quando K é discreto (no caso que estamos interessados K é finito e portanto K = {x1, ...xN}). Nesse caso definimos a função PX(x) ≡ P̂X({x}), x ∈ K. Para mais detalhes ver [26, 27]. 2 Teoria da Informação Clássica 8 Figura 2.2: Sistema de comunicação sem rúıdo. e 111 para codificar 0 e 1, respectivamente. Tal processo pode ser utilizado para diminuir a probabilidade de erro na transmissão quando há rúıdo; • Canal: Um canal discreto é caracterizado pelas probabilidades p(d|c) de que ocor- ram as palavras código d = (d1, ..., dn) na sáıda do canal dado que c = (c1, ..., cn) entraram no canal. Ou seja, caracterizamos um canal pela sua probabilidade de erro na transmissão dos caracteres. Um exemplo são os canais sem memória, ou seja, p(d|c) =∏ i p(di|ci); • Decodificador: Realiza a operação inversa do codificador, associando a cada palavra código na sáıda do canal, um elemento (ou bloco de elementos) do alfabeto. No exemplo da codificação e transmissão do resultado do lançamento de uma moeda honesta descrito anteriormente, decodificamos os resultados na sáıda do canal esco- lhendo o número que mais ocorre na sequência. Ou seja, se 000 (que está associado a 0) foi enviado pelo canal ruidoso e em sua sáıda obtemos 001, decodificamos a mensagem associando à 001 o caractere 0. O exemplo mais simples de um sistema de comunicação é o de uma fonte binária de informação (cada d́ıgito gerado assume o valor zero ou um, como por exemplo no lançamento de uma moeda) cuja sequência gerada é transmitida por um canal sem rúıdo, ou seja, p(0|0) = p(1|1) = 1 e p(1|0) = p(0|1) = 0, Figura 2.2. Vamos assumir que a probabilidade da fonte gerar zero é a mesma de gerar um e cada um dos d́ıgitos é gerado independentemente a uma taxa constante. Um exemplo simples de um sistema de comu- nicação com rúıdo consiste em uma fonte binária de informação como a descrita acima cujas sequências geradas serão então transmitidas por um canal ruidoso caracterizado por p(0|0) = p(1|1) = 1−p e p(1|0) = p(0|1) = p, ou seja, temos uma probabilidade p de trans- mitir um caractere com erro. Esse sistema de comunicação está descrito esquematicamente na Figura 2.3. Durante as próximas seções iremos estudar os conceitos de entropia e informação mútua e analisar em detalhe um sistema de comunicação que consiste em uma fonte que gera variáveis aleatórias independentes e identicamente distribúıdas e um canal sem rúıdo (que será suficiente não só para mostrar como modelar um sistema de comunicação como para o estudo de informação quântica incluindo os efeitos relativ́ısticos, que é o objetivo 2.1 Medidas de Informação 9 dessa tese). Nesse caso, o processo de codificação consiste basicamente na compressão da mensagem (usar o menor número de bits posśıvel para transmiti-la). Vamos mostrar que o menor número de bits (por caractere da mensagem) posśıvel para transmissão da mensagem, com erro arbitrariamente baixo na descompressão, é dado pela entropia de Shannon. 2.1 Medidas de Informação O que é informação? Vamos tomar uma definição operacional e definir informação como uma mensagem que ainda é desconhecida ao receptor. Mas como quantificar a informação contida em uma mensagem? Vamos tomar um exemplo de um dado honesto (todos os resultados são igualmente prováveis). Antes do lançamento temos uma certa incerteza sobre qual será seu resultado; sabemos apenas que os valores da variável aleatória X, que representa os posśıveis resultados do lançamento, está no intervalo 1 ≤ X ≤ 6. Agora, suponha que após o lançamento somos informados apenas que o valor obtido está no intervalo 1 ≤ X ≤ 3. Então, a incerteza que temos sobre o valor da variável aleatória é claramente menor do que antes de recebermos a mensagem. O quanto essa incerteza diminuiu é devido à informação recebida sobre o lançamento, i.e., a informação ganha pela mensagem recebida. Vemos então que uma boa definição de medida de informação está diretamente relacionada com uma boa medida de incerteza, ou seja, definindo qual é a incerteza associada a uma variável aleatória X antes de sua medição, podemos definir a informação ganha após a medida como sendo o valor de sua incerteza. Quais as propriedades que uma medida de incerteza deve satisfazer? Isso pode variar de acordo com o gosto pessoal de cada um. Porém, vamos mostrar que com algumas propriedades razoáveis podemos definir univocamente uma medida de incerteza associada a uma variável aleatória X. É claro que a incerteza relacionada com a variável aleatória X não pode depender dos valores que ela toma mas somente da sua distribuição de pro- babilidades. Para ver isso, tome uma moeda honesta. A variável X que descreve a moeda toma os valores x1 = 0 ou x2 = 1 com probabilidades p1 = p2 = 1/2. Se simplesmente renomearmos os resultados do lançamento, por exemplo, trocando 0 por 100 e 1 por 200, não mudamos a incerteza que temos sobre o resultado. Agora, se trocarmos a moeda Figura 2.3: Sistema de comunicação com rúıdo. 2.1 Medidas de Informação 10 honesta por uma não honesta diminúımos a incerteza sobre o resultado, afinal nesse caso um dos resultados é mais provável do que o outro. Portanto, voltando ao caso geral, vemos que a medida de incerteza deve ser uma função apenas das N probabilidades as- sociadas com os valores da variável aleatória X, i.e., se H é a medida de incerteza então H : K ⊂ [0, 1]N → R+,K = {(p1, ..., pN ) ∈ [0, 1]N |∑N i=1 pi = 1}. É natural impor que essa função seja cont́ınua, ou seja, pequenas variações nas pro- babilidades geram pequenas variações na incerteza. Com isso, impomos que, para N = 2, H(p, 1 − p), p ∈ [0, 1], seja cont́ınua (veremos em seguida que isso, junto com os outros axiomas da função de incerteza, implica que esta é uma função cont́ınua das N variáveis no caso geral). Considere agora a incerteza em dois experimentos distintos. Os resultados do primeiro experimento são descritos por uma variável aleatória X que toma os valores x1, ..., xN com probabilidades PX(x1) = PX(x2) = ... = PX(xN ) = 1/N. Já os resultados do segundo experimento são descritos por uma variável aleatória Y que toma os valores y1, ..., yM , M > N , com probabilidades PY (y1) = PY (y2) = ... = PY (yM ) = 1/M. É de se esperar que a incerteza associada a Y seja maior do que a incerteza associada a X. Por exemplo, a incerteza sobre o resultado de escolher uma pessoa aleatoriamente em uma sala com 5 pessoas é muito menor do que a incerteza sobre o resultado de escolher uma pessoa aleatoriamente na cidade de São Paulo. Temos então a condição H ( 1 N , ..., 1 N ) ︸ ︷︷ ︸ N < H ( 1 M , ..., 1 M ) ︸ ︷︷ ︸ M . (2.1) Considere agora um experimento com duas variáveis aleatórias independentes X e Z que tomam os valores x1, ..., xN e z1, ..., zK , respectivamente, com probabilidades PX(x1) = PX(x2) = ... = PX(xN ) = 1/N e PZ(z1) = PZ(z2) = ... = PZ(zK) = 1/K. Suponha porém que somos informados apenas sobre o valor de X. Então, estaremos reduzindo nossa in- certeza inicial pela incerteza relacionada com X (já que ganhamos apenas informação sobre X). Como as duas variáveis são independentes, conhecer o valor de X não nos traz nenhuma informação sobre o valor de Z. Com isso, a incerteza resultante (incerteza total menos a incerteza de X) não é nada mais do que a incerteza relacionada a Z. Chegamos então na condição H ( 1 NK , ..., 1 NK ) ︸ ︷︷ ︸ NK −H ( 1 N , ..., 1 N ) ︸ ︷︷ ︸ N = H ( 1 K , ..., 1 K ) ︸ ︷︷ ︸ K . (2.2) A última propriedade que iremos impor é um pouco mais sutil. Para entendê-la, vamos analisar dois experimentos equivalentes para a variável aleatória X (portanto eles têm a mesma incerteza). O primeiro consiste em simplesmente observar o resul- tado do lançamento de X. Logo, a probabilidade do resultado do experimento ser xi é pi e a incerteza de qual será o resultado é H(p1, ..., pN ). O segundo experimento 2.1 Medidas de Informação 11 consiste em dividir o conjunto K = {x1, ..., xN} nos subconjuntos A = {x1, ..., xr} e B = {xr+1, ..., xN}, de tal maneira que a probabilidade de se obter A ou B é ∑r i=1 pi ou ∑N i=r+1 pi respectivamente. Em seguida, se o conjunto A foi obtido, o experimento é constrúıdo de tal maneira que a probabilidade de se obter um elemento xi de A é pi/ ∑r j=1 pj , i ∈ {1, ..., r}. Analogamente, se o conjunto B foi escolhido, a probabilidade de se obter xi de B é, por construção, pi/ ∑N j=r+1 pj , i ∈ {r + 1, ..., N}. Com isso, a probabilidade de obtermos, por exemplo, o resultado x1 nesse experimento composto é p1 ≡ PX(x1) = P (A ser escolhido)P (x1|A foi escolhido). A incerteza relacionada com esse experimento é H(p1, ..., pN ) = H ( r∑ i=1 pi, N∑ i=r+1 pi ) + ( r∑ i=1 pi ) H ( p1/ r∑ i=1 pi, ..., pr/ r∑ i=1 pi ) + ( N∑ i=r+1 pi ) H ( pr+1/ N∑ i=r+1 pi, ..., pN/ N∑ i=r+1 pi ) , (2.3) i.e., a incerteza de se escolher A ou B somada à probabilidade de A ser escolhido vezes a incerteza de se escolher um elemento em A somada à probabilidade de B ser escolhido vezes a incerteza de se escolher um elemento em B. Temos então a definição: Definição 2.1.1. Seja X uma variável aleatória que assume os valores x1, ..., xN com probabilidades p1, ..., pN . Uma função H : K ⊂ [0, 1]N → R+ é uma medida da incerteza sobre X se 1. H(p, 1− p) é uma função cont́ınua; 2. Se para todo i ∈ {1, ..., N}, pi = 1/N então, f(N) ≡ H(1/N, ..., 1/N) é uma função estritamente crescente, i.e., para todo M,N ∈ N tal que M > N , f(M)>f(N); 3. f(MN) = f(M) + f(N) para todo M,N ∈ N; 4. H(p1, ..., pN ) = H( ∑r i=1 pi, ∑N i=r+1 pi) + ( ∑r i=1 pi)H(p1/ ∑r i=1 pi, ..., pr/ ∑r i=1 pi) + ( ∑N i=r+1 pi)H(pr+1/ ∑N i=r+1 pi, ..., pN/ ∑N i=r+1 pi). Surgem agora duas perguntas naturais. Será que existe uma função de incerteza que satisfaz 1− 4 da definição 2.1.1? E se existir será que é única? A resposta para ambas as questões é afirmativa e está descrita no seguinte teorema [22]: Teorema 2.1.2. Só existe uma função (a menos das constantes a e C definidas abaixo) H : [0, 1]N → R+ que satisfaz as propriedades 1− 4 da Defininição 2.1.1 e ela é dada por H(p1, ..., pN ) = −C N∑ i=1 pi loga pi, com a > 1, C > 0 e ∑ i pi = 1. 2.1 Medidas de Informação 12 0.2 0.4 0.6 0.8 1 p 0.2 0.4 0.6 0.8 1 H�p, 1 � p� Figura 2.4: Entropia de Shannon de uma moeda parcial em função da probabilidade de ocorrer 0 A função H é chamada entropia de Shannon. Muitas vezes denotaremos a incerteza H(p1, ..., pN ) relacionada com a variável aleatória X por H(X) ou ainda por H(PX) onde PX(xi) = pi, i ∈ {1, ..., N}. Daqui por diante tomaremos a = 2 e C = 1. Com essas escolhas, a unidade de H é chamada de bit. Convém notar que escolhemos a = 2 e C = 1 para que haja um bit de incerteza associado ao lançamento de uma moeda honesta. Vemos na Figura 2.4 que usar uma moeda não honesta tende a diminuir a incerteza (como já era esperado pelas propriedades que impomos à H). Se agora tivermos duas variáveis aleatórias X e Y , que tomam os valores x1, ..., xN e y1, ..., yM , respectivamente, com distribuição de probabilidade conjunta PX,Y , a entropia conjunta de X,Y é definida por H(X,Y ) = − ∑ i,j PX,Y (xi, yj) log2 PX,Y (xi, yj), (2.4) onde i e j são somadas até N e M , respectivamente. Vamos agora mostrar algumas propriedades importantes das funções de incerteza H(X) e H(X,Y ) bem como a relação entre elas. Antes entretanto, será útil definirmos a chamada entropia relativa: D(X||Q) = ∑ i PX(xi) log2 PX(xi) PQ(xi) . (2.5) Aqui, X e Q são duas variáveis aleatórias que tomam os mesmos valores x1, ..., xN porém com distribuição de probabilidades PX e PQ, respectivamente. Na expressão acima, con- vencionamos que, para p > 0, 0 log2 0 p ≡ 0 e p log2 p 0 ≡ ∞. A entropia relativa satisfaz D(X||Q) ≥ 0, (2.6) chamada desigualdade de Klein. Para ver isso, note que como log2 x = lnx ln 2 ≤ x−1 ln 2 , com a igualdade se e somente se x = 1, temos D(X||Q) = − ∑ i PX(xi) log2 PQ(xi) PX(xi) ≥ − 1 ln 2 ∑ i PX(xi) ( PQ(xi) PX(xi) − 1 ) (2.7) 2.1 Medidas de Informação 13 e portanto D(X||Q) ≥ −(1− 1) ln 2 =0, (2.8) com a igualdade se e somente se PX = PQ. Usando a desigualdade de Klein, podemos mostrar as seguintes propriedades: 1. 0 ≤ H(X) ≤ log2N , com a igualdade valendo somente quando PX(xi) = 1/N para todo i ∈ {1, ..., N}; Para ver isso, tome D(X||Q) com PQ(xi) = 1/N para todo i ∈ {1, ..., N}, então 0 ≤ D(X||Q) = ∑ i PX(xi) log2 PX(xi) PQ(xi) = −H(X) + ∑ i pi log2N. (2.9) Logo, H(X) ≤ log2N. Como 0 ≤ PX(xi) ≤ 1 temos H(X) = − ∑ i PX(xi) log2 PX(xi) = ∑ i PX(xi) log2 1/PX(xi) ≥ 0 (2.10) e portanto 0 ≤ H(X) ≤ log2N ; 2. H(X,Y ) ≤ H(X) +H(Y ), com a igualdade se e só se X e Y são independentes; Como PX(xi) = ∑ j PX,Y (xi, yj) e PY (yj) = ∑ i PX,Y (xi, yj) então H(X) +H(Y ) = − ∑ i,j PX,Y (xi, yj) log2 PX(xi)− ∑ i,j PX,Y (xi, yj) log2 PY (yj) = − ∑ i,j PX,Y (xi, yj) log2 PX(xi)PY (yj). (2.11) Já que ∑ i,j PX(xi)PY (yj) = 1, podemos usar a equação (2.6) e a função de probabilidade PQ(xi, yj) ≡ PX(xi)PY (yj) para escrever − ∑ i,j PX,Y (xi, yj) log2 PQ(xi, yj) ≥ − ∑ i,j PX,Y (xi, yj) log2 PX,Y (xi, yj), (2.12) onde a igualdade é valida somente para PX,Y = PQ ≡ PXPY . Logo temos H(X,Y ) ≤ H(X) +H(Y ), (2.13) com a igualdade se e somente se as variáveis aleatórias X e Y são independentes. A propriedade 1 acima afirma que a entropia de Shannon (incerteza) tem um limite superior e este só é atingido quando os eventos são equiprováveis. Já a propriedade 2 afirma que a incerteza total, a menos que X e Y sejam independentes, é sempre menor do que a soma das incertezas das partes. Isso sugere a presença de correlações entre X e Y , voltaremos a esse tema quando falarmos de informação mútua. 2.1 Medidas de Informação 14 Um conceito importante, principalmente para a definição de informação mútua, é o de entropia condicional (ou incerteza condicional) de uma variável aleatória X dada a variável aleatória Y . Ela é definida como H(X|Y ) = − ∑ i,j PX,Y (xi, yj) log2 PX(xi|yj), (2.14) onde p(xi|yj) é a probabilidade condicional, i.e., a probabilidade de se medir xi dado que já obtemos o valor yj . Queremos interpretar H(X|Y ) como incerteza que resta sobre o valor X depois que Y foi medida, tal interpretação é garantida escrevendo a incerteza total, H(X,Y ), como H(X,Y ) = − ∑ i,j PX,Y (xi, yj) log2 PX,Y (xi, yj) = − ∑ i,j PX,Y (xi, yj) log2 PX(xi|yj)PY (yj) = − ∑ i,j PX,Y (xi, yj) log2 PX(xi|yj)− ∑ j PY (yj) log2 PY (yj) = H(X|Y ) +H(Y ), (2.15) e portanto H(X|Y ) = H(X,Y )−H(Y ). (2.16) Como H(X|Y ) +H(Y ) = H(X,Y ) ≤ H(X) +H(Y ), onde usamos a equação (2.13), temos H(X|Y ) ≤ H(X), (2.17) com a igualdade se e somente se X e Y são independentes. Tendo em mãos o conceito de entropia condicional podemos definir o importante con- ceito de informação mútua. Definição 2.1.3. Sejam X e Y duas variáveis aleatórias. Então, a informação mútua entre X e Y é I(X : Y ) = H(X)−H(X|Y ). Ou seja, I(X : Y ) mede a informação ganha sobre X medindo Y (já que ela é a diferença entre a incerteza inicial de X pela incerteza que resta em X medindo Y ), isso sugere que I(X : Y ) é uma medida das correlações entre X e Y (veja Figura 2.5). Como H(X,Y ) = H(Y,X) (já que a entropia conjunta entre duas variáveis aleatórias depende apenas de sua distribuição conjunta de probabilidades), I(X : Y ) = I(Y : X). (2.18) 2.2 Sistemas de Comunicação sem Rúıdos 15 Figura 2.5: Informação Mútua. Pela equação (2.15), H(X|Y ) = H(X,Y )−H(Y ), então I(X : Y ) = H(X) +H(Y )−H(X,Y ) ≥ 0, (2.19) onde usamos a equação (2.13) para estabelecer a desigualdade acima. Então, vemos pela equação (2.19) que a informação mútua entre duas variáveis aleatórias é sempre positiva, a não ser no caso de variáveis aleatórias independentes (que não tem correlações) quando ela é zero. Além disso, vemos que a soma da incerteza das partes isoladamente é sempre maior ou igual à incerteza do todo (o que novamente sugere a presença de correlações). Tais caracteŕısticas da informação mútua, junto com sua simetria, equação (2.18), justificam sua utilização como uma medida das correlações entre X e Y . A informação mútua (e sua versão quântica que veremos mais a frente) é um conceito de vital importância em teoria da informação e por isso aparecerá com frequência durante todo o texto. Em particular, poderemos utilizá-la para separar a parte clássica da parte quântica das correlações totais entre dois sistemas quânticos. Isso será posśıvel, por exemplo, utilizando o fato (que provaremos no próximo caṕıtulo) que se IQ e J são as versões quânticas de H(X) + H(Y ) − H(X,Y ) e H(X) − H(X|Y ), respectivamente, então em geral IQ �= J . Isso se deve ao caráter que medições têm em mecânica quântica. 2.2 Sistemas de Comunicação sem Rúıdos Vamos agora estudar um sistema de comunicação que consiste em uma fonte que gera variáveis aleatórias independentes e identicamente distribúıdas, um codificador, um canal sem rúıdos e um decodificador. Como não há rúıdo, não existe o problema da correção de eventuais erros de transmissão. Portanto, a maneira mais eficiente de transmitir a mensagem é comprimi-la da melhor maneira posśıvel, i.e., enviar a mensagem utilizando o menor número de bits. Antes de estudar o processo de compressão, vamos definir de uma maneira matematicamente precisa o que é uma fonte e uma codificação. Definição 2.2.1. Uma fonte é uma sequência Xi, i ∈ N, de variáveis aleatórias indepen- dentes e identicamente distribúıdas (i.i.d.), i.e., todos os Xi tomam os mesmos valores 2.2 Sistemas de Comunicação sem Rúıdos 16 x1, ..., xN com probabilidades PXi = PXj ≡ PX para todo i, j ∈ N e se PXn(s1, .., sn), si ∈ K ≡ {x1, ..., xn}, é a probabilidade de ocorrência da sequência (s1, ..., sn) temos que PXn(s1, ..., sn) = ∏n i=1 PX(si), i ∈ {1, ..., n}. Em particular, vemos que H(Xi) = H(Xj) ≡ H(X) para todo i, j ∈ N e H(X1, ..., Xn) = nH(X), onde H(X1, ..., Xn) é a incerteza conjunta de X1, ..., Xn, (veja a equação (2.4) para o caso n = 2). Vemos que a cada uso, a fonte gera um caractere xk, k ∈ {1, .., N}, com probabilidade PX(xk). Após n usos, a fonte gera a sequência s1...sn com probabilidade ∏n i=1 PX(si), onde si ∈ {x1, ..., xN} e i ∈ {1, ..., n}. Um exemplo extremamente simples de fonte consiste no lançamento de uma moeda honesta a cada uso da fonte. Sendo assim, em cada utilização ela gera 0 (correspondente a cara) ou 1 (correspondente a coroa) com probabilidades PX(0) = PX(1) = 1/2. Definição 2.2.2. Uma codificação em bloco (M,n) consiste nas aplicações Cn : Kn → Ak e Dn : Ak → Kn chamadas função de codificação e decodificação, respectivamente. Aqui K ≡ {x1, ..., xN}, A = {a1, ..., aK}, k ∈ N e M = |Cn(Kn)|, onde |A| indica o número de elementos de um conjunto A e An ≡ A× ...×A︸ ︷︷ ︸ n vezes . Vemos que Cn(s1, ..., sn) corresponde a uma sequência de k elementos de um alfabeto de códigos A, chamada de palavra código. Portanto, M indica o número de palavras código sendo utilizadas no processo de codificação. Um exemplo simples de codificação é C(cara) = 00 e C(coroa) = 11, onde A = {0, 1} é o alfabeto binário. Daqui por diante iremos sempre usar o alfabeto binário, i.e., K = 2. Suponha que temos uma mensagem x ≡ (s1, ..., sn), si ∈ K e i ∈ {1, ..., n}, que é codificada e, após a transmissão, decodificada. A mensagem final é então x′ = Dn (Cn(x)) . Dizemos que a mensagem x′ foi decodificada com erro se x′ �= x. Se {x ∈ Kn|Dn(Cn(x)) �= x} é o conjunto das mensagens que são decodificadas com erro, Pr{x ∈ Kn|Dn(Cn(x)) �= x}† indica a soma de todas as probabilidades PXn(z), z ∈ {x ∈ Kn|Dn(Cn(x)) �= x}. Com isso, definimos a probabilidade de erro, Pne , na decodificação como Pne ≡ Pr{x ∈ Kn|Dn(Cn(x)) �= x}. Podemos agora mostrar que a entropia de Shannon corresponde à maior taxa de com- pressão que podemos ter nas mensagens transmitidas (elementos de Kn). Suponha que k = nR� onde α� indica o maior inteiro menor que α ∈ R. O número R é chamado taxa de compressão da codificação (2�nR�, n), i.e., número de bits de codificação por caractere da mensagem. Então temos o seguinte teorema [22, 23, 24]: Teorema 2.2.3 (Teorema da codificação de Shannon). Seja Xi, i ∈ N, uma sequência de variáveis aleatórias i.i.d. Se R > H(X) existe uma sequência de códigos (2�nR�, n) †Seja Ω um conjunto finito e discreto (como, por exemplo, o conjunto dos valores que uma variável aleatória finita e discreta X toma) e P (ω) a probabilidade de cada ω ∈ Ω ocorrer, onde ∑ ω∈Ω P (ω) = 1. Então, se E ⊂ Ω, P rE ≡ ∑ ω∈E P (ω). 2.2 Sistemas de Comunicação sem Rúıdos 17 com Pne n→∞−→ 0. Reciprocamente, para R < H(X) qualquer sequência de códigos (2�nR�, n) satisfaz Pne n→∞−→ 1. O teorema acima mostra que a entropia de Shannon nos dá o número mı́nimo de bits por caractere da mensagem necessários para transmitir a informação, já que qualquer tentativa de compressão maior gera erros arbitrariamente grandes na decodificação. Caṕıtulo 3 Teoria da Informação Quântica Para transmitir informação precisamos codificá-la em um sistema f́ısico. Por exemplo, podemos usar uma onda eletromagnética para transmitir uma mensagem. No caṕıtulo anterior, estudamos o processo de codificação, transmissão e decodificação de informação quando o sistema f́ısico pode ser descrito pelas leis da f́ısica clássica. Mas e se codificarmos e transmitirmos informação usando sistemas quânticos (cujo sistema fundamental, o de dois ńıveis, é chamado de sistema de qubits)? Quais modificações precisam ser introduzi- das em relação à teoria clássica? Será que podemos transmiti-la de maneira mais eficiente e segura? Colocado em outros termos, queremos estudar o sistema de comunicação des- crito na Figura 3.1. Ele consiste em: (i) uma fonte clássica, i.e., uma sequência Xi de variáveis aleatórias i.i.d.; (ii) um codificador que codifica cada valor xi da variável aleatória em um estado quântico ρi com probabilidade PX(xi) e portanto, prepara o es- tado ρ = ∑ i PX(xi)ρi. Além de codificar a mensagem em estados quânticos, o codificador realiza as operações de compressão e de adição de redundância (se há rúıdos na trans- missão) o que leva o estado ρ no estado ρ̃; (iii) um canal quântico que consiste em um operador E que leva o estado codificado ρ̃ no estado E(ρ̃); (iv) um decodificador que tenta recuperar, da melhor maneira posśıvel, o estado original ρ no destino. Neste ponto, serão feitas medições para recuperar a mensagem original. Os resultados das medições são descritos por uma variável aleatória Y . Como veremos, a teoria da informação quântica [10, 28, 29, 30, 31] difere da teoria clássica em diversos aspectos; os principais talvez sejam: 1. Ao contrário do que acontece em f́ısica clássica, medições em geral alteram o estado do sistema e não é posśıvel distinguir entre estados quânticos não ortogonais; 2. Estados quânticos arbitrários não podem ser clonados [32]; 3. Estados quânticos podem ser superpostos, i.e., se |ψ1〉 e |ψ2〉 são estados posśıveis do sistema e α1, α2 ∈ C então, α1|ψ1〉 + α2|ψ2〉 também é um estado posśıvel do sistema. 3 Teoria da Informação Quântica 19 Figura 3.1: Sistema de comunicação quando a mensagem é codificada em estados quânticos. Lembremos (veja a Definição 2.1.3), que I(X : Y ) = H(X)−H(X|Y ). Portanto, quando H(X|Y ) = 0 (medir Y determina X) conclúımos que I(X : Y ) = H(X). Com isso, vemos que a indistinguibilidade de estados quânticos citada no item 1 acima mostra que, ao contrário do que acontece (ao menos idealmente) no caso clássico sem rúıdo, a correlação I(X : Y ) entre a informação enviada, descrita pela variável aleatória X e os valores medi- dos, descritos pela variável aleatória Y , em geral não é H(X). Mostraremos mais adiante que a informação acesśıvel no destino, definida como o máximo da informação mútua entre X e Y com relação às medições realizadas, é limitada superiormente por um número χ(ρ) chamado limite de Holevo [33]. Em particular, tal limite implica que o máximo de in- formação que extráımos de um qubit é um bit. O item 2 mostra que a ação de copiar, uma das ações mais comuns que realizamos com informação clássica (fazemos isso todo dia ao salvar um documento em nosso computador), não é posśıvel para estados quânticos. Tal impossibilidade de cópia implica que não podemos usar praticamente nenhum protocolo clássico de correção de erros em informação quântica [10, 28]. Então, os itens 1 e 2 parecem sugerir que não há vantagem em usar estados quânticos para enviar informação. Porém, é na transmissão (codificação e segurança) e processamento (computação quântica) que a teoria da informação quântica mostra suas vantagens. Justamente por não ser posśıvel copiar estados quânticos arbitrários e que ao realizar uma medição alteramos o estado do sistema, é que podemos transmitir informação com segurança (a isso dá-se o nome de criptografia quântica). Além disso, podemos aproveitar a não ortogonalidade dos estados em que codificamos a informação para realizar uma compressão na mensagem maior do que seria posśıvel classicamente (tal procedimento recebe o nome de codificação quântica). Por fim, a superposição (aplicada a sistemas multipartites, o que leva ao importante con- ceito de estados emaranhados), item 3, é uma das principais caracteŕısticas que torna a computação quântica muito mais eficiente do que a computação clássica. A transmissão de informação clássica usando estados quânticos é somente uma das muitas possibilidades oferecidas em informação quântica. Como veremos, esta última é muito mais rica do que sua versão clássica. Podemos recuperar todos os resultados da teoria da informação clássica em um certo limite da teoria da informação quântica (basta usarmos estados quânticos ortogonais para codificar a informação). Esta última porém, 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos 20 Figura 3.2: Sistema quântico de comunicação. Aqui, ao contrário da Figura 3.1, temos uma fonte que gera estados quânticos que, em prinćıpio, não precisam estar relacionados com nenhuma informação clássica. apresenta muito mais recursos estáticos (“tipos de informação”) e dinâmicos (processa- mento de informação). Por exemplo, podemos transmitir informação quântica, ou seja, podemos transmitir estados quânticos arbitrários para o destino. Tal transmissão se dá através de um canal quântico (possivelmente ruidoso). Temos então a situação descrita na Figura 3.2. Muitas das novas possibilidades que surgem na teoria da informação quântica têm sua origem em um dos aspectos mais fascinantes da mecânica quântica, o emaranha- mento. Estados puros emaranhados permitem mostrar, através das desigualdades de Bell [12], que nenhuma teoria realista e local pode reproduzir todos os resultados da mecânica quântica. Duas aplicações do emaranhamento em informação quântica são o teletrans- porte quântico [13], onde usando estados emaranhados juntamente com um canal clássico podemos transmitir de maneira perfeita um estado quântico, e a chamada codificação su- perdensa [34], que é a transmissão de dois bits clássicos enviando um qubit (de um par emaranhado) ao destino. O emaranhamento é um recurso tão importante em informação quântica que um dos seus principais ramos de pesquisa visa quantificá-lo e estudar a sua dinâmica. Na Seção 3.1, estudaremos e estenderemos o conceito de medição e de evolução em mecânica quântica. Na Seção 3.2 estudaremos medidas de informação quântica, com ênfase na entropia de von Neumann, que exercerá o papel análogo ao da entropia de Shannon. Na Seção 3.3 analisaremos o limite de Holevo e o teorema de Schumacher, versão quântica do teorema da compressão de Shannon. A Seção 3.4 é reservada para o estudo do emaranhamento e suas consequências. Na Seção 3.5, mostraremos como quantificar o que é clássico e o que é quântico nas correlações de sistemas quânticos correlacionados. Veremos que há correlações quânticas que não provém de sistemas emaranhados. 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos Nessa seção iremos enunciar os postulados usuais da mecânica quântica e discutir o con- ceito de medição e evolução estendendo-os ao caso em que o sistema é aberto. Tais ex- tensões serão muito úteis na teoria da informação quântica usual e mais à frente quando a relatividade for levada em conta. 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos 21 3.1.1 Os Postulados da Mecânica Quântica Veremos a seguir que a mecânica quântica muda radicalmente nossas noções clássicas de estados, observáveis e medições. Antes de descrever os postulados, convém observar que não visamos aqui dar uma introdução sobre mecânica quântica mas somente estabelecer notação e discutir alguns pontos que nos serão úteis. Para mais detalhes sobre a estrutura matemática da mecânica quântica bem como suas aplicações ver por exemplo [10, 35, 36, 37]. Existem diversas versões dos postulados da mecânica quântica [28, 35, 37]. Os postulados que usaremos, nos restringindo a espaços vetoriais de dimensão finita (que serão suficientes para os nossos propósitos), são: 1. Os estados de um sistema quântico são descritos por vetores em um espaço de Hilbert H, ou mais precisamente, classes de equivalência de vetores em H onde |ψ′〉, |ψ〉 ∈ H são equivalentes se e somente se existe α ∈ C, não nulo, tal que |ψ′〉 = α|ψ〉. Daqui por diante, vamos sempre considerar um representante normalizado de cada uma das classes de equivalência; 2. Observáveis f́ısicos são descritos por operadores auto-adjuntos em H; 3. Uma medição é descrita pelo conjunto {Pλ1 , ..., Pλn} de projetores ortogonais, i.e., P † λi = Pλi para todo i ∈ {1, ..., n} e PλiPλj = δijPλi , para todo i, j ∈ {1, ..., n}, que satisfaz ∑ i Pλi = I, onde I é o operador identidade e {λ1, ..., λn} ⊂ R representam os posśıveis resultados do experimento. Se o sistema está no estado |ψ〉, a probabilidade de, ao se fazer uma medição, obter o valor λi é p(λi) = 〈ψ|Pλi |ψ〉 e o estado do sistema após a medição é |ψi〉 = Pλi |ψ〉√ p(λi) ; 4. A evolução temporal de um sistema quântico inicialmente no estado |ψ〉 é dada por |ψ(t)〉 = U(t)|ψ〉, onde U(t) é uma famı́lia de operadores unitários fortemente cont́ınuos, i.e., limt→t0 U(t)|ψ〉 = U(t0)|ψ〉 para todo |ψ〉 ∈ H [38, 39]. O primeiro postulado mostra como descrever um estado puro em mecânica quântica, i.e., vetores em um espaço de Hilbert. O segundo postulado mostra como descrever os observáveis dentro desse formalismo. Ao contrário de funções reais, estes são definidos como operadores auto-adjuntos (e portanto com espectro real). O terceiro postulado é talvez o que mais diferencia a estrutura de uma teoria clássica da de uma teoria quântica. Nesta última, os resultados de medições são intrinsecamente probabiĺısticos e o ato da medição (mesmo idealmente) em geral altera o estado do sistema. O último postulado descreve a parte determińıstica da mecânica quântica, i.e., a evolução temporal dado o 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos 22 estado inicial. A imposição que U(t) é fortemente cont́ınuo implica, pelo teorema de Stone [38, 39], que existe um operador auto-adjunto H, chamado Hamiltoniana do sistema, tal que U(t) = e−itH . Muitas vezes durante o texto estaremos interessados em intervalos de tempo discretos, ou seja, temos um estado inicial |ψ〉 que evolui para um estado final |ψ′〉. Então temos um operador unitário U tal que |ψ′〉 = U |ψ〉. Vamos analisar mais a fundo a relação entre os observáveis f́ısicos e seus posśıveis va- lores em uma medição. Primeiro, tomemos uma medição como no postulado 3. Vemos fa- cilmente que ∑ i λiPλi é um operador auto-adjunto e portanto define um observável f́ısico. Tome agora o operador auto-adjunto A que descreve um certo observável. Então, pelo teorema espectral [40, 41, 42], A pode ser escrito de maneira única como A = ∑ i λiPλi , com λi sendo os seus auto-valores distintos e Pλi uma famı́lia de projetores ortogonais que satisfazem ∑ i Pλi = I. Então, pelo postulado 3, ao medir um observável f́ısico os únicos resultados posśıveis são seus auto-valores, cada um com probabilidade p(λi) = 〈ψ|Pλi |ψ〉 de ocorrer. Vemos então que, a não ser que o estado do sistema seja um auto-vetor do observável sendo medido, não faz sentido dizer que um sistema quântico em um certo estado possui um dado valor para seus observáveis antes da medição, em contraste com o que acontece em f́ısica clássica. Citando o f́ısico Asher Peres, unperformed experiments have no results [43]. Voltaremos a esse tema quando discutirmos as desigualdades de Bell. 3.1.2 Medições Generalizadas e POVM Vamos analisar com mais cuidado o conceito de medição. Podemos definir uma medição como uma intervenção externa feita em um sistema quântico através do qual informação, na forma de um número real, é obtida no aparelho de medição. O postulado 3 mostra que as previsões sobre resultados de experimentos são probabiĺısticas e mostra, dentro do formalismo matemático da teoria, como calcular essas probabilidades e qual o efeito da medição no estado do sistema. Lá impusemos que uma medição é caracterizada por projetores ortogonais que, como discutimos no final da seção anterior, estão diretamente associados com a medição de observáveis f́ısicos (operadores auto-adjuntos). Entretanto, podemos generalizar esse conceito de medição tirando a imposição de que os operadores que caracterizam a medição sejam projetores ortogonais. Veremos mais à frente um exem- plo em que esse conceito mais geral de medição, que muitas vezes não está diretamente associada com medições de quantidades f́ısicas (energia, momento, etc.), é mais útil que o de medidas projetivas. Antes de definir o conceito de medição generalizada, será instrutivo estudar o seguinte exemplo. Considere elétrons, cujos estados de spin são descritos por vetores no espaço de Hilbert H de dimensão 2, e um aparato de medida (Stern-Gerlach) que consiste em uma região com um campo magnético inomogêneo na direção z (aproxi- madamente) e uma tela medidora que registra a posição do elétron. Devido à interação do spin com o campo magnético, os elétrons serão defletidos ao passarem pelo campo magnético. Quando o estado de spin for |0〉 ou |1〉, os elétrons são defletidos para z > 0 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos 23 ou z < 0, respectivamente. Aqui, σ3|0〉 = |0〉 e σ3|1〉 = −|1〉 são auto-vetores da matriz de Pauli σ3. Vamos fazer uma descrição simplificada e considerar que se o elétron é re- gistrado em z > 0, o estado do aparato de medida é |e0〉 ∈ Haux e se ele é registrado em z < 0, o estado do aparato de medida é |e1〉 ∈ Haux, onde Haux é o espaço de Hilbert, de dimensão 2, que descreve os estados do aparato e 〈ei|ej〉 = δij , i, j ∈ {0, 1}. No caso ideal, ao interagir com o aparato de medida, o sistema total (spin do elétron + aparato) evolui através da transformação unitária U dada por U |0〉 ⊗ |0aux〉 = |0〉 ⊗ |e0〉 (3.1) U |1〉 ⊗ |0aux〉 = |1〉 ⊗ |e1〉 (3.2) onde |0aux〉 ∈ Haux é o estado inicial do aparato de medida. No caso não ideal, há uma probabilidade do elétron ser registrado em z < 0 mesmo que o seu spin esteja no estado |0〉 e analogamente para z > 0 e |1〉. Então, a transformação unitária U que descreve a interação do elétron com o aparato é dada por U |0〉 ⊗ |0aux〉 = |0〉 ⊗ (√ 1− p0|e0〉+ √ p0|e1〉 ) (3.3) U |1〉 ⊗ |0aux〉 = |1〉 ⊗ (√ p1|e0〉+ √ 1− p1|e1〉 ) , (3.4) onde p0, p1 ∈ [0, 1]. Vemos então que se os estados iniciais do spin do elétron e do aparato são |ϕ〉 = c0|0〉+ c1|1〉 e |0aux〉, respectivamente, o estado após a interação é U |ϕ〉 ⊗ |0aux〉 =M0|ϕ〉 ⊗ |e0〉+M1|ϕ〉 ⊗ |e1〉, (3.5) onde M0|ϕ〉 ≡ √ 1− p0c0|0〉 + √ p1c1|1〉 e M1|ϕ〉 ≡ √ p0c0|0〉 + √ 1− p1c1|1〉. Note que podemos escrever M0 e M1 como M0 = √ 1− p0|0〉〈0|+ √ p1|1〉〈1| (3.6) M1 = √ p0|0〉〈0|+ √ 1− p1|1〉〈1| (3.7) e portanto vemos que M † 0M0 +M † 1M1 = I. (3.8) A medição realizada pelo aparato de medida consiste na observação de onde o elétron foi registrado (z > 0 ou z < 0), ou seja, é a medição do observável O = ∑1 j=0 aj |ej〉〈ej |, onde aj ∈ R, no aparato de medida. Então, pelo Postulado 3 da mecânica quântica e usando a equação (3.5), a probabilidade de se medir o valor m ∈ {0, 1} após a interação é dada por p(m) = 〈0aux| ⊗ 〈ϕ|U †PmU |ϕ〉 ⊗ |0aux〉 = 〈ϕ|M † mMm|ϕ〉 (3.9) 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos 24 onde Pm ≡ I ⊗ |em〉〈em| e o estado final do sistema total é PmU |ϕ〉 ⊗ |0aux〉√ p(m) = Mm|ϕ〉 ⊗ |em〉√ p(m) . (3.10) Com isso, o estado do spin do elétron após a medição de m é |ϕm〉 = Mm|ϕ〉√ p(m) . (3.11) Vemos então que se o aparato de medida for tratado como uma caixa preta que a cada medição nos dá um resultado m ∈ {0, 1}, a medição (em termos apenas do espaço de Hilbert H) pode ser descrita por operadores Mm, que satisfazem a equação (3.8) e cuja probabilidade de medir o valor m e o estado final nesse caso são dados pelas equações (3.9) e (3.11), respectivamente. O exemplo acima é útil para isolarmos as caracteŕısticas principais desse conceito mais geral de medição. Em resumo temos: (i) uma medição generalizada é descrita por um apa- relho de medida que, a cada medição, dá como resultado um certo valor m de um conjunto fixo M de valores posśıveis. Esses, podem ser associados com observáveis f́ısicos relacio- nados com o aparelho de medida (no exemplo do Stern-Gerlach acima, posição do impacto na tela detetora); (ii) matematicamente, em termos apenas do sistema sendo estudado (no caso acima, o spin do elétron), a medição generalizada é descrita por operadores Mm, m ∈ M, que satisfazem ∑ mM † mMm = I. Chegamos então à seguinte definição: Definição 3.1.1. Uma medição generalizada é descrita por um conjunto {M0, ...,Mn−1} de operadores em um espaço de Hilbert H que satisfazem ∑n−1 i=0 M † iMi = I. Se o sistema antes da medição está no estado |ψ〉 ∈ H, a probabilidade de obter o resultado m ∈ M ≡ {0, ..., n− 1} é p(m) = 〈ψ|M † mMm|ψ〉 (3.12) e o estado do sistema após a medição é |ψm〉 = Mm|ψ〉√ p(m) . (3.13) Vemos que esse conceito de medição contém o caso de medidas projetivas. Nessas, como PλiPλj = δijPλi , realizar duas medições idênticas consecutivamente gera o mesmo resultado. Entretanto, vemos que esse, em principio, não é o caso em uma medição gene- ralizada. Essa repetibilidade das medições projetivas sugere que muitas das medições que realizamos em mecânica quântica não são projetivas [10, 31, 44, 45]. Na Definição 3.1.1 vemos que a distribuição de probabilidades dos posśıveis resultados da medição depende apenas dos operadores Em ≡ M † mMm, m ∈ M que satisfazem ∑ mEm = I. Reciproca- mente, se {Em|m ∈ M} é um conjunto qualquer de operadores positivos∗ que satisfazem∑ m Em = I, (3.14) ∗Lembramos que um operador A é positivo (denotado A ≥ 0) se para todo vetor |ψ〉 ∈ H, 〈ψ|A|ψ〉 ≥ 0. 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos 25 os operadores Mm ≡ √ Em satisfazem Em = M † mMm e ∑ mM † mMm = I e com isso, definem uma medição generalizada. Um conjunto de operadores positivos que satisfazem a relação de completeza (3.14) é chamado de POVM (do inglês positive operator valued measure). Com isso, se estamos interessados apenas na distribuição de probabilidades dos posśıveis resultados da medição (ou não temos como saber o estado pós medição, como por exemplo, após um elétron ser absorvido em um detetor Geiger), vamos descrever uma medição por um POVM (ao invés dos operadores {Mm|m ∈ M}). Convém notar que os M̂m ≡ Um √ Em, onde Um é um operador unitário, geram o mesmo POVM que Mm ≡ √ Em. Isso mostra que existem infinitos aparelhos de medida que geram a distribuição de probabilidade p(m) = 〈ψ|Em|ψ〉, porém, cada um gera um efeito diferente no estado do sistema sendo medido. No exemplo do Stern-Gerlach acima, podemos aplicar operações unitárias U0 (para z > 0) e U1 (para z < 0) antes dos elétrons atingirem a tela medidora. Isso mudará o estado final do elétron mas não sua probabilidade de ser detetado em z > 0 ou z < 0. Uma aplicação importante das medidas POVM é na distinguibilidade de estados quânticos. Os estados quânticos em A = {|ψ1〉, ..., |ψr〉} são distingúıveis se existe al- guma medição em que cada resultado nos permite prever, com probabilidade 1, qual estado foi medido. Em outras palavras, existe um POVM {E0, ..., EM}, M ≥ r, tal que 〈ψi|Ei|ψi〉 = 1 para todo i ∈ {1, ..., r}. Quando os elementos de A são ortogonais, basta construirmos um aparato de medida que meça, por exemplo, o observável ∑r j=1 aj |ψj〉〈ψj |, aj ∈ R. Entretanto, quando os elementos de A não são ortogonais, não haverá nenhuma medição (ou seja, POVM) capaz de distingui-los [10]. Mesmo assim, é posśıvel construir um POVM que faça o seguinte [10]: quando o resultado da medição é j ∈ {1, ..., r}, então sabemos que o estado medido foi |ψj〉 ∈ A a despeito do fato que, algumas vezes, o resultado da medição será 0 e não poderemos afirmar nada sobre qual estado foi medido. Em muitos casos não sabemos exatamente qual o estado do sistema, sabemos apenas que seu estado é |ψi〉 com probabilidade pi, i ∈ {1, ...,K}. Chamaremos {pi, |ψi〉} de uma mistura de estados puros. Tal mistura define um operador densidade ou matriz densidade ρ = ∑ i pi|ψi〉〈ψi|. (3.15) (No Apêndice A, encontra-se a demonstração das diversas propriedades de matriz densi- dade que nos serão úteis.) Vemos que trρ = 1 e para todo |ψ〉 ∈ H, 〈ψ|ρ|ψ〉 = ∑ i pi|〈ψi|ψ〉|2 ≥ 0, o que mostra que ρ é um operador positivo. Reciprocamente, se ρ é um operador positivo que satisfaz trρ = 1, ele pode ser escrito como ρ = ∑ i ξi|xi〉〈xi|, onde 0 ≤ ξi ≤ 1, ∑ i ξi = 1 e os |xi〉 formam uma base ortonormal de auto-vetores de ρ. Chegamos então à seguinte definição: 3.1 Mecânica Quântica, POVM e Mapeamentos Quânticos 26 Definição 3.1.2. Uma matriz densidade é um operador ρ : H → H em um espaço de Hilbert H que satisfaz (i) trρ = 1 e (ii) ρ ≥ 0. Se o sistema (isolado) está no estado ρ = ∑K i=1 pi|ψi〉〈ψi|, pelo postulado 4 cada um dos estados da mistura evolui, através da transformação unitária U , como U |ψi〉, i ∈ {1, ...,K}. Então, ρ −→U K∑ i=1 piU |ψi〉〈ψi|U † = UρU †. (3.16) Realizando uma medição, descrita por um POVM {Em|m ∈ M}, cuja ação nos estados é dada por Mm = Um √ Em, a probabilidade de se obter o resultado m quando o sistema está no estado ρ é p(m) ≡ tr(ρEm) (3.17) e o estado do sistema após a medição do valor m é dada por ρm ≡ MmρM † m tr(ρEm) . (3.18) Se realizarmos a medição mas, por alguma razão, ainda não sabemos seu resultado, o estado do sistema é descrito pela matriz densidade ρ′ = ∑ m p(m)ρm = ∑ m MmρM † m. (3.19) A equação (3.17) mostra que podemos prever todas as distribuições de probabilidades de posśıveis experimentos sabendo a matriz densidade ρ que descreve o sistema. Portanto, vemos que ela descreve o estado f́ısico de qualquer sistema quântico (o que generaliza o conceito de estado puro já que quando ρ = |ψ〉〈ψ|, a mistura se reduz ao estado puro |ψ〉). Antes de terminar a seção, vamos definir alguns conjuntos que serão úteis daqui por diante. Se H é um espaço de Hilbert de dimensão N , denotamos o espaço vetorial for- mado por todos os operadores lineares por B(H). Munindo B(H) com o produto interno 〈A,B〉HS ≡ tr(A†B), obtemos o espaço de Hilbert (B(H), 〈, 〉HS) que tem dimensão N2. Vamos denotar o conjunto de todas as matrizes densidade por C(H) ⊂ B(H). 3.1.3 Mapeamentos Quânticos Nessa seção, vamos desenvolver o conceito de mapeamento quântico. Ele permite descrever sistemas quânticos que em prinćıpio estão abertos, i.e., sujeitos a influências externas. Suponha que temos um sistema f́ısico S que passa a interagir com um ambiente externo SE . O sistema total S+SE é fechado e portanto evolui unitariamente através do operador unitário U : H ⊗ HE → H ⊗ HE , onde H e HE são os espaços de Hilbert do sistema e do ambiente, respectivamente. Se o sistema S está inicialmente no estado ρ e o ambiente está no estado ρ|0E〉 = |0E〉〈0E |, o sistema total, que inicialmente está no estado ρ⊗ ρ|0E〉, 3.2 Medidas de Informação Quântica 27 evolui para o estado Uρ⊗ ρ|0E〉U †. O estado final do sistema S é obtido tomando o traço nos graus de liberdade do ambiente, i.e., ρ′ = trE(Uρ⊗ ρ|0E〉U †). Se { |ek〉 ∈ HE ∣∣k ∈ {1, ..., d = dimHE} } é uma base ortonormal de HE , temos ρ′ = trE(Uρ⊗ ρ|0E〉U †) = ∑ k 〈ek|U(ρ⊗ |0E〉〈0E |)U †|ek〉 = ∑ k 〈ek|U |0E〉ρ〈0E |U †|ek〉 = ∑ k VkρV † k , (3.20) onde Vk ≡ 〈ek|U |0E〉 é um operador em H. Como trρ′ = 1, vemos que ∑ k V † k Vk = I. Definimos assim o mapeamento E : ρ→ ρ′ = E(ρ) como E(ρ) = trE(Uρ⊗ ρ|0E〉U †) = ∑ k VkρV † k , (3.21) com ∑ k V † k Vk = I. Reciprocamente, é posśıvel mostrar [10] que todo mapeamento da forma E(ρ) ≡ ∑ k VkρV † k , com ∑ k V † k Vk = I, pode ser obtido através da interação do sistema f́ısico com um ambiente (o que torna o sistema fechado e a evolução unitária) descartando os graus de liberdade do ambiente após a evolução. Sendo assim, vamos definir um mapeamento quântico como um operador linear E : B (H) → B (H) que pode ser posto na forma E(A) ≡ ∑ k VkAV † k , (3.22) com ∑ k V † k Vk = I, onde A ∈ B (H). Tais mapeamentos, além de serem lineares e preserva- rem o traço, são completamente positivos, i.e., para todo operador positivo Γ ∈ B(Ck⊗H), o operador [ Ik ⊗ E ] (Γ) também é positivo para todo k ∈ Z+ [10, 29]. Em informação quântica, se assume em geral que a evolução de sistemas abertos se dá através de ma- peamentos quânticos, equação (3.22). Com isso, vamos definir um canal quântico, i.e., o operador que associa o estado enviado ao receptor com o estado que este efetivamente re- cebe, como sendo um mapeamento quântico. Entretanto, como veremos adiante, quando a relatividade é levada em conta, os mapeamentos não serão completamente positivos e portanto não poderemos nos restringir apenas a mapeamentos quânticos. 3.2 Medidas de Informação Quântica Vimos no Caṕıtulo 2 que a entropia de Shannon desempenha um papel fundamental na teoria da informação clássica. Ela quantifica a incerteza relacionada com uma variável aleatória X antes da sua medição, ou equivalentemente, a informação ganha após esta. Queremos definir uma quantidade análoga em informação quântica, i.e., queremos uma 3.2 Medidas de Informação Quântica 28 função que quantifique a incerteza associada a uma mistura {pi, |ψi〉}, onde i ∈ {1, ...,K} e∑ i pi = 1. Como vimos no final da Seção 3.1.2, tal mistura é completamente caracterizada por sua matriz densidade ρ = ∑ i pi|ψ〉〈ψi|. Porém, existem diversas misturas diferentes que geram a mesma matriz densidade e portanto todas elas são fisicamente equivalentes. Entretanto, dada uma matriz densidade ρ, ela pode ser decomposta univocamente, via o teorema espectral, como ρ = ∑d j=1 λjPλj . Consequentemente, como mostrado também no Apêndice A, ρ = ∑N k=1 ξk|xk〉〈xk|, onde os |xi〉 formam uma base ortonormal de auto- vetores de ρ, ξi = λj para algum j ∈ {1, ..., d} e N é a dimensão do espaço de Hilbert. Com isso, temos uma decomposição privilegiada de ρ em uma mistura {ξk, |xk〉} (a menos da liberdade de escolher os vetores |xk〉 associados com um auto-valor degenerado, porém isso não altera a conclusão a seguir). Como os |xk〉 são ortogonais, há uma medição que os distingue. Com isso, podemos saber com certeza qual estado da mistura foi medido e portanto, a incerteza associada à mistura antes da medição desaparece. Tal fato é análogo à medição de uma variável aleatória X que toma os valores x1, ..., xN com probabilidades ξ1, ..., ξN . Portanto , a incerteza associada à mistura {ξ, |xi〉} nada mais é que a entropia de Shannon da distribuição { ξi ∣∣i ∈ {1, ..., N} } , ou seja, H(ξ1, ..., ξN ) = −∑k ξk log2 ξk, que pode ser rescrita, apenas em termos da matriz densidade ρ, como H(ξ1, ..., ξN ) = −trρ log2 ρ ≡ S(ρ). (3.23) Chegamos assim na seguinte definição: Definição 3.2.1 (Entropia de von Neumann). Seja H um espaço de Hilbert e ρ ∈ C(H), então a entropia de von Neumann associada ao estado misto ρ é S(ρ) = −trρ log2 ρ. A entropia de von Neumann mede a incerteza associada a um estado misto ρ e, como mostraremos ao longo desse caṕıtulo, ela desempenhará um papel em informação quântica análogo ao da entropia de Shannon em informação clássica. Entretanto, cabe aqui uma ressalva. Enquanto a entropia de Shannon pode ser interpretada como a quantidade de informação ganha ao se medir o valor da variável aleatória X, a entropia de von Neumann não tem uma interpretação análoga. Isso se deve ao fato que não conseguimos identificar qual estado da mistura {pi, |ψi〉} foi medido (a menos, como visto acima, que os estados da mistura sejam ortogonais). Porém, como mostraremos na próxima seção, o limite de Holevo associado com a matriz densidade ρ = ∑ i pi|ψ〉〈ψi| implica que a entropia de von Neumann S(ρ) é um limite superior para a quantidade de informação que podemos extrair de ρ. Outra quantidade importante, que será útil na demonstração de diversos resultados, é a versão quântica da entropia relativa [10, 28, 46, 47]: S(ρ||σ) ≡ tr[ρ(log2 ρ− log2 σ)], (3.24) 3.2 Medidas de Informação Quântica 29 onde σ e ρ são matrizes densidade. Assim como sua versão clássica, S(ρ||σ) ≥ 0 (3.25) com a igualdade se e somente se ρ = σ [10]. A desigualdade (3.25) é chamada de desi- gualdade de Klein quântica. Com a desigualdade acima, podemos provar algumas propriedades importantes da entropia de von Neumann. Que S(ρ) ≥ 0 para todo estado ρ em um espaço de Hilbert H de dimensão N está claro da equação (3.23). Se S(ρ) = 0 então −∑k ξk log2 ξk = 0, o que é válido se e somente se ξk log2 ξk = 0 para todo k e isso é satisfeito se e somente se existe l tal que ξl = 1 (e portanto ξk =l = 0), logo ρ = |xl〉〈xl|. Agora, tome σ = I/N , onde I é a identidade em H. Pela desigualdade de Klein quântica, S(ρ||σ) = −S(ρ) + log2N ≥ 0, e portanto S(ρ) ≤ log2N, (3.26) com a igualdade valendo se e somente se ρ = σ = I/N . Agora tome ωAB ∈ C(HA⊗HB) e defina σAB = ωA⊗ωB, onde ωA ≡ trBω AB e ωB ≡ trAω AB. Então, usando a desigualdade de Klein quântica, 0 ≤ S(ωAB||σAB) = −S(ωAB)− tr(ωAB log2 σ AB) = −S(ωAB)− tr[ωAB(log2 ω A ⊗ IB)]− tr[ωAB(IA ⊗ log2 ω B)] = −S(ωAB)− tr(ωA log2 ω A)− tr(ωB log2 ω B). (3.27) Logo, S(ωAB) ≤ S(ωA) + S(ωB) (3.28) com a igualdade se e somente se ωAB = σAB≡ ωA ⊗ ωB. A unidade da entropia de von Neumann é o qubit. Da equação (3.26) acima, vemos que um sistema de dois ńıveis, N = 2, tem no máximo 1 qubit de informação quântica. Tais sistemas de dois ńıveis são chamados de sistemas de qubits e muitas vezes denominamos seus vetores (normalizados) também de qubits. Outra propriedade importante e útil em informação quântica, e que será usada para definir uma medida de emaranhamento para estados puros, é a chamada decomposição de Schimdt (sua demonstração encontra-se no Apêndice B). Teorema 3.2.2 (Decomposição de Schimdt). Sejam HA e HB espaços de Hilbert de dimensões NA e NB, respectivamente. Se |ψAB〉 ∈ HA⊗HB então existe um número k ≤ min{NA, NB}, uma distribuição de probabilidades { ξi ∣∣i ∈ {1, ..., k},∑i ξi = 1 } e conjuntos ortogonais { |xAi 〉 ∣∣i ∈ {1, ..., k} } ⊂ HA e { |yBi 〉 ∣∣i ∈ {1, ..., k} } ⊂ HB tal que |ψAB〉 = k∑ i=1 √ ξi|xAi 〉 ⊗ |yBi 〉. 3.3 Sistemas Quânticos de Comunicação 30 Como consequência direta da decomposição de Schimdt temos, para todo estado puro |ψAB〉 ∈ HA ⊗ HB, que as entropias S(ρA) e S(ρB) são iguais, onde lembramos que ρA = trB|ψAB〉〈ψAB| e ρB = trA|ψAB〉〈ψAB|. Podemos agora, em analogia com informação clássica, definir o importante conceito de informação mútua quântica. Assim como sua contrapartida clássica, ela será uma medida das correlações totais, porém agora, entre dois sistemas quânticos. Definição 3.2.3. Se HA e HB são dois espaços de Hilbert de dimensões NA e NB respec- tivamente, ρAB ∈ C(HA ⊗HB), ρA ≡ trBρ AB e ρB ≡ trAρ AB então, a informação mútua quântica entre A e B é IQ(A : B) ≡ S(ρA) + S(ρB)− S(ρAB). Como consequência direta da Definição 3.2.3 e da equação (3.28), vemos que IQ(A : B) = IQ(B : A) ≥ 0. (3.29) Usando a Definição 3.2.3 e a equação (3.29), vemos que a soma das incertezas relacionadas aos sistemas A e B separadamente é sempre maior do que a incerteza relacionada com o sistema total com exceção do caso em que A e B não têm correlações, i.e., ρAB = ρA⊗ρB, em que elas são iguais. Esse fato, combinado com a simetria da informação mútua, sugere que IQ(A : B) dá uma medida das correlações entre os sistemas quânticos A e B. 3.3 Sistemas Quânticos de Comunicação Nessa seção iremos estudar sistemas quânticos de comunicação. Começaremos estudando a transmissão de comunicação clássica utilizando canais sem rúıdos e mostraremos que existe um limite superior para a informação acesśıvel no destino, o limite de Holevo. Em seguida, estudaremos o processo de compressão de uma mensagem a ser transmitida e mostraremos que a entropia de von Neumann é o limite inferior para a taxa de compressão por caractere da mensagem. 3.3.1 O Limite de Holevo Suponha que temos uma fonte caracterizada por uma variável aleatória X, i.e., ela gera śımbolos xi com probabilidades pi, i ∈ {1, ...,K}. Alice, a emissora, deseja enviar um caractere xk para um receptor, Bob. Para fazer isso, ela codifica cada xi em um estado ρi ∈ C(H) de acordo com a distribuição {pi} e envia o estado misto resultante, ρ = ∑ i piρi, para Bob por um canal quântico sem rúıdo, i.e., Bob recebe o mesmo estado enviado por Alice. Porém, para obter a informação clássica enviada, Bob terá que fazer uma medição (que é caracterizada por um POVM {Ei|i ∈ {1, ..., n}}) e através do seu resultado 3.3 Sistemas Quânticos de Comunicação 31 y ∈ {1, ..., n} tentar inferir o caractere xi enviado. A informação sobreX que Bob obtém ao fazer a medição é dada pela informação mútua I(X : Y ), onde Y é uma variável aleatória que toma os valores em {1, ..., n} com probabilidades {p1 = tr(E1ρ), ..., pn = tr(Enρ)}. Se Alice tivesse usado um canal clássico sem rúıdos, a informação que Bob obteria medindo a sáıda do canal seria H(X) já que classicamente os {x1, ..., xK} são distingúıveis (por exemplo, se x1 = 0 e x2 = 1 e Alice manda um email contendo 0 ou 1 para Bob, ele consegue saber com certeza qual número recebeu). Entretanto, como em geral estados quânticos não são distingúıveis, temos que I(X : Y ) ≤ H(X) e definimos a informação acesśıvel a Bob como sendo IAc ≡ max {Ei} I(X : Y ). (3.30) O fato da informação acesśıvel em geral não ser H(X), devido à indistinguibilidade dos estados ρi, está diretamente ligado a um dos principais resultados em mecânica quântica, a saber, o teorema da não clonagem (ver Apêndice B). Se fosse posśıvel copiar estados arbitrários, Bob poderia fazer cópias dos estados enviados por Alice, ρ1 e ρ2, obtendo os estados ρ⊗ n 1 e ρ⊗ n 2 que são ortogonais no limite de n→ ∞ e portanto distingúıveis. Logo, a informação acesśıvel seria H(X). Apesar de não existir nenhum procedimento geral para calcular a informação acesśıvel, é posśıvel mostrar que existe um limite superior para o seu valor, o chamado limite de Holevo [10, 28, 33, 48]. Teorema 3.3.1 (Limite de Holevo). Seja H um espaço de Hilbert de dimensão N e X uma variável aleatória que toma os valores x1, ..., xK com probabilidades p1, ..., pK . Se cada xi é codificado em um estado ρi ∈ C(H), i ∈ {1, ...,K} e é enviado por um canal quântico sem rúıdo, a informação acesśıvel no receptor é limitada por χ(ρ) ≡ S(ρ) −∑ i piS(ρi), i.e., IAc ≤ χ(ρ). Como a entropia de von Neumann satisfaz [10]∑ i piS(ρi) ≤ S(ρ) ≤ H(p1, ..., pK) + ∑ i piS(ρi), com a igualdade se e somente se os ρi são ortogonais, vemos que χ(ρ) ≤ H(X). (3.31) Conclúımos assim que usando K qubits é posśıvel transmitir no máximo H(X) bits de informação clássica. Convém observar que, apesar do Teorema 3.3.1 mostrar que χ(ρ) é um limite superior para a informação acesśıvel, em muitos casos esta nunca atinge χ(ρ) [49]. Entretanto, como mostrado em [50, 51, 52], sempre é posśıvel utilizar uma codificação 3.3 Sistemas Quânticos de Comunicação 32 em bloco conveniente de tal maneira que a informação é transmitida a uma taxa que se aproxima arbitrariamente de χ(ρ) com probabilidade de erro arbitrariamente baixa. Uma propriedade importante da quantidade de Holevo χ é que ela nunca aumenta ao realizarmos um mapeamento quântico, i.e., χ (E(ρ)) ≤ χ(ρ) [10, 29]. Veremos mais à frente que, quando Alice e Bob têm um movimento relativo, tal relação não será mais válida. Isso nos permitirá concluir que em situações relativ́ısticas a evolução, por exemplo dos graus de liberdade spin do elétron, não será descrita por mapeamentos quânticos. 3.3.2 O Teorema de Schumacher No Caṕıtulo 2, mostramos que podemos comprimir a informação de uma fonte i.i.d. e portanto, utilizar menos bits para transmiti-la. O Teorema 2.2.3 mostra que a maior taxa de compressão posśıvel (bits por caractere da mensagem) é dada pela entropia de Shannon. Nessa seção, vamos mostrar que existe um resultado análogo em informação quântica, o Teorema de Schumacher. Ele afirma que podemos comprimir informação quântica e com isso usar menos qubits para transmiti-la. O teorema mostra também que a maior taxa de compressão é dada pela entropia de von Neumann. Para isso, precisaremos das versões quânticas de fonte i.i.d. e codificação em bloco. Definição 3.3.2. Uma fonte quântica i.i.d. é um par (H, ρ) onde H é um espaço de Hilbert de dimensão N e ρ ∈ C(H) tal que ρn ≡ ρ⊗ ...⊗ ρ︸ ︷︷ ︸ n vezes é o estado total resultante após n usos da fonte. Ou seja, a cada uso da fonte é gerado um estado quântico ρ. Os estados são gerados de maneira independente em cada utilização da fonte e com isso, o estado total após n usos é o estado produto ρn. Definição 3.3.3. Seja (H, ρ) uma fonte quântica i.i.d. e V um espaço de Hilbert de di- mensão 2�nR�, n ∈ N, R ∈ R+ e R < n log2N . Uma codificação em bloco (2�nR�, n) consiste no par (Cn,Dn) de mapeamentos quânticos Cn : B(Hn) → B(V ) e Dn : B(V ) → B(Hn). Os mapeamentos Cn e Dn são chamados de compressão e descompressão, res- pectivamente. Aqui, Hn ≡ H⊗ ...⊗H︸ ︷︷ ︸ n vezes e lembramos que B (H) é o conjunto de todos os operadores lineares em H. Vemos que o processo de compressão substitui o estado original ρn por um estado Cn (ρn) definido em um espaço de Hilbert de dimensão menor. O quanto o estado ρn é preservado ao realizarmos o processo de compressão/descompressão é medido pela fideli- dade F (ρn,Dn ◦ Cn) [10]. Ela satisfaz 0 ≤ F (ρn,Dn ◦ Cn) ≤ 1 com F (ρn,Dn ◦ Cn) = 1 se o estado foi completamente preservado. Podemos agora enunciar o Teorema de Schumacher [10, 29, 53, 54]: 3.4 Emaranhamento 33 Teorema 3.3.4 (Teorema de Schumacher). Seja (H, ρ) uma fonte quântica i.i.d. Se R > S(ρ) existe um codificação em bloco (2�nR�, n) tal que limn→∞ F (ρn,Dn ◦ Cn) = 1. Reciprocamente, para todo R < S(ρ) qualquer codificação em bloco (2�nR�, n) satisfaz limn→∞ F (ρn,Dn ◦ Cn) = 0. Portanto, dada uma fonte quântica (H, ρ) i.i.d. a maior compressão do estado ρn é dada por nS(ρ). Com isso, podemos interpretar nS(ρ) como a informação quântica contida em ρn. Como para uma mistura {pi, |ψi〉}, temos que S(ρ) ≤ H(pi, ..., , pK) com a igualdade se e somente se os |ψi〉 são ortogonais, podemos realizar uma maior compressão na a mensagem codificando-a em estados quânticos não ortogonais, i.e., codificamos cada xi em um estado |ψi〉 (onde 〈ψi|ψj〉 �= δij) e consequentemente (xi1 , ..., xin) → |ψi1〉 ⊗ ...⊗ |ψin〉, onde i1, ..., in ∈ {1, ...,K}. Entretanto, como vimos na seção anterior, pagamos um preço por essa maior compressão, a informação acesśıvel no destino também diminui. Apesar disso, tal procedimento de compressão é muito útil em diversas situações. 3.4 Emaranhamento Desde a formalização da mecânica quântica na década de 20 do século XX, se notou que existem estados para sistemas compostos que não podem ser escritos como o produto de estados do seus subsistemas [56]. Tal emaranhamento quântico foi usado por Einstein, Podolski e Rosen (EPR) para tentar, supondo um certo conceito de localidade, definir valores que observáveis teriam antes de sua medição e com isso mostrar que a mecânica quântica seria incompleta [57]. Em 1964, John Bell tornou matematicamente precisa a idéia de realismo e localidade e mostrou que toda teoria realista e local deve satisfa- zer certas desigualdades para as correlações entre as medições de observáveis em regiões causalmente desconectadas. Bell mostrou também que a mecânica quântica viola estas desigualdades e que são justamente os estados emaranhados os responsáveis por isso [12]. Com o advento da teoria da informação quântica, os estados emaranhados tomaram papel central não apenas como ferramenta para um entendimento conceitual mais profundo da mecânica quântica mas também como um recurso f́ısico que permite realização de tarefas que classicamente seriam intratáveis ou até imposśıveis. Nesta seção definiremos o que são estados emaranhados, discutiremos algumas de suas aplicações e além disso, indicaremos como quantificar o grau de emaranhamento em um sistema quântico composto. 3.4.1 Definição de Emaranhamento Tome um sistema f́ısico composto por n subsistemas, cada um deles descrito por um espaço de Hilbert HAi de dimensão NAi , i ∈ {1, ..., n}. Um estado puro |ψ〉 ∈ ⊗n i=1HAi do sistema composto é dito separável quando ele pode ser escrito como |ψ〉 =⊗n i=1 |ψAi〉, 3.4 Emaranhamento 34 |ψAi〉 ∈ HAi . Um estado puro é dito emaranhado quando não é separável. Tome por exemplo H = HA ⊗ HB com NA = NB = 2. Se {|0X〉, |1X〉} é uma base ortonormal de HX , X ∈ {A,B}, os estados de Bell |ψ±〉 ≡ 1√ 2 ( |0A〉 ⊗ |1B〉 ± |1A〉 ⊗ |0B〉 ) |φ±〉 ≡ 1√ 2 ( |0A〉 ⊗ |0B〉 ± |1A〉 ⊗ |1B〉 ) (3.32) são emaranhados e formam uma base ortonormal de H chamada de base de Bell. Já vimos que em muitas situações de interesse, o estado do sistema é descrito por um estado misto. Temos assim a generalização: Definição 3.4.1. Sejam HAi, i ∈ {1, ..., n}, espaços de Hilbert de dimensão NAi. Um estado ρ ∈ C (⊗n i=1HAi ) é dito separável se ele pode ser posto na forma ρ = K∑ i=1 piρ i A1 ⊗ ...⊗ ρiAn , onde K ∈ N, pi ∈ [0, 1] e ∑K i=1 pi = 1. Um estado ρ é emaranhado se ele não é separável. Da definição acima, vemos que um estado separável é uma mistura estat́ıstica de estados produto ρiA1 ⊗ ... ⊗ ρiAn , que não contém correlações entre suas partes. Além disso, estados separáveis sempre podem ser criados usando operações locais e comunicação clássica (LOCC). Para ver isso, suponha que Alice, que age sobre o subsistema A1, escolha um i ∈ {1, ...,K} segundo a distribuição {pi} e prepare o estado ρiA1 . Em seguida, Alice comunica o resultado i para todos os outros experimentadores que prepararão então os respectivos estados ρiAj descartando a informação sobre i em seguida. Obtemos assim o estado misto ρ = ∑K i=1 piρ i A1 ⊗ ...⊗ ρiAn . Veremos a seguir que estados separáveis sempre satisfazem as desigualdades de Bell. 3.4.2 Aplicações do Emaranhamento Desigualdades de Bell A mecânica quântica muda radicalmente nossa intuição clássica sobre a natureza. Como vimos, não faz sentido perguntar qual o valor de um observável antes da sua medição mas somente qual a probabilidade de, ao se fazer uma medição, obter um dado resultado para o observável sendo medido. Essa nova visão da natureza foi rejeitada por muitos f́ısicos, dentre eles, Albert Einstein. Surge então uma pergunta natural: será que a natureza não é descrita efetivamente por uma teoria que esteja de acordo com nossa intuição clássica, em cujo caso a mecânica quântica daria uma descrição tão diferente para a natureza por ser uma teoria incompleta? Para analisar essa questão, vamos supor que a natureza de fato seja descrita por uma teoria que satisfaça (i) Realismo: os observáveis possuem va- lores e a medição só os fará conhecidos ao experimentador e (ii) Localidade: medições 3.4 Emaranhamento 35 feitas em uma dada região espaço-temporal não influenciam medições feitas em regiões espaço-temporais causalmente desconectadas. Analisemos agora o seguinte experimento: um f́ısico experimental, Charlie, prepara duas part́ıculas e as envia para outros dois ex- perimentadores, Alice e Bob, que farão a medição dos observáveis (A1, A2) e (B1, B2), respectivamente, onde Ai e Bi podem tomar os valores ±1. Vamos supor que Charlie pode repetir o processo de preparação das part́ıculas quantas vezes forem necessárias, que Alice e Bob façam cada medição em regiões espaço-temporais desconectadas causalmente e que, ao receberem suas part́ıculas, escolham aleatoriamente qual observável irão medir (A1 ou A2 para Alice e B1 ou B2 para Bob). Usando (i) e (ii) vemos que antes de cada medição o observável A1B1 +A2B1 +A2B2 −A1B2 = A1(B1 −B2) +A2(B1 +B2) pode tomar os valores ±2. Seja p(a1, a2, b1, b2) a probabilidade de que o sistema esteja em um estado onde A1 = a1, A2 = a2, B1 = b1 e B2 = b2. Tais probabilidades dependem da preparação que Charlie faz. Por exemplo, suponha que em cada experimento ele prepara uma part́ıcula de momento angular nulo que decai em duas part́ıculas. O momento angu- lar espećıfico de cada uma das part́ıculas, em cada experimento, dependerá dos detalhes de cada um dos decaimentos. Quando o número de experimentos for grande o sufici- ente, p(a1, a2, b1, b2) ≈ N(a1, a2, b1, b2)/N , onde N(a1, a2, b1, b2) é o número de vezes que (A1, A2, B1, B2) = (a1, a2, b1, b2) e N é o número total de experimentos. Voltando ao caso geral, se E(F) ≡∑ f p(f)f é o valor esperado do observável F , temos |E(A1B1) + E(A2B1) + E(A2B2)− E(A1B2)| = |E (A1B1 +A2B1 +A2B2 −A1B2)| = ∣∣∣∣∣∣ ∑ a1,a2,b1,b2 p(a1, a2, b1, b2)(a1b1 + a2b1 + a2b2 − a1b2) ∣∣∣∣∣∣ ≤ ∑ a1,a2,b1,b2 p(a1, a2, b1, b2) |a1b1 + a2b1 + a2b2 − a1b2| = 2. (3.33) Chegamos assim na desigualdade de Bell de Clauser-Horne-Shimony-Holt (CHSH) [58] |E(A1B1) + E(A2B1) + E(A2B2)− E(A1B2)| ≤ 2, (3.34) que qualquer teoria realista e local deve satisfazer. Vamos agora calcular o valor do lado esquerdo da equação (3.34) previsto pela mecânica quântica. Para isso, consideremos o seguinte sistema. Suponha que Charlie prepare uma part́ıcula de spin 0 que decaia em duas part́ıculas de spin 1/2. Então, Alice e Bob irão medir o spin normalizado, i.e., dividido por �/2, de suas part́ıculas em certas direções ai e bi, respectivamente, onde ai,bi ∈ R3, ‖ai‖ = ‖bi‖ = 1 e i ∈ {1, 2}. Os observáveis em mecânica quântica são descritos por operadores auto-adjuntos. Sendo assim, temos Ai ≡ ai ·σA, Bi ≡ bi ·σB. Aqui, se c = (c1, c2, c3) ∈ R3, c ·σX ≡∑3 j=1 c jσXj e σXj são as 3.4 Emaranhamento 36 matrizes de Pauli agindo no espaço de Hilbert da part́ıcula X = A ou B correspondente a Alice ou Bob, respectivamente. Se denotarmos as correlações E(AiBj) por E(ai,bj), a equação (3.35) implica que, para qualquer estado que as part́ıculas estejam, |E(a1,b1) + E(a2,b1) + E(a2,b2)− E(a1,b2)| ≤ 2. (3.35) Agora, se definirmos o operador C ≡ A1 ⊗ (B1 −B2) + A2 ⊗ (B1 +B2), vemos que o lado esquerdo da equação (3.35) calculado via mecânica quântica é |tr (ρC)|, onde ρ ∈ C ( HA ⊗HB ) descreve o estado do sistema. Um cálculo direto mostra que C2 = 4I + [A1, A2] ⊗ [B1, B2]. Como todo operador linear F em um dado espaço de Hil- bert de dimensão finita satisfaz |〈ψ|F |ψ〉| ≤ ‖Fψ‖ ≤ ‖F‖, onde ‖ψ‖ = 1 e ‖F‖ ≡ sup|φ〉 =0 ‖Fφ‖/‖φ‖, temos que |tr (ρC)| ≤ ‖C‖ = √ ‖C†C‖ = √ ‖C2‖. Portanto, con- clúımos que |tr (ρC)| ≤ √ 4 + ‖ [A1, A2] ‖‖ [B1, B2] ‖ ≤ √ 4 + 4‖A1‖‖A2‖‖B1‖‖B2‖ ≤ √ 8 (3.36) onde usamos que ‖Ai‖ ≤ 1 e ‖Bi‖ ≤ 1. Chegamos assim na desigualdade de Cirel’son [59] |tr (ρC)| ≤ 2 √ 2. (3.37) Para ver um exemplo de configuração em que a equação (3.37) toma o seu valor máximo, tome o estado singleto |ψ−〉 ≡ 1/ √ 2 ( |0A〉 ⊗ |1B〉 − |1A〉 ⊗ |0B〉 ) , onde {|0X〉, |1X〉}, X ∈ {A,B} é uma base ortonormal de auto-vetores de σX3 . Vemos facilmente que 〈ψ−|(ai · σA)⊗ (bj · σB)|ψ−〉 = −ai · bj . Então, escolhendo a1 = (0, 0, 1), a2 = (0, 1, 0),b1 = −(0, 1/ √ 2, √ 2),b2 = (0,−1/ √ 2, 1/ √ 2) temos |E(a1,b1) + E(a2,b1) + E(a2,b2)− E(a1,b2)| = |a1 · b1 + a2 · b1 + a2 · b2 − a1 · b2| = 2 √ 2. (3.38) Com isso, vemos que a mecânica quântica viola as desigualdades de Bell e que a violação máxima posśıvel é dada por |tr (ρC)| = 2 √ 2. Portanto, nenhuma teoria realista e local pode reproduzir todos os resultados da mecânica quântica. O veredicto final de como a natureza se comporta é, como sempre, dado pelo experimento. Diversas experiências para verificar a validade ou não das desigualdades de Bell foram realizadas [60, 61, 62, 63] e 3.4 Emaranhamento 37 todas† mostram que não só a desigualdade (3.35) é violada como a violação ocorre como prevista pela mecânica quântica. Mostramos que o estado emaranhado |ψ−〉, com os ai e bj na configuração descrita acima, viola maximamente as desigualdades de Bell. Será que o emaranhamento do estado é uma condição necessária para a violação das desigualdades de Bell? A resposta é sim, já que os estados separáveis sempre satisfazem a equação (3.35). Para ver isso, tome um estado separável ρ ≡∑ k pkρ k A ⊗ ρkB. Então, |tr (ρC)| ≤ ∑ k pk ∣∣∣∣tr(ρkAA1 ) tr ( ρkBB1 ) + tr ( ρkAA2 ) tr ( ρkBB1 ) + tr ( ρkAA2 ) tr ( ρkBB2 ) − tr ( ρkAA1 ) tr ( ρkBB2 )∣∣∣∣ ≤ ∑ k 2pk = 2, (3.39) onde usamos que ∣∣tr (ρkAAi)∣∣ ≤ 1 e ∣∣tr (ρkBBi)∣∣ ≤ 1, i ∈ {1, 2} e portanto∣∣∣∣tr(ρkAA1 ) tr ( ρkBB1 ) + tr ( ρkAA2 ) tr ( ρkBB1 ) +tr ( ρkAA2 ) tr ( ρkBB2 ) − tr ( ρkAA1 ) tr ( ρkBB2 )∣∣∣∣ ≤ 2. (3.40) Portanto, o emaranhamento do estado ρ é condição necessária, porém não suficiente, para que haja violação das desigualdades de Bell. Teletransporte Quântico Em 1993, C. H. Bennett et al. [13] descobriram uma das mais fantásticas aplicações do emaranhamento, o teletransporte quântico. Eles mostraram que é posśıvel, usando operações locais e comunicação clássica, transportar um estado quântico de uma região do espaço-tempo para outra desde que as duas partes compartilhem um dos estados de Bell, equação (3.32). Para ver como isso é posśıvel, suponha que Alice e Bob compartilhem o estado de Bell |ψ− AB〉 e que Alice tenha uma part́ıcula C em um certo estado, possivelmente desconhecido por ela, |ϕC〉 = α|0C〉+ β|1C〉, onde {|0C〉, |1C〉} é uma base ortonormal de HC e |α|2 + |β|2 = 1. Então, o estado do sistema total é |ϕC〉 ⊗ |ψ− AB〉 = ( α|0C〉+ β|1C〉 ) ⊗ 1√ 2 ( |0A〉 ⊗ |1B〉 − |1A〉 ⊗ |0B〉 ) . (3.41) Usando a equação (3.32) podemos rescrever a equação (3.41) como |ϕC〉 ⊗ |ψ− AB〉 = 1 2 [ |φ+CA〉 ⊗ ( α|1B〉 − β|0B〉 ) + |φ−CA〉 ⊗ ( α|1B〉+ β|0B〉 ) + |ψ+ CA〉 ⊗ ( β|1B〉 − α|0B〉 ) − |ψ− CA〉 ⊗ ( α|0B〉+ β|1B〉 ) ] . (3.42) †Há cŕıticas aos experimentos dizendo que, devido a certas limitações no aparato experimental, os resultados poderiam ser explicados por modelos locais. Entretanto, esses modelos locais que explicariam os resultados são extremamente artificiais e há um consenso na comunidade cient́ıfica de que as desigualdades de Bell são violadas 3.4 Emaranhamento 38 Se Alice realiza a medição projetiva no sistema CA { P00 ≡ |ψ− CA〉〈ψ− CA|, P01 ≡ |ψ+ CA〉〈ψ+ CA|, P10 ≡ |φ−CA〉〈φ−CA|, P11 ≡ |φ+CA〉〈ψ+ CA| } , (3.43) ela obterá cada um dos resultados μ ∈ M ≡ {00, 01, 10, 11} com probabilidade 1/4 e portanto, o estado final em cada um dos casos é |Φ00〉 = −|ψ− CA〉 ⊗ ( α|0B〉+ β|1B〉 ) , |Φ01〉 = |ψ+ CA〉 ⊗ ( β|1B〉 − α|0B〉 ) , |Φ10〉 = |φ−CA〉 ⊗ ( α|1B〉+ β|0B〉 ) , |Φ11〉 = |φ+CA〉 ⊗ ( α|1B〉 − β|0B〉 ) . (3.44) Alice então comunica o resultado μ ∈ M da sua medição a Bob através de um canal clássico, e.g. um telefone. Bob, ao receber a mensagem, realiza uma das quatro operações unitárias locais 00 −→ I 01 −→ σ3 10 −→ σ1 11 −→ σ3σ1. (3.45) Usando as equações (3.44) e (3.45) com o valor μ que Bob recebeu, vemos que, ao final do protocolo, o estado da part́ıcula de Bob não está mais emaranhado com o da part́ıcula de Alice do antigo estado de Bell e, a menos de uma fase global que pode ser desprezada, tal estado é dado por |ϕB〉 = α|0B〉 + β|1B〉. Portanto, Alice teve sucesso em teleportar o estado quântico da part́ıcula C. Vemos também, que o estado final da part́ıcula C está emaranhado em um dos estados de Bell com o da part́ıcula da Alice e portanto, seu estado após o protocolo é trAB|Φμ〉〈Φμ| = IC/2, onde IC é o operador identidade em HC e μ ∈ M. Portanto, o estado original da part́ıcula C foi destrúıdo ao final do protocolo. Tal fato é consistente com o teorema da não clonagem. Podemos entender o teletransporte dizendo que a comunicação de um qubit de in- formação quântica pode ser dividida na transmissão de dois bits clássicos e consumo de um estado emaranhado (1 ebit). Então, seguindo [64] podemos escrever 1 qubit ≺ 1 ebit + 2 bits, onde o śımbolo ≺ foi usado para indicar que a relação acima não é uma equivalência nem uma igualdade. Para finalizar a análise do teletransporte quântico, vamos estudar a importância da transmissão dos dois bits clássicos para o seu sucesso. Suponha que Alice realiza a medição projetiva descrita no protocolo mas não comunique seu