entropia

entropia

Artigo
Entropia, a Medida de Informação de Shannon e
Teorema H de Boltzmann
Arieh Ben-Naim
Departamento de Química Física, Universidade Hebraica de Jerusalém, Jerusalém 91904, Israel;
arieh@fh.huji.ac.il
Editores acadêmicos: Geert Verdoolaege e Kevin H. Knuth
Recebido: 23 de novembro de 2016; Aceito: 21 de janeiro de 2017; Publicado: 24 de janeiro de 2017
Resumo: Começamos com uma clara distinção entre a Medida de Informação de Shannon (SMI) e a
Entropia termodinâmica. O primeiro é definido em qualquer distribuição de probabilidade; e, portanto, é um
conceito muito geral. Por outro lado, a entropia é definida em um conjunto muito especial de distribuições.
A seguir, mostramos que a Medida de Informação de Shannon (SMI) fornece uma solução sólida e quantitativa.
base para a interpretação da entropia termodinâmica. A entropia mede a incerteza
na distribuição dos locais e momentos de todas as partículas; bem como duas correções devidas
ao princípio da incerteza e à indistinguibilidade das partículas. Finalmente, mostramos que o
A função H, conforme definida por Boltzmann, é um SMI, mas não entropia. Portanto; muito do que tem sido
escrito no teorema H é irrelevante para a entropia e a Segunda Lei da Termodinâmica.
Palavras-chave: entropia; Medida de informação de Shannon; Segunda Lei da Termodinâmica; Teorema H
1. Introdução
O objetivo deste artigo é revisitar um problema antigo, a relação entre entropia e
Medida de informação de Shannon. Um problema ainda mais antigo é a questão da subjetividade
entropia que surgiu da associação da entropia com o conceito geral de informação.
Finalmente, discutimos o teorema H; seu significado, suas críticas e sua relação com a Segunda Lei
de termodinâmica.
O artigo está organizado em quatro partes. Na Seção , apresentamos uma breve introdução ao conceito
do SMI. Na Seção , derivamos a entropia termodinâmica como um caso especial de SMI. Na seção ,
revisitamos o teorema H de Boltzmann. À luz da interpretação de entropia baseada em SMI; se tornará
claro que a função é idêntica à SMI da distribuição de velocidade. A entropia é
obtido de após tomar o limite de t → ∞, ou seja, o valor de em equilíbrio.
Por causa de sua importância central, declaramos nossa conclusão aqui:
É absolutamente necessário distinguir entre SMI e entropia. Deixar de fazer
tal distinção levou a muitas interpretações errôneas da entropia e da Segunda Lei,
bem como atribuir propriedades do SMI à entropia e, em particular, entender mal o
Teorema H, discutido na Seção .
Em 1948, Shannon buscou e encontrou uma notável medida de informação, de incerteza [ ]
e improvabilidade. Não era uma medida de qualquer informação, nenhuma incerteza sobre qualquer proposição,
e não a improbabilidade sobre a ocorrência de qualquer evento. No entanto, porque a quantidade que ele
encontrado tem a mesma forma matemática que a entropia na mecânica estatística, ele chamou sua medida,
como supostamente sugerido por von Neumann: "entropia". Este provou ser um erro grave que teve
causou uma grande confusão na teoria da informação e na termodinâmica.
Entropy 2017 , 19, 48; doi: 10.3390 / e19020048
Entropia 2017 , 19, 48
2 de 18
O SMI é definido para qualquer distribuição de probabilidade. A entropia é definida em um pequeno subconjunto de todos
as possíveis distribuições. Chamar entropia SMI leva a muitas declarações estranhas, como: O valor
da entropia máxima em equilíbrio é a entropia do sistema.
A declaração correta a respeito da entropia de um sistema isolado é a seguinte:
sistema em equilíbrio é caracterizado por uma energia fixa E, volume V e número de partículas N
(assumindo um sistema de um componente). Para um tal sistema, a entropia é determinado por variáveis .
Neste sistema, a entropia é fixa. Não é uma função do tempo, não muda com o tempo e muda
não tendem a um máximo.
Da mesma forma, pode-se definir a entropia para qualquer outro sistema termodinâmico bem definido em
equilíbrio [ ]. É exatamente isso que significa a afirmação de que entropia é uma função de estado.
Para qualquer sistema isolado que não esteja em equilíbrio, pode-se definir o SMI nas distribuições de probabilidade
de localizações e velocidades de todas as partículas. Este SMI muda com o tempo [ ]. Em equilíbrio, atende a
um valor máximo. O valor máximo do SMI, atingido em equilíbrio, está relacionado à entropia do
sistema [ ]. Neste artigo, sempre que falamos sobre SMI, usamos o logaritmo para a base 2, mas em
termodinâmica que usamos, por conveniência, o logaritmo natural log e x . Para converter para SMI, precisamos
multiplique pelo log 2 e, ou seja, log 2 x log 2 e log e x.
Partes deste artigo foram publicadas anteriormente em [ ]. Especificamente, a derivação da entropia
função de um gás ideal baseado no SMI, foi publicado pelo autor em 2008 [ ]. A discussão
do Teorema H de Boltzmann em termos de SMI é novo. Não discutimos relações com os grandes
campo da termodinâmica de processos irreversíveis. Todo esse campo é baseado na suposição de
equilíbrio local que, na opinião do autor, nunca foi totalmente justificado. Portanto, neste artigo, nós
use o conceito de entropia apenas para sistemas de equilíbrio macroscópico, enquanto o SMI pode ser usado para
qualquer sistema.
2. Uma breve introdução ao conceito de SMI
Nesta seção, apresentamos uma definição muito simples do SMI. Depois discutimos suas várias
interpretações. Para qualquer variável aleatória X (ou um experimento ou um jogo, veja abaixo), caracterizada por
uma distribuição de probabilidade: p 1 , p 2 ,. . . , p n , definimos o SMI como:
n
= -
Σ log 2 p i
(1)
1
Se X é um experimento com n resultados, então i é a probabilidade associada à ocorrência
do resultado i.
Agora discutimos brevemente as três interpretações do SMI. O primeiro é uma média da incerteza
sobre o resultado de um experimento; o segundo, uma medida da improbabilidade; e o terceiro, uma medida
de informação. É irônico que a interpretação “informativa” do SMI seja a menos direta
um, como resultado, é também o mais comumente mal utilizado. Observe que o SMI tem a forma de uma média
quantidade. No entanto, essa é uma média muito especial. É uma média da quantidade log p i usando o
distribuição de probabilidade p 1 ,. . . , P n .
2.1 O Significado da Incerteza do SMI
A interpretação de H como uma incerteza média é muito popular. Essa interpretação é derivada
diretamente do significado da distribuição de probabilidade [ ].
Suponha que tenhamos um experimento que produza n resultados possíveis com distribuição de probabilidade
1 , . . . n . Se, digamos, i = 1, temos certeza de que o resultado ocorreu ou irá ocorrer. Para qualquer outro
valor de i , temos menos certeza da ocorrência do evento i. Menos certeza pode ser traduzida para
mais incerteza. Portanto, quanto maior o valor de log p i , maior a extensão da incerteza sobre
a ocorrência do evento i. Multiplicando log p i por i , e somando sobre todo i, obtemos uma média
incerteza sobre todos os resultados possíveis do experimento [ ].
Entropia 2017 , 19, 48
3 de 18
Entropia 2017 19 , 48
3 de 17
Devemos acrescentar aqui que, quando i = 0, estamos certos de que o evento não irá ocorrer. Seria
ser um Yaglom e Yaglom [7] sugerem referir-se a - ௜ ௜ log ݌ ௜ como a incerteza no evento . Nisso
vista, o SMI (referido como “entropia” por Yaglom e Yaglom) é uma soma de todas as incertezas em
os resultados do experimento. 0
Esta interpretação é inválida pelo seguinte motivo. Como observamos acima, é plausível
interpretar −log ݌ ௜ como uma medida da extensão da incerteza com relação à ocorrência do
resultado . Como −log ݌ ௜ é uma função monotonicamente decrescente Figure ௜ , Figura 1a, maior ௜ ௜ ou menor
-Log ݌ ௜ significa pr menor incerteza (ou de e maior certeza). No este ponto de vista, um SMI é um de nós média
incerteza sobre todos os resultados possíveis do experimento. inty no que diz respeito à ocorrência do
OUTC A quantidade -݌ ௜ log ݌ ௜ sobre outro mão, é não um monótona função de er ݌ ௜ Figura al 1b.
Portanto, não se pode usar essa quantidade para medir a extensão da incerteza com relação à
ocorrência do resultado i. f o experimento.
(uma)
b)
Figura .. As funções Log (p) e ( p Log (p)
2.2 A Interpretação da Probabilidade
A quantidade i log p i, por outro lado, não é uma função monotônica de i , Figura b. Portanto,
um não podem usar este quantitytomeasure na medida de incerteza com respeito a ocorrência de e ofthe
resultado i. também são derivados do significado de probabilidade. Quando ݌ ௜ é pequeno, o evento é improvável
ocorrer ou sua ocorrência é menos esperada. Quando ௜ ௜ se aproxima de um, podemos dizer que a ocorrência
2.2 A Interpretação da Probabilidade é uma função monotonicamente crescente de ࢏ ࢏ , podemos dizer que o
grande Um ligeiramente um e diferente  mas ainda útil interpretação de um H é em Da de probabilidade ou expectatividade
Esses dois também são derivados do significado de probabilidade. ௜ Quando um é pequena, um e o evento é de e improvável
ocorrer, ou sua ocorrência n é inesperada. Quando i se aproxima de um, podemos dizer que a ocorrência
de i é li mais provável. Desde log é um monotonamente increasingfunction de , podemos dizer que o
, quanto maior a probabilidade ou maior a expectativa para o evento. Desde a
maior o valor do log p i
2.3 O significado do SMI como uma medida de informação
≤ i ≤ 1, temos ∞ ≤ log p i ≤ 0. A quantidade log p i é, portanto, uma medida da improbabilidade ou
o inesperado o evento. , portanto, a uma quantidade = - Σ p log isa uma medida da média
unlikelihood, ou inesperado, de todo o conjunto de theoutcomes do experimento. de informação é uma
um pouco mais complicado e menos direto. Também é mais interessante, pois transmite um tipo diferente de
2.3 O significado do SMI como uma medida de informação
informações sobre a medida de informações de Shannon . Como já enfatizamos, o SMI não é
infor Como vimos, tanto a incerteza e a unlikelihood interpretationof H são derivados a partir de
o significado das probabilidades A interpretação de H como uma medida de informação é um pouco mais complicada
e menos direto. Ele é também é mais interessante, uma vez que transmite um tipo diferente de informação sobre
Alguns autores atribuem à quantidade - log ௜  o significado da informação (ou auto-informação)
associado ao evento .
Entropia 2017 , 19, 48
4 de 18
Entropia 2017 19 , 48
4 de 17
é grande, então fica
A idéia é que se um evento é raro, ou seja, ݌ ௜ um é pequeno e, portanto, - log ݌ ௜ t informação [ ]. Isso é também
“Mais informações” quando se sabe que o evento ocorreu. Considere as probabilidades do
não é uma medida de qualquer informação, mas de um tipo muito particular de informação. A confusão
resultados de um dado, como mostra a Figura 2a. Vemos que o resultado "1" é menos provável que o resultado "2".
O SMI com informações é quase a regra, não a exceção, tanto por cientistas quanto por não cientistas.
Podemos dizer que somos menos incertos sobre o resultado "2" do que sobre "1". Também podemos dizer que
Alguns autores atribuem à quantidade log p i o significado da informação (ou auto-informação)
o resultado "1" é menos provável que o resultado "2". No entanto, quando somos informados de que o resultado
associado ao evento i.
"1" ou "2" ocorreu, não podemos afirmar que recebemos mais ou menos informações. Quando nós
A idéia é que se um evento é raro, ou seja, i é pequeno e, portanto, log P i é grande, então fica-se “mais
sabemos que um evento ocorreu, temos a informação sobre a ocorrência de . Um pode ser
informações ”quando se sabe que o evento ocorreu. Considere as probabilidades dos resultados
surpreso ao saber que ocorreu um evento raro, mas o tamanho da informação que se obtém quando o
de um dado, como mostra a Figura a. Vemos que o resultado "1" é menos provável que o resultado "2". Nós podemos
O evento que ocorre não depende da probabilidade desse evento.
diga que somos menos incertos sobre o resultado "2" do que sobre "1". Também podemos dizer que o resultado
são medidas da incerteza sobre a ocorrência de um evento. Eles fazem
“1” Ambos ݌ ௜ log ݌ ௜ r de resultado “2”. No entanto, quando somos informados de que o resultado "1" ou "2"
não mede informações sobre os eventos. Portanto, não recomendamos que se refira a - log as t como
“Informação” (ou auto-informação) associada ao evento . Portanto, não deve ser interpretado
evento que ocorreu, obtivemos as informações sobre a ocorrência de i. Pode-se surpreender
como informação média associada ao experimento. Em vez disso, atribuímos significado "informativo"
saiba que ocorreu um evento raro, mas o tamanho da informação que se obtém quando o evento que ocorre é
diretamente à quantidade , e não aos eventos individuais.
não depende da probabilidade desse evento.
Figura 2. Duas distribuições possíveis de um dado injusto.
Figura 2. Duas distribuições possíveis de um dado injusto.
Diz-se às vezes que remover a incerteza é o mesmo que obter informações . Isto é
você faz
verdadeiro f Ambos log são n para medidas da de e incerteza cerca de ocorrência de um evento. o
não meça as informações sobre os eventos. Portanto, nós não re comm nd refe rr ing para log P s
ଵ଴
ଵ଴
ଵ଴
ଵ଴
ଵ଴
“Informação” (ou auto-informação) associada ao evento i.
Portanto, H
devemos
não ser interpretar
ed
݌  =  , Figura 2b. Claramente, a incerteza que temos em relação ao resultado ݅ = 6 é menor que a
como informação média associada ao experimento. Em vez disso, atribuímos significado "informativo"
incerteza que temos em relação a qualquer resultado ݅ ് . Quando realizamos o experimento e encontramos o
diretamente à quantidade H, e não aos eventos individuais.
resultado, digamos ݅ = 3 , removemos a incerteza que tínhamos sobre o resultado antes de executar o
Diz-se às vezes que remover a incerteza é o mesmo que obter informações. Isto é
experimentar. No entanto, seria errado argumentar que a quantidade de informações que obtivemos é maior ou
verdadeiro para todo o experimento, ou seja, para toda a distribuição de probabilidades, não para eventos individuais.
pequena Suponha que temos um dado injusto com probabilidades falamos aqui ab ut a um ount f
1
10 =
10 =
10 =
10 =
10
e não a própria informação. Se o resultado for ݅ = 3 , as informações que obtemos são:
Figura b. Claramente, a incerteza que temos sobre o resultado 6 é menor que
,
resultado é "3". Se o resultado for ݅ = 6 , a informação é: O resultado é "6". São diferentes
a incerteza que temos em relação a qualquer resultado 6. Quando realizamos o experimento e descobrimos
informações, mas não se pode afirmar que um é maior ou menor que o outro.
o resultado, digamos 3, removemos a incerteza que tínhamos sobre o resultado antes de realizar a
Enfatizamos novamente que a interpretação de como incerteza média ou improvabilidade média é
experimentar. No entanto, seria errado argumentar que a quantidade de informações que obtivemos é maior
derivado do significado de cada termo -log ݌  . A interpretação de como uma medida de informação
ou menor do que se outro resultado tivesse ocorrido. Observe também que falamos aqui sobre a quantidade de
não está associado ao significado de cada probabilidade ݌  , mas com toda a distribuição ݌  ,…, ݌  .
informação, não a informação em si. Se o resultado for 3, a informação que obtemos é: O resultado
Agora descrevemos de maneira qualitativa o significado de como uma medida de informação associada a
é "3". Se o resultado for =
6, a informação é: O resultado é "6". Essas são informações diferentes,
todo o experimento .
mas não se pode afirmar que um é maior ou menor que o outro.
Considere qualquer experimento ou jogo com resultados com probabilidades ݌  ,…, ݌  . Para
Enfatizamos novamente que a interpretação de H como incerteza média ou improvabilidade média é
concretude, suponha que jogamos um dardo em uma placa, Figura 3. A placa é dividida em n regiões, de
derivado do significado de cada termo log p i . A interpretação de H como uma medida de informação é
áreas ଵ  ,…, ܣ  . Sabemos que o dardo atingiu uma dessas regiões. Assumimos que a probabilidade de
não associado ao significado de cada probabilidade p i , mas a toda a distribuição p 1 ,. . . , P n .
bater na i- ésima região é ௜  = ܣ  / ܣ , onde A é a área total do tabuleiro.
Entropia 2017 , 19, 48
5 de 18
Agora descrevemos de maneira qualitativa o significado de H como uma medida de informação associada a
todo o experimento.
Considere as experiências ou um jogo tendo n resultados com probabilidades 1 , . . . n .
Por concretude, suponha que jogamos um dardo em um tabuleiro, Figura . O conselho está dividido em n regiões, de
áreas 1 , . . . n . Sabemos que o dardo atingiu uma dessas regiões. Assumimos que a probabilidade de
Entro
py 2017 19 , 48
/ A, onde A é a área total do quadro.
5 de 17
Figura 3. Uma placa dividida em cinco regiões desiguais.
Agora o experimento é realizado e você precisa descobrir onde o dardo atingiu o tabuleiro. Você
Agora o experimento é realizado e você precisa descobrir onde o dardo atingiu o tabuleiro.
saiba que o dardo atingiu o tabuleiro e você sabe a distribuição de probabilidade ݌  ,…, ݌  . Sua tarefa é
Você sabe que o dardo atingiu a bordo, e você sabe que a distribuição de probabilidade 1 , . . . n . Sua tarefa
descubra em que região o dardo está fazendo perguntas binárias, ou seja, perguntas respondidas por Sim ou
é descobrir em que região o dardo está fazendo perguntas binárias, ou seja, perguntas respondidas por Sim,
Não.
ou não.
Claramente, como você não sabe onde está o dardo, falta informações sobre a localização do dardo.
Claramente, como você não sabe onde está o dardo, falta informações sobre a localização do dardo.
Para adquirir essas informações, faça perguntas. Estamos interessados ​​na quantidade de informações
Para adquirir essas informações, faça perguntas. Estamos interessados ​​na quantidade de informações contidas
contido neste experimento. Uma maneira de medir essa quantidade de informação é pelo número de
neste experimento. Uma maneira de medir essa quantidade de informações é pelo número de perguntas que você
perguntas que você precisa fazer para obter as informações necessárias.
precisa perguntar para obter as informações necessárias.
Como todos que jogaram o jogo de 20 perguntas (20Q) sabem, o número de perguntas que você
precisa perguntar depende da estratégia para fazer perguntas. Aqui não discutiremos o que constitui
precisa perguntar depende da estratégia para fazer perguntas. Aqui não discutiremos o que constitui
uma estratégia para fazer perguntas [9]. Aqui, estamos interessados ​​apenas em uma medida da “quantidade de
uma estratégia para fazer perguntas [ ]. Aqui, estamos interessados ​​apenas em uma medida da “quantidade de
informações ”contidas neste experimento. Acontece que a quantidade , à qual nos referimos
informações ”contidas neste experimento. Acontece que a quantidade H, à qual nos referimos como
como medida de informação de Shannon (SMI), fornece-nos uma medida dessa informação em termos
A medida de informação de Shannon (SMI), fornece uma medida dessa informação em termos de
do número mínimo de perguntas que você precisa fazer para encontrar a localização do dardo, dado
o número mínimo de perguntas que você precisa fazer para encontrar a localização do dardo, dada a
distribuição de probabilidade dos vários resultados [2,8].
distribuição de probabilidade dos vários resultados [ ].
Para um experimento geral com resultados possíveis, com probabilidades ݌  ,…, ݌  , a quantidade
Para uma experiência em geral com n resultados possíveis, tendo probabilidades 1 , . . . n , a quantidade H
é uma medida de quão “difícil” é descobrir qual resultado ocorreu, uma vez que
é uma medida de quão "difícil" é descobrir qual resultado ocorreu, uma vez que um experimento
experimento foi realizado. É fácil ver que, para experimentos com o mesmo número total de
foi realizado. É fácil ver que, para experimentos com o mesmo número total de resultados n,
resultados , mas com diferentes distribuições de probabilidade, a quantidade de informação (medida em
mas com distribuições de probabilidade diferentes, a quantidade de informação (medida em termos de
termos do número de perguntas) é diferente. Em outras palavras, conhecer a distribuição de probabilidade
número de perguntas) é diferente. Em outras palavras, conhecer a distribuição de probabilidade nos dá uma "dica"
nos dá uma "dica" ou alguma informação parcial sobre os resultados. Esta é a razão pela qual nos referimos a H
ou alguma informação parcial sobre os resultados. Esta é a razão pela qual nos referimos a H como uma medida da
como uma medida da quantidade de informações contidas ou associadas a uma determinada probabilidade
quantidade de informações contidas ou associadas a uma determinada distribuição de probabilidade. Enfatizamos
distribuição. Enfatizamos novamente que o SMI é uma medida de informação associada a todo o
mais uma vez que o SMI é uma medida de informação associada a toda a distribuição, não ao
distribuição, não com as probabilidades individuais.
probabilidades individuais.
3. Derivação da função de entropia para um gás ideal
Nesta seção, derivamos a função de entropia para um gás ideal. Começamos com SMI, que é
definabletoany probabilidade distribuição 10 ]. Nós applythe SMItotwo moleculares distribuições;
um locacional ea distribuição momentum. Em seguida, calculamos a distribuição que maximiza
theSMI. Referimo-nos a thisdistribution como equilíbrio distribuição. Finalmente, nós aplicamos duas correções
para o SMI, um toHeisenberg devido uncertaintyprinciple, thesecond devido totheindistinguishability
as partículas. O SMI resultante é, até uma constante multiplicativa igual à entropia do gás, como
calculado por Sackur e Tetrode com base na definição de entropia de Boltzmann [11,12].
Na publicação anterior [2,13], discutimos várias vantagens na definição de SMI baseada em
entropia. Para nosso propósito neste artigo, o aspecto mais importante desta definição é o seguinte:
A entropia é definida como o valor máximo do SMI. Como tal, não é uma função do tempo. Nós
discutirá a implicação desta conclusão para o teorema de Boltzmann H na Seção 4.
Entropia 2017 , 19, 48
6 de 18
das partículas. O SMI resultante é, até uma constante multiplicativa igual à entropia do gás,
calculado por Sackur e Tetrode, com base na definição de entropia de Boltzmann [ 11 12 ].
Na publicação anterior [ 13 ], discutimos várias vantagens da definição de SMI baseada em
entropia. Para nosso propósito neste artigo, o aspecto mais importante desta definição é o seguinte:
A entropia é definida como o valor máximo do SMI. Como tal, não é uma função do tempo.
Discutiremos a implicação desta conclusão para o teorema de Boltzmann H na Seção .
3.1 O SMI local de uma partícula em uma caixa 1D de comprimento L
Suponha que tenhamos uma partícula confinada a uma "caixa" unidimensional (1D) de comprimento L. Como existem
pontos infinitos nos quais a partícula pode estar dentro do intervalo (0, L). O SMI local correspondente
deve ser infinito. No entanto, podemos definir, como Shannon, a seguinte quantidade por analogia com o
caso discreto:
W
) = - log f dx
2)
Essa quantidade pode convergir ou divergir, mas em qualquer caso, na prática, usaremos apenas
diferenças desta quantidade. É fácil calcular a densidade que maximiza o SMI local,
em (2) que é [ ]:
1
eq ( ) =
(3)
eu
O uso do eq subscrito (para equilíbrio) será limpo mais tarde, e o SMI correspondente
calculado por (2) é:
localizações em 1D ) = log L
4)
Reconhecemos que o local X da partícula não pode ser determinado com precisão absoluta,
isto é, existe um pequeno intervalo, x em que não importa onde a partícula é. Portanto,
devemos corrigir a equação (4) subtraindo o log h x . Assim, escrevemos em vez de (4):
) = log L log h x
(5)
Reconhecemos que em (5) definimos efetivamente para um número finito de intervalos L / h .
Observe que quando x → 0, H diverge para o infinito. Aqui, não tomamos o limite matemático,
mas paramos em x pequeno o suficiente, mas não zero. Observe também que, por escrito (5), não precisamos especificar o
unidades de comprimento, desde que usemos as mesmas unidades para L eh x .
3.2 O SMI de velocidade de uma partícula na "caixa" 1D de comprimento L
A seguir, calculamos a distribuição de probabilidade que maximiza o SMI contínuo, sujeito a
duas condições:
dx 1
(6)
2 f dx σ 2 = constante
(7)
O resultado é a distribuição Normal [ ]:
]
exp [ / σ
eq ( ) =
(8)
2πσ 2
Entropia 2017 , 19, 48
7 de 18
O subscrito eq. pois o equilíbrio ficará claro mais tarde. Aplicando esse resultado a uma partícula clássica
com energia cinética média e identificando o desvio padrão σ com a temperatura
2
do sistema:
B T
σ 2 =
(9)
m
Nós obtemos a distribuição da velocidade de equilíbrio de uma partícula no sistema 1D:
]
m
[ - mv 2
x
eq ( x ) =
exp
(10)
2mk B T
2k B T
onde B é a constante de Boltzmann, m é a massa da partícula, e T a temperatura absoluta.
O valor do SMI contínuo para essa densidade de probabilidade é:
1
max ( velocidade em 1D ) =
(11)
2log 2πek T / m )
Da mesma forma, podemos escrever a distribuição do momento em 1D, transformando a partir de x → x = mv x ,
para obter:
[
]
1
2
x
eq ( x ) =
exp
(12)
 2πmk B T
2mk B T
e o SMI máximo correspondente:
1
max ( momento em 1 D ) =
(13)
2log 2πemk )
Como observamos em relação ao SMI local, as quantidades (11) e (13) foram
calculado usando a definição do SMI contínuo. Novamente, reconhecendo o fato de que há um limite para
a precisão dentro da qual podemos determinar a velocidade ou o momento da partícula, corrigimos
a expressão em (13) subtraindo log hp onde hp é um intervalo pequeno, mas infinito:
1
max ( momento em 1D ) =
(14)
2log 2πemk ) - logh p
Observe novamente que, se escolhermos as unidades de p (de momento como: comprimento / tempo da massa ) as mesmas de
 mk B T, então toda a expressão sob o logaritmo será um número puro.
3.3 Combinando o SMI para a localização e o momento de uma partícula no sistema 1D
Nas duas seções anteriores, derivamos as expressões para o local e o momento
SMI de uma partícula no sistema 1D. Agora combinamos os dois resultados. Supondo que a localização e
o momento (ou velocidade) das partículas são eventos independentes que escrevemos
]
[L  2πemk B T
max ( localização e momento ) = max ( localização ) + max ( momento ) = log
(15)
x h p
Lembre-se de que x e p foram escolhidos para eliminar a divergência do SMI por um teste aleatório contínuo.
variáveis; localização e momento.
Em (15) assumimos que a localização e o momento da partícula são independentes. Contudo,
mecânica quântica impõe restrições à precisão na determinação da localização x e da
momento correspondente x . Nas Equações (5) e (14) x e p foram introduzidas porque
não se importou em determinar a localização e o momento com uma precisão maior que x e p ,
respectivamente. Agora, devemos reconhecer que a natureza nos impõe um limite na precisão com
onde podemos determinar a localização e o momento correspondente. Assim, na Equação (15),
Entropia 2017 , 19, 48
8 de 18
x e p não podem ambos ser arbitrariamente pequeno, mas seu produto deve ser da ordem de constante de Planck
6,626 × 10 34 J s. Assim, definimos:
x h p ≈ h
(16)
E em vez de (15), escrevemos:
]
[L  2πemk B T
max ( localização e momento ) = log
(17)
h
3.4 O SMI de uma partícula em uma caixa do volume V
Consideramos novamente uma partícula simples em uma caixa de volume V. Assumimos que a localização da
partícula ao longo dos três eixos x, ye z são independentes. Portanto, podemos escrever o SMI do local
da partícula em um cubo de arestas L e volume V como:
localização em 3D ) = 3H máx ( localização em 1D )
(18)
Da mesma forma, para o momento da partícula assumimos que o momento (ou a velocidade) ao longo
os três eixos x, ye z são independentes. Por isso, escrevemos:
max ( momento em 3D ) = 3H max ( momento em 1D )
(19)
Combinamos o SMI dos locais e o momento de uma partícula em uma caixa de volume V, considerando
em consideração o princípio da incerteza. O resultado é
]
[L  2πemk B T
max ( localização e momento em 3D ) = 3log
(20)
h
3.5 O SMI de Locais e Momenta de N Partículas Independentes em uma Caixa de Volume V
O próximo passo é passar de uma partícula em uma caixa para N partículas independentes em uma caixa de
(
)
volume V. Fornecendo a localização x, y, z e o momento
x , p y , p z
de uma partícula dentro da caixa,
dizemos que conhecemos o microestado da partícula. Se houver N partículas na caixa e se suas
Como os microestados são independentes, podemos escrever o SMI de N tais partículas simplesmente como N vezes o SMI de
uma partícula, ou seja:
SMI de N partículas independentes ) = × SMI uma partícula )
(21)
Esta equação estaria correta quando os microestados de todas as partículas onde
independente. Na realidade, sempre há correlações entre os microestados de todas as partículas;
um é devido a interações intermoleculares entre as partículas, o segundo é devido à indistinguibilidade
entre as partículas. Discutiremos essas duas fontes de correlação separadamente.
(i) Correlação devido à indistinguibilidade
Lembre-se de que o microestado de uma única partícula inclui a localização e o momento dessa
partícula. Vamos nos concentrar na localização de uma partícula em uma caixa de volume V. Escrevemos a localização
SMI como:
max ( localização ) = log V
(22)
Lembre-se de que esse resultado foi obtido para o SMI local contínuo. Este resultado não leva
em consideração a divergência do procedimento de limitação. Para explicar a fonte da correlação
devido à indistinguibilidade, suponha que dividimos o volume V em um número muito grande de pequenos
células de cada um do volume V / M . Não estamos interessados ​​na localização exata de cada partícula, mas apenas
em qual célula está cada partícula. O número total de células é M, e assumimos que o número total de células
partículas é « . Se cada célula pode conter no máximo uma partícula, existem M possibilidades de colocar
Entropia 2017 , 19, 48
9 de 18
Entropia 2017 19 , 48 em uma das células, e existem possibilidades 1 para colocar a segunda partícula i 9 de 17
restantes células vazias. No total, temos possíveis microestados ou configurações para dois
parti Note-se que na contagem do número total de configurações assumimos implicitamente que o
duas partículas são rotuladas, digamos vermelho e azul. Nesse caso, contamos as duas configurações na Figura 4a,
1
como configurações diferentes : “partícula azul na célula ,
uma partícula vermelha na célula "e" partícula azul na célula ,
)
e partícula vermelha na célula ”.
Átomos e moléculas são indistinguíveis por natureza; não podemos rotulá-los. Portanto, os dois
A probabilidade de uma partícula ser encontrada na célula i é:
os microestados (ou configurações) na Figura 4b são indistinguíveis. Isso significa que o número total
de configurações não é ܯ (ܯ - 1) , mas:
1
Pr ) = Pr ) =
(24)
M
ܯ (ܯ - 1) ܯ
݅݋݊ݏ ݑ ܾ݉݁ݎ ݋݂ ܿ݋݂݊݅݃ ݑ ݐ ݅݋݊ݏ =
, para grandes ܯ
(26)
Portanto, vemos que, mesmo neste exemplo simples 2, existe uma relação c entre os eventos “um
parti Para muito grande , temos uma
ou relação entre os eventos “partícula em ” e “partícula em ”:
2
Pr (݆, ݆ M
)
ܯ 
Pr i, j )
1
i, j ݃ (݅, ݆) =
=
2
(27 )
) Pr (݆) = ܯ ଶ / 2
Pr Pr (݅
1
M
Para partículas distribuídas em células , temos uma função de correlação (Para ܯ ≫ ܰ ):
Claramente, essa correlação pode ser tão pequena quanto desejamos, usando ≫ 1 (ou, em geral,
≫ ). Há uma outra correlação que Cann ot ܯ imi nate e é devido ao indistinguibilidade
݃ (݅  , ݅  ,…, ݅  ) =
28)
das partículas.
ܯ  / ܰ! = ܰ!
Observe que, contando o número total de configurações, assumimos implicitamente que o
Isso significa que, para partículas indistinguíveis, devemos dividir o número de configurações
ே ே por ܰ! . Assim, em geral, removendo os “rótulos” nas partículas, o número de configurações é
como configurações diferentes: "partícula azul na célula i e partícula vermelha na célula j" e "partícula azul na célula j,
reduzido por N! . Para duas partículas, as duas configurações mostradas na Figura 4a se reduzem a uma mostrada na
e partícula vermelha na célula i ”.
Figura 4b.
Figura 4. Duas configurações diferentes são reduzidas a uma quando as partículas são indistinguíveis.
Figura 4. Duas configurações diferentes são reduzidas a uma quando as partículas são indistinguíveis.
Agora que sabemos que existem correlações entre os eventos "uma partícula em ݅  ", "uma
Átomos e moléculas são indistinguíveis por natureza; não podemos rotulá-los. Portanto, os dois
partícula em ݅  ”…“ uma partícula em ݅  ”, podemos definir as informações mútuas correspondentes a esta
microestados (ou configurações) na Figura b são indistinguíveis. Isso significa que o número total de
correlação. Nós escrevemos isso como:
configurações não é M , mas:
ܫ (1; 2;…; ܰ) = ln ܰ!
(29)
2
O SMI para número de conf configurações )
→ M
para M grande
(26)
2
2
Para M muito grande, temos uma correlação entre os eventos “partícula
em i ”e“ partícula em j ”: 30)
௜ ୀଵ
Pr i, j )
2
Para a definição do mut i, informação, se ].
2
(27)
Pr Pr )
2 /2
Usando o SMI para a localização e o momento de uma partícula em (20), podemos escrever a final
resul ForN partículas distribuídas inM células, temos uma função de correlação (Para M ≫ N):
ଷ ൗ
ܶ
ܪ(ܰ indistig(i1,i 2,.b..,in) =oMNߨ݉=N
− log ܰ!
(31)
!
(28)
MN/N!
Using the Stirling approximation for log ܰ! in the form (note again that we use the natural
logarithm):
log ܰ! ≈ ܰlog ܰ − ܰ
(32)
Entropy 2017, 19, 48
10 of 18
This means that for N indistinguishable particles we must divide the number of configurations
MN by N!. Thus in general by removing the “labels” on the particles the number of configurations is
reduced by N!. For two particles the two configurations shown in Figure 4a reduce to one shown in
Figure 4b.
Now that we know that there are correlations between the events “one particle in i1”, “one particle
in i2 . . . “one particle in in”, we can define the mutual information corresponding to this correlation.
We write this as:
I(1;2; . . . ; N) = ln N!
(29)
The SMI for N particles will be:
N
H(N particles) =
 H(one particle) − ln N!
(30)
i=1
For the definition of the mutual information, see [2].
Using the SMI for the location and momentum of one particle in (20) we can write the final result
for the SMI of N indistinguishable (but non-interacting) particles as:
)3/2
(2πmekBT
H(N indistinguishable) = N log V
 log N!
(31)
h2
Using the Stirling approximation for log N! in the form
(note again that we use the
natural logarithm):
log N! ≈ N log N − N
(32)
We have the final result for the SMI of N indistinguishable particles in a box of volume V,
and temperature T:
[
]
/2
V(2πmkB
T)3
5
H(1,2, . . . N) = N log
+
(33)
N h2
2N
By multiplying the SMI of N particles in a box of volume V at temperature T, by the factor
(kB loge 2), one gets the entropy, the thermodynamic entropy of an ideal gas of simple particles.
This equation was derived by Sackur and by Tetrode in 1912, by using the Boltzmann definition
of entropy.
One can convert this expression into the entropy function S(E, V, N), by using the relationship
between the total energy of the system, and the total kinetic energy of all the particles:
2
3
E=Nmv
=
(34)
2
2NkBT
The explicit entropy function of an ideal gas is:
[
]
/2
V( E)3
3
[5
(4πm)]
S(E, V, N) = NkB ln
+
(35)
N N
2kBN
3+ln
3h2
(ii) Correlation Due to Intermolecular Interactions
In Equation (35) we got the entropy of a system of non-interacting simple particles (ideal gas).
In any real system of particles, there are some interactions between the particles. One of the simplest
interaction energy potential function is shown in Figure 5. Without getting into any details on the
function U(r) shown in the Figure, it is clear that there are two regions of distances 0 ≤ r ≲ σ and
0 ≤ r ≲ ∞, where the slope of the function U(ris negative and positive, respectively. Negative
slope correspond to repulsive forces between the pair of the particles when they are at a distance
In Equation (35) we got the entropy of a system of non-interacting simple particles (ideal gas).
In any real system of particles, there are some interactions between the particles. One of the simplest
interaction energy potential function is shown in Figure 5. Without getting into any details on the
function ܷ(ݎ) shown in the Figure, it is clear that there are two regions of distances 0 ≤ ݎ ≲ ߪ and
Entropy 2017, 19, 48
11 of 18
0 ≤ ݎ ≲ ∞, where the slope of the function ܷ(ݎ) is negative and positive, respectively. Negative
slope correspond to repulsive forces between the pair of the particles when they are at a distance
smaller than ߪ. This is the reason why ߪ is sometimes referred to as the effective diameter of theles.
particles. For larger distances, ݎ ≳ ߪ we observe attractive forces between thes.
particles.
FigFigure 5.The general form of theipair-potentialtbetween two particles.
Intuitively, it is clear that interactions between the particles induce correlations between the
Intuitively, it is clear that interactions between the particles induce correlations between the
locational probabilities of the two particles. For hard-spheres particles there is infinitely strong
locational probabilities of the two particles. For hard-spheres particles there is infinitely strong
repulsive force between two particles when they approach to a distance of ݎ ≤ ߪ. Thus, if we know
repulsive force between two particles when they approach to a distance of r ≤ σ. Thus, if we know the
the location  of one particle, we can be sure that a second particle, at  is not in a sphere of
location R1 of one particle, we can be sure that a second particle, at R2 is not in a sphere of diameter σ
diameter ߪ around the point  . This repulsive interaction may be said to introduce negative
und the point R1. This repulsive interaction may be said to introduce negative correlation between the
locations of the two particles.
On the other hand, two argon atoms attract each other at distances r ≲ 4A. Therefore, if we know
the location of one particle say, at R1, the probability of observing a second particle at R2 is larger than
the probability of finding the particle at R2 in the absence of a particle at R1. In this case we get positive
correlation between the locations of the two particles.
We can conclude that in both cases (attraction and repulsion) there are correlations between the
particles. These correlations can be cast in the form of mutual information which reduces the SMI of
a system of N simple particles in an ideal gas. The mathematical details of these correlations are
discussed in Ben-Naim [3].
Here, we show only the form of the mutual information (MI) in very low density. At this limit,
we can assume that there are only pair correlations, and neglect all higher order correlations. The MI
due to these correlations is:
N(N − 1)
I(due to correlations in pairs) =
p(R1,R2) log g(R1,R2)dR1dR2
(36)
2
where g(R1, R2) is defined by:
p(R1,R2)
g(R1,R2) =
(37)
p(R1)p(R2)
Note again that log g can be either positive or negative, but the average in (36) must be positive.
3.6. Conclusions
We summarize the main steps leading from the SMI to the entropy. We started with the SMI
associated with the locations and momenta of the particles. We calculated the distribution of the locations
and momenta that maximizes the SMI. We referred to this distribution as the equilibrium distribution.
Let us denote this distribution of the locations and momenta of all the particles by feq (R, p).
Entropy 2017, 19, 48
12 of 18
Next, we use the equilibrium distribution to calculate the SMI of a system of N particles in a
volume V, and at temperature T. This SMI is, up to a multiplicative constant (kB ln2) identical with
the entropy of an ideal gas at equilibrium. This is the reason we referred to the distribution which
maximizes the SMI as the equilibrium distribution.
It should be noted that in the derivation of the entropy, we used the SMI twice; first, to calculate
the distribution that maximize the SMI, then evaluating the maximum SMI corresponding to this
distribution. The distinction between the concepts of SMI and entropy is essential. Referring to SMI
(as many do) as entropy, inevitably leads to such an awkward statement: the maximal value of
the entropy (meaning the SMI) is the entropy (meaning the thermodynamic entropy). The correct
statement is that the SMI associated with locations and momenta is defined for any system; small or
large, at equilibrium or far from equilibrium. This SMI, not the entropy, evolves into a maximum value
when the system reaches equilibrium. At this state, the SMI becomes proportional to the entropy of
the system.
Since the entropy is a special case of a SMI, it follows that whatever interpretation one accepts for
the SMI, it will be automatically applied to the concept of entropy. The most important conclusion is
that entropy is not a function of time. Entropy does not change with time, and entropy does not have a
tendency to increase.
We said that the SMI may be defined for a system with any number of particles including the case
1. This is true for the SMI. When we talk about the entropy of a system we require that the system
be very large. The reason is that only for such systems the entropy-formulation of the Second Law of
Entropy 201719, 48
12 of 17
thermodynamic is valid. This topic is discussed in the next section.
This question is considered to be one of the most challenging one. This property of the entropy
3.7is also responsible for the mystery surrounding
the concept of the entropy. In this section, we discuss
very briefly the origin of the increase in entropy in one specific process. The correct answer to the
In the previous section, we derived and interpreted the concept of entropy. Knowing what entropy
question of “why entropy always increases” removes much of the mystery associated with entropy.
is leaves the question of “why entropy always increases,” unanswered.
In this section, we “derive” the correct answer to the correct questions; when and why entropy of
a system increases?s considered to be one of the most challenging one. This property of the entropy is
also reConsider the following process. We have a system characterized by EVN. (This means Ndiscuss
veparticles, in a volume V having total energy E). We assume that all the energy of the system is due tor to the
quthe kinetic energy of the particles. We neglect any interactions between the particles, and if thentropy.
particles have any internal energies (say, vibrational, rotational, electronic, nuclear, etc.), these willopy of a
not change in the process. We now remove a partition between the two compartments, as in Figure
system increases?
6, and observe what happens. Experience tells us that once we remove the partition, the gas will
Consider the following process. We have a system characterized by E, V, N. (This means N
expand to occupy the entire system of volume 2V. Furthermore, if both the initial and the final states
particles, in a volume V having total energy E). We assume that all the energy of the system is due to
are equilibrium states, then we can apply the entropy function to calculate the change in the entropy
the kinetic energy of the particles. We neglect any interactions between the particles, and if the particles
in this process, i.e.:
have any internal energies (say, vibrational, rotational, electronic, nuclear, etc.), these will not change
in the process. We now remove a∆ܵ(ܸt→ 2ܸ) = ܰ݇ lntܸ =ܰ݇ ln2 artments, as in Figure 6(38) observe
what happens. Experience tells us that once we remove the partition, the gas will expand to occupy the
Note carefully that this entropy change corresponds to the difference in the entropy of the system
entire system of volume 2V. Furthermore, if both the initial and the final states are equilibrium states,
at two equilibrium states; the initial and the final states, Figure 6.
then we can apply the entropy function to calculate the change in the entropy in this process, i.e.:
The informational interpretation of this quantity can be obtained by dividing ∆ܵ by the
constant factor ݇ ln 2 and we get:
2V
ΔS(V → 2V) = NkB∆ܵ
(38)
∆ܪ(ܸ → 2ܸ) =
V =NkBln2
(39)
݇ ln2=ܰ
pL
pR
L
R
Figure 6. Expansion of an ideal gas from to 2V.
Figure 6. Expansion of an ideal gas from V to 2V.
This means that the SMI of the system increased by bits. The reason is simple. Initially, we
know that all particles are in a volume V, and after removal of the partition we lost one bit per
particle. We need to ask one question to find out where a particle is: in the right (R), or the left (L)
compartment.
Now that we understand the meaning of this entropy change we turn to study the cause for this
entropy change. Specifically, we ask:
Entropy 2017, 19, 48
13 of 18
Note carefully that this entropy change corresponds to the difference in the entropy of the system
at two equilibrium states; the initial and the final states, Figure 6.
The informational interpretation of this quantity can be obtained by dividing ΔS by the constant
factor kB ln 2 and we get:
ΔS
ΔH(V → 2V) =
=N
(39)
kB ln2
This means that the SMI of the system increased by N bits. The reason is simple. Initially, we know
that all N particles are in a volume V, and after removal of the partition we lost one bit per particle.
We need to ask one question to find out where a particle is: in the right (R), or the left (L) compartment.
Now that we understand the meaning of this entropy change we turn to study the cause for this
entropy change. Specifically, we ask:
Why does the entropy of this process increase? Before we answer this question we will try to
answer the more fundamental question:
Why did this process occur at all?
We shall see that an answer to the second question leads to an answer to the first question.
Clearly, if the partition separating the two compartments is not removed nothing will happen;
the gas will not expand and the entropy of the system will not change. We can tentatively conclude
that having a system characterized by (E, V, N) the entropy is fixed and will not change with time.
Let us examine what will happen when we remove the partition separating the two compartments
in Figure 6.
Instead of removing the entire partition, we open a small window between the two compartments.
This will allow us to follow the process in small steps. If the window is small enough, we can expect
only one particle at the time to pass through it.
Starting with all the N particles on the left compartment, we open the window and observe what
will happen.
Clearly, the first particle which crosses the window will be from the left (L) to the right (R)
compartment. This is clear simply because there are no particles in the R compartment.
After some time, some particles will move from L to R. Denote the number of particles in R by
n and the number in L by N − n. The pair of numbers (N − n, n) may be referred to as a distribution
of particles in the two compartments. Dividing by N, we get a pair of numbers (pL, pR) = (1 − p, p)
where p =n
Clearly, this pair of numbers is a probability distribution (pL, pR ≥ 0, pL + pL = 1).
N.
We can refer to it as the temporary probability distribution, or simply the state distribution
(More precisely, this is the locational state of the particles. Since we have an ideal gas, the energy,
the temperature, and the velocity or momentum distribution of the particles will not change
in this process).
For each state distribution, (1 − p, p) we can define the corresponding SMI by:
H(p) = −p log p − (1 − p) log p
(40)
Note that p changes with time, as a result also H(p) will change with time. If we follow the change
of the SMI we will observe a nearly monotonic increasing function of time. For actual simulations,
see Ben-Naim (2008, 2010) [3,9]. The larger N, the more monotonic the curve will be and once n reaches
the value: N/2, the value of the SMI will stay there “forever.” For any N, there will be fluctuations,
both on the way up to the maximum, as well as after reaching the maximum. However, for very large N
these fluctuations will be unnoticeable. After some time we reach an equilibrium state. The equilibrium
states is reached when the locational distribution is such that it maximizes the SMI, namely:
N
peq =
(41)
2
Entropy 2017, 19, 48
14 of 18
and the corresponding SMI is:
[
Hmax = N −1
(42)
2log22log2]=N
Note again that here we are concerned with the locational distribution with respect to being either
in L, or in R. The momentum distribution does not change in this process.
Once we reached the equilibrium state, we can ask: What is the probability of finding the system,
such that there are N − n in L, and n in the R? Since the probability of finding a specific particle in
either L or R is 1/2, the probability of finding the probability distribution (N-n, n), is:
(
)
N!
(1)Nn(
1
)(1)Nn
Pr(N − n, n) =
= N
(43)
n!(N − n)!
2
2
n
2
It is easy to show that this probability function has a maximum at n =N
2 .
Clearly, if we sum over all n, and use the Binomial theorem, we get, as expected:
(
N
N
)(1)N
(1)N
 Pr(N − n, n) =
 N
=
2N = 1
(44)
n
2
2
n=0
n=0
We now use the Stirling approximation:
ln N! ≈ N ln N − N
(45)
To rewrite (43) as:
ln Pr(1 − p, p) ≈ −N ln 2 − N[(1 − p) ln(1 − p) + p ln p]
(46)
or equivalently, after dividing by ln 2, we get:
)N
(1
Pr(1 − p, p) ≈
2NH(p)
(47)
2
If we use instead of the approximation (45) the following approximation:
1
ln N! ≈ N ln N − N +
(48)
2ln(2πN)
We get instead of (47) the approximation:
)N
NH(p)
(1
2
Pr(1 − p, p) ≈
(49)
2
2πNp(1 − p)
Note that in general the probability Pr of finding the distribution (1 − p, p) is related to the SMI
(
)
1
1
of that distribution. We now compare the probability of finding the state distribution
with the
2,
2
probability of finding the state distribution (1, 0). From (49) we have:
)
(1
2
Pr
=
(50)
2,2
πN
For the state (1,0) we can use the exact expression (43):
)N
(1
Pr(1, 0) =
(51)
2
Entropy 2017, 19, 48
15 of 18
The ratio of these two probabilities is:
(
)
1
1
Pr
2,
2
2
=
(52)
Pr(1, 0)
πN2N
(
)
1
1
Note carefully that Pr
decreases with N. However, the ratio of the two probabilities in (52)
2,
2
increases with N.
The corresponding difference in the SMI is:
)
(1
H
 H(1,0) = N − 0 = N
(53)
2,2
What about the entropy change? To calculate the entropy difference in this process, let us denote
by Si = S(E, V, N) the entropy of the initial state. The entropy at the final state Sf = S(E, 2V, N) may
be obtained by multiplying (53) by kB ln 2, and add it to Si:
Sf = Si + (kB ln2)N
(54)
The change in entropy is therefore:
ΔS = Sf − Si = NkB ln2
(55)
which agrees with (38). It should be emphasized that the ratio of probabilities (52) and the difference
in the entropies in (55) are computed for different states of the same system. In (55), Sf and Si are the
entropies of the system at the final and initial equilibrium states, respectively. These two equilibrium
states are S(E, 2V, N) and S(E, V, N), respectively. In particular, S(E, V, N) is the entropy of the system
before removing the partition.
On the other hand, the ratio of the probability in (52) is calculated at equilibrium after removing
the partition.
We can now answer the question posed in the beginning of this section. After the removal of the
partition, the gas will expand and attend a new equilibrium state. The reason for the change from the
(
)
1
1
initial to the final state is probabilistic. The probability of the final state
is overwhelmingly larger
2,
2
than the probability of the initial state (1,0) immediately after the removal of the partition. As a result of the
monotonic relationship between the probability Pr(1 − p, p), and the SMI, whenever the probability
increases, the SMI increases too. At the state for which the SMI is maximum, we can calculate the
change in entropy which is larger by NkB ln 2 relative to the entropy of the initial equilibrium state Si,
i.e., before the removal of the partition. We can say that the process of expansion occurs because of the
overwhelmingly larger probability of the final equilibrium state. The increase in the entropy of the
system is a result of the expansion process, not the cause of the process.
3.8. Caveat
Quite often, one might find in textbooks the Boltzmann definition of entropy in terms of the
number of states:
klnW
(56)
W, in this equation is often referred to as probability. Of course, W cannot be a probability, which
by definition is a number between zero and one. More careful writers will tell you that the ratio of the
number of states is the ratio of the probabilities, i.e., for the final and the initial states, one writes:
Wf
Pr( f )
(57)
Wi =
Pr(i)
Entropy 2017, 19, 48
16 of 18
This is true but one must be careful to note that while Wi is the number of states of the system
before the removal of the partition, the corresponding probability Pr(i) pertains to the same system
after the removal of the partition.
Very often you might find the erroneous statement of the second law based on Equation (56) as
follows: the number of states of the system tends to increase, therefore the entropy tends to increase
too. This statement is not true; both W and S in (56) are defined for an equilibrium state, and both do
not have a tendency to increase with time!
4. Boltzmann’s H-Theorem
Before we discuss Boltzmann’s H-theorem, we summarize here the most important conclusion
regarding the SMI.
In Section 3, we saw that the entropy is obtained from the SMI in four steps. We also saw that
the entropy of a thermodynamic system is related to the maximum value of the SMI defined on the
distribution of locations and velocities of all particles in the system:
S=KMaxSMI(locationsandvelocities)
(58)
where K is a constant (K = kB ln 2).
We know that every system tends to an equilibrium state at very long time, therefore we identify
the Max SMI as the time limit of the SMI, i.e.:
K limSMI(locations and velocities)
(59)
t
The derivation of the entropy from the SMI is a very remarkable result. But what is more important
is that this derivation reveals at the same time the relationship between entropy and SMI on one hand,
and the fundamental difference between the two concepts, on the other hand.
Besides the fact that the SMI is a far more general concept than entropy, we found that even when
the two concepts apply to the distribution of locations and velocities, they are different. The SMI can
evolve with time and reaches a limiting value (for large systems) at t → ∞ .
The entropy is proportional to the maximum value of the SMI obtained at equilibrium.
As such entropy is not, and cannot be a function of time. Thus, the “well-known” mystery about the
“entropy always increase with time,” disappears. With this removal of the mystery, we also arrive at
the resolution of the “paradoxes” associated with the Boltzmann H-theorem.
In 1877 Boltzmann defined a function H(t) [14-16]:
w
H(t) = f(v, t) log[f(v, t)]dv
(60)
and proved a remarkable theorem known as Boltzmann’s H-theorem. Boltzmann made the
following assumptions:
1.
Ignoring the molecular structure of the walls (ideal. perfect smooth walls).
2.
Spatial homogenous system or uniform locational distribution.
3.
Assuming binary collisions, conserving momentum and kinetic energy.
4.
No correlations between location and velocity (assumption of molecular chaos).
Then, Boltzmann proved that:
dH(t)
0
(61)
dt
and at equilibrium, i.e., t → ∞ :
dH(t)
=0
(62)
dt
Entropy 2017, 19, 48
17 of 18
Boltzmann believed that the behavior of the function −H(t) is the same as that of the entropy,
i.e., the entropy always increases with time, and at equilibrium, it reaches a maximum. At this time,
the entropy does not change with time. This theorem drew a great amount of criticism, the most
well-known are:
I. The “Reversal Paradox” States:
“The H-theorem singles out a preferred direction of time. This is inconsistent with the time
reversal invariance of the equations of motion”. This is not a paradox because the statement that H(t)
always changes in one direction is false.
II. The “Recurrence Paradox”, Based on Poincare’s Theorem States:
After sufficiently long time, an isolated system with fixed E, V, N, will return to arbitrary small
neighborhood of almost any given initial state.
If we assume that dH/dT < 0 at all t, then obviously H cannot be periodic function of time.
Both paradoxes have been with us ever since. Furthermore, most popular science books identify
the Second Law, or the behavior of the entropy with the so-called arrow of time. Some even go to the
extremes of identifying entropy with time [8,17,18].
Both paradoxes seem to arise from the conflict between the reversibility of the equations of motion
on one hand, and the apparent irreversibility of the Second Law, namely that the H-function decreases
monotonically with time. Boltzmann rejected the criticism by claiming that H does not always decrease
with time, but only with high probability. The irreversibility of the Second Law is not absolute, but also
highly improbable. The answer to the recurrence paradox follows from the same argument. Indeed,
the system can return to the initial state. However, the recurrence time is so large that this is never
observed, not in our lifetime, not even in the life time of the universe.
Notwithstanding Boltzmann’s correct answers to his critics, Boltzmann and his critics made an
enduring mistake in the H-theorem, a lingering mistake that has hounded us ever since. This is the
very identification of the −H(t) with the behavior of the entropy. This error has been propagated in
the literatures until today.
It is clear, from the very definition of the function H(t), that −H(t) is a SMI. And if one identifies
the SMI with entropy, then we go back to Boltzmann’s identification of the function −H(t) with entropy.
Fortunately, thanks to the recent derivation of the entropy function, i.e., the function S(E, V, N),
or the Sackur-Tetrode equation for the entropy based on the SMI, it becomes crystal clear that the SMI
is not entropy! The entropy is obtained from the SMI when you apply it to the distribution of locations
and momenta, then take the limit t → ∞ , and only in this limit we get entropy function which has no
traces of time dependence.
Translating our findings in Section 3 to the H-theorem, we can conclude that −H(t) is SMI
based on the velocity distribution. Clearly, one cannot identify −H(t) with entropy. To obtain the
entropy one must first define the −H(t) function based on the distribution of both the locations and
momentum, i.e.:
w
 H(t) = − f(R,p, t) log f(R,p, t)dRdp
(63)
This is a proper SMI. This may be defined for a system at equilibrium, or very far from equilibrium.
To obtain the entropy one must take the limit t → ∞ , i.e., the limit −H(t) at equilibrium, i.e.:
lim [−H(t)] = Max SMI (at equilibrium)
(64)
t
At this limit we obtain the entropy (up to a multiplicative constant), which is clearly not a function
of time.
Thus, once it is understood that the function −H(t) is an SMI and not entropy, it becomes clear
that the criticism of Boltzmann’s H-Theorem were addressed to the evolution of the SMI and not
to the entropy. At the same time, Boltzmann was right in defending his H-theorem when viewed
Entropy 2017, 19, 48
18 of 18
as a theorem on the evolution of SMI, but he was wrong in his interpretation of the quantity −H(t)
as entropy.
Conflicts of Interest: The author declares no conflict of interest.
References
1.
Shannon, C.E.; Weaver, W. The Mathematical Theory of Communication; The University of Illinois Press: Chicago,
IL, USA, 1949.
2.
Ben-Naim, A. Information Theory; World Scientific: Singapore, 2017.
3.
Ben-Naim, A. A Farewell to Entropy: Statistical Thermodynamics Based on Information; World Scientific:
Singapore, 2008.
4.
Ben-Naim, A.; Casadei, D. Modern Thermodynamics; World Scientific: Singapore, 2016.
5.
Ben-Naim, A. Entropy and the Second Law. Interpretation and Misss-Interpretationsss; World Scientific:
Singapore, 2012.
6.
Ben-Naim, A. Discover Probability. How to Use It, How to Avoid Misusing It, and How It Affects Every Aspect of
Your Life; World Scientific: Singapore, 2015.
7.
Yaglom, A.M.; Yaglom, I.M. Probability and Information; Jain, V.K., Reidel, D., Eds.; Springer Science &
Business Media: Berlin/Heidelberg, Germany, 1983.
8.
Ben-Naim, A. Information, Entropy, Life and the Universe. What We Know and What We Do Not Know;
World Scientific: Singapore, 2015.
9.
Jaynes, E.T. Information theory and statistical mechanics. Phys. Rev. 1957, 106, 620-630. [CrossRef ]
10.
Jaynes, E.T. Information theory and statistical mechanics, Part II. Phys. Rev. 1957, 108, 171-189. [CrossRef ]
11.
Ben-Naim, A. The entropy of mixing and assimilation: An information-theoretical perspective. Am. J. Phys.
2006, 74, 1126-1135. [CrossRef ]
12.
Ben-Naim, A. An Informational-Theoretical Formulation of the Second Law of Thermodynamics.
J. Chem. Educ. 2009, 86, 99-105. [CrossRef ]
13.
Ben-Naim, A. Entropy, the Truth the Whole Truth and nothing but the Truth; World Scientific: Singapore, 2016.
14.
Boltzmann, L. Lectures on Gas Theory; Dover Publications: New York, NY, USA, 2012.
15.
Brush, S.G. The Kind of Motion We Call Heat. A History of the Kinetic Theory of Gases in the 19th Century,
Book 2: Statistical Physics and Irreversible Processes; North-Holland Publishing Company: Amsterdam,
The Netherlands, 1976.
16.
Brush, S.G. Statistical Physics and the Atomic Theory of Matter, from Boyle and Newton to Landau and Onsager;
Princeton University Press: Princeton, NJ, USA, 1983.
17.
Ben-Naim, A. Discover Entropy and the Second Law of Thermodynamics. A Playful Way of Discovering a Law of
Nature; World Scientific: Singapore, 2010.
18.
Ben-Naim, A. Entropy: Order or Information. J. Chem. Educ. 2011, 88, 594-596. [CrossRef ]
© 2017 by the author; licensee MDPI, Basel, Switzerland. This article is an open access
article distributed under the terms and conditions of the Creative Commons Attribution