Programando neologismos

Victor Moraes
6 min readDec 10, 2016

--

Como pode a linguagem, característica profundamente humana, ao mesmo tempo transmitir estarrecedora estranheza? Uma parcela das pessoas parece sentir desconforto ao ouvir uma língua significativamente da sua. Na ficção são usadas línguas artificiais para conferir uma identidade própria, não-humana, a extraterrestres ou criaturas mágicas. Apesar da versão forte da hipótese de Sapir-Whorf não ser creditada pelos linguistas contemporâneos, ainda há um desacordo sobre quanto as línguas podem determinar nossos pensamentos. Questões como essa me levam a pesquisar as línguas, naturais ou artificiais.

Isso tudo é uma racionalização de um maravilhamento antigo meu, o encanto pelas línguas e linguagens. Já há um tempo eu gosto de ficar fuçando na Wikipédia. Abro uma página relativamente comum (exemplo: Água) e uso a barra de idiomas à esquerda para explorar um grande número de línguas — nesse caso específico parece que há uma versão do artigo em 214 línguas! Em alguns casos, como em línguas latinas, eu consigo arriscar algumas traduções e comparações, noutros, eu só fico encarando aquela algaravia, intrigado em como aquilo pode fazer sentido para alguém. Com os torrents de aprendizado de línguas, e aplicativos como o Duolingo e afins, pude saborear as línguas um pouco mais, de forma mais orientada.

Estava estudando russo, e, como velhos hábitos não morrem, usava a Wikipédia para arriscar alguma leitura no meu escasso vocabulário. Me deparo com isso:

Ver nossa Terra descrita numa língua tão estranha me deu um calafrio. Foi como se eu lesse um artigo que aliens escreveram sobre a Terra. O alfabeto cirílico é interessante nesse sentido: tem uma quantidade de caracteres semelhantes ao nosso, só que muitos desses caracteres têm um som diferente do que esperaríamos no alfabeto latino. Por exemplo, Н = N, У = U, Р = R, В = V, …

Depois do russo, continuei explorando outros sistemas de escrita, como o alfabeto grego, o devanágari e o sistema chinês. No fim, pesquisei neo-grafias e línguas artificiais (sistemas de escrita e línguas construídos para um propósito específico, geralmente artístico). Há criações lindas, totalmente artesanais, como essa:

Outras recebem o auxílio de um algoritmo de computador, como esse alfabeto alien genial.

Essa última descoberta me fez pensar em como eu poderia usar a computação para criar uma língua ou sistema de escrita. Esse artigo me deu uma boa dica, eu poderia usar uma Cadeia de Markov que criasse palavras a partir de palavras pré-determinadas.

Explico. Tomemos uma grande lista de palavras da língua portuguesa (quanto mais palavras melhor). No caso, extraímos as legendas em pt-br do site OpenSubtitles e determinamos as 5 mil palavras mais comuns em legendas de filmes, séries, documentários, desenhos animados etc. Esse corpus deve servir aos nossos propósitos: é variado e cotidiano. Queremos evitar termos técnicos e científicos e se aproximar da fala espontânea.

Palavras mais frequentes no corpus

Analisando essa lista de palavras, podemos determinar a frequência relativa de cada uma das letras na posição inicial. Por exemplo, a letra que mais é encontrada no começo das palavras é o C, em cerca de 12% delas. O C é seguido pelo P, que começa 11% das palavras, pelo A, que começa 9% delas, etc.

Então eu sorteio a letra inicial de uma palavra baseado nessas frequências, que passam a ser probabilidades. Digamos que a primeira letra da palavra seja um C. Qual a provável próxima letra?

Sem muita surpresa, descobrimos que a maior parte das palavras começadas por C continuará com uma vogal, um H ou um R. Uma pequena parte (1%) terminará com o C mesmo, sem mais letras, e sinalizamos isso com o FIM. Outras letras seguem o C em 12% das palavras.

E uma palavra que comece com CO, qual sua provável próxima letra?

Poderíamos continuar assim indefinidamente, determinando a próxima letra a partir de todas as anteriores. Mas, se assim fizéssemos, resultaríamos apenas em palavras que já constavam na nossa lista inicial, trabalho fútil. Então nos limitaremos a considerar no máximo um número N de letras anteriores. Variando N, obtemos diferentes resultados. Também não queremos palavras que já constem na lista inicial, então nesse caso serão descartadas.

N=1

nhabanema squexaldece halicam tosanerris penoncinhedo vessenole privendertes verijorer ntolidebressem eranfeste parquva xicçãom prarrortrdo aradice nelvoxpiloião toundevame zanteui aveiarinem coreidore sermoupadofamm crdrico fideraste demicado astolmere erolostolh elalalaruda frejano reiteiedases cindons esglirequra

Encontramos muitas bizarrices, por exemplo, palavras começando com NH, palavras começando com S+consoante, palavras terminando em LH, QU seguido de consoante, grupos consonantais impossíveis no português (CRDR).

N=2

milimarido congadader sugemboração orringos entesar pregunica tragamir pontira osapilhou ensandei ermenho deciassos narvação genterda dessimoste cobriros paculpes elvelie laximpro nadessad

Os problemas apontados em N=1 se resolvem em N=2, mas ainda há palavra terminada em oclusiva (nadessad). No geral, as palavras não se parecem com palavras do português. Apesar da aparente compreensão da fonologia, ainda não é o suficiente para abstrair a morfologia da língua, e palavras como milimarido aparecem como uma coincidência.

N=3

conseguidade enteste estrementem processe trabalaxe angredos samentem almento graconto marshally milidade achamou cassisteja mexactornado merguns vivisar coisamente mandonou dizeste visicasar

Surgem palavras plausíveis no português. Notamos alguns morfemas, como -DADE (conseguidade), -OU (achamou, mandonou), -ADO (mexactornado), -MENTE (coisamente), -MENTO (almento), -AR (visicasar).

N=4

diantes pessionante entregada realizabeth hipotence magnificuldade acabaratos mollywood recolhem europas recurso falhamo habilidar mexercial volteira brincipar encontigo crimidos inocento esperançar

A partir daqui, as palavras são na maioria plausíveis no português. Encontramos inclusive palavras que estão dicionarizadas porém não estavam em nossa lista de palavras, como recolhem ou volteira (“aquela que gosta de provocar brigas ou delas participar”, segundo Houaiss). Já há alguns perceptíveis neologismos, como realizabeth, magnificuldades, mollywood, inocento e esperançar.

N=5

inacredito champanheiro inspectaculo depositivo seguimos edificeis suficientistas funcional contecessidade apostos ficaramba engraças combaterial facilmentes nacionam tapetece desaparelho diferentemente priorida formações capacidadãos encontrolo apresentado privacidadãos esconheces concentral ficassete aparente desenhora enfrente

Aqui encontramos ainda mais palavras dicionarizadas (seguimos, funcional, apostos, diferentemente, formações, apresentado, aparente, enfrente). Mais neologismos, alguns beirando ao trocadilho (inacredito, champanheiro, inspectaculo, capacidadão, privacidadão, desenhora).

Aumentar N para além de 5 gera cada vez mais palavras dicionarizadas. De qualquer forma, com N de 1 a 5 já é possível perceber o contínuo entre caos e ordem na língua. Mais resultados estão nos anexos.

Nada no algoritmo exposto o torna exclusivo do português. Podemos aplicá-lo ao inglês, por exemplo:

N=4, inglês

fortunation recordered evolunter mattend crossessing tracted williot genergy weighty pushines photograped comparent wonderfume desirens pleasanton peaches counset sensive stewards histopped fatherever cannounce slighty whatesting embarrying promisery

N=5, inglês

jeffers austrials submarina anniversation exchanged encounts irresponsor performal inspect warrangement scattering presential convictim strains inition intellective oysterican attracters alrights espected investigations marting invincing forwards fortunity complice

Ou ao alemão. Eu não poderia decidir de forma alguma se as palavras abaixo são ou não do alemão.

N=4, alemão

gehörde sprichtige chritte zurückte vernichtsmann childet wascheinweg gemeinen gesunderen anschuppen übersetzten unheiten sichtern erschule bieibtischen willins erfuhren republiche verbara schlossen

Ou mesmo misturar duas línguas:

N=4, português + inglês

stephew francar twelves aceitos friencia aparench movietnam tercebe surround depoisoner favoriting framero mountil promisses smilies desgrace embarranjo senhorar boughten proximar creamed practed

N=4, português + italiano

mostradio cheggio firmarlo documenta esculpa imporale graticar incomecemos valigente attraverci maledete estudanar andante pallace famigas accendo corterapida gruppongo avevamos assinato

Por último, tomamos o nome dos astros do Sistema Solar (em inglês), que geralmente remete a deuses gregos ou romanos, e criamos alguns novos.

N=2, astros do Sistema Solar

amarielaranus rhemis adrassa titanda amaston caron metus hyperrhea titeromethea himalt galina elasteus gallirrhoebe hyperoid mirra ladrania

Me parecem um tanto convincentes.

O projeto foi desenvolvido em Python3 usando apenas seus módulos nativos e pode ser baixado aqui.

--

--