Sobre a Teoria dos Catálogos de Biblioteca e Máquinas de Busca

texto original de B. Eversberg

library catalog by Esteban Pagliaricci

Nada é mais prático do que uma boa teoria. Uma afirmação banal, considerando que uma teoria deve sempre permitir aos seus usuários fácil dedução das afirmativas que eles precisam para a prática.
Mas uma teoria para catálogos e catalogação? Isso é realmente necessário? Uma questão que qualquer pessoa perguntaria, que nunca foi confrontada com importância nem considerada com qualquer seriedade.
Utilizando máquinas de busca na internet, e sabendo que sua operacionalidade é completamente automatizada, pessoas tendem a enxergar com ceticismo todo o esforço prático e teórico investido nos catálogos. Qualquer boa máquina de busca tem de ser baseada em uma boa teoria — apesar de que essa possa ser bem diferente de uma teoria de catálogo.

O que as bibliotecas e a internet tem em comum?

Ambas fornecem acesso a coleções de registros. Não é necessário utilizar aqui os difíceis conceitos de informação e conhecimento. Nós devemos deixar em aberto se uma “sociedade da informação” existe, ou uma “economia de conhecimento”, e se tudo é informação ou conhecimento que existe espremido entre capas de livros e páginas da web. Os “Estudos de Pisa” lembraram a todos que o conhecimento não vêm sem aprendizagem. Ter posse de material impresso não significa ter posse de conhecimento, mas o texto impresso se torna conhecimento vivo apenas após a leitura e o entendimento, e então esse conhecimento sentará sobre a cabeça do leitor, e não no papel ou na tela. Ninguém duvidará que a nossa é uma sociedade da aprendizagem, e registros de experiências e insights são de suma importância para a aprendizagem. Um indivíduo aprende através de interação direta entre humanos, por sua ação, por observação, ou através do estudo. Que consiste principalmente de tomar posse do que outros registraram.

Em muitos casos, os registros apropriados devem ser descobertos antes. Milhões de humanos, ao longo dos anos, registraram suas experiências e encontros, seus achados, seus insights e suas inspirações. Quando isso começou com os gregos, Platão viu um sintoma de declínio: as pessoas não exercitariam mais suas memórias porque agora elas poderiam contar com substituições inferiores. Mas as pessoas não pararam de fazer uso de seus próprios registros, além de começar a fazer uso dos registros de outras pessoas. Começou o armazenamento. As bibliotecas foram criadas. Depois de coletados mais de umas centenas de papéis ou papiros, um sistema ordenado em estantes teve de ser inventado ou a utilidade da coleção sofreria desgaste.

Como surgiu a catalogação?

Depois que milhares de itens são coletados, sua organização física, qualquer que seja o sistema, se torna um problema. Será necessário encontrar ajuda extra, por exemplo, registros secundários (meta-registros), que revelará onde na coleção um item particular está localizado. Esse é o nascimento da catalogação: transforma o processo de ordenação da estante para o papel, arquivos ou, nos dias de hoje, para bases de dados. Até que alguém invente uma boa teoria, a utilidade do catálogo diminuirá em tamanho ao invés de aumentar.

Quando alguém tiver milhões, a busca por métodos auxiliares se torna um esforço considerável. Por isso que existem tentativas de automatizar o processo, pelo menos para coleções que existem em formatos digitais. O termo metafórico “máquina de busca” sugere, erroneamente, que uma máquina lê atentamente o documento, focando em seu conteúdo. A busca real é, entretanto, sempre executada sobre arquivos substitutos que o sistema constrói com esse propósito. O software pode somente agrupar emaranhados de caracteres, e não conceitos ou idéias. Isso não pode ser feito apenas de uma maneira arbitrária, mas deve haver uma maneira sistemática, um algoritmo, que significa uma teoria.

Conteúdo das bibliotecas e da Internet

Combine bibliotecas, arquivos e a internet, e eles compreendem nada menos do que o acúmulo dos registros intelectuais e artísticos da humanidade, desde que estes sobrevivam, ao longo de todos os períodos, todos os países e culturas, todas as línguas e escritas, e sobre todos os assuntos, por todos os indivíduos que sempre desejaram fazer uma contribuição. O tamanho e a complexidade disso é vertiginoso. É ingenuidade pensar que percorrer esse universo multidimensional pode ser fácil ou ser feito de maneira simples. Alguém pode tentar simplificar a descrição do mundo, mas o mundo não tornará mais simples dessa maneira. Note que o entusiasmo inicial dos movimentos de metadados tem reduzido um pouco…

Um catálogo tenta auxiliar na busca de documentos e na orientação sobre os documentos, e as máquinas de busca na internet empenham-se para fazer o mesmo. A questão é: dessa maneira, com quais princípios e métodos, por qual teoria podem ou deveriam elas trabalhar para ajudar o maior número de pessoas, na maioria dos casos, da melhor maneira possível? Um único método não pode servir a todas as buscas e todos os pesquisadores o tempo todo — sabe disso quem já tentou encontrar alguma coisa mais de uma ocasião.

Livros ou Internet — uma questão de gosto?

Não existe uma situação de um ou outro. Apenas os conteúdos combinados de ambos mundos constituem o universo completo do conhecimento e progresso registrado. Catálogos de bibliotecas na internet não mudam isso, sejam eles os mais confortáveis que puderem, porque os catálogos carregam apenas descrições, não as publicações propriamente que existem somente em papel ou em formatos reduzidos. Digitalizar todas as publicações e torna-las passíveis de busca textual completa é utópico: existem muitos milhões de textos e novos continuam a ser produzidos aos milhares por ano, a maioria não se encontrando em formatos que podem ser lidos por máquinas, apesar dos esforços do Google. Catálogos contêm apenas descrições breves e padronizadas dos documentos, apesar de que para a internet a norma é o texto completo. Mas: a diversidade é enorme e a maioria dos documentos não possui uma descrição padronizada (leia-se “metadados”). Daí em diante percebe-se um número de diferenças entre catálogos e máquinas de busca na internet. Em bibliotecas, nós não apenas temos que entender isso, mas devemos também ser capazes de transferir esse conhecimento para nossos leitores. Abaixo nós fazemos uma tentativa de comparar catálogos e máquinas de busca.

Primeiro, entretanto, vamos olhar os catálogos, e a diferença ente o advento contemporâneo, o OPAC [Online Public Access Catalog — Catálogos Online de Acesso Público], e os catálogos de fichas (agora acumulando poeira, se não descartados). Nós também temos de perguntar quais conseqüências devem ser visionadas para as regras de catalogação. Se diz que os OPACs estão aqui para ficar e que os catálogos de fichas são história, mas ainda podemos aprender com uma comparação. Para leitores que quiserem mais detalhes, existe um capítulo introdutório de um excelente livro de Martha M Yee’s e Sara Shatford Layne: “Improving Online Public Access Catalogs” (ALA, 1998. — ISBN 0–8389–0730-X).

Qual é o principal problema hoje em buscas?

O verdadeiro problema com os OPACs não é mais, como foi para as fichinhas, que os usuários tenham dificuldades para encontrar alguma coisa apenas. Ao invés, a maioria das buscas que os OPACs realizam, trazem alguns resultados — porém, não existe uma maneira fácil de se saber se isso é tudo que existe e se os itens encontrados são os mais adequados. Os usuários, por outro lado, não podem saber se eles perderam algo ou mesmo muito ou ainda itens muito importantes. Sua noção disso é normalmente baixa, e estudos de utilização de catálogos mostram que é muito difícil induzir os usuários a efetuar diferentes tentativas — ou resumindo, fazer com que pensem. Sua confiança na tecnologia, em outras palavras, é inapropriadamente alta. O que a maioria deles usa é apenas o conjunto padrão de opções, raramente fazendo mais do que uma tentativa. Isso é provavelmente baseado em uma tendência geral de esforço mínimo, ou na presunção de que o que está sendo oferecido como padrão é também a melhor maneira possível e as outras inferiores. O catálogo não pode contornar isso. O catálogo pode ser o melhor possível, mas esse não é o ponto. Usuários têm de pensar e julgar por eles mesmos, hoje muito mais do que antigamente, e isso não vai mudar com qualquer nova geração de tecnologia. E eles deveriam até estar felizes com isso, senão eles próprios poderiam ser substituídos por máquinas… Assim seja: certamente existem meios mais fáceis para busca de questões simples, mas aos usuários ambiciosos e inteligentes deve também ser fornecidos e convidados a utilizar técnicas sofisticadas.

O que é um bom catálogo?

De tudo o que sabemos, nós podemos caracterizá-lo assim (originalmente formulado por Thomas Mann, da Library of Congress, citado no livro de M. Yee):

• Confiabilidade: Partindo de uma citação, o indivíduo deve ser capaz de assegurar rapidamente e com certeza se o item está na coleção ou não. (Em um catálogo não confiável, pode-se requerer muitas tentativas até que se tenha certeza. Os catálogos precisam ter essa opção por causa dos registros de aquisição, por exemplo, ou para saber se um pedido de ILL é necessário).

• Sorte : Funções de navegação [ browsing] são essenciais, primeiramente porque eliminam a necessidade de sempre haver critérios de busca precisos, e segundo porque os achados são algumas vezes valiosos. Essa é uma razão pela qual os usuários tendem a ir primeiro para as estantes quando eles conhecem a sua organização. Os catálogos devem, portanto, tornar materiais relacionados passíveis de navegação — a questão sendo claro, o que é exatamente “relacionado”? Os OPACs podem, por exemplo, suportar navegação dessas maneiras

1. Fornecer índices alfabéticos de nomes, termos, títulos, etc. Navegáveis pra cima e pra baixo [crescente e decrescente],
2. Apresentar conjuntos de resultado em mais de uma disposição para o usuário escolher, e
3. Tornar publicações relacionadas acessíveis via hyperlinks (para termos de assunto, códigos de classificação, nomes).

• Profundidade : Isso cobre dois aspectos que não são exatamente parte da catalogação:

1. Uma política dizendo quais materiais ou objetos são passíveis de catalogação. Classicamente, esses são livros, significando pacotes auto-contidos de conhecimento. Mais sim do que não, entretanto, um livro consiste de alguns ou mesmo muitos pacotes de conhecimento registrado, cada um representando uma unidade que pode se tornar o assunto de um registro bibliográfico — porque alguém pode tranqüilamente procurar por esse assunto. Apenas pense nos volumes de processos ou homenagens, para não mencionar os periódicos. Com exceção da Literatura, leitores irão, na maioria dos casos, se interessar e então procurar por capítulos ou partes de um livro ao invés de o volume inteiro. Se a catalogação se restringir à informação da folha de rosto, o catálogo será completamente inoperante para todas as partes constituintes do livro. Por razões econômicas (trabalho, espaço), não muitas bibliotecas já fizeram alguma vez catalogação em nível de capítulos. Um caso importante é das “publicações multi-partes” com volumes com títulos individuais: esses devem ser catalogados como um conjunto ou cada volume separadamente — ou os dois? O foco da catalogação européia parece recair sobre as partes, enquanto os catalogadores americanos preferem o conjunto.

2. Um conceito para indexação de assuntos. É suficiente assinalar alguns termos de assunto e/ou símbolos de classificação a um documento para atingir seu conteúdo principal, ou o alvo deve ser a indexação de todos os assuntos que são apresentados em qualquer parte da publicação? Existem experimentos, por exemplo, com tabelas de conteúdos de livros (como em OhioLink). Existem também experimentos com designação automática de termos adicionais ou anotações pelo software.

De uma dimensão para muitas

A mais decisiva diferença entre catálogos convencionais e catálogos online é: (Nós não estamos falando sobre as diferenças técnicas aqui, como disponibilidade no tempo e no mundo, apenas teoria de catálogos!)

Catálogo de fichas: Uma sequência linear de entradas, um espaço unidimensional, com o princípio de ordenamento sendo o alfabeto no nível mais baixo, nomes/títulos/assuntos em um nível superior. Algumas bibliotecas tiveram vários catálogos por dois ou mais períodos de tempo ou então partes definidas de suas fichas. Cada documento pode ser representado por mais de uma ficha em vários lugares na seqüência, uma dessas sendo chamada de “entrada principal”. Servia a dois propósitos. Primeiro, colocar trabalhos relacionados em um lugar (como o trabalho de um autor, sob a forma estabelecida de seu nome). A segunda e provavelmente mais importante função era fornecer uma localização previsível para um item no catálogo: se você conhece o princípio, então você é capaz de encontrar com certeza o que está procurando em apenas uma tentativa. Praticabilidade limitou o número de fichas por item para uma média de menos de dez. Existem muitas maneiras possíveis de se organizar um catálogo de fichas, e em particular, de se determinar as entradas a serem representadas nele. O padrão, uma vez escolhido, tem de ser seguido consistentemente para que o catálogo se torne confiável. Assim, um catálogo de fichas é o máximo extremo de pré-coordenação. Regras bem elaboradas provaram ser necessárias para que se estabelece a pré-coordenação.

OPAC: em princípio, contêm um montante desordenado de registros estruturados. Software, entretanto, pode facilmente produzir uma dúzia ou mais de diferentes índices, cada um sendo uma seqüência linear, sortida, de certas partes dos registros. Logicamente, esses ainda são muito similares às seqüências de fichas, mas então o software, processando a busca de um usuário, pode extrair subseqüências arbitrárias e emergir ou cruza-los com subseqüências de um ou mais outros índices, convergindo subconjuntos da base de dados que pode então ser apresentado em um ou mais arranjos de diferentes significados. Critérios como nomes, títulos, números, termos de assuntos, etc. podem então ser combinados em todas as maneiras possíveis. Índices são então os eixos de um espaço multidimensional em que o software permite que o usuário navegue. Espaços multidimensionais são entidades abstratas, matemáticas e então apresentam um desafio para muitos usuários compreender. Diferente dos catálogos de fichas, significa que os OPACs recaem pesadamente sobre pós-coordenação.

A real organização da seqüência de fichas pré-coordenadas resulta de duas decisões:

1. Entradas: Quais são os critérios para a seleção de entradas — quais pessoas ou outras entidades devem ser representadas por uma ficha em uma entrada principal ou adicional, e quais não?

2. Cabeçalhos: Qual a ortografia exata dos cabeçalhos nas fichas para as entidades selecionadas?

As dificuldades encontradas aqui foram premissas para o surgimento da completa edificação conhecida hoje como controle de autoridade.

Esquemas de Metadados aparte, parecem negligenciar a segunda questão mais comumente do que não, pelo menos quando se trata de nomes e títulos. Isso se relaciona com a idéia de que os OPACs não requisitam mais o edifício de regras que era necessário para as fichas porque agora cada detalhe pode se tornar pesquisável, então se um ponto de acesso falhar, basta tentar outro.

Isso é, entretanto, uma conclusão prematura, tornando-se evidente dependendo das situações em que o catálogo é consultado.

Situações padrão de uso de catálogo

A situação mais comumente encontrada é provavelmente a pesquisa factual: para isso, os catálogos não são um bom auxílio porque eles contêm descrições de obras de referência apenas, não seu conteúdo. Máquinas de busca, entretanto, indexam os documentos disponíveis diretamente e por completo e podem então levar imediatamente aos fatos contidos neles. Sobre as pesquisas por fatos, as máquinas de busca são conseqüentemente a primeira parada da maioria das pessoas nos dias de hoje: as máquinas funcionam como diretório, dicionário, enciclopédia, Atlas, calendário, cronograma, álbum de fotos, etc. Catálogos podem apenas apontar aos usuários essas ferramentas de referência, o que torna a busca por fatos mais desajeitada e lenta.

Se, entretanto, nós focarmos em busca documental, nós podemos observar pelo menos três amplas categorias de situações freqüentemente encontradas quando as pessoas utilizam um catálogo ou uma máquina de busca:
(a) Busca por termo conhecido (“Eu sei exatamente o que eu preciso”): procura por algo citado ou referenciado em algum outro lugar, como uma bibliografia (antes do advento dos hyperlinks).

O usuário então precisa saber quais prováveis elementos de dados deverão convergir resultados. As regras para a seleção desses critérios de busca são chamadas de “regras de entrada”. Para fichas, essas regras devem ser restritas porque, por razões econômicas, alguém pode simplesmente produzir e arquivar um número limitado de fichas para um dado item. Ao contrário, OPACs produzem e organizam seus índices automaticamente. Entradas de índice, e por seguintes pontos de acesso, podem conseqüentemente ser bem numerosos. Se uma tentativa falhar, por qualquer razão, outra e outras podem ser feitas em sucessão rápida. Em muito breve, a falta de confiabilidade será percebida, levando ao desejo de se ter mais coisas padronizadas (ou sob controle de autoridade) mais do que nunca, como nomes de editores e nomes de lugares.

Ainda, deverão existir regras governando a descrição de itens. Descrições precisam ser breves, mas precisas: elas devem assegurar que o usuário da base de dados será capaz de diferenciar entre itens distintos, como diferentes versões ou edições de um documento. O princípio importante é: transcrição manual meticulosa.

(b) Busca coloquial (“Eu quero tudo escrito por XYZ”): O que o usuário sabe é, por exemplo, pouco mais do que um nome ou título, ou um único documento. Começando daí, eles querem encontrar todos os itens logicamente relacionados, como outras edições ou versões, traduções e outros, ou toda a produção de um autor.

Esse objetivo dita regras para recuperar junto o que pertence a um conjunto. Tais regras são tradicionalmente chamadas “regras para cabeçalhos” porque eram os cabeçalhos das fichas que eventualmente traziam todas as fichas juntas que descreviam os trabalhos de um autor e afins. Invariavelmente, regras de cabeçalhos estabelecem que um nome ou título deve ser escrito exatamente da mesma maneira sempre. Itens relacionados não aparecem juntos independentemente quando nomes ou títulos são diferentes. Alguns nomes e títulos precisam ser escritos diferentes do que está impresso na folha de rosto ou equivalente — dependendo da situação, o que requer transcrição precisa. Algumas vezes, por causa disso, um nome ou título deve ser registrado tanto na forma padronizada, como na forma encontrada no documento. Para fichas de catálogos, isso gerou a criação de fichas de referência (por exemplo, Edson Arantes do Nascimento: ver Pelé). Para bases de dados, as referências são coletadas nos “arquivos de autoridade”. Um registro de autoridade para uma pessoa contém todas as diferentes formas de nome encontradas para essa mesma pessoa. Com um OPAC apropriadamente preparado, isso deve então levar aos mesmos resultados em qualquer pesquisa utilizando qualquer uma das diferentes formas. Para cada documento então, apenas a forma de autoridade ou seu número de identificação precisam ser registrados, mais a forma encontrada no documento propriamente para identificação e distinção apropriada. Alguns registros de autoridade contêm até 30 ou mais formas, por exemplo, nomes como Chechov ou Tchaikovsky.

O único arquivo de autoridade autoritário no mundo do AACR é o encontrado na Library of Congress, para nomes de pessoas e corpos institucionais. Para pessoas, esse arquivo também contém títulos (“título uniforme”) de muitos trabalhos que foram publicados em inúmeras edições e traduções.

Na Alemanha, a Deutsche Bibliothek funciona com arquivos similares, baseados em regras de catalogação germânicas (RAK = Regeln für Alphabetische Katalogisierung). Uma dificuldade particular é a identificação de um “trabalho”, por exemplo, solucionar a questão sobre dois itens que não parecem ser os mesmos por causa de diferentes aparências externas são na verdade os mesmos em conteúdo. Se tais instâncias são encontradas, as regras de catalogação exigem um “título uniforme” como um identificador que torna todas as instâncias do mesmo trabalho encontráveis com uma única busca, apesar de diferenças formais.

(c) Pesquisa por assunto (“Estou procurando por materiais em xyz”): muito comum, alguém embarca em uma busca sem conhecer qualquer título específico ou qualquer autor relacionado ao assunto. Essa situação é, em princípio, muito mais problemática do que (a) e (b).

“O que esse livre é sobre?” é uma questão que muito comumente não pode ser respondida com uma breve lista de termos (veja acima, etc.). Livros geralmente não são textualmente pesquisáveis a íntegra por falta de acesso ao arquivo fonte. A situação (c) é, entrentato, provavelmente a mais freqüente e importante para muitos usuários finais, que tendem a perceber a) e b) como não problemáticas. Existem arquivos de autoridade para termos de assuntos assim como para nomes e títulos: o Library of Congress Subject Headings (LCSH) para países de língua inglesa, o SWD mantido pela Deutsche Bibliothek para bibliotecas alemãs.

A situação (b) e seu aspecto de “edições de um trabalho” geralmente é despercebido e não recebe muita atenção. Isso pode ocorrer com menos freqüência do que outras — quantos trabalhos, afinal, aparecem em duas ou mais edições? Isso é perceptível quando consideradas as seguintes situações de busca, todas somente podendo ser bem sucedidas de o catálogo de fato “recupera junto o que pertence a um conjunto”.

• Alguns usuários não sabem da existência de novas (melhores, mais completas) edições além das que foram referenciadas.
• Uma citação pode ser imprecisa, mas ainda boa o suficiente para encontrar pelo menos uma edição — essa então deverá levar às outras.
• Usuários ficam algumas vezes felizes com qualquer edição do trabalho citado, independente do título real.
• Usuários podem gostar dos resultados “sem querer” ao serem apresentados a mais de uma edição.

E outra coisa: o fato sozinho de que uma tradução existe ou que várias edições foram produzidas pode ser visto como um indicador de qualidade. O catálogo de fichas tornou isso aparente quando as edições eram preenchidas sob o “título uniforme” (e referenciadas pelos vários títulos reais). Para OPCAs, pode ser considerado o uso da presença de definições para edições e títulos uniformes para ranking em conjuntos de resultados. Se isso já foi foite em algum lugar, pouco se sabe sobre o assunto. OPACs podem (e devem) fornecer um link para “edições/versões relacionadas” baseada na presença de um título uniforme.

Perfeição, entretanto, está fora de alcance: por exemplo, é muito comum uma biblioteca possuir apenas uma edição de um trabalho e o catalogar não sabe da existência de outras. Então, apenas essa edição pode ser encontrada no catálogo, mas não sob qualquer outro título de forma que seja conhecida por um pesquisador. Tais casos são menos freqüentes em bases de dados grandes e compartilhadas

Plus ça change, plus n’est pas la même chose …

Com a tecnologia permitindo proliferação como nunca, é agora muito comum encontrar diversas “manifestações” de um texto: o mesmo conteúdo pode ser apresentado em diversas versões ou formatos de arquivo e com todos os tipos de modificação. Isso pode agravar as dificuldades com a busca coloquial (situação b). E títulos, apesar de serem os elementos de identificação mais importantes de um documento ou trabalho, não são manejados com muito cuidado na Internet.

Classicamente, os problemas de manifestação, variam de uma disciplina a outra. É provavelmente menos virulenta nas ciências e nas disciplinas técnicas, onde é uma exceção um documento viver mais de uma edição. Na Literatura, é mais comum, mas é na música que estão os mais discutíveis e piores exemplos: muitas peças podem ser encontradas em dúzias de interpretações, títulos modificando o tempo todo bem como as formas dos nomes (Tchaikovsky!). O “título uniforme” é conseqüentemente mais importante na música, para compilar todas as edições e versões.

AACR se preocupa com a forma, não o conteúdo!

O código de catalogação AACR, como o alemão RAK, lida com as situações a) e b) apenas. Esses problemas podem ser solucionados através de tratamento formal ou descritivo, enquanto a situação c) requisita atenção para o conteúdo das coisas catalogadas.

No mundo das fichas, em algum tempo (na Alemanha, quase sempre) existiam catálogos separados para a situação (c). OPACs entretanto, sempre combinam pontos de acesso formal e de assunto na mesma base de dados se não de forma geral no mesmo índice. Eles podem ser distintos em possuir ou não um “índice de qualquer palavra”, combinando todas as palavras (não frases) ocorrentes nos registros bibliográficos. Em qualquer caso, parece importante possuir formas de acesso uniforme para nomes pessoais e institucionais, servindo para ambos os tipos de acesso. As regras alemãs ainda não estão completamente unificadas nesse sentido.

Os problemas descritos aqui são conhecidos desde quando Antonio Panizzi trabalhava no British Museum no Século XIX (suas “Noventa e uma regras” foi publicado em 1841). Ele se deu o trabalho de organizar o primeiro catálogo completo da biblioteca. Seus empregadores acharam suas ideais de alguma forma um tanto complicadas e relutaram em apoiá-lo. Essa situação continua se repetindo…

Tentativas de se formular princípios internacionais de catalogação foram tomadas apenas a partir da metade do Séc. XX, o ponto mais alto sendo a Conferencia da IFLA em 1961, em Paris. A “Formulação de Princípios” promulgada então, se tornou a fundação para o AACR bem como para o RAK. Apenas no final de 1999, a IFLA apareceu com uma nova grande proposta, intitulada “Requisitos Funcionais de Registros Bibliográficos” — Functional Requirements of Bibliographic Records, que está se estabelecendo não apenas em círculos de bibliotecas mas também em projetos de metadados. Alguns de seus pontos principais estão apresentados em um artigo separado, “O que os catálogos devem fazer?” — What should catalogs do?, para a Conferência Anual da Alemanha, em maio de 2002, em Augsburg.

O AACR2 é inseparavelmente interligado com o MARC21 (e RAK com MAB)?
Veja também documentação “Was sind und was sollen Bibliothekarische Datenformate?”

Os formatos de compartilhamento MARC21 e MAB foram criados para servir no compartilhamento de dados entre bibliotecas. A Deutsche Bibliothek criou registros RAK em formato MAB2, a Library of Congress produz registros AACR2 em MARC21. Porém: a Deutsche Bibliothek pode e faz distribuição de seus registros também em molde MARC. Formatos e regras não são inseparavelmente interligados: um formato de dados não é nada mais do que um recipiente. Com um pouco de bom senso, dobras podem ser desfeitas. Um formato de compartilhamento universal pode ser visionado, apesar de regras permanecerem distintas. UNIMARC foi criaco com esse propósito, mas não deslanchou. Alguns exemplos estão disponíveis para demonstração.

Catálogos e máquinas de busca

De tempos em tempos, catálogos e máquinas de buscas são expostos em comparações como pêras contras maçãs.

A intenção aqui não é descobrir qual é a melhor ferramenta, mas mostrar quais diferenças existe. Não são apenas os bibliotecários que podem estar interessados em obter uma visão mais clara dos pontos fracos e fortes.
Não existe competição, já que os catálogos e as máquinas de buscas cobrem diferentes campos e servem a diferentes necessidades. A maioria dos materiais impressos permanece fora da rede e conseqüentemente inacessíveis para coletores, e por outro lado, muitos recursos online possuem características não compatíveis com impressão e conseqüentemente não podem ser publicadas em papel.

Existem, entretanto, amplas áreas “cinzas”: recursos genuínos da internet estão sendo catalogados para enriquecer os catálogos. E máquinas de buscas indexam arquivos que contêm revisões de livros, resumos, capítulos inteiros, descrições, etc. Algumas categorias de publicações, como pré-prints e dissertações, que costumavam aparecer impressas, estão agora amontoadas em servidores da Web. Livros antigos não mais sujeitos a direitos autorais são digitalizados e disponibilizados livremente. Os trabalhos de “clássicos” em muitas línguas estão livremente disponíveis como arquivos de texto, o exemplo mais proeminente sendo o “Projeto Gutenberg”. E obras de referência que costumavam ser publicadas em formato de livro estão cada vez mais sendo disponibilizadas online e transformadas em bases de dados ou (na linguagem dos catálogos de bibliotecas) “recursos de integração contínuos”. E então, por último, mas não menos importante, o esforço do Google para digitalizar livros em larga escala. Ao tempo em que se escreve esse texto, ninguém pode fazer nada além de especular sobre o potencial desse projeto.

Base documental, cobertura

Catálogo — descreve uma coleção particular, predominantemente livros, localizados em um ou mais locais.

Máquina de busca — indexa documentos distribuídos ao redor do planeta. A maioria desses recursos não são muito parecidos com livros.

Tamanho

Catálogo — a coleção é uma seleção de um número muito maior de documentos. A seleção será normalmente por objetivo e critério de qualidade mas pode também ser subjetiva. Entretanto, falta de fundos pode causar falta de materiais importantes. Um conjunto de catálogos descreve muito mais itens do que catálogos individuais, mas nem tudo é acessível com facilidade.

Máquina de busca — A intenção é para cobertura compreensiva e global, mas na realidade não mais do que 30% de materiais acessíveis são indexados por alguma máquina de busca. Seleção por qualidade normalmente não é possível. Tamanho e atualidade de cobertura não são óbvias ao usuário, seleção é um processo automático. Muitos documentos cobertos nunca foram publicados convencionalmente, e muitos materiais publicados convencionalmente não estão na rede.

Objetivos

Catálogo — Um catálogo possui claramente metas definidas, como definido no código de regras. Uma dessas, assegurar acesso confiável para alguns tipos de buscas. “Buscas por termos conhecidos” e “Busca coloquial” são consideradas particularmente importantes. Em muitos casos, o usuário deve conhecer os termos de busca corretos com alguma precisão de modo a assegurar a presença ou ausência de um item na coleção.

Máquinas de busca — Diretrizes para as máquinas de busca seriam difíceis de se seguir, pelo menos no senso de que alguém poderia saber com um alto nível de certeza se a presença ou ausência de alguma coisa pode ser assegurada. Em particular, “buscas por assunto” e “busca coloquial” são tecnicamente impossíveis de se fazer confiáveis. Para “busca por itens conhecidos”, a situação é melhor: conhecer duas ou três características e palavras não muito comuns que o texto contêm, uma busca AND é altamente confiável. A utilização mais comum, entretanto, é a busca factual: com alguma sorte, não existe outro lugar em que alguém pode encontrar com tanta rapidez um endereço, uma figura estática, uma data histórica, o significado de uma palavra ou uma imagem.

Clareza e compreensão dos resultados

Catálogo — usuários interessados podem aprender tudo sobre as funções e características de um catálogo, para entender como os resultados de uma busca são apresentados ou por que uma busca falhou. Cientistas e estudiosos podem esperar garantir resultados completos e confiáveis, e encontrar todos os melhores recursos disponíveis. As buscas por assunto sofrerão, por causa dos conflitos entre “revocação” e “precisão” que não podem nunca ser completamente resolvidos em sistemas automatizados. (As bibliotecas não precisam manter nada em segredo porque elas possuem controle total de seus catálogos: nenhum usuário pode influenciar sobre os dados e sua funcionalidade).

Máquinas de busca — Operadores de máquinas de busca não podem pagar o preço de divulgar seus métodos de indexação e buscas, por mais de uma razão. Um sendo que “Otimizadores de Máquinas de Busca” (Search Engine Optimizers –SEO) que utilizam métodos para alavancar o ranking de algumas páginas nos resultados de buscas. Os usuários finais encontram-se então no meio da escuridão sobre a confiabilidade e “completabilidade” dos resultados, eles não possuem nenhum meio de avaliar tais propriedades. Mas, o enorme volume de material na web faz necessário o compromisso entre precisão e rapidez, por exemplo. Os usuários não ficam perturbados enquanto obtêm algo útil com rapidez, já que eles próprios não saem em busca de tudo ou as melhores coisas.

Expectativas dos usuários

Catálogo — O acervo de uma biblioteca é normalmente menor do que os usuários esperam para os seus campos de interesse, apesar de as bibliotecas tentarem construir coleções balanceadas com materiais de qualidade de valor durável. Catálogos conjuntos podem ser visto como catálogos para uma maior, porém virtual coleção.

Máquinas de busca — O número de “documentos” indexados pode ser muito maior do que qualquer usuário imagina, mais recursos valiosos são postos lado a lado com conteúdo efêmero e inútil. Existem várias tentativas para a utilização de critérios formais para “ranking”.

Natureza dos dados

Catálogo — Dados consistem de breves descrições altamente padronizadas, seguindo elaborados códigos de regras. O código mais utilizado é o AACR2. Cada item é representado por um registro estruturado contendo campos de dados bem definidos. Os formatos de dados foram concebidos para acomodar todos os elementos prescritos pelas regras. O formato mais utilizado é o MARC21. Os documentos normalmente possuem partes formalmente definidas (como o “título’) e elementos úteis de dados de metadados podem então ser derivados com relativa facilidade. Isto serve para tornar os metadados interoperáveis (por exemplo, para busca em bases de dados cruzadas). Alguns exemplos são fornecidos para ilustrar como o código e o formato se complementam.

Máquinas de busca — Não existem descrições padronizadas dos documentos indexados. A base de dados consiste de nada além de amplos arquivos invertidos, derivados diretamente dos documentos, mas nunca mostrados como tais (como um índice navegável). Padronização no senso de controle de autoridade não é possível por causa de uma falta generalizada de metadados padronizados. Já que quase nenhuma característica formal se aplica ao longo do quadro, metadados de diferentes fontes tendem a ser “inhomogêneos”. Então, mesmo onde os metadados existem, eles nem sempre são úteis: eles são insuficientemente padronizados, muito simples e fracos. Um amplamente advogado e aplicado padrão semântico é o “Dublin Core”, mas este é um recipiente, como o MARC, e o que importa é o seu conteúdo. Para o conteúdo, entretanto, qualquer padrão como o AACR2 é na maior parte das vezes ausente.

Criação e conteúdo da base de dados

Catálogo — artigos completos não estão disponíveis para acesso direto ou indexação automática. Os registros de um catálogo são apenas substituições breves e artificiais. Descrições são baseadas nas folhas de rosto ou equivalentes e pouco mais que isso. A estrutura do registro é relacionada com a estrutura tradicional de um catálogo de fichas em termos de conteúdo e layout. Catalogação automática (escanear folhas de rosto, etc.) não é provável, as descrições devem ser preparadas através de intervenção manual e intelectual.

Máquinas de busca — Não apenas por causa de uma falta geral de metadados, algumas máquinas de busca indexam o texto integral de documentos na web. Coisas como folhas de rosto ou não existem ou não são detectáveis pelo software. Os programas podem, entretanto, avaliar a proximidade entre palavras, sendo estas grifadas ou especialmente etiquetadas (negrito).

Critério de busca

Catálogo — buscas podem ser restritas a certos campos e combinações booleanas daí em diante: nomes, títulos, palavras, frases de título, assuntos, etc., alguns OPACs possuem um índice de “qualquer palavra” permitindo buscas por palavras-chave dentro do texto integral dos registros. Em relação a livros e documentos similares, os critérios de busca se aplicam a um livro como um todo e não suas partes, como capítulos e contribuições (a profundidade de indexação, em outras palavras, é limitada).

Máquinas de busca — Busca por textos integrais é o comum. Praticamente não existem campos para títulos, nomes, assuntos, então esses não existem como critérios de busca. Buscas por compenentes de URL podem ser um complemente útil. Por causa da busca por textos integrais (que significa mais “profundidade”), utilizando combinações de palavras não muito comuns podem normalmente convergir bons resultados onde nenhum catálogo de biblioteca poderia trazer alguma coisa, e ainda trazer uma escala de relevância dos itens. Podem existir funções adicionais como, por exemplo, busca por imagem, baseadas em textos HTML. Algumas máquinas efetuam um tipo de ranking que atribui mais peso à palavras na seção de abertura.

Browsing

Catálogos — Ao invés de buscas diretas, muitos OPACs também oferecem index browsing (pra cima e pra baixo, em listas sortidas de termos). Índices navegáveis podem auxiliar na busca por palavras e nomes em que a ortografia exata é desconhecida. Também, podem ser úteis para ver quais formas variantes existem (plural, genitivo, etc). Para uma busca por palavras não truncadas, encontrará apenas aquela ortografia particular, mas títulos podem conter outras formas. O inglês pode ser a língua menos afetada nesse sentido. “Resultados sem querer” podem ser encontrados através dos índices navegáveis.

Máquinas de busca — Máquinas de busca geralmente não oferecem índices navegáveis. Apesar de raramente notado, eles poderiam ser úteis devido a falta de controle de autoridades. O grande volume de dados pode tornar a produção de índices navegáveis improvável. Por causa da indexação integral de textos, o problema de variação é menos sério: as palavras importantes normalmente ocorrerão em diversas formas variantes em qualquer texto. Mas: existem máquinas de buscas proeminentes que ainda não disponibilizam truncação…

Organização do conjunto de resultados (rankings)

Catálogo — os conjuntos de resultados normalmente são mostrados por autor, título, ou cronologia inversa. Alguns sistemas oferecem escolhas. Para ranking, um OPAC pode aplicar proximidade de palavras, linguagem, número de páginas, ou fatos como existência de um título uniforme ou edição afirmativa. Não muitos OPACs atualmente aplicam alguma técnica de ranking. Isso pode ser devido ao conteúdo muito breve dos registros de catálogo limitar severamente a aplicabilidade de técnicas desenvolvidas para máquinas de busca.

Máquinas de busca — algumas máquinas apresentam resultados em ordem não previsível. Alguns falam de ranking de relevância, aplicando várias técnicas formais. Na verdade, relevância pode ser julgada apenas pela pessoa que pesquisa, não por uma máquina. A palavra é utilizada apenas como metáfora, como muitas coisas no mundo da computação. Alguém deve alertar os usuários sobre isso. As máquinas de busca podem, entretanto, utilizar critérios como avaliação de links que não possuem paralelo nos dados de catálogos. Organizar por data ou alfabeto não é possível porque não existem tais campos de dados correspondentes. Arquivos HTML padrões não possuem nem mesmo uma data de criação, e o tag normalmente é ausente.

On the Theory of Library Catalogs and Search Engines

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.