Archive for July, 2009

Algumas coisas sobre Recuperação de Informação

July 27th, 2009

Antes de mais nada, um disclaimer: As informações postadas por aqui são provenientes da minha experiência pessoal com a área e de algumas pesquisas sobre o tema, portanto não garanto que sejam 100% corretas e/ou precisas. Caso você encontre algum erro ou algo do tipo, me avise nos comentários.

Não é novidade pra ninguém que existe mais informação disponível na Internet do que qualquer pessoa pode imaginar, e que é possível encontrar literalmente qualquer coisa que se queira. Devido a este fato, nos dias de hoje os serviços de busca ocupam um lugar central na experiência do usuário da grande rede, sendo integrados aos navegadores e passando a fazer bem mais do que apenas buscar informações textuais – há busca de imagens, localidades, vídeos e o que mais se puder extrair algum tipo de dado.

Apesar do uso da tecnologia ser recente, a tecnologia em si não é – remonta aos idos do século e do (pasmem) milênio passado, lá pelos idos de 1975, quando teria sido publicado por um cidadão chamado Gerard Salton um artigo entitulado “A Vector Space Model for Information Retrieval”,  que lançou as fundações para a Recuperação de Informação. No entanto, apesar de existirem diversas citações a este artigo, não há evidência que tenha sido de fato publicado e sim que tenha sido uma fusão entre dois artigos publicados por Salton neste mesmo ano e que falavam sobre o tema. Se você quiser saber mais detalhes sobre esta história, basta dar uma lida neste documento aqui.

Imprecisões históricas a parte, este artigo seminal demonstrava um modelo matemático chamado modelo espaço vetorial, ou simplesmente modelo vetorial. Este modelo representa documentos (conteúdo textual como por exemplo artigos de jornal, páginas Web, artigos científicos, etc) como vetores em um espaço n-dimensional, onde n representa a quantidade de palavras únicas (termos) que ocorrem no interior de todos os documentos, e o problema da busca torna-se então “apenas” achar os vetores mais próximos ao vetor correspondente a consulta submetida. Simples, não?

Dito assim, parece tudo muito complicado, portanto vamos a um exemplo gráfico:

Exemplo de espaço vetorial

Exemplo de espaço vetorial

Neste exemplo há apenas dois termos pa e pb, resultando em duas dimensões no espaço, e um documento, dj, onde cada termo aparece duas vezes. O vetor q representa uma consulta, que possui uma ocorrência da palavra pb e duas ocorrências de pa. Pode-se notar que há um ângulo θ entre estes vetores, que pode ser utilizado para indicar a distância entre eles. O que é utilizado, no entanto, é o cosseno deste ângulo, pois a medida que o ângulo tende a diminuir o cosseno tende a aumentar, servindo como uma medida prática de proximidade. Desta forma, quanto maior o cosseno, maior é a similaridade entre o documento e a consulta. No final das contas, basta ordenar os documentos por similaridade e voilà, uma consulta acabou de ser processada.

Uma coisa interessante nisso tudo é a noção de similaridade. Uma consulta recupera não só os documentos que contém os termos pesquisados mas também atribui a cada documento um valor que indica o quão similar ele é a consulta realizada, indo um pouco além de apenas fazer uma busca textual como qualquer SGBD faria. Há uma boa dose de matemática por trás disso tudo, pescando coisas da Álgebra Linear e da Teoria da Informação, mas isso é assunto pra um próximo post. Essa idéia de similaridade textual demonstrada aqui ainda é (imagino eu) utilizada em larga escala pelas máquinas de busca existentes nos dias atuais, juntamente com uma série de outros dados obtidos dos documentos para que no final tudo seja combinado em uma fórmula para enfim ordenar tudo para mostrar na tela do navegador. Só que isso também é assunto pra próximo(s) post(s).

Por enquanto é isso. :-)

An example of transitional packages in Debian

July 17th, 2009

When you have to change the name of your package (e.g. for complying with policies) or you make a new package that is meant to replace the old one (e.g. gcc4.2 -> gcc4.3), you’ll have to deal with the fact that the other packages that use your old package as a dependency will not be immediately updated, or maybe never will. So, to overcome this issue, there is a useful trick: transitional packages.

Transitional packages are essentially proxies – packages that pull the correct dependencies when installed and can be removed without problems as soon as the installation finishes. Some of these packages also have scripts to make/ease the transition when it is necessary. With this package you’ll be able to ship your new/updated package without worrying breaking all the others that depend on it (provided that the funcionality stays the same) and then inform the maintainers that their packages need to be upgraded to the new version of the dependency.

As an example, suppose you used to maintain a package named foo that is used by other package, baz. You have made a completely new package, bar, and intend to completely replace foo. So, for making the transitional package, you add these lines to the debian/control file of bar:

Source: bar
Section: unknown
Priority: extra
Maintainer: Bruno Araujo <bru...@baraujo.net>
Build-Depends: cdbs, debhelper (>= 5), [bar build dependencies]
Standards-Version: 3.7.2

Package: bar
Architecture: any
Provides: foo
Replaces: foo (<< 0.1-2)
Conflicts: foo (<< 0.1-2)

Depends: ${shlibs:Depends}, ${misc:Depends}, [bar dependencies]
Description: <insert up to 60 chars description>
<insert long description, indented with spaces>

Package: foo
Architecture: any
Depends: ${shlibs:Depends}, ${misc:Depends}, bar
Description: Transitional package for bar
This is a transitional package for foo, and can be safely removed
after the installation is complete.

The bold lines are the modification needed for providing the transitional package. Two modification were made:

  • In the Package: bar section, three new keywords were added: Provides, Replaces and Conflics. They will be explained shortly.
  • The transitional package must have the same name of the package you intend to replace. Usually a short explanation about the nature of the package is written.

The three keywords added to the bar package section are used to proper inform dpkg of the transitional package and to decide which actions will be taken should the need arise.

  • The Provides keyword informs dpkg that the package bar provides a “virtual package” named foo (more details about virtual packages can be found on the Debian Policy)
  • The package bar should not be installed at the same time as the old package foo, so the Conflicts keyword indicates this.
  • If a conflict arises, the Replaces keyword indicates which package must be chosen for solving the conflict.

Now, when you try to install the package baz, the transitional package foo will be installed with its dependency bar, which is the correct dependency that should be used. For more details about these keywords, see sections 7.4-7.6 of the Debian Policy. Note that, in this case, the only transition was pulling the correct dependency; in other cases, when some extra works needs to be done before or after installing the package,  one of the ways to do this work is including the necessary scripts and putting calls to them inside <package>.preinst (pre-installation) and <package>.postinst (post-installation) inside debian directory.