Evolución histórica y tendencias observables
en los tesauros
MIGUEL-ÁNGELLÓ PEZ ALONSO
Dpto. de Biblioteconomía y Documentación
Universidad Carlos III de Madrid
Artículo de revisión no exhaustiva sobre el origen y desarrollo de los tesauros.
Desde los años cincuenta este proceso se ha diferenciado y entremezclado con el
nacimiento de los principios teóricos de la Documentación, los estudios sobre
otros lenguajes documentales y la indización de documentos. Su evolución se
plantea a partir de los estudios lingüísticos y los tesauros literarios del pasado, si-gue
con los tesauros documentales desarrollados desde mediados de este siglo, y
se proyecta en los tesauros conceptuales del futuro.
Literacy review, not exhaustive, on the origin and development of thesauri.
From the fifty, this process has been differentiated and mingled with the birth
of Information Science theoretical principles, the studies on other documen-tary
languages and the theory of indexation. Its evolution is oiitlined from ol-der
linguistic studies and literary thesauri, it continues with documentary the-sauri
developed by mid this century, and it is projected over future conceptual
thesauri.
Boletín Millares Carlo, núm. 17. Centro Asociado UNED. Las Palmas de Gran Canaria, 1998
Miguel Ángel López Alonso
En estos momentos se vuelve a pensar en los tesauros como herra-mienta
de precisión para la recuperación del conocimiento en las bases
documentales de la red Internet. Nos parece por ello interesante hacer
una revisión de la evolución histórica de los vocabularios controla-dos,
especialmente a partir de 1852 cuando Roget publicara la primera
edición de su reconocido tesauro literario', y de 1878 momento en el
que Poole discutiera las características de su índice referidas al ante-rior*.
Otro momento clave se dio en 1948 al proponer Bernier su defini-ción
de tesauro documental como "herramienta conceptual de relacio-nes
entre términos de tipo postcoordinado"3, así como al deslindarse
los primeros desarrollos experimentales de los primeros tesauros ope-racionales
en los años sesenta, para alcanzar hasta las más recientes
propuestas para el desarrollo de tesauros conceptuales. Estos últimos
tesauros difieren de los tesauros precoordinados compilados en los
años setenta en estar compilados a partir del sublenguaje científico to-mado
del Lenguaje Natural en contextos concretos, y en ser utilizados
principalmente en la recuperación de documentos. Se integran en los
Sistemas de Gestión de la Información para mejorar la pertinencia de
las búsquedas, debido a sus numerosas relaciones asociativas contex-tuales.
Estos nuevos tesauros son una superserie de sublenguaje controlado
en un dominio científico específico, que se usan durante:
- El proceso de indización, como ayuda en la identificación de los
conceptos, y
- en el proceso de recuperación, como fuente de nuevos términos
controlados que identifiquen nuevos conceptos y aumenten la
precisión de las búsquedas booleanas.
l ROGETP,. M.: Thesaums of English Words and Phrases, Classified and Awanged so
as to Facilitate the Expresion of Ideas and Assists in Literaty Composition. London: Long-man,
1852.
POOLEW, . F.: "The plan of the new Poole's Index", Libvary Joumal, 3 (3) , 1878, pp.
109-1 10.
BERNIERC,. L. y CRANEE,. : "Indexing abstracts", Industrial Engineering Chemistry,
40 (4), 1948, pp. 725-730.
Evolución histórica y tendencias observables en los tesauros 359
Para encontrar los antecedentes más remotos de los tesauros actua-les,
como instrumentos de control que son de la terminología utilizada
para la indización y10 recuperación de los documentos, es preciso in-vestigar
en los glosarios incorporados en algunas de las Recopilaciones
Jurisprudenciales del Período Alejandrino, en los primeros siglos de
nuestra era. Será mucho después, con el Renacimiento y más extensa-mente
con la Ilustración, cuando se retome el estudio de las terminolo-gías
jurídicas dentro de los Derechos Romano o Canónico, todavía en
lengua latina.
Su desarrollo en la época moderna vendrá precedido por los prime-ros
estudios lingüísticos con esquemas clasificatorios sistemáticos. En
España, el ((Libro de los Epítomes)) y el «Libro de Proposiciones» de Her-nando
de Colón de 15304, en Francia, el «Dictionnaire historique et poé-tique
de toutes les nations, nommes, Iieux, fleuves ... » de Charles Estien-ne
de 15535.
En la historia europea habrá que esperar a las Codificaciones Jurídi-cas
Napoleónicas y el posterior resurgimiento de los nacionalismos de
mediados del siglo XIX para que, con el abandono de los preponderantes
derechos generales en latín y el arraigo definitivo de los Derechos Comu-nes
y Forales, se precise conocer en profundidad los vocabularios jurídi-cos
en las diferentes lenguas vernáculas.
A comienzos del siglo XVIII, en Francia, Girard trató de dar solución
a las dudas que presenta el empleo de términos afines en su libro dustes-se
de la langue fran~aise)d) e 171g6,q ue orientará en Europa el sucesivo
tratamiento de la sinonimia, como intento de editar, para cada lengua na-cional,
libros que fijen el valor exacto de las distintas palabras con el mis-mo
significado. Por su parte, en Alemania (Leipzig) Gottsched publicó su
libro ((Observaciones sobre el uso y abuso de varios términos de la Lengua
Alemana)) en 174g7.
Crabb editó, en Inglaterra, su ((Dictionary of English Synonymes Ex-plained))
en 18248, libro que todavía se reedita con adiciones y puestas al
día de diversos autores. El médico Roget publicará en 1852 su tesauro li-terario,
el «Thesaurus of English Words and Phrases, classified and arran-
DE COLONH, emando: Libro de Proposiciones. Sevilla, 1530.
ESTIENNEC, h.: Dictionnaire historique et poétique de toutes les nations, nommes,
lieux, fleuves.. . Francia, 1 553.
6 GIRARDG, .: Justesse de la langue francaise. Pans, 171 8. Reeditado en 174 1 con el tí-tulo
« Synonimes francois ».
7 GOTTSCHEJD. ,C .: Grundlegung einer deutschen Sprachkunst. Leipzig, 1748.
CRABB, J.: Dictionary of English Synonymes Explained (3" ed.). Inglaterra, 1824.
360 Miguel Ángel López Alonso
ged so as to facilitate the expvesion of ideas and assists in litevavy composi-tion
», del cual se han hecho más de treinta edicionesg, incluso una re-ciente
para su consulta en línea con el nombre de ~Rogetk Thesauvus)).
Fue concebido como un esquema clasificatorio dividido en seis grandes
categorías: conceptos abstractos, espacio, materia, formación y comuni-cación
de ideas, intereses socio individuales y aficiones, que guardan cier-ta
afinidad con las posteriores categorías de Ranganathan de personali-dad,
energía, espacio, materia y tiempolo.
En España, Manuel Dendo y Ávila con su breve «Ensayo de los synó-nimos
» en 175711 y, en Viena, José López Huerta con el ((Examen de la po-sibilidad
de fixar la significación de los sinónimos de la lengua castellana))
en 178912 (reeditado en España varias veces), estimularon la afición por
los estudios sinonímicos. A éstos siguieron los destacados trabajos de Jo-sé
Joaquín de Mora en la «Colección de Sinónimos de la Lengua Castella-na
» de 185513 y el, ya contemporáneo, de Richard Ruppert con ((Spanis-che
Synonimikx de 194014.
Después de la 11 Guerra Mundial, prestigiosos investigadores fun-daron
serias esperanzas en el acceso a la información de manera di-recta
y no secuencia115 (el desarrollo del primer sistema de indización
con un tesauro incorporado, los unitérminos de Taube)l6, la ((automa-tización
del análisis de los documentos)) como vía para la profundiza-ción
en la indización por conceptos (los descriptores de Mooers)17 y el
9 ROGETP, .: Roget's Znternational Thesaurus. New York: Thomas Cronwell, 1977.
10 RANGANATHSA. RN.,: Prolegomena to libvary classification. 3" ed., Bombay: Asia
Pub. House, 1967 ,232 pp.
11 DENDOY VI LA, Manuel: Ensayo de los sinónimos. Madrid, 1757.
l 2 LÓPEZH UERTAJ.,: Examen de la posibilidad de fucar la significación de los sinóni-mos
de la lengua castellana. Viena, 1789.
'3 DE MORAJ,. J.: Colección de Sinónimos de la Lengua Castellana. Madrid, 1855.
l4 RUPPERTR,.: Spanische Synonimik. Heilderberg, 1940.
15 MOREIRGOO NZÁLEJZ. ,A ,: "De la Documentación a la Ciencia de la Información:
evolución de los conceptos y aplicaciones documentales", Seminario de Humanidades
Agustín Millares Carlo, Homenaje a Antonio de Bethencourt Massieu, 1995, p. 10.
l6 Formado por términos del Lenguaje Natural: unitérminos y sus relaciones para-digmáticas,
a partir del fichero invertido de Mooers.
TAUBEM, .: Studies in coordinate indexing. Washington: Documentation Incorporated,
1953.
l7 MOOERSC,. N,: «The Theory of Digital Handling of Non-Numerical Information
and Its Implications to Machine Economicsn, Zator Technical Bulletin, 48, 1950.
Evolución histórica y tendencias observables en los tesauros 361
empleo de los índices permutados tipo KWIC ((~keywordin context~)
de Luhnl8.
Serán tiempos de consolidación de los principios teóricos atribuidos a
renombrados investigadores: Taube, Howerton, Mooers, Brownson, Fa-rradane,
Jolley, etc., a través del análisis de los conceptos más reciente-mente
acuñados: recuperación, tesauro, descriptor, resumen, relevancia,
indización, etc.
Aunque las primeras referencias escritas se atribuyen a Peter Luhnlg,
Bernier y Heumann20, y Joyce y Needham21; fue Eugenio Wa1122 quien de-finió
los principales contenidos lingüísticos de los tesauros documentales:
sintaxis, semántica, género, sentido, etc. Y fue Helen Brownson quien uti-lizó
el término ((tesauro» por primera vez el 14 de mayo de 1957 en la Dor-king
Conference, citándolo como una herramienta para la recuperación
de la información23.
Desde finales de los cuarenta, con el desarrollo de los primeros orde-nadores
que facilitaban el procesamiento de la indización coordinada, co-menzaron
en Estados Unidos las investigaciones para el desarrollo de
nuevos lenguajes documentales codificados que reemplazaron a los tradi-cionales
esquemas clasificatorios.
Aunque no se documentara o discutiera ampliamente, el primer tra-bajo
con un tesauro experimental lo realizó Whelan en el Roya1 Radar Es-tablishment,
Malvern (Inglaterra, 1955)24A. l año siguiente, la Unidad de
Investigación Lingüística de Cambridge, CLRU (Inglaterra, 1956), avanzó
sus hipótesis para mejorar la traducción automática de la información: la
aplicación del concepto de tesauro en la combinación de los descriptores
y el uso de la lógica booleana25.
El primer sistema documental diseñado para localizar extensos textos
legales se dio en el Centro Jurídico de la Universidad de Pittsburg. Utili-l
8 LUHNH, . P.: «A statistical approach to mechanized encoding and searching of li-terary
informationn, IBM Journal of Research and Development, 1 (4), 1957, pp. 309-31 7.
l9 Ibidem.
20 BERNIERC,. L. y HEUMANKN. ,F .: «Correlative indexes. 111. Semantic relations
among semantemes - the technical thesaurus)),A merican Documentation, 1957,8, pp. 21 1-
220.
2 1 JOYCET, . y NEEDHARM. , M.: «The thesaurus approach to information retrieval)),
American Documentation, 9, 1958, pp. 192-197.
22 WALLE, .: dnformation systemsx, Chemical Engineering Pvogress, 1959'55, pp. 55-
59.
23 BROWNSOHN.:, mceedings of the International Study Conference on Classification
for Infomation Retrieval. ASLIB, 1957, pp. 99-100.
Z4 WHELANS.,: "Library retrieval", RRE Journal, 42, october 1958, pp. 59-68.
25 MASTERMAMN. ", Potentialities of a mechanical thesaurus", MIT Conference on Me-chanical
Translation, CLRU Typescript, 1956.
362 Miguel Ángel López Alonso
zaba como tesauro una mera compilación de términos con significados si-milares
(unitérminos), que se parecía más al Roget's Thesaurus de pnnci-pios
de siglo que a los tesauros documentales de la actualidad.
El primero de estos tesauros a escala completa, totalmente operacio-nal
y con vistas a su utilización en la recuperación automatizada, se utili-zó
por la sociedad E.I. Du Pont Nemours and Co., Inc. en 1959 (Wilming-ton,
USA)26. El primero de los publicados fue el ASTIA (de la Armed
Services Technical Information Agency, USA, 1960) que luego se recon-virtió
en el TEST (del Defense Documentation Center, 1967)27q, ue com-prendió
17.800 términos preferentes, 5.554 relaciones y numerosos tér-minos
asociados. Otro de los primeros ejemplos fue el del American
Institute of Chemical Engineers en 196 128.
Uno de los más visibles avances los dio Barhydt y su grupo de investi-gación
de la Universidad Western Reserve cuando desarrollaron un te-sauro
de términos educacionales que utilizó el análisis de facetas puro.
Con alrededor de 4.500 términos lo enviaron a ERIC (Office of Education,
1966) y fue rechazado, aunque, más tarde fue revisado y publicado por el
Servicio de Publicaciones de la citada Universidad.
Modelos facetados mixtos
La primera solución a las dificultades que planteaba un tesauro de fa-cetas
puro la adelantarían Aitchison y sus colaboradores de la English
Electric al presentar en 1969 el primer "Tesa~rofacetas"q~u~e, adoptaría
una solucióvr mixta mucho más eficaz al aunar la clasificación por mate-rias
con una subdivisión por facetas que comprendía dos entradas:
- la relación alfabética de los descriptores del tesauro, con las rela-ciones
TE, TG, TR, y el reenvío por un código de tres caracteres a
la parte facetada, y
26 HOLMB, . E. y RASMUSSLE. NE.,: ~Developmento f a technical thesaurus)),A meri-can
Docurnentation, 1961, 12, pp. 184-190.
27 ENGINEEFUJONIGN TC OUNCYI LD EPARTMEOFN DT EFENS"ET: hesaurus of Engineering
and Science terms. A list of engineenng and related scientific terms and their relations-hips
for use as a vocabulary reference in indexing and retneving technical information".
Nueva York: EJC, 1967.
AMEFUCIANNST ITUOTFE C HEMICAENL GINEER"CS:h emical engineenng thesaurus: a
wordbook for use with the concept co-ordination system of information storage and re-tneval".
Nueva York: AIChE, 1961.
29 Ar ~ c ~ r sJo. ~et, a l.: Thesaurofacet: a thesaurtls and faceted classiflcation for engi-neering
and related subjects, Whetstone, UK: The English Electric Co. Ltd, 1969.
Evolución histórica y tendencias observables en los tesauros 363
- la clasificación por materias, en que los términos son reagrupa-dos
en facetas o funciones fundamentales.
Con este modelo se localiza el contexto en que se ha elaborado el te-sauro
y se integran en un solo sistema las ventajas de los tesauros alfabé-ticos
y una nueva presentación sistemática de los términos, que tiene en
cuenta también las relaciones entre las propias jerarquías o categorías.
Analiza los términos de un campo temático en clases o conjuntos con una
característica común, según los tipos básicos de funciones principales o
facetas que representan, y abandona los campos de interés por disciplinas
científicas usados tradicionalmente. Los objetos concretos pueden subdi-vidirse
en facetas, ordenadas en un orden lógico desde la más general a la
más especializada y compleja30, mientras que los campos temáticos se di-viden
por disciplinas: Agricultura, Medicina, Economía, etc.
Este modelo facetado mixto constituyó la aportación de la doctrina de
indización americana al desarrollo de los tesauros, pero, exigía una disci-plina
mental muy rigurosa del compilador para que se crearan estructu-ras
dignas de crédito31. Tiene como sus ejemplos más recientes el BSI RO-OT
Thesaurus32, el Art and Architecture Thesaurus y el International
Thesaurus of Refugee Terminology.
En la década de los sesenta y en la siguiente, se multiplicaron los es-tudios
sobre LRnguajes Documentales:
- Spark Jones y Needham estudiaron los vocabularios controlados
precoordinados, dentro de las investigaciones sobre procedimien-tos
de clasificación automática33,
- Coyaud elaboró una estructura teórica para el análisis de los len-guajes
de indización, cuyos constituyentes están tomados de la
terminología lingüística (fonemas, semas, etc.)34,
- Dahlberg emprendió una búsqueda interdisciplinar de la moción
de clasificación~y~ ,r ebasó el campo de la Biblioteconomía con la
30 Situaciones ideales con existencia independiente que no son parte de un deter-minado
texto: entidades, partes, propiedades, acciones (procesos y operaciones), agentes,
aplicaciones, etc.
31 AITCHISOJN.: ,~ Thesaurofacet:a new concept in subject retrieval schemes)),P roce-edings
of un intemational symposium, University of Maryland, 1971. Westport(Ct.): Green-wood
Press, 1972, pp. 72-98.
32 BRITISHST ANDARINDSST ITUTIBOSNI :R OOT thesaurus, Milton Keynes: BSI, 1981.
33 NEEDHARM. , M., SPARCJKO NESK, .: ((Keywords and Clumpsn, J. Documentation,
1964, 20 (l), pp. 5-15.
34 COYAUMD,.: Introduction a l'étude des langages documentaires. París: Klinchk-sieck,
1966, 148 pp.
Miguel Ángel López Alovzso
Filosofía, la Epistemología, la Lingüística, las Teorías Científicas,
e t ~ . ~ ~ ,
- Hutchins desarrolló una profunda introducción a las ((Estructu-ras
Lingüísticas Generales de los Lenguajes de Indización com-parados
con los Lenguajes Naturales» en sus diversos aspectos
formales, semánticos, pragmáticos, e t ~ . ~ ~
A partir de los años setenta, los especialistas tomaron conciencia de
los inconvenientes del crecimiento desmesurado de los fondos documen-tales,
de la parcelación del saber y de la expansión del léxico, y, por tanto,
de la necesidad de poner al día los lenguajes documentales para una pre-cisa
indización y recuperación relevante de los primeros. La informática
se difundió y aparecieron en el mercado ordenadores, cada vez más ma-nejables
y económicos, que potenciaban las tecnologías de la información
y obligaban al desarrollo de los tesauros documentales para la automati-zación
del procesamiento de la información.
Modelos lingüísticos y matemáticos
Desde Ferdinand de Sausurre37, Bernard Pottier38 o M. C0yaud3~l,a s
razones que han empujado a los documentalistas a interesarse por las te-orías
lingüísticas han sido numerosas, dado que las propiedades de los
Lenguajes Documentales se parecen mucho a las de los Lenguajes Natu-rales
y derivan de éstos últimos más o menos profundamente.
Uno de los primeros modelos lingüísticos fue el del ((Triángulo Semán-ticon
de Ogden y Richards (1923)40, modificado profundamente por Long
35 DAHLBER1G.: , Grundlagen universaler Wissensordnung. München: Verlag Doku-mentation,
1974, 366 pp.
36 HUTCHINWS,. J.: Lenguages of indexing and classification: a linguistic study of
stmctures and functions. Librarian-ship information studies, 3). Stevenage (Herts.): Pere-grinus,
1975, 148 p.
37 SAUSSURFE. , DE: Curso de Lingüística General (Trad. del francés: Paris: Fayot,
19 16). Barcelona: Planeta-Agostini, 1985.
38 POTTIERB.,: Lingüística general, teoría y descripción. Madrid: Gredos, 1976,426 p.
39 COYAUMD.,: Introduction a 'l'étude des langages documantaires. Ibid., cit. n.' 18.
40 OGDENC,. K., RKHARD1S. ,A .: The meaning of meaning; a study of the influence of
Ianguage on thought and of the science of symbolism. Nueva York: Harcourt, Brace & Com-pany,
Inc., 1923.
Evolución histórica y tendencias observables en los tesauros 365
(1980)41, en el que los tesauros estaban constituidos por relaciones entre
los conceptos (significados), los objetos (referentes), las expresiones o sig-nificantes
gráficos y los significantes fonológicos.
La modelización matemática proporciona bases sólidas a los Lengua-jes
de Indización, al definir rigurosamente los términos empleados: cla-ses,
descriptores, relaciones, etc. Puede cubrir bien todo el Sistema de In-formación,
un tipo de Lenguaje de Indización o un aspecto concreto de
uno de éstos42. La función matemática empleada se suele derivar de la
Teoría de Conjuntos, cuya terminología recuerda a la de los Lenguajes de
Indización.
Entre estos últimos modelos, destaca el desarrollado y más tarde sin-tetizado
por D. Soergel (1985), que cubre todos los Lenguajes de Indiza-ción,
en el que:
a) Se describe una base lógico-matemática general para la construc-ción
de un sistema formal que distinga claramente entre el meta-lenguaje
matemático (interpretación del modelo) y el lenguaje do-cumental
que representa (significado del modelo), y
b) se da un léxico y unas reglas de formación de expresiones de las
que se deducen teoremas al nivel del metalenguaje matemá-tico43.
Hasta casi finales de los ochenta se ralentizó el desarrollo de nuevos te-sauros,
debido en parte al descenso en el ritmo de evolución de los ordena-dores
personales y a la creencia de que, aunque las tecnologías de la infor-mación
estaban cambiado radicalmente, los tesauros podían permanecer
inalterables. Se produjo su resurgimiento con el auge de las búsquedas en
línea, pero como herramienta de precisión para la formulación de las ecua-ciones
de búsqueda más que como herramienta de indización.
Robert Fugmann (1974) exportó la estructura y las propiedades de la
Teoría de los Grafos al Sistema de Indización Bidimensional TOSAR, y
trató de definir tanto las relaciones semánticas como otras de orientación,
distancia entre términos, etc.44 En los tesauros tradicionales propuso los
41 LONGB, .: ((Linguistiquee t indexatiom, Documentaliste-Sciences de l'Infomzation,
1980, 17 (3), pp. 99-106.
42 VICKERYB,. C.: Retrieval language models. Information systems. London: Butter-worths,
1973, pp. 203-222.
43 SOERGEDL. (,1 985): dndex Language Structure. 1: Conceptual)),e n Organizing in-fomzation:
principies of data base and retrieval systems. Orlando (Fl.): Academic Press,
1985, p. 269.
44 FUGMARN. ,e t al.: ((Representation of the concept relations using the TOSAR sys-tem
in the IDCn, Journal of the ASIS, 1974, 25 (5), pp. 287-307. Cfr. 1.2.2.5.
366 Miguel Ángel Lbpez Alonso
esquemas de flechas para representar los descriptores y sus relaciones se-mántica~
S. intetizó su Teoría de la Indización en cinco axiomas que in-cluyen
una dimensión ética, el concepto de indización imperativa, y obliga
al indizador a elegir el término más apropiado, en contraposición con la
indización habitual que dejaba la posibilidad de escoger varios términos,
más o menos adecuados45.
Soergel avanzó su nueva definición de Lenguaje de Indización como:
conjunto de descriptores, de relaciones y de reglas para la formación de
expresiones condensadas del documento original, con la finalidad de re-ducir
el volumen de datos de dicho texto46.
y distinguió en el tesauro, términos no descriptores que conducen a los
términos descriptores.
La indización se convirtió en multimodelo y se validó el mismo des-criptor
desde contextos y aproximaciones diferentes47, a pesar de ser dife-rentes
los usuarios de las distintas áreas del conocimiento. Para ello, los
tesauros tradicionales fueron redefinidos para incorporar los avances más
recientes de campos como la Lingüística, la Inteligencia Artificial, las Téc-nicas
de Programación o el Diseño Informático.
Modelos semánticos o conceptuales
La modelización de los principios teóricos que presiden la estructura
de los tesauros ha seguido preferentemente los modelos lingüísticos o ma-temáticos,
sin embargo, las recientes teorías giran alrededor de la noción
del motivo o materia de la que tratan los textos, es decir, del concepto se-mántico
o conceptual.
Maniez propugnó (1976) un modelo de tesauro en el que las relacio-nes
no sean lingüísticas: paradigmáticas (pertenecientes a la lengua, fue-ra
de todo contexto), o sintagmáticas (pertenecientes al discurso, inte-gradas
en su contexto), sino extrasemánticas o asociativas; de forma que
aúnen términos y conceptos reales por su similitud de sentido en el con-texto
específico del usuario48. En su libro de síntesis «Los Lenguajes Do-cumentales
y de Clasificación ... » (1987), parte de la oposición entre tema
45 FUGMANRN.: ,« The five-axiom theory of indexing and information supply»,J our-nal
of the ASIS, 1985, 36 (2), pp. 116-129.
46 Ibidem.
47 Subdividiendo los conceptos por facetas, según caractensticas particulares co-munes
a un grupo de ellas.
48 MANIEZJ,. : LOS lenguajes documentales y de clasificación. Madrid: Pirámide, 1993,
p. 214.
Evolución histórica y tendencias obsewables en los tesauros 367
y comentario (es decir entre «de lo que se hablan y «lo que se dice en ese
hablar»), propia de los lingüistas como Chomsky49, para concluir que:
La tematización por medio de los Lenguajes Documentales es una ac-tividad
informativa esencial, mientras que la enunciación tiene poco va-lor
documental.50
Deweze formalizó (1981) la representación de las relaciones semánti-cas,
con la adopción de una teoria de red semántica extralexical que situó
a un nivel superior al de los lenguajes naturales, en la perspectiva de cons-truir
tesauros multilingües. En esta teoría, un significado se define como
«un conjunto de semas a los que se pueden atribuir relaciones lexicales en
varios idiomas~51.
Las relaciones de los semas se describe con la Teoría de los Grafos que
representa las diferentes configuraciones sémicas. En un sistema docu-mental
semántico una materia se representa por un grafo, los conceptos
son las cumbres y las relaciones son los arcos. Los "parámetros de de-manda"
se representan también mediante un grafo, cuyos arcos y cum-bres
son más o menos precisos. En las búsquedas documentales un pro-grama
compara el grafo de la demanda con los grafos de los documentos
registrados en memoria, y retiene aquellos que contienen conceptos con
estructura más parecida.
Tomando el concepto de red semántica de Deweze, Schaüble (1989)
propone una nueva estructura de la información, el Espacio Conceptual.
Y construye una teoría de los Tesauros Conceptuales, como sistema for-mal
a partir de la lógica matemática del dominio algebraico, que revela
una estrecha relación entre los tesauros y el modelo espacial multidimen-sional,
en la que las relaciones entre términos son definidas con más pre-cisión
que en los tesauros jerárquicos.
Producción de tesauros documentales en lengua española
En España, se aprecian dificultades para la compilación de tesauros,
aunque, los contados ejemplares de finales de los setenta se convertieron
en cerca de 50 en 1984 y alcanzaron la cifra de 187 a finales de 198852.
49 CHOMSKNY.: ,A spects of the Theory of Syntax. Cambridge: MIT, 1965.
Ibidem, pp. 205-208.
DEWEZEA, .: Réseaux sémantiques: essai de modélisation; aplication a l'indexation
et a la reqherche docurnentaire. Lyon: Universidad Claude Bemard. Tesis doctoral, 1981.
52 ALVAROB ERMEJCO. , e t al.: «Evaluaciónd e los Tesauros Disponibles en Lengua Es-pañola
», Revista Española de Documentación Científica, 1989, 12 (3), pp. 283-297.
368 Miguel Angel López Alonso
No existió correspondencia entre la carrera por la automatización en
la mayoría de las Instituciones y la elaboración de los vocabularios con-trolados
para una adecuada Recuperación Documental. Fueron pocas las
Instituciones que acometieron esta tarea con el adecuado rigor científico
y proliferaron microtesauros excesivamente específicos o glosarios que no
alcanzaron a cubrir los requisitos de los Lenguajes Controlados.
La mayor continuidad y rigurosidad se percibió en el ICYT y en el
ISOC, ahora fusionados en el CINDOC del CSIC, que, como antiguos ins-titutos
de información y documentación especializados en ciencias puras
y humanas, respectivamente, tuvieron la oportunidad de atender las peti-ciones
de compilación de tesauros venidas de muy variadas instituciones
nacionales y extranjera^^^.
1 . En la actualidad, los sublenguajes científicos especializados tien-den
a generarse automáticamente a partir del procesamiento del lengua-je
natural de los documentos, y proporcionan alternativas a los términos
de los usuarios durante las búsquedas.
Las bases de conocimientos terminológicas están formadas por tablas,
con nombres y números de clasificación, que pueden visualizarse para la
selección de los términos en los interfases de usuario, e incorporarse den-tro
de una estrategia de búsqueda. Estos lenguajes controlados pueden te-ner
una mínima estructura de referencias cruzadas o de tablas correla-cionadas,
e incluso incluir tesauros multilingües para su uso en las Bases
de Datos Internacionales.
Una de las herramientas de este tipo es la Base de Datos TERM, desa-rrollada
por los Servicios de Recuperación Bibliográfica (BRS), compues-ta
de tablas de conceptos que incluyen términos controlados y texto libre54.
Otro ejemplo es el Diccionario Experimental del Consejo de Europa, reali-zado
por Universidades de Inglaterra, Alemania, Italia, Holanda, España y
Servia desde 1988, que ha pasado a formar parte del Banco de Datos Ter-minológico
EURODICAUTOM en la Dirección General XIII de la CEE.
Dado que en la compilación terminológica debe mantenerse un equi-librio
de esfuerzos entre los procesos de diseño y utilización, previamen-te
deberá establecerse una clara diferenciación entre los sistemas de re-
53 GIL URDICIAINB, .: (congenes y evolución de los tesauros en España», Rev. General
de Infomzación y Documentación, 1998, 8 (l), pp. 64-1 10.
s4 KNAPPS, . D.: ((CreatingB RSJTERM, a vocabulary database for searchers)),D ATA-BASE,
1984, 7(4), pp.70-75.
Evolución histórica y tendencias observables en los tesauros 369
cuperación que utilizan tesauros, cuyos costes se producen al desarrollar-los,
y los que procesan contextualmente el lenguaje natural de los docu-mentos,
cuyos costes se producen al realizar la búsqueda. Estos segundos
se utilizan preferentemente en la recuperación de documentos, dado que
convierten el lenguaje natural del usuario al sublenguaje científico de los
textos, mediante los MAI (machine-aided indexing).
2.") Los Tesauros Documentales Conceptuales, diseñados específi-camente
para ayudar en la enunciación de las preguntas en la fase de
Recuperación de la Información, propuestos por autores como Bates55,
Schmitz-Esser56 o Milstead57, palian en parte la indeterminación de las
búsquedas en Lenguaje Natural, especialmente en aquellas Bases de Da-tos
cuyos documentos con texto completo no han sido previamente indi-zados
con ningún otro tesauro.
Se considera con Kr i~tenseny ~L~ar sson59, que las recuperaciones que
utilizan vocabularios postcontrolados, generados automáticamente a par-tir
del Lenguaje Natural, obtienen muchas de las ventajas de los Lengua-jes
Controlados tradicionales y evitan algunos problemas lexicales de su
uso directo: sinonimias, homografías, etc.
Diversos experimentos en que los usuarios son apoyados, en la enun-ciación
de sus ecuaciones de búsqueda, con términos adicionales extraí-dos
de un tesauro diseñado específicamente para la recuperación con
Lenguaje Natural en grandes Bases de Datos; han aportado avances sig-nificativos
en el conocimiento intrínseco de la relevancia de las recupe-raciones60,
y se ha llegado incluso a doblar la precisión en el número de
documentos recuperados si el usuario selecciona y usa los términos suge-ridos
por un tesauro como adicionales a sus propios términos61.
55 BATESM, . J.: «Subject Access in Online Catalogs: A Design Model»,J ournal of
ASIS, 1986, 37 (6), p. 361.
56 SCHMITZ-ESSWE.R: «, New Approaches in Thesaurus Applicationn, International
Classification, 18 (3), 1991, pp. 143-147.
5 ' MILSTEAJD. L, .: "Invisible Thesauri: the year 2000, ONLlNE & CDROM Review,
1995, 19 (2), pp. 93-94.
5* Ibidem.
59 FREMEER.,, LARSSOBN.,: "SPIRS, WinSPIRS, and OVID: a question of free-text
versus thesaums retrieval?", [carta), Bull. Med. Assoc., 1997, 85 (l), pp. 57-58.
60 CROFTW, . B. y DASR, .: «Experimentsw ith query acquisition and use in document
retrieval systems», en Proceeedings of the 13th Conference on Research and Development in
Infomation Retrieval, Brussels, Belgium, 1990, sept.
KRISTENSEJ.N: ~, ExpandedE nd-user's Query statements for free text searching with a
search-aid thesaunis», Infomation Processing & Management, 1993,29 (6), pp. 733-744.
EKMEKCIOGF.L CU., ROBERTSOA.N M, . y WILLETP.,: ((Effectiveness of query ex-pansion
in ranked-output document retrieval systems~J, ournal of Infomation Science,
1992, 18, pp.139-147.
370 Miguel Angel López Alonso
A pesar de que los tesauros existentes se utilizan poco por la Lingüís-tica
Computacional o la Ingeniería del Conocimiento, en la búsqueda de
soluciones para el procesamiento del lenguaje natural, se ha detectado un
resurgimiento en sus principios que, como herramienta conceptual bien
conocida y establecida, les obliga a incorporar aquellas relaciones que fa-ciliten
la adaptación a sus nuevos usuarios (los agentes expertos o MAI) y
a sus nuevas técnicas, y sustituyan los criterios predominantes en los ex-pertos
humano@.
6* LOPEZA LONSOM, .-A.: "Un Tesauro Conceptual para la recuperación de la infor-mación
jundica comercial", Revista Española de Documentación Científica, 1998, 21 (2),
pp. 164-173.