CAIRN.INFO : Matières à réflexion

Surcharge d’information et outils de catégorisation

1Le nombre de pages sur l’Internet augmente chaque jour. Les moteurs et agents de recherche actuels ont encore besoin d’intelligence pour fournir des réponses plus précises. De récentes études (Spink et al., 2000) ont montré un décalage entre les demandes formulées par les usagers et les possibilités des moteurs. Les usagers expriment leurs besoins à un niveau très générique (un ou deux mots), aboutissant souvent à des surcharges d’information. De plus, les réponses obtenues ne sont guère organisées. Dans le cas du moteur de recherche Altavista (Silverstein, 1998), 85 % des usagers se contentent des dix premiers résultats fournis sur la première page et 78 % des requêtes ne sont pas modifiées pour les améliorer. Par ailleurs, plusieurs études ont montré que les outils mis à la disposition de l’usager final pour explorer le nombre élevé de réponses sont insuffisants et inadaptés. Une des solutions au problème de surcharge d’information consiste à organiser dynamiquement l’ensemble de résultats trouvés en thèmes (catégories). Ainsi l’utilisateur navigue-t-il rapidement dans les résultats de sa requête. Différentes techniques de classification (hiérarchique et non-hiérarchiques) de documents allant de l’utilisation du modèle vectoriel pour la clustérisation jusqu’aux récentes méthodes se basent sur le formalisme neuronal des cartes auto-adaptatives de Kohonen.

2Ihadjadene et Bouché (2000) ainsi que Chan (1995) considèrent que les classifications documentaires jouent un rôle important dans la catégorisation des résultats d’une recherche bibliographique. Thompson et al. (1997) ont proposé des techniques linguistiques et probabilistes permettant d’assigner automatiquement un ou plusieurs indices de classifications à des documents non-bibliographiques (e-mails, groupes de discussions, sites Web, etc.). Enfin, plusieurs travaux récents ont permis de donner un support visuel à cette catégorisation des documents. On peut aussi citer les prototypes suivants : TileBars, Bird (Browsing Interface for Retrieving Documents), Scatter/Gather et InfoCrystal.

3Les concepteurs du moteur de recherche NorthernLight [1] ont développé une technique dite Custom Search Folders qui permet de classer des résultats des recherches dans des dossiers représentant des catégories d’une ontologie construite à la main par des experts. Ces concepteurs ont toutefois introduit de nouveaux facteurs, particulièrement pertinents, dans la composition des dossiers (le type des documents, la source et la langue des pages Web). Le métamoteur Vivisimo [2] classe automatiquement l’information textuelle à la volée dans les dossiers hiérarchiques adéquats en fonction du sens du document. Le moteur Exalead [3] permet, pour chaque requête, d’analyser statistiquement l’ensemble des résultats et de produire une synthèse sous forme de rubriques dans lesquelles sont classés les documents. Contrairement à Vivisimo, Exalead permet d’intégrer dans son modèle de navigation des catégorisations « métiers », comme les annuaires Web, comme l’Open directory ou les annuaires de type pages jaunes.

4La majorité des recherches porte systématiquement sur le versant technique de la catégorisation. Les évaluations de ces outils ainsi que les problèmes cognitifs sont peu abordés. Les rares travaux relatifs à l’évaluation de la pertinence de la catégorisation montrent que les performances sont meilleures quand les sujets disposent de l’outil de catégorisation. Dumais et Chen (2000, 2001) ont comparé deux méthodes de présentation de résultats de recherche : la première est une interface présentant des catégories sous forme hiérarchique, la seconde une interface de liste classée traditionnelle. Ils ont constaté que les participants ont préféré l’interface avec des catégories et étaient 50 % plus rapides dans la découverte de l’information avec la première interface. Ces résultats corroborent les études de (Zamir, 1999). Ce dernier montre que le temps moyen d’une recherche en utilisant une interface de visualisation de l’information est de 72,4 secondes/question alors qu’il est de 99,7 secondes/question pour une interface classique. Enfin, Drori (2000) indique que les interfaces présentant, en plus du titre de document, les premières phrases du document, les termes de recherche et des catégories sont préférables pour les usagers à l’affichage de l’information sans l’inclusion des catégories des documents (Drori, 2000).

Expertise et recherche d’information

5Plusieurs études empiriques mirent en évidence que les stratégies de recherche et de navigation sont soumises à des variabilités inter-individuelles. Ainsi beaucoup d’auteurs ont constaté que l’expertise domaine est un facteur important pour la performance de recherche d’information (Marchionini, 1995), (Tricot et al., 2000). Ils constatent que ce type de sujets formule mieux une requête, exprime des demandes plus spécifiques, discrimine mieux et plus vite que les novices les résultats pertinents, sur un nombre d’informations moins important.

6Dans une revue des systèmes de recherche bibliographique, Kolmayer (1997), constate que l’expertise liée au domaine joue un rôle lorsque la représentation du domaine est sollicitée (demande de recherche, interrogation d’une base hypertexte). Elle intervient également lorsque l’usager dispose des documents. Par contre, lorsque les usagers ne disposent plus que de la représentation de ceux-ci, fournie par les notices, l’expertise du domaine n’intervient plus. Ainsi, les résultats des recherches (HSIEH-YEE, 1993) montrent que la connaissance du domaine est un facteur faible qui n’influe pas sur le déroulement des interrogations d’un catalogue en ligne ou d’une base bibliographique.

7Récemment, dans le cas des moteurs de recherches, des auteurs (Tricot et al., 2000) (Lazonder et al., 2000) et (Palmquist et Kim, 2000) ont tenté de répondre à cette question dans une expérience qui compare une recherche d’information entre deux groupes dont l’un est composé de non utilisateurs du Web et l’autres d’utilisateurs réguliers (les deux étant considérés par ailleurs comme maîtrisant de la même façon le domaine sur lequel portait la recherche d’information). Aucune différence significative entre ces deux groupes n’apparaît : les utilisateurs réguliers du Web ne sont pas plus performants. Plus précisément, les utilisateurs familiers ont fait un usage aussi intempestif qu’inefficace du site Web mis à leur disposition : ouverture de pages non pertinentes de façon fréquente, nombre de nœuds ouverts très grand. Par conséquent une précision très faible les caractérise et leur démarche informationnelle semble irrationnelle et inefficace. Lazonder (2000) montre que les experts de l’Internet arrivent à rechercher de l’information plus vite que les novices de l’Internet. Un des résultats intéressants (Palmquist et Kim, 2000) est que, dans le cas de l’Internet, l’expérience acquise de recherche en ligne peut énormément réduire l’effet de dépendance du domaine.

Méthode

Participants

8Quarante-six étudiants, dont :

  • 24 titulaires d’une licence ou maîtrise en psychologie, 12 étant très familiers avec Internet et 12 très peu;
  • 22 étudiants dans des disciplines autres que la psychologie dont 12 très familiers et 10 très peu.

Tâche

9Trouver sur le Web les définitions de 8 notions de psychologie : conditionnement, instruments de mesure de l’intelligence, types de mémoire humaine, stades du développement cognitif, habituation, effet de l’âge sur les activités cognitives, description des mouvements oculaires, Empan en mémoire de travail.

Procédure

10Les participants étaient invités à trouver les définitions avec le moteur Exalead ; ils pouvaient reformuler leur requête en y ajoutant des mots. Pour une moitié des questions, ils étaient invités à se servir des catégories des informations placées sur la partie gauche de l’écran et à ne pas utiliser ces catégories pour l’autre moitié des questions.

11Les variables dépendantes sont les suivantes :

  • nombre des réponses correctes : à chaque réponse correcte est attribué soit 0,5, soit 1 en fonction de la qualité de la réponse donnée ;
  • le type de réponse donné: abandon, réponse incorrecte, réponse partiellement correcte (0,5) et réponse tout à fait correcte (score 1) ;
  • le nombre de pages Web manipulées, en cliquant sur un lien ;
  • le nombre de reformulations ;
  • le temps passé sur la page du moteur de recherche et le temps passé sur les pages Web ;
  • le temps total passé dans l’épreuve.

Résultats

Expertise dans le Domaine et en Internet

12On a codé les réponses des sujets en correctes, incorrectes et abandons au cours de la recherche. La figure 1 présente la somme des scores des réponses jugées correctes (0,5 + 1) en fonction des deux types d’expertise. En abscisse, G1-1 : experts en Internet et dans le Domaine; G2-2 : novices en Internet et dans le domaine.

13Les participants experts dans le domaine ont un score moyen supérieur à celui des novices dans le domaine (5,330 versus 4,358), (F1/42 = 6,365 p < .015). Les sujets experts en Internet ont aussi une performance supérieure à celle des novices en Internet (5,416 versus 4,275), (F1/42 = 8,727 p < .005).

14Les réponses étant classées de manière différente (abandon, incorrecte, partiellement correcte – 0,5 – et parfaitement correcte –1-), la figure 2 présente la distribution des réponses selon les deux types d’expertise et les 4 types de réponses : R niveau 1 : abandons ; R niveau 2 : réponses incorrectes ; R niveau 3 : réponses partiellement correctes ; R niveau 4 : réponses parfaitement correctes.

15L’analyse de variance montre que les réponses parfaitement correctes sont plus souvent données que les autres réponses (F3/126 = 65,768 p < .0000). On observe une interaction entre l’expertise dans le domaine et le type de réponses données (F3/126 = 2,721 = .047). Mais l’interaction expertise en Web et le type de réponses est aussi significative (F3/126 = 5,216 p < .001) ; elle suggère que les novices en Web tendent à avoir plus de réponses de type abandon et incorrectes que les experts en Web.

Figure 1

Moyennes des réponses correctes en fonction des deux types d’expertise

Figure 1

Moyennes des réponses correctes en fonction des deux types d’expertise

Figure 2

Distribution des différents types de réponse en fonction des deux expertises

Figure 2

Distribution des différents types de réponse en fonction des deux expertises

Expertise dans le Domaine, en Internet et en fonction de l’utilisation des catégories placées à gauche de l’écran

16La figure 3 présente les moyennes correctes (somme de 0,5+1) en fonction des deux types d’expertise et en fonction des réponses données avec la possibilité de tenir compte des catégories des informations placées à gauche de l’écran ou sans cette possibilité.

Figure 3

Moyennes des réponses correctes en fonction des deux expertises et en fonction de l’utilisation des catégories des informations. C1 : avec catégorie ; C2 : sans catégorie

Figure 3

Moyennes des réponses correctes en fonction des deux expertises et en fonction de l’utilisation des catégories des informations. C1 : avec catégorie ; C2 : sans catégorie

17Les facteurs expertises dans le Domaine et en Internet sont significatifs (F1/42 = 6,365 p < .015 et F1/42 = 8,727 p < .005). Le facteur possibilité d’utilisation des catégories est aussi significatif (F 1/42 = 51, 460 p < .000) ; en effet le score moyen sans utilisation des catégories est supérieur au score moyen avec utilisation des catégories (3,695 versus 1,149). L’interaction entre expertise en Internet et la possibilité d’utiliser des catégories est aussi significative (F 2 = 6,021 p < .018) ; cette interaction suggère que ce sont les novices dans le Domaine qui sont le plus négativement affectés par l’utilisation de ces catégories.

Nombre de pages manipulées en fonction de deux types d’expertise (Domaine et utilisation d’Internet)

18La figure 4 présente le nombre de pages-écran manipulées pendant la recherche en fonction des deux types d’expertise.

19L’analyse de variance montre que les deux facteurs concernant les deux expertises sont significatifs (F1 2 = 4,10 p < .049 et F1/42 = 18,178 p < .000). L’interaction des deux facteurs est aussi significative (F 1/42 = 28,902 p < .0000).

20Les analyses planifiées montrent une différence significative entre les participants experts dans le domaine selon qu’ils sont ou non experts en Internet : s’ils sont experts en Internet, ils manipulent plus de pages que s’ils ne sont pas experts (29,5 versus 4,083, F1/42 = 48,784 p < .0000). On observe aussi une différence significative chez les experts en Internet, selon qu’ils sont experts ou non dans le Domaine ; s’ils sont experts dans le Domaine ils manipulent en moyenne 29,5 pages-écran versus 20,666 s’ils ne sont pas experts dans le domaine (F 1/42 = 5,892p <.019). Chez les participants non experts en Internet, ceux qui sont experts dans le Domaine manipulent significativement moins de pages que ceux qui sont novices (4,083 vs 23,6, F26,149 p <.00). Enfin chez les novices dans le Domaine on n’observe pas de différences, selon qu’ils sont experts ou non en Internet (20,666 pages écran versus 23,666).

Figure 4

Moyennes des pages manipulées en fonction des deux types d’expertise. G-1-1. Experts dans le Domaine et dans Internet ; G2-2. Novices dans le Domaine et dans Internet

Figure 4

Moyennes des pages manipulées en fonction des deux types d’expertise. G-1-1. Experts dans le Domaine et dans Internet ; G2-2. Novices dans le Domaine et dans Internet

Indice de «productivité » de la manipulation des pages-écran et indice de «productivité » des reformulations

21Le nombre total de pages-écran a été divisé par le total des réponses correctes (0,5 +1) pour avoir un indice de la « productivité » de la manipulation des pages. On observe une différence significative chez les experts en Web ; les experts en Web sont plus « productifs » que les novices (F1/42 = 5,459 p < .024).

22On a aussi divisé le nombre de reformulations produites par le nombre de réponses correctes. On considère comme reformulation tout nouvel ajout de mots à l’écriture de la première requête. Premièrement, les experts dans le Domaine reformulent plus souvent la requête que les novices dans le domaine (15,350 versus 12,35, F1/42 = 4,293 p < .044). Ensuite les experts en Web ont tendance à être plus « productifs » dans leurs reformulations que les novices en Web (F 1/42 = 3,878 p < .055).

Analyse des temps de recherche

23Le temps total de recherche est équivalent dans les quatre groupes. Le temps passé sur la page du Moteur de recherche est supérieur au temps passé sur les pages Web (25 minutes environ versus 13 minutes, F 1/42 = 39,126 p < .000).

24Enfin on observe que la «productivité » (division du temps total par le nombre de réponses correctes) des sujets novices en Internet est inférieure à celle des experts en Internet (F1/42 = 7,132 p < .010).

Discussion

25Comme on pouvait s’y attendre, les experts dans le Domaine de la psychologie expérimentale cognitive et les experts dans l’utilisation d’Internet ont les meilleures performances ; en outre, un type d’expertise n’est pas supérieur à l’autre. Ceci suggère des mécanismes de compensation entre les compétences relatives à la connaissance dans le Domaine et le peu de compétences dans le cas de faibles compétences dans l’utilisation d’Internet et réciproquement.

26L’examen des différents types de réponses (abandons, réponses incorrectes et réponses partiellement et parfaitement correctes) va dans le même sens ; les deux types d’experts ont tendance à donner plutôt des réponses parfaitement correctes alors que les deux types de novices ont tendance à donner plus de réponses de type omissions et réponses incorrectes.

27On constate cependant que les experts dans le domaine mais peu familiers avec l’outil informatique consultent significativement moins de pages Web, ceci traduisant sans doute une difficulté à s’engager dans la recherche.

28L’indice de « productivité » relatif à la consultation des pages Web n’est significativement bas que chez les participants peu familiers avec le Web (qu’ils soient experts ou novices dans domaine) ; on observe le même phénomène en ce qui concerne le nombre de reformulations de la requête ainsi que dans le coût temporel des réponses correctes. Ces trois résultats suggèrent que l’absence de familiarité avec Internet rend la recherche d’information plus difficile cognitivement. Ainsi, de façon générale, les novices en Internet sont moins performants que les experts ; les novices en Internet ont une « productivité » globale plus faible que les experts en Internet. Par conséquent, le savoir faire associée à la recherche a un effet sur le rendement ; cependant, un tel effet n’apparaît pas en ce qui concerne les compétences dans le domaine.

29Enfin, l’utilisation des catégories à gauche sur l’écran a un effet négatif sur la recherche. La catégorisation proposée par le système conduit probablement à présenter des classes d’informations peu pertinentes par rapport à la question posée. Par exemple, pour la notion de « Conditionnement », le système propose des catégories en relation avec le conditionnement des produits, de la nourriture, qui n’ont rien à voir avec la notion de conditionnement en termes d’apprentissage. On peut penser que les participants chercheront à tirer profit de ces catégories pour les étapes suivantes de leur recherche, mais la non pertinence de beaucoup d’entre elles produira des effets d’interférence. Cet effet négatif apparaît plus fortement chez les novices dans le domaine ; on peut penser que ceux-ci auront plus de difficultés que les autres à différencier ce qui est pertinent de ce qui ne l’est pas en raison de leur manque de connaissances dans le domaine.

30Il serait intéressant d’effectuer des études similaires sur des portails spécialisés, utilisés avec Exalead et sur des utilisateurs professionnels en activité. On devrait de plus comparer les résultats obtenus par nos expérimentations avec ceux obtenus par l’analyse des traces (fichier log) des usagers.

Français

Une des solutions au problème de surcharge d’information, consiste à organiser dynamiquement l’ensemble de résultats trouvés en thèmes (catégories). L’utilisateur peut ainsi naviguer rapidement dans le résultat de sa requête. L’objectif de cette recherche est d’examiner comment l’activité de recherche d’informations dans un domaine conceptuel précis pouvait être améliorée selon que les participants (experts ou non dans ce domaine et experts ou non dans l’utilisation d’Internet) avaient à leur disposition la liste de réponses regroupées en catégories. La tâche consistait à trouver sur le Web huit définitions relevant du domaine de la psychologie expérimentale cognitive. Les résultats montrent que l’expertise (dans le domaine et dans l’utilisation d’Internet) améliore l’activité de la recherche alors que la mise à la disposition de catégories d’informations (à gauche de l’écran) affecte négativement la recherche. Les experts dans le domaine ont produit plus de reformulations mais l’absence de familiarité dans le Web tend à augmenter le coût de ces reformulations. Tous les participants ont passé plus de temps sur la page du moteur de recherche que sur les pages Web.

Mots-clés

  • moteur de recherche
  • différences interindividuelles
  • surcharge d’information
  • interface hommemachine

Références bibliographiques

  • En ligneChan, L. M., « Classification, present and future », cataloging and classification quarterly, 21 (2), 1995, p. 5-17.
  • Ding, W., Marchionni, G., «A Comparative Study of Web Search Service performance », proceedings of the American Society for Information Science, 1996.
  • En ligneDrori, O., « The Benefits of Displaying Additional Internal Document Information on Textual database Search Results Lists », ECDL, 2000 (September 2000, Lisbon, Portugal), Lecture Notes in Computer Science, n° 1923, Berlin, Springer Verlag, 2000, p. 69-82.
  • En ligneDumais, S., Hao Chen, « Hierarchical classification of Web content », 2000, p. 256-263.
  • En ligneDumais, S., Cutrell, E., Chen H., « Optimizing search by showing results in context », 2001, p. 277-284.
  • En ligneHsieh-Yee, I., « Effects of Search Experience and Subject Knowledge on Online Search Behavior : Measuring the Search Tactics of Novice and Experienced Searchers », Journal of the American Society for Information Science, 44, 1993, p. 161-174.
  • Ihadjadene, M., Bouché, R. « The dynamique nature of searching and browsing on web-opacs : the Cathie experience », in proceedings of the 6th International ISKO conference, de Beghtol, C., Howarth, L., Williamson, N. (dir.), 10-13 juillet Toronto, Canada, 200, 2000, p. 327-332.
  • Nasse-Kolmayer, E.,, « Contribution à l’analyse des processus cognitifs mis en jeu dans l’interrogation d’une base de données documentaires », thèse, université René Descartes, Paris 5, Psychologie, 1997 (en ligne).
  • Adresse URL: [http://www.enssib.fr/bibliotheque/cadre_travaux_etudiants_chercheurs.html].
  • En ligneLazonder, A. W., Biemans, H. J. A., Wopereis, G. J. H., « Differences between novice and experienced users in searching in the Worl Wide Web», Journal of the American Society for Information Science, 51 (6), 2000, p. 576-581.
  • En ligneMarchionini, G., Information Seeking in Electronic Environments, Cambridge, Cambridge University Press, 1995.
  • Marchionini, G., Lin, X., Dwiggins, S., « Effects of the usesr’s knowledge on searching in a hypertext environment », in proceedings of the 53rd ASIS Annual Meeting (vol. 4-8, 1990, Toronto, Canada), 1990 (p. 129-142).
  • Moss, N. C. and Hale, G. G., « Cognitive style and its effect on Internet search strategies : A quantitative investigation », presented at the European Educational Research Association Annual Conference, Lahti, Finland, 1999.
  • En ligneNahl, D., Tenopir, C., « Affective and Cognitive Searching Behavior of Novice End-Users of a Full-Text Database », Journal of the American Society for Information Science, 47, 1996.
  • En lignePalmquist, R. A., Kim, K., « The Effect of Cognitive Style and Online Search Experience on Web Search Performance », Journal of the American Society of Information Science : Special Topics Issue on Individual Differences in Virtual Environments, 51(6), 558-567, avril 2000.
  • En lignePratt,W., « The Usefulness of Dynamically Categorizing Search Results », Journal of the American Medical Informatics Association (JAMIA), 7(6), 2000, p. 605-617.
  • Silverstein, C., « Analysis of a very large Altavista query log », SRC technical Note 1998-014, Digital, Palo Alto, 1998.
  • En ligneSpink, A., Jansen, B. J., Ozmultu, H. C., « Use of query reformulation and relevance feedback by Web users », Internet Research, Electronic Networking Applications and Policy, 10(4), 2000, 317-328.
  • Tricot, A., Drot-Delange, B., Foucault, B., El Boussarghini, R., « Quels savoir-faire les utilisateurs réguliers du Web acquièrent-ils ? », Journal d’Intelligence Artificielle, 14, (1/2), 2000, p. 93-112.
  • En ligneZamir, O., « Grouper: A Dynamic Clustering Interface toWeb Search Results », WWW8 / Computer Networks, 31(11-16), 1999, p. 1361-1374.
Madjid Ihadjadene
Maître de conférences en sciences de l’information et de la communication. Université de Paris X-Nanterre. Centre de recherche en information spécialisée et en médiation des savoirs, Cris-Series.
Daniel Martins
Professeur à l’université de Paris X-Nanterre, équipe psychologie cognitive des conduites complexes, processus cognitifs et conduites interactives.
Mis en ligne sur Cairn.info le 11/11/2013
https://doi.org/10.4267/2042/9475
Pour citer cet article
Distribution électronique Cairn.info pour CNRS Éditions © CNRS Éditions. Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent article, de le stocker dans une banque de données ou de le communiquer au public sous quelque forme et de quelque manière que ce soit.
keyboard_arrow_up
Chargement
Chargement en cours.
Veuillez patienter...