User:Tanibaye2003

Management de l’information
La dématérialisation des documents

I. La dématérialisation des documents : de quoi s’agit-il ?

Pour comprendre le concept de numérisation nous allons définir les techniques préalables qui le favorisent.

1. La numérisation

La numérisation est l’opération technique qui consiste à transférer le contenu et les caractéristiques formelles d’un document sur support papier ou film vers un support numérique. Cette opération se fait en général par le biais d’un scanner qui restitue une image point par point du document d’origine, en noir et blanc ou en couleur. Une autre technique de numérisation, moins fréquente et qui concerne surtout les plans, est la vectorisation qui base la transposition sur le calcul des coordonnées de chaque trait du dessin, permettant ainsi, lors de l’agrandissement de l’image, d’avoir toujours une définition parfaite, alors que l’image issue du scan perd de la netteté au fur et à mesure que l’on zoome (sauf en cas de haute définition). Dans le langage courant, numériser équivaut à scanner. Le format le plus courant est le PDF mais il existe d’autres formats de données, notamment le TIFF (dans l’éditique par exemple) et le format image JPEG. Se greffent ensuite sur le scan diverses technologies de traitement de l’image. La plus significative est la reconnaissance de caractères (OCR) qui retransforme l’image d’un texte en mots pour faciliter la recherche d’information et l’indexation. La numérisation de documents papier ou film pose la question du retour sur investissement de l’opération qui peut se trouver : dans une plus grande rapidité de traitement d’une l’information partagée ou d’accès à l’information dès lors qu’elle est en ligne et non plus dans des archives papier éloignées ; ou bien dans le fait que l’état du support initial était tellement dégradé que la numérisation était le seul moyen de le préserver (cas de vidéos analogiques par exemple) ; ou bien encore dans le gain du stockage papier (dans le cas où les documents papier sont détruits après scan) ; malheureusement, le devenir des papiers numérisés n’est pas toujours pris en compte au début de l’opération, ceci conduisant parfois à des incohérences. En effet, la numérisation s’oppose en quelque sorte à la production native de documents numériques, c’est-à-dire sans passer par la case papier. Alors que l’écrit électronique est reconnu par le droit européen depuis 1999, il faudra bien cesser un jour de fabriquer des documents papier pour les scanner, sans parler d’imprimer ensuite les scans…

2. La dématérialisation

Face au procédé technique de numérisation qui vise un stock ou un flux de documents, le terme dématérialisation est assez général, assez large et surtout ambigu, avec des définitions conceptuelles ou globales. « La dématérialisation consiste à substituer à un produit physique existant, un produit n’ayant aucune existence physique ou un service » écrit Gilles de Chezelles dans son livre La dématérialisation des échanges (Hermes Science Publishing, Lavoisier, 2007). Autre explication (sur le site http://www.infogreffe.fr ) : « La dématérialisation a pour objet de gérer de façon totalement électronique des données ou des documents métier (correspondances, contrats, factures, brochures, contenus techniques, supports administratifs,…) qui transitent dans les entreprises et/ou dans le cadre d’échanges avec des partenaires (administrations, clients, fournisseurs). » La dématérialisation peut donc inclure (et inclut souvent dans le langage des utilisateurs) la numérisation mais peut aussi exclure tout lien avec un support analogique et ne manipuler que des données. La « vraie dématérialisation » est évidemment celle du cercle vertueux qui conduit à penser numérique, à mieux comprendre les technologies numériques pour mieux les utiliser comme support ou vecteur de l’information, plutôt que continuer à « penser papier » et à tordre la technologie pour qu’elle s’adapte à cette pensée, ce qui est d’une certaine manière contre-nature (à supposer que la technologie ait une nature…) ou qui, du moins, ne va pas dans le sens de l’histoire. Autrement dit, la « vraie dématérialisation » est la dématérialisation des processus. Digitalisation est un anglicisme qui est employé aussi bien pour numérisation que pour dématérialisation, ce qui entretient un peu plus la confusion… En résumé, et indépendamment des mots, il convient de faire la différence entre, d’une part, l’action de transformer un objet analogique en objet numérique et, d’autre part, la démarche de concevoir un système fiable de production, diffusion et conservation de documents (au sens large d’objets d’information qui supportent un contenu qui informe sur un fait ou une idée) nativement numériques. En résumé, la dématérialisation a pour objet de gérer de façon totalement électronique des données ou des documents (actes d’état civil, casiers judiciaires, correspondances, contrats, factures, brochures, contenus techniques, supports administratifs…) qui transitent au sein des administrations publiques ou privées (entreprises) dans le cadre d’échanges avec des partenaires. C’est le remplacement des documents papiers par des fichiers informatiques est le concept type de l’administration électronique

II. La dématérialisation se substitue à quelle gestion (matérielle et informatique avant les réseaux).

La dématérialisation représente l’un des premiers piliers de la transformation digitale des organismes publics et privés. Elle consiste à substituer des supports d’information matériels par des fichiers numériques ou à créer directement des documents numériques pour les intégrer à un processus. La dématérialisation permet ainsi une meilleure gestion et facilite l’accès aux données et aux documents, qu’ils soient internes ou issus de contacts externes. Plus globalement, ce processus d’informatisation inclut :

• La dématérialisation des documents qui consiste à la numérisation de documents papiers comme les courriers, les factures et les bulletins de salaire.

• La dématérialisation des échanges qui est un processus accéléré par le développement d’Internet.

• La dématérialisation des processus métier qui représente un levier de fiabilité et de productivité pour les différents services d’une entreprise (achats, comptabilité, gestion commerciale, marketing, etc.).

Pourquoi doit – on dématérialiser ?

• Face aux volumes croissants des documents traités quotidiennement, la dématérialisation représente un sujet d’actualité car elle permet d’optimiser leurs performances. Il est donc nécessaire de rappeler ses avantages :

• Gain de temps dans le traitement, le partage, l’archivage et la consultation du contenu numérique, en tout lieu et à tout moment.

• Réduction des coûts : la dématérialisation mène à réduire les coûts de traitement (impression, photocopie, affranchissement et stockage) et à soutenir le développement durable.

• Meilleure gestion relationnelle avec l’ensemble des acteurs d’une organisation avec l’émergence de plateformes de partage communautaire encourageant le travail collaboratif.

• Réduction des délais permettant une réactivité à tous les niveaux (collaborateurs, fournisseurs, clients, concurrents).

Le Web Social

Introduction

Le Web social fait référence à une vision d'Internet considéré comme un espace de socialisation, un lieu dont l'une de ses fonctions principales est de faire interagir les utilisateurs entre eux afin d'assurer une production continuelle de contenu, et non plus uniquement la distribution de documents. Il est considéré comme un aspect très important du Web 2.0. En particulier, il est associé à déférents systèmes sociaux tels que le réseautage social, les blogs ou les wikis.

1. Historique

En 1955, le terme Social Web apparait sous la plume de l'auteur C. Krey dans l'essai History and the Social Web publié par les presses de l'université du Minnesota. Au début des années 1990, les idées associées à ce concept ont aussi été utilisées relative aux systèmes en ligne utilisés pour supporter les interactions sociales telles que les communautés virtuelles ou les MUD (ou Multiuser dungeon, qui sont les jeux de rôle en ligne multiutilisateurs). En1998, le terme Social Web a été utilisé dans un article de Peter Hoschka qui décrivait le passage d'une utilisation des ordinateurs et du web comme de simples outils de coopération à un usage de l'ordinateur comme un médium social : From Basic Groupware to the Social Web (c'est à-dire : “Du simple travail de groupe au Social Web”). En juillet 2004 ce terme a aussi été utilisé dans un article décrivant une utilisation de XDI (XRI Data Interchange une technique d'échange d'information) pouvant intervenir dans le cadre de la conception d'applications web plus sociales (voir la section dédiée à ce sujet plus loin dans cet article). Finalement, à partir de 2005, ce concept a aussi connu un développement très important avec l'arrivée du Web2.0, avec lequel il est très fortement lié, du fait de l'importance qui est donnée à la participation des individus.

2. L'évolution du web social

Le web social va rapidement devenir une manière de penser : beaucoup de personnes vont sur les réseaux sociaux au moins une fois par jour, et le temps de visite moyen de Myspace en 2008 était autour de 36 minutes (la longueur d'une série télévisée). En outre, la croissance exponentielle du web social depuis les années 1990 n'a pas prévu de décroitre pour le moment : moins de 20 % de la population mondiale est connectée à Internet, le web social est ressenti par certains comme étant encore à ses balbutiements. La frontière entre les réseaux sociaux et les médias sociaux est de plus en plus floue avec des sites comme Facebook et Twitter incorporent davantage de photos, vidéos, et d'autres fonctionnalités typiques des médias sociaux sur les profils publiques des utilisateurs, comme les médias sociaux ont intégré plusieurs caractéristiques des réseaux sociaux dans leur propre interface. Un changement notable est apparu avec la fusion des réseaux et médias sociaux, qui transforme les applications du web social en un écosystème centré sur l'utilisateur. Bien qu'il y ait eu de nombreuses discussions autour du sens des communautés sur le web avant ces innovations, les logiciels du web social moderne offrent un plus large choix d'interactions sociales, comme «devenir ami» ou « suivre » une personne, ou même envoyer des bisous et des cadeaux virtuels. Les applications du web social sont généralement construites avec de la programmation orientée objet, utilisant des combinaisons de plusieurs langages de programmation, comme Ruby, PHP, Python, et/ou Java. Des API sont souvent utilisées pour attacher des sites Internet non-sociaux à des sites sociaux, comme Campusfood.com.

➢Blogs et wiki

Les blogs et les wikis sont d'excellents exemples de la collaboration à travers Internet, une caractéristique de l'interaction du groupe qui caractérise le Web social. Les blogs sont utilisés comme BBS[Quoi?] au XXIe siècle sur lesquels les gens peuvent envoyer des discussions, tandis que les wikis sont construits et édité par quiconque autorisé à y accéder.

➢Blogs et wiki

Les Blogs et les Wikis permettent aux utilisateurs de partager des informations et s’éduquer les uns les autres, ces interactions sociales sont centrées sur le contenu et la signification. Les blogs et les wikis sont utilisés par ceux qui les écrivent et les références en tant que ressources.

➢Blogs et wiki

Les blogs permettent à des membres de partager leurs idées et à d'autres membres de les commenter; alors que les wikis facilitent la collaboration du groupe : ces deux outils permettant d'ouvrir une passerelle de communication dans lequel l'interaction sociale permet de développer le web.

➢Blogs et wiki

Ces sites sont utilisés par les enseignants et les étudiants pour atteindre l'objectif de partager l'éducation, et de travailler dans une communauté avec d'autres chercheurs. Ceci permet aux utilisateurs de voir différentes interprétations de sujets similaires, ou au contraire de partager des ressources qui pourraient ne pas être à leur disposition.

➢L’Art Social

Les artistes utilisent le Web social pour partager leur art, qu'il s’agisse d'art visuel sur des sites comme deviantART, l'art vidéo sur YouTube, l'art musical sur YouTube ou iTunes, ou l'art physique, tel que l'affichage et la vente d'objets artisanaux sur Craigslist.

➢L’Art Social

Les artistes choisissent de mettre en ligne leur art de sorte qu'ils aient des critiques sur leur travail, ils ont ainsi la satisfaction de savoir que d'autres peuvent découvrir et apprécier leur travail.

➢L’Art Social

Avec cette nouvelle génération du web social, les étudiants passent plus de temps en utilisant des outils sociaux comme les ordinateurs, jeux vidéo, caméras vidéo et les téléphones cellulaires. Ces outils permettent à l'art de partager facilement, et aident à la discussion.

➢Le développement d’applications mobiles

La plupart des applications mobiles récentes, et même les applications web, proposent des kits de développement d'applications pour les développeurs. Les développeurs peuvent créer leurs applications et les partager avec les utilisateurs par l'intermédiaire d'un « marché des applications ».

➢Le développement d’applications mobiles

Les utilisateurs de ces applications peuvent partager leurs expériences en laissant des commentaires, ce qui permet aux autres utilisateurs de voir leurs commentaires et ainsi avoir un aperçu de ce à quoi ils peuvent s’attendre en utilisant ces applications. Un système de notation est également proposé en complément des commentaires. Les applications mobiles sociales sont construites en utilisant diverses API.

➢Le développement d’applications mobiles

Ces API permettent l'interconnexion de données en une seule base de données sociale que ce soit sur Facebook, Twitter, ou un compte Google, créant ainsi une véritable connexion de données. Ces applications ajoutent ensuite l'expérience utilisateur à l'application elle-même. Les exemples incluent Tweet Decket Blogger (service).

➢Des projets de logiciels communautaires

Grâce à l'utilisation du Web social, nombre de développeurs de logiciels ont choisi de participer à des projets communautaires des logiciels libres. Les évolutions du système d'exploitation GNU/Linux sont des parfaits exemples de l'efficacité et de l’efficience de ce genre de collaboration.

3. Du web social à la vie réelle

Le web social a changé la manière dont les individus peuvent partager des informations personnelles, se rencontrer, faire leurs courses ou rechercher du travail. On partage désormais ses préférences, ses opinions et ses activités avec des groupes d'amis que l'on n'aurait parfois jamais rencontrés sans le web social. Un bon nombre de sites utilisent l'interaction sociale en ligne en vue d'une interaction dans la vie réelle. Des relations interindividuelles sont formées via Internet et peuvent devenir plus personnelles qu'à travers les autres formes de communication. Le web social facilite les mises en relation dans la vie réelle : les rencontres sur Internet peuvent être exécutées par le biais des sites de rencontres ou ailleurs, de manière moins formelle : certains sites permettent de trouver des partenaires pour faire des sorties (OVS), faire du sport ou pour organiser des tournois de jeux en ligne. D'autres sites offrent la possibilité d'organiser des rencontres dans un but d'apprentissage linguistique. Quelques sites sont également spécialisés dans les échanges de services avec son voisinage. D'autres permettent d'organiser des rencontres thématiques où les inscrits échangent des réflexions ou des expériences sur un sujet donné.

4. Cas pratique : créer un wiki

https://fr.wikihow.com/cr%C3%A9er �un-wiki

https://community.wikia.com/wiki/Spec ial:CreateNewWiki

La Recherche d’Information

INTRODUCTION

Qu’est-ce que la Recherche d’Information ?

La Recherche d‘Information peut se définir sommairement comme un ensemble d'opérations effectuées dans le but de satisfaire un besoin d’information. Il s'agit plus précisément, dans la majorité des cas, d’un processus interactif entre, d'une part, un système informatisé, composé principalement d’une interface et d'une base de données, et, d'autre part, un utilisateur. Dans le cadre de ce processus, l'utilisateur tente de trouver, à l'aide de l'interface du système, des informations pertinentes contenues dans la base de données qui lui permettront de satisfaire, en totalité ou en partie, son besoin informationnel. Grâce à la prolifération des sources d'information, à la simplification des systèmes (en particulier des interfaces), à la mise en place de réseaux de télécommunication, et au développement du web, la recherche d'information est une activité humaine qui, depuis quelques années, a pris une importance capitale dans les sociétés modernes, notamment sur les plans économique, social et politique. Les opérations découlant du processus de recherche d'information se trouvent au cœur même de la chaîne documentaire : en aval du traitement mais en amont de la diffusion. Avec la recherche d'information, on entre de plain-pied dans la sphère que l’on qualifie traditionnellement en bibliothèque de «services publics». En effet, les opérations de recherche nécessitent l'intervention d'un intermédiaire expert (recherche déléguée à un bibliothécaire, spécialiste de l'information) qui effectuera les recherches pour demandeur d'information, soit la conception de systèmes dans lesquels les demandeurs d'information pourront effectuer directement la recherche de façons autonomes ou semi-autonomes.

1. Les fondements, les concepts et les composantes

1.1 Les fondements historiques

Les systèmes informatisés de recherche d'information se sont d'abord développés grâce aux percées effectuées en recherche dans le domaine du repérage d'information au cours des années 1950 et 1960. […] L'abondante documentation accumulée durant la Deuxième Guerre Mondiale, en particulier aux États-Unis, posait des problèmes de repérage sans précédent, et les systèmes manuels ou mécanisés mis en place jusqu'alors ne suffisaient plus à répondre à la demande. L'avènement des ordinateurs ouvrait de nouvelles avenues à explorer, non seulement pour le stockage d'information mais aussi pour la manipulation de texte et la création automatique d'index. Parmi les premières recherches souvent citées dans le domaine, mentionnons celles de Hans Peter Luhn (chez IBM) qui démontra de façon concluante qu'il était notamment possible, avec de simples analyses de fréquence effectuées par exemple sur un texte de résumé, d'en déterminer et d'en extraire les termes significatifs (mots-clés). Pour identifier les termes représentatifs du contenu d'un document, l'idée générale avancée par Luhn était d'éliminer les termes peu fréquents, ainsi que les termes dont la fréquence d'apparition est très élevée comme les articles et les prépositions (Luhn 1958,160-161). Pour Bar Hillel (1959), ajoutant aux travaux de Luhn il suggère que pour une sélection plus adéquate des mots-clés, on doit également tenir compte de la fréquence d'apparition des termes dans la langue dans son ensemble, car cet élément agit comme valeur de discrimination. Cette proposition est à la base de ce que l'on appelle la «fréquence inverse des documents» (inverse document frequency — idf), méthode formellement élaborée quelques années plus tard par Sparck Jones (1972) et qui est une des techniques les plus utilisées encore de nos jours pour identifier automatiquement les termes importants (porteurs de sens) dans un document.Dans les années 1960, l'élaboration d'importantes bases de données bibliographiques - notamment dans les domaines médical, juridique et journalistique -, jumelée à l'élaboration de systèmes interactifs de repérage d'information, a permis de mettre en place les premiers systèmes commerciaux de recherche d'information. C'est ainsi que naissaient, en 1972, Dialog et en 1973 LexisNexis, deux des plus gros systèmes commerciaux de recherche d'information encore actifs de nos jours. Le rapide succès commercial de ces applications a favorisé l'émergence d'une véritable industrie de la recherche en ligne (Bourne et Hahn 2003, 279-352).Parallèlement, la recherche sur le repérage d'information s'est intensifiée avec notamment la mise en place de systèmes de bancs d'essai pour mesurer de façon empirique la performance des systèmes de repérage d'information. Pendant ce temps, sur le terrain, on assiste au début des années 1980 à une véritable explosion du nombre de bases de données bibliographiques, factuelles et numériques, ainsi qu'à l'émergence de plusieurs autres systèmes commerciaux fournissant des services de recherche d'information en ligne (Gale, 2008). Une forte compétition résultant de cette rapide, croissance a permis compte tenu de la baisse des coûts d'utilisation d'étendre significativement le bassin d’utilisateur. De plus, vers le milieu des années1980, divers facteurs ont contribués à la démocratisation de la recherche d’information. Les efforts investis dans la simplification des interfaces et des langages d’interrogation, l’apparition de nouveaux supports de diffusion tels que le CD-ROM et l'émergence des catalogues de bibliothèque informatisés ont fait que le demandeur d'information était maintenant en mesure, à la suite d’une formation initiale de base, d'effectuer lui-même ses recherches sans nécessairement avoir besoin de demander l'aide d'un intermédiaire expert. Vers la fin des années 1980, la recherche se penche plus sérieusement sur un facteur jusqu'alors quelque peu délaissé par la communauté scientifique : l'utilisateur (Ellis 1992). Sont alors étudiés les besoins des usagers leurs compétences et comportements informationnels, ainsi que les procès cognitifs impliqués dans la recherche d'information. La Recherche d’Information Cet intérêt accru pour les utilisateurs de systèmes d'information correspond à la période de grande croissance dans le domaine de la recherche d'information stimulée par le développement d'Internet et plus particulièrement l'émergence du web. Dès la fin des années 1990, la grande majorité des systèmes commerciaux mettent au point des interfaces grand public qu'ils rendent accessibles via le web (moyennant, dans la majorité des cas, des frais d'accès ou d'abonnement). Parallèlement, les contenus publics disponibles sur le réseau Internet sont également reconnus comme d'importantes sources d'information. Dans la foulée sont créés des outils de recherche spécifiquement dédiés au repérage de l'information contenue sur le web. Certains de ces outils sont devenus les gigantesques moteurs de recherche que nous connaissons (Google, Yahoo!, Live Search [MSN], Ask) et qui indexent de substantielles portions du web en texte intégral. Étant donné la vaste quantité d'information à traiter ainsi que le manque flagrant de structure dans cet océan documentaire, ces systèmes misent grandement sur le développement d'algorithmes sophistiqués pour déterminer automatiquement la pertinence des résultats de recherche afin de les classer. Avec l'apparition de ce genre d'outils, de nombreuses techniques expérimentales sont pour la première fois mises en application. L'accès direct à l'intégralité du texte en format numérique est vite devenu une réalité bien intégrée par les usagers et, de ce fait, un élément exigé qui ne peut maintenant plus être négligé dans les systèmes d'information. Au début des années 2000, les avancées technologiques ont permis de développer et de mettre en place des protocoles pour relier les données bibliographiques, contenues dans les bases de données et les catalogues, aux documents (textuels ou autres) décrits dans ces outils. De nos jours, l'intégration de plus en plus poussée du web dans la vie quotidienne incite de nombreux utilisateurs à participer activement et collectivement à l’élaboration et au développement d’importantes ressources d’information. Les blogs, les wikis et les sites de partage d’information qui sont apparus il y a quelques années constituent déjà une part importante de l’information accessible sur le web. Ce web « communautaire », qui s’inscrit dans la mouvance de ce que l’on nomme Web2.0, contribue positivement au monde de la recherche d’information. Le rôle de l’utilisateur se transforme, car celui-ci contribue collectivement à l’élaboration des bases de connaissances en proposant des sources alternatives et de nouvelles avenues pour accomplir le processus de communication qu’est fondamentalement la recherche d’information, c'est-à-dire la mise en relation d’un demandeur et d’un fournisseur d’information (Meadow et al. 2007,3). En 1992, Robertson et Hancock-Beaulieu identifiant trois révolutions dans le milieu de la recherche d'information : la révolution de pertinence, la révolution cognitive et la révolution interactive (homme-machine). Avec le développement des outils de recherche collaboratifs, nous sommes fort probablement à l'aube d'une nouvelle révolution que l'on pourrait qualifier de révolution participative. Au cœur de la recherche d'information, nous trouvons bien sûr le concept d'information. Depuis déjà quelques décennies, plusieurs auteurs ont proposé diverses définitions de ce concept emblématique dans le domaine. L'objectif ici n'est certes pas de passer en revue l'ensemble de ces définitions ni de discuter de leur pertinence ou de leur justesse. Disons simplement qu'il est d'usage d'établir un rapport et une chaîne de progression entre données, information et connaissances. Selon cette proposition, l'information est considérée comme un ensemble de données dont la structure et le contexte permettent de véhiculer un sens, et donc susceptible d'informer la personne à qui les données sont transmises. Étant dès lors informé, l'individu est en mesure en traitant et en assimilant cette information et aussi en établissant des liens avec d'autres informations acquises et emmagasinées auparavant de générer des connaissances. L'information accessible pour la recherche est disponible majoritairement sous forme textuelle bien que les données numériques (dans le sens de nombre) et les fichiers multimédias (son, image, vidéo) soient de plus en plus accessibles. Elle est généralement délimitée sous forme de documents ou de fichiers, mais dans certains environnements l’extraction peut se faire par sections plus fines, quelquefois arbitraires (Anderson et Pérez-Carballo, Morizio 2004), par exemple des paragraphes ou des passages à l'intérieur du texte d'un document. Le concept de « recherche » dans la recherche d'information peut être abordé à deux niveaux. Tout d'abord l'élément plus technique que l'on distingue quelquefois en anglais par le terme information retrieval, puis l'élément de recherche comme tel, impliquant un usager qui en anglais se distingue parfois par l'appellation information seeking. Les aspects techniques couvrent principalement le traitement et la structuration des données, les méthodes d'indexation, l'évaluation de la pertinence, la visualisation des données, le traitement des requêtes.

1.2. Les Concepts clés

Lorsqu'on tient compte des besoins des comportements et des processus cognitifs de l'usager durant sa démarche ce sont alors les interfaces, les outils de navigation et de formulation de requêtes et les interactions homme-machine qui sont le centre des préoccupations. Les deux niveaux se combinent pour former un système complet. Ils sont souvent illustrés et schématisés à différents degrés de précision dans des modèles conceptuels. Les environnements de recherche sont diversifiés et les documents dans lesquels s'effectuent les recherches d'information sont variés tant dans leur forme que dans leur structure. Un environnement contrôlé et bien organisé, comme une base de données bibliographiques, un annuaire ou un catalogue de bibliothèque, contient généralement des documents qui ont eux-mêmes une structure uniforme et bien définie. Les environnements mixtes et plus ouverts comme le web et les sites d'archivage de documents proposent des ensembles de documents plus hétéroclites ayant un niveau de structuration variable, allant de très structuré (ex., un document XML) à très peu structuré (ex., un texte n'ayant que des divisions de paragraphes ). De nos jours, on estime qu'environ 80 % de l'information accessible est sous forme non structurée (Lefèvre 2000,15). La structure de l'information et le type d'environnement de recherche ont une importance capitale dans la façon dont on élaborera les stratégies de recherche.

1.3. Les composantes de base d'un système de recherche d'information

Outre l'élément «usager», les systèmes de recherche d'information sont généralement constitués de quatre grandes composantes

(1) l'interface de recherche,

(2) le mécanisme de mise en correspondance (requête/données),

(3) la base de données ,

(4) le module de présentation des résultats.

De façon simpliste, on peut dire que le processus consiste en un intrant qui sera, à la suite d’une série de processus interne, transformé en un extrant par le système. Il s’agit donc essentiellement d’un processus d’appariement entre les données représentant les documents ou les informations contenues dans le système et les données représentant l’expression du besoin informationnel de l’usager. Ce processus peut s’illustrer simplement par des modèles conceptuels. Nous trouvons dans la documentation plusieurs modèles qui, de façon plus ou moins détaillée, tentent de schématiser les composantes d’un système type et le processus de repérage (Harter 1986 ; Hartley et al.) En nous fondant sur l’ensemble de ces modèles, nous pouvons proposer un modèle simple qui illustre de façon très schématisé le processus de recherche dans un système type, qu’on peut nommer : Processus de base d’une recherche. Le « Processus de base d’une recherche » comprend : L’interface d’un système C’est l’élément qui permet d’établir la communication entre l’usager et le système de repérage. C’est par l’entremise de l’interface que l’usager peut formuler et lancer ses requêtes. En général il exprime son besoin d’information en construisant, à l’aide d’un langage d’interrogation, une requête textuelle. A noter que dans certains systèmes multimédias, il est possible d’émettre des requêtes non textuelles, par exemple des requêtes sonores ou graphiques pour repérer des documents audio ou des images respectivement, ou encore de construire des requêtes tout simplement en sélectionnant divers éléments proposés sur l’interface. La requête devient en quelque sorte une représentation du besoin de I’utilisateur. Le langage d'interrogation pourra être rendu plus ou moins visible à l'usager, soit par le design de l'interface, soit par les comportements intégrés dans le module de mise en correspondance. Le mécanisme de mise en correspondance est d'une certaine façon le code logiciel du système. Le langage d'interrogation, qui aura permis à l'usager, par exemple, d'établir une relation d'union entre les différents termes inscrits dans sa requête sera pris en compte par le logiciel de recherche. Une fois lancée par l'usager la requête est décortiquée au moyen de diverses techniques souvent pointues pour produire les éléments qui seront mis en correspondance avec les index préparés au préalable à partir des documents contenus dans la base de données. Les bases de données. Comme leur nom l'indique, sont principalement des ensembles organisés de données qui sont généralement élaborées selon une structure déterminée.

Les bases de données.

L'unité de base de cette structure est la notice (ou l'enregistrement) qui est une entité regroupant des données relatives à un élément distinct, par exemple un document, une personne, une collectivité, ou autre. Dans le cas de bases de données structurées, chaque notice sera elle-même subdivisée en champs (et à la rigueur en sous-champs) qui contiendront les données en tant que telles. À l'intérieur d'une même base de données, il y a généralement une structure commune à toutes les notices, mais les structures peuvent être très variables d'une base à l'autre tant par la nature des champs définis que par le niveau de granularité avec lequel les données sont subdivisées. À l'intérieur d'un système de recherche d'information, une base de données est contrôlée par des programmes permettant d'effectuer diverses manipulations et opérations telles que la recherche, le classement ou la fusion de données. Pour être faite de façon efficace, la recherche d'information nécessite que certaines manipulations soient effectuées à priori sur les données contenues dans la base. Outre les fichiers contenant les données, il est essentiel de créer des fichiers d'index qui permettront d'accueillir les éléments formulés dans les requêtes pour les acheminer par la suite aux fichiers de données. Les fichiers qui contiennent les données sont appelés « fichiers séquentiels» car les données y sont présentées dans l'ordre de leur insertion dans la base, tandis que les fichiers d'index sont appelés «fichiers inversés» car les données qu'ils contiennent, à l'inverse des fichiers de données, ne sont pas ordonnées séquentiellement mais logiquement (. alphabétiquement, chronologiquement ou autre). Les fichiers d’index sont une composante majeure des bases de données et sont même dans des cas plus volumineux que les données elles-mêmes. L’index ou le fichier inversé est composé essentiellement d’entrées ordonnées selon un critère de classement donné et de pointeurs qui relient entre elles les entrées des index et les données du fichier séquentiel. Il est dès lors possible d’extraire des ensembles de documents, ou des données bruites et de les acheminer à l’usager. A la suite de l’analyse et du traitement de la requête, le modules de présentation sert à la gestion des données qui ont été extraites de la base à communiquer à l’usager divers renseignements visant à l’informer sur l’état de sa demande, par exemple le nombre de notices trouvées ou le signalement d’une faute de syntaxe ou d’orthographe dans la requête. Plus généralement, c’est ce module qui entre en jeu pour retourner les notices ou les documents extrait à l'usager par l’interface du système. En analysant à son tour les informations qui lui sont retournées, l'usager pourra décider soit de moduler sa requête et sa stratégie de recherche, soit d'effectuer diverses opération (tri, filtrage, sélection...) sur les ensembles de données qui lui, sont présentés, soit de poursuivre sa recherche avec une nouvelle requête, ou alors tout simplement, s'il a obtenu l'information désirée ou bien s'il juge que l'effort n'en vaut plus la peine, de mettre fin à sa recherche.

1.4. Les étapes d'une recherche d'information

En résumé, le processus de recherche d'information dans un système informatisé consiste essentiellement à mettre en correspondance, à l'aide de diverses fonctions de comparaison, les éléments d'une requête avec ceux qui ont été choisis pour représenter le contenu des documents.

Pour le système

Du point de vue du système, il est possible d'identifier deux tâches principales pour réaliser ce processus : celle d'analyse, afin d'obtenir une représentation sémantique du contenu et celle d'appariement, la fonction nécessaire pour comparer les éléments de la représentation et ceux de la requête (Ihadjadene et Fondin 2004, ,19). Les méthodes et techniques d'appariement sont variées, mais rappelle plus souvent sur la création préalable d'un index que l'on nomme généralement « fichier inversé ». Le fichier en question consiste en ordonnée (en général selon un classement alphabétique) des termes d’indexation choisis pour représenter les documents. À ces entrées sont associés des pointeurs les reliant aux notices desquelles ont été extrait les termes. Le classement des entrées dans l'index permet d'effectuer la recherche beaucoup plus rapidement que si celle-ci était effectuée directement dans le texte des notices. L'utilisation d'algorithmes de recherche, notamment l'application de la logique binaire (algorithme de recherche dichotomique), accroît la vitesse de recherche de façon phénoménale, puisqu'elle permet à chaque tentative d'appariement, d'éliminer la moitié des entrées de l'index. Avec cette technique, le nombre maximal d'essais pour vérifier la présence d'une entrée dans un index est, dans le pire des cas, log2(n) + 1, où n est le nombre total d'entrées dans l'index. La progression logarithmique fait en sorte que cette valeur reste basse même lorsque n est très élevé.

Pour l’usager

Du point de vue de l’usager, on distingue généralement cinq grandes étapes formelles pour accomplir une recherche d’information (Larges, Tedd et Hartley 1999 ) :

o L’identification et l’analyse du besoin d’information ;

o La sélection des sources appropriées ;

o L’élaboration d’une stratégie de recherche ;

o L’exécution de la recherche ;

o L’évaluation des résultats et dans le cas d’une recherche déléguées, la livraison de ceux –ci.

Lorsqu’on décortique davantage le processus, il est possible d’identifier une douzaine d’étapes distinctes (Harter 1986). Selon Borgman (1996, 495), ce processus fait appel à trois niveaux de connaissances spécifiques : Lorsqu’on décortique davantage le processus, il est possible d’identifier une douzaine d’étapes distinctes (Harter 1986). Selon Borgman (1996, 495), ce processus fait appel à trois niveaux de connaissances spécifiques :

(1) conceptuel (pour convertir un besoin d’information en une requête d'information),

(2) sémantique (pour formuler des requêtes pour un ou des systèmes spécifiques) et

(3) technique (pour utiliser adéquatement les fonctionnalités disponibles sur le système).

L'étape1 d'identification et d'analyse du besoin débute tout d'abord par une prise de conscience de l'existence du besoin par l'usager. L'usager entre alors dans la phase que Belkin (1980) appelle le ASK (Anomalous States of Knowledge) qui se poursuit à l'occasion par le besoin d'assouvir ce besoin. Suivent alors la formulation et renonciation du besoin, puis, dans le cas de recherches déléguées, l'analyse et l'interprétation de ce besoin par une tierce personne. Cette analyse se fait généralement par le biais d'un entretien au cours duquel on tentera de préciser le besoin d'information, d'identifier et de circonscrire les principaux concepts impliqués, et de déterminer les conditions d'utilisation de cette information, entre autres: à quoi servira l'information, quel est le niveau intellectuel et cognitif du demandeur, quels sont les délais de livraison, les limitations linguistiques, chronologiques et géographiques, quels sont la quantité d'information requise, le format souhaité et les modalités de livraison (Guinchat et Menou 1990). Idéalement cette étape se terminera par la formulation d'objectifs précis.

L’étape 2 la sélection des sources, consiste plus précisément à déterminer quelles sont les sources susceptibles de fournir le type d’information adéquat (information factuelle, bibliographique, numérique ou autre) identifiés lors de l’analyse du besoin. Pour ce faire, il est essentiel d’avoir une bonne connaissance des nombreuses ressources documentaires disponibles : portée et objectifs, sujets traités, couverture chronologiques et linguistique, fiabilité, accessibilité, structure. Avec le nombre sans cesse croissant de ressources documentaires il est souvent souhaitable d'utiliser des outils de sélection spécialisé. Une fois les objectifs de la recherche bien définis et les sources potentielles bien identifiées, le chercheur peut passer à l'étape 3, l'élaboration d'une stratégie générale pour effectuer la recherche. La stratégie prendra une forme foncièrement différente selon que l'on cherche un document connu a priori ou une information factuelle précise. Il est alors relativement facile de déterminer la fin du processus. Par ailleurs, si l'on cherche des informations sur un sujet donné, il faut savoir établir arbitrairement le point où terminer la recherche (Large, Tedd et Hartley 1999). L'élaboration d'une stratégie de recherche consiste tout d'abord principalement à trouver diverses façons de représenter les concepts identifiés précédemment, soit par des mots et des expressions, soit par des codes et des symboles. À cette étape, il est aussi possible de déterminer si certains champs de la base seront spécifiquement ciblés, s'il sera possible et avantageux d'utiliser des vocabulaires contrôlés et certaines techniques et stratégies de recherche précises. Le chercheur doit également à cette étape clairement identifier quelles sont les relations entre les différents concepts qui seront utilisés afin de les combiner adéquatement. Vient alors le moment d'exécuter la recherche (étape 4). L'usager doit faire bon usage du langage d'interrogation et des diverses fonctionnalités du système de recherche, puisqu'il devra formaliser concrètement la stratégie générale élaborée précédemment par des requêtes qui pourront être décortiquées correctement par le système. L'usager doit pouvoir au besoin ajuster sa stratégie en fonction des informations et des résultats qui lui sont retournés. Une bonne connaissance de l'interface, du langage et des fonctions de recherche permet de maximiser les interactions avec le système au profit de la recherche. Finalement, la dernière étape consiste à évaluer plus attentivement les résultats obtenus en regardant des objectifs de recherche établis au préalable. L’utilisateur devrait pouvoir à cette étape valider la pertinence de l’information obtenue pour satisfaire son besoin d’information. A la suite de cette analyse, diverses actions peuvent être entreprises qui dépendront principalement du degré de satisfaction ; on pourra décider de mettre fin à la recherche ou bien retourner à une étapes précédente du processus( même à l’étape1) pour ajuster le tir. Il est à noter que la recherche d’information est un processus empirique, itératif, évolutif et souvent imprécis. Il repose avant tout sur le principe d’essais erreurs puisqu'on ne peut au préalable déterminer précisément les conséquences d’une action, surtout dans le cas de recherches exploratoires. En Ln des nombreuses sources de distorsion qui jalonnent le processus, il y aura très souvent un écart entre les résultats obtenus et le besoin initialement ressenti (Guinchat et Menou 1990,314).

2. Aperçu sur le Web Sémantique

Etude de cas :

« Sur quelques aspects du Web sémantique »

Philippe Laublet, Chantal Reynaud, Jean Charlet

2. Aperçu sur le Web Sémantique

L'expression Web sémantique, attribuée à Tim Berners-Lee au sein du W3C, fait d’abord référence à la vision du Web de demain comme un vaste espace d’échange de ressources entre êtres humains et machines permettant une exploitation, qualitativement supérieure, de grands volumes d’informations et de services variés. Espace virtuel, il devrait voir, à la différence de celui que nous connaissons aujourd’hui, les utilisateurs déchargés d’une bonne partie de leurs tâches de recherche, de construction et de combinaison des résultats, grâce aux capacités accrues des machines à accéder aux contenus des ressources et à effectuer des raisonnements sur ceux-ci. Le Web sémantique, concrètement, est d’abord une infrastructure pour permettre l’utilisation de connaissances formalisées en plus du contenu informel actuel du Web, même si aucun consensus n’existe sur jusqu’où cette formalisation doit aller. Cette infrastructure doit permettre d’abord de localiser, d’identifier et de transformer des ressources de manière robuste et saine tout en renforçant l’esprit d’ouverture du Web avec sa diversité d’utilisateurs. Elle doit s’appuyer sur un certain niveau de consensus portant, par exemple, sur les langages de représentation ou sur les ontologies utilisés. Elle doit contribuer à assurer, le plus automatiquement possible, l’interopérabilité et les transformations entre les différents formalismes et les différentes ontologies. Elle doit faciliter la mise en œuvre de calculs et de raisonnements complexes tout en offrant des garanties supérieures sur leur validité. Elle doit offrir des mécanismes de protection (droits d’accès, d’utilisation et de reproduction), ainsi que des mécanismes permettant de qualifier les connaissances afin d’augmenter le niveau de confiance des utilisateurs. Mais restreindre le Web sémantique à cette infrastructure serait trop limitatif. Ce sont les applications développées sur celle-ci qui font et feront vivre cette vision et qui seront, d’une certaine manière, la preuve du concept. Bien sûr, de manière duale, le développement des outils, intégrant les standards du Web sémantique, doit permettre de réaliser plus facilement et à moindre coût des applications ou des services développés aujourd’hui de manière souvent ad-hoc. Les recherches actuellement réalisées s’appuient sur un existant riche venant, par exemple, des recherches en représentation ou en ingénierie des connaissances. Mais leur utilisation et leur acceptation à l’échelle du (ou d’une partie du) Web posent de nouveaux problèmes et défis : changement d’échelle dû au contexte de déploiement, le Web et ses dérivés (intranet, extranet), nécessité d’un niveau élevé d’interopérabilité, ouverture, standardisation, diversités des usages, distribution bien sûr et aussi impossibilité d’assurer une cohérence globale. Comme l'écrit, en substance, Tim Berners-Lee, le Web sémantique est ce que nous obtiendrons si nous réalisons le même processus de globalisation sur la représentation des connaissances que celui que le Web fit initialement sur l'hypertexte. Les propositions faites autour de l’infrastructure du Web sémantique doivent permettre aussi bien la réalisation d’outils généralistes avec des utilisateurs mal définis (un exemple pourrait être des moteurs de recherche prenant plus en compte le contenu sémantique de documents) que la réalisation d’applications pour des tâches plus complexes comme la gestion de connaissances au service des membres d’une entreprise. Les langages proposés pour le Web sémantique sont au cœur de la démarche, même si l’infrastructure ne se réduit pas à ceux-ci.

La Recherche d’Information La Recherche d’Information Information

Mr. SONHAYE