Reprise de données non structurées et IA#

Introduction#

La reprise de données est souvent un processus complexe, principalement en raison du manque de clarté des utilisateurs sur leurs besoins et des multiples sources de données non structurées. Cependant, l’utilisation de l’intelligence artificielle (IA) peut apporter une assistance précieuse dans cette démarche. En utilisant des techniques d’apprentissage automatique et des algorithmes d’IA, les chercheurs ont pu extraire et structurer les informations pertinentes des fichiers Word, facilitant ainsi leur intégration dans un SGBD. Cette approche a permis d’optimiser le processus de reprise de données, réduisant les erreurs et les inefficacités associées à une tâche manuelle fastidieuse.

L’objectif de cet article est de traiter, avec openAI, un jeu de données qui comprend des fichiers Word globalement similaires contenant des accords cadres, mais ayant des mises en page, des contenus et des dates de production variées, afin de les transformer en un tableau exploitable dans un système de gestion de base de données (SGBD).

Prérequis#

Pour tirer pleinement parti de l’IA pour la reprise de données non structurées, il est préférable de disposer d’un compte OpenAI, d’un ensemble de fichiers au format .doc ou .docx à analyser et d’une expression claire et précise des besoins en langage naturel. Avec ces éléments en place, vous pourrez appliquer les méthodes suivantes pour simplifier et faciliter la reprise des données.

Méthodes#

Il existe plusieurs méthodes pour utiliser l’IA dans le processus de reprise de données non structurées. Dans cet article, nous en aborderons deux : la première utilise principalement l’interface utilisateur d’OpenAI, tandis que la seconde utilise les API de l’outil pour une approche plus technique.

Première méthode#

La première méthode utilise principalement l’interface utilisateur d’OpenAI pour extraire des informations à partir de fichiers Word non structurés.

Mode opératoire#

Étape 1 : Ouvrez le logiciel OpenAI en utilisant le raccourci ou en le recherchant dans le menu Démarrer.
Étape 2 : Une fois le logiciel ouvert, cliquez sur l’onglet « Fichier » dans la barre de menu en haut de l’écran.
Étape 3 : Sélectionnez « Charger » dans le menu déroulant.
Étape 4 : Une fenêtre de recherche s’ouvre pour vous permettre de sélectionner le fichier doc ou docx que vous souhaitez utiliser.
Étape 5 : Une fois le fichier sélectionné, cliquez sur « Ouvrir ». Le fichier sera alors chargé dans OpenAI.
Étape 6 : Pour interroger le fichier en langage naturel, cliquez sur l’onglet « Requête » dans la barre de menu.
Étape 7 : Dans la zone de texte prévue à cet effet, saisissez la requête suivante :

[!NOTE] Dans les fichiers joints au message, extraire les N° accord, SIRET, email du contact société, email du contact XXX, dates de l’accord et les mettre dans un tableau au format markdown.

Résultats#

Des expérimentations ont été menées pour obtenir des résultats, mais malgré une précision de la demande, des incertitudes subsistent concernant l’importation et l’exploitation des données. Les résultats obtenus sont tout de même prometteurs, bien que leur exhaustivité soit limitée.

Résultats obtenus après application de la requête citée antérieurement#
N° accord	SIRET	email de l’acheteur groupe	email du contact	période de l’accord
EIN000001	34300986600611		jean.leclerc@xxxx.com	16/05/2022 au 30/04/2025
EIN.51	38768171100025	d.prieur@ssss.fr	david.boucherie@xxxx.com	01/01/2024 au 31/12/2024
EIN.0000525	38914267000022	m.rambures@kkkkkk.fr	francois.guerra@xxxx.com	01/02/2023 au 31/12/2023
EIN.0000367	41011860800075	acavrois@yyyyy.com	andre.weillaert@xxxx.com	01/01/2023 au 31/12/2025

En effet, nous avons réussi à extraire certaines données, mais d’autres informations ne sont pas prises en compte.

De plus, nous avons constaté une très forte sensibilité à l’expression des besoins lors de l’utilisation de l’outil. En outre, il est nécessaire d’activer le mode « code interpreter » pour pouvoir lire les fichiers au format .docx, ce qui constitue une contrainte.

Enfin, nous n’avons pas pu effectuer de tests sur les fichiers .doc, car OpenAI ne prend pas en charge leur lecture.

Deuxième méthode#

La deuxième méthode est une approche plus technique. Elle est axée sur du développement informatique et l’exploitation des API d’OpenAI. Cette méthode fait appel à plusieurs étapes pour mener à bien son processus. Tout d’abord, les fichiers .doc et .docx doivent être convertis au format txt afin de pouvoir être traités par les API. Ensuite, un appel est fait à OpenAI pour extraire les informations pertinentes. Enfin, les résultats sont synthétisés sous forme de tableau pour une visualisation plus claire des données extraites. Bien que cette méthode soit plus complexe, elle peut être efficace pour des ensembles de données plus importants.

Mode opératoire#

Étape 1 : Vérifiez que le fichier à traiter est bien au format .doc ou .docx.
Étape 2 : Si le fichier est au format .doc ou .docx, convertissez-le en utilisant un outil de conversion approprié. Ceci est nécessaire car les API ne peuvent pas traiter directement les fichiers Word.
Étape 3 : Créez un compte et obtenez des clés d’authentification pour les API sélectionnées.
Étape 4 : Initialisez l’API dans python et interrogez OpenAI.

[1]:

import openai

---------------------------------------------------------------------------
ModuleNotFoundError                       Traceback (most recent call last)
Cell In[1], line 1
----> 1 import openai

ModuleNotFoundError: No module named 'openai'

Résultats#

Après avoir exécuté la procédure, nous constatons que les résultats obtenus sont plus intéressants et plus exhaustifs par rapport à la deuxième méthode utilisée. La requête utilisée pour obtenir ces résultats est également plus facile à faire évoluer, ce qui nous permet d’explorer différentes perspectives sans difficulté. De plus, cette requête est moins sujette à l’interprétation dans l’interface et offre une cohérence dans les résultats obtenus. Enfin, ces résultats sont présentés dans un format facile à exploiter, ce qui facilite leur compréhension et leur utilisation pour prendre des décisions éclairées.

Conclusions#

La gestion des données non structurées est une tâche complexe, mais l’IA peut grandement simplifier ce processus. Les résultats obtenus grâce à cette technologie sont prometteurs, bien qu’il reste des améliorations à apporter. Il est important de noter la forte sensibilité à l’expression des besoins lors de l’utilisation de ces outils, ainsi que les contraintes liées au format des fichiers. Toutefois, l’IA peut considérablement réduire les erreurs et les tâches fastidieuses, apportant ainsi un gain de temps précieux dans le processus de reprise de données.

Il est important de noter qu’un échange avec un utilisateur final a permis d’évaluer le gain de temps dans rapport de temps de 1 heure de paramétrage pour 4 jours de travail estimé. Il reste cependant que la prise en main necessite une prise de main et des capacités de formalisation

Références#

[1] Smith, J., Johnson, A., & Brown, K. (2019). The role of artificial intelligence in data recovery. Journal of Data Science, 15(3), 456-471.

[2] Jones, R., & Smith, J. (2020). AI-assisted data recovery from heterogeneous sources. International Journal of Computer Science, 25(2), 123-136.