Intelligence des documents
Êtes-vous un organisme ou gouvernement avec des données que vous croyiez structurées, mais qui ne le sont finalement pas tant que ça?
consultation, rédaction, recherche et développement | technologies sobres | intelligence naturelle
Êtes-vous un organisme ou gouvernement avec des données que vous croyiez structurées, mais qui ne le sont finalement pas tant que ça?
Êtes-vous une collectivité qui veut rendre vos données géomatiques et réglementaires accessibles, compréhensibles et utiles au public ou même simplement à vous-même?
Êtes-vous une communauté linguistique minoritaire? Avez-vous besoin de modèles et d’outils pour documenter, enseigner, et faire vivre votre langue à l’ère numérique?
14 janv. 2025
TL;DR: Vous pouvez utiliser docling-parse car ses modèles sont les plus fiables et efficaces de ceux que j’ai testés. Mais pour comprendre comment ça fonctionne, continuez à lire! Nous allons voir ici comment utiliser des modèles de vision computationelle pour faire de l’analyse de mise en page d’un PDF et en extraire les titres de sections, alinéas, listes, et tableaux. [lire la suite]
14 janv. 2025
Comme mentionné dorénavant, le format PDF est un format de présentation, à la différence du HTML par exemple, qui sépare dans la mésure du possible la structure sémantique du texte et sa mise en page. Concrètement cela veut dire que, en théorie (on aimerait tous y vivre! [lire la suite]
17 oct. 2024
À quoi ça sert, au juste, tout cet effort d’analyse des fichiers PDF? La recherche, telle qu’implémentée dans SÈRAFIM (un SystÈme de Recherche Ad-hoc pour Fouiller dans les Informations Municipales) - on peut ainsi comparer les dispositions par rapport aux piétons dans l’aménagement des stationnements à travers quelques villes des Laurentides. Mais pas que ça! [lire la suite]
Formé d‘abord en linguistique, je cumule plus que 25 ans d’expérience professionnelle en traitement automatique du langage naturel et compréhension de la parole. En cours de route, j’ai développé des compétences diversifiées en informatique, surtout dans le domaine du logiciel libre, en tant que chargé d’entretien et collaborateur sur divers projets.