Import et UTF8

janvier 2019 modifié dans Administration
Bonjour,

administrateur PMB de longue date (15 ans :) ?) j'ai actuellement des soucis sur l'import.
Dans un besoin de numérisation de ludèthèque, j'ai développé mon propre script  de conversion CSV -> PMB-XML.

Il suffit ensuite de le convertir en Unimarc (via PMB), puis importer ; après quelques déboires, j'utilise l'import GAM, légèrement modifié pour gérer correctement sections et documents numériques (URLs, bientôt vignettes de doc numériques). Tout sera (bien sûr) reversé en contrib une fois la procédure finalisée.

Cela fonctionnait correctement, jusqu'à ce que je tente de gérer les caractères UTF-8 en import (non disponibles en latin1, « … », insécables, et quelques symboles, comme). La chaîne d'import se passe bien jusqu'à l'UNIMARC, vérifié avec MarcEdit.
Il semble que l'import GAM fasse une double conversion UTF8 -> Latin1 -> UTF8. En effet, l'unimarc contient les caractères utf8, mais les notices (et exemplaires) importé·es ne les contiennent pas, ils sont convertis en « ? ».

En revanche, une fois l'import effectué, il est ensuite possible d'ajouter des caractères spéciaux utf8 via l'interface ; preuve que la base UTF8 et le paramétrage du serveur LAMP sont bien effectués et reconnus.

À quel étage de l'import dois-je vérifier que l'unicode est géré ? Directement inc_gam ? Ou est-ce le core de l'import qui gère mal l'UTF-8 ?

Merci de vos réponses (et merci A.M. Cubat pour les introductions à l'import).


Connectez-vous ou Inscrivez-vous pour répondre.