Comment gérer les caractères indésirables dans Sqoop
Prabhanj
Lors de l'importation de données du RDMS vers Hadoop à l'aide de sqoop. Si mon système source contient des caractères indésirables, comment pouvons-nous les remplacer
Par exemple: 1, jeu de mots, voyage,
Jagrut Sharma
La définition des caractères indésirables peut varier en fonction des données stockées et de l'utilisation des données. Sqoop
import permet de supprimer des Hive
délimiteurs (via --hive-drop-import-delims
option) ou de remplacer des Hive
délimiteurs (via --hive-delims-replacement
option). D'autres formes de traitement des données devraient être effectuées une fois que le travail d'importation a reçu des données sur Hadoop.
Selon la documentation de Sqoop :
--hive-drop-import-delims: Drops \n, \r, and \01 from string fields when importing to Hive.
--hive-delims-replacement: Replace \n, \r, and \01 from string fields with user defined string when importing to Hive.