sauter les lignes avec des dates incorrectes lors de l'utilisation de pd.read_csv

LateCoder

Je lis des fichiers csv à partir d'une source de données externe en utilisant pd.read_csv, comme dans le code ci-dessous:

pd.read_csv(
    BytesIO(raw_data),
    parse_dates=['dates'],
    date_parser=np.datetime64,
)

Cependant, quelque part dans le csv qui est envoyé, il y a une date mal formatée, ce qui entraîne l'erreur suivante:

ValueError: Error parsing datetime string "2015-08-2" at position 8

Cela provoque le blocage de l'ensemble de l'application. Bien sûr, je peux gérer ce cas avec un essai / sauf, mais alors je perdrai toutes les autres données dans ce csv particulier. J'ai besoin de pandas pour conserver et analyser ces autres données.

Je n'ai aucun moyen de prédire quand / où ces données (qui changent quotidiennement) auront des dates mal formatées. Existe-t-il un moyen de pd.read_csvsauter uniquement les lignes avec des dates incorrectes tout en analysant toutes les autres lignes du csv?

miraculixx

quelque part dans le csv qui est envoyé, il y a une date mal formatée

np.datetime64a besoin de chaînes formatées ISO8601 pour fonctionner correctement. La bonne nouvelle est que vous pouvez intégrer np.datetime64votre propre fonction et l'utiliser comme date_parser:

def parse_date(v):
   try:
      return np.datetime64(v)
   except:
      # apply whatever remedies you deem appropriate
      pass
   return v

   pd.read_csv(
     ...
     date_parser=parse_date
   )

J'ai besoin de pandas pour conserver et analyser ces autres données.

Je trouve souvent qu'un analyseur de date plus flexible comme dateutilfonctionne mieux que np.datetime64et peut même fonctionner sans la fonction supplémentaire:

import dateutil
pd.read_csv(
    BytesIO(raw_data),
    parse_dates=['dates'],
    date_parser=dateutil.parser.parse,
)

Pandas: comment obtenir l'état des lignes lues lors de l'utilisation de read_csv?

estemendoza Je suis le chargement d' un fichier csv très grand, comme 10 millions de disques, en utilisant pandaset read_csvméthode et je voulais savoir s'il y a un moyen de montrer les progrès de ce chargement, quelque chose comme: 100,000 lines read 150,000

Sauter des lignes lors de l'itération sur un vecteur

Rivasa J'ai donc fait un vector<string>des lignes que j'ai lues à partir d'un fichier texte. Le fait est que ces lignes constituent de petits ensembles de données. Ce que je veux faire, c'est essentiellement itérer sur ces blocs de données. (Ce qui peut être s

Sauter le caractère `#` lors de la lecture de l'en-tête avec pandas read_csv

kilojoules J'ai un fichier qui ressemble à ceci: # Time Cm Cd Cl Cl(f) Cl(r) Cm Cd Cl Cl(f) Cl(r) 1.000000000000e+01 -5.74

ignorer les guillemets ("") lors de l'utilisation de read_csv dans les pandas

Tejas ================================================== ==== Title: Whole case Location: oyuri From: Aki Date: 2018/11/30 (Friday) 11:55:29 ================================================== ===== 1: Aki 2018/12/05 (Wed) 17:33:17 " An approval notice has be

Précision perdue lors de l'utilisation de read_csv dans les pandas

user904976: J'ai des fichiers du format ci-dessous dans un fichier texte que j'essaie de lire dans une trame de données pandas. 895|2015-4-23|19|10000|LA|0.4677978806|0.4773469340|0.4089938425|0.8224291972|0.8652525793|0.6829942860|0.5139162227| Comme vous po

Pandas: comment inclure des guillemets doubles lors de l'utilisation de read_csv?

jencodes J'ai un fichier texte example1.txt, avec une liste de termes de recherche, dont certains incluent des guillemets doubles. Par exemple Apple cider "Bananas foster" v.2 Cherry comp* "Pineapple" short- "Peach" pie Cependant, pd.read_csv('example1.txt',

Erreur lors de la lecture de csv en tant qu'objet zoo - certaines lignes avec des `` entrées incorrectes ''

Tampon Je travaille sur une série chronologique de données météorologiques (disponibles ici ) et j'essaye de la convertir en objet zoo pour pouvoir utiliser un package qui fonctionne sur les objets zoo ('Evapotranspiration'). Le code que j'utilise est: require

R: Dates incorrectes après l'utilisation de read.csv

Yallweh Cela m'a perplexe. J'ai essayé plusieurs solutions que j'ai trouvées ailleurs sur SO et d'autres endroits en vain. Le plus proche de mon problème semble être cette question: Convertir le facteur en objet de date R sans NA J'essaye de lire dans un .csv

Prédictions incorrectes lors de l'utilisation des modèles InceptionV3 / Xception pré-entraînés Keras

BMcFadyen J'essaie de faire fonctionner les modèles Keras InceptionV3 / Xception pré-entraînés dans tensorflow.js. Les modèles se chargent parfaitement bien, mais les prédictions de sortie sont loin d'être correctes (voir photo de prédiction InceptionV3) J'ai

sauter les lignes avec des dates incorrectes lors de l'utilisation de pd.read_csv

Articles connexes

liste