Si en algun momento necesitamos leer todas las fuentes de datos que se encuentran contenidas en una carpeta podemos utilizar el siguiente script:
dataframes_dict = {}
for file_name in os.listdir('datos'):
if file_name.endswith('.csv'):
file_path = r'datos\\\\' + file_name
dataframes_dict[file_name[:-4]] = pd.read_csv(file_path, encoding='utf-8', delimiter=';')
df['rut'].value_counts()
Creamos una tupla con los reemplazos que se haran a determinados caracteres.
def normalize(s):
replacements = (("á", "a"),
("é", "e"),
("í", "i"),
("ó", "o"),
("ú", "u"),)
for a, b in replacements:
try:
s = s.replace(a, b).replace(a.upper(), b.upper())
except:
pass
return s
for c in df.columns:
if type(df[c][0]) is type('str'):
df[c] = df[c].str.lower()
else:
pass
En el siguiente ejemplo recorremos todas las filas para reemplazar los “.”
por “”
. En caso de que se encuentre una coma.
data[column_name] = data[column_name].apply(lambda x: x.replace('.','') if ',' in x else x)
plt.figure(figsize=(20,5))
sns.heatmap(fact.isnull(), yticklabels=False, cbar=False, cmap='Blues')