SQL - pyspark dataframe in sql

pyspark dataframe in sql

Publicado por BathanF (8 intervenciones) el 09/03/2023 09:28:26

Tengo un conjunto de datos para el que quiero calcular el rango por fila. Este es un ejemplo de juguete panda.

import pandas as pd

df = pd.DataFrame({"ID":[1,2,3,4], "a":[2,7,9,10],

                   "b":[6,7,4,2], "c":[3,4,8,5]})

print(df)

#    ID   a  b  c

# 0   1   2  6  3

# 1   2   7  7  4

# 2   3   9  4  8

# 3   4  10  2  5

df[["a","b","c"]] = df[["a","b","c"]].rank(method="min",

                                           ascending=False,

                                           axis=1).astype("int")

print(df)

#    ID  a  b  c

# 0   1  3  1  2

# 1   2  1  1  3

# 2   3  1  3  2

# 3   4  1  3  2

Sin embargo, como no pude ubicar un equivalente de axis=1 en Pyspark, no pude convertirlo. Mi conjunto de datos consta de 60 millones de filas y 40 columnas, por lo que la recomendación debería ser práctica (p. ej., no puedo recorrerlas).

Valora esta pregunta

Me gusta: Está pregunta es útil y esta clara

No me gusta: Está pregunta no esta clara o no es útil

Responder

SQL de nodo raíz repetido para XML

la fecha de finde un registro es la fecha de inicio de otro