Sample_codes

Sample_codes

parquet(메모리 줄여줌)

1
2
3
4
5
6
7
8
9
10
11
12
13
import gc
def csv_to_parquet(csv_path, save_name):
df = pd.read_csv(csv_path)
df.to_parquet(f'./{save_name}.parquet')
# df.to_parquet('train.parquet', engine='fastparquet', compression='snappy')
del df
gc.collect()
print(save_name, 'Done.')
csv_to_parquet('./train.csv', 'train')
train = pd.read_parquet('./train.parquet').drop('road_in_use',axis=1)

# from google.colab import files 코랩인 경우
# files.download("train.parquet")

query함수 (필터거는 함수) 열이름 입력

1
train.query('month==7 and year==2022 and day>15')

Labelencoding(train과 test데이터의 값이 다를 경우)

1
2
3
4
5
6
7
8
9
10
for i in str_col:
le = LabelEncoder()
le=le.fit(train[i])
train[i]=le.transform(train[i])

for label in np.unique(test[i]):
if label not in le.classes_:
le.classes_ = np.append(le.classes_, label)
#np.append하면 값이 추가되어 추가된 값이 라벨클래스에 추가되어 라벨링되는 구조
test[i]=le.transform(test[i])

global 변수명 생성

1
globals()['data_{}'.format(i)]
Author

InhwanCho

Posted on

2022-11-20

Updated on

2022-11-20

Licensed under

Comments