Parmi Notes Random short any article
Posted on
author - penulis

Setup Minimal Parquet di Linux (Ubuntu/Debian)

Author

Contoh setup minimal di Linux VPS/server untuk mulai menggunakan Parquet dengan Python. Ini cocok kalau kamu ingin mencoba di lingkungan hosting yang lebih fleksibel dibanding shared hosting.


🔧 Setup Minimal Parquet di Linux (Ubuntu/Debian)

1. Update sistem

sudo apt update && sudo apt upgrade -y

2. Install Python & pip

sudo apt install python3 python3-pip -y

3. Install library Parquet

Ada dua pilihan populer: - PyArrow (lebih umum, cepat) - Fastparquet (alternatif)

pip install pandas pyarrow fastparquet

4. Buat script Python sederhana

import pandas as pd

# Data dummy
data = {
    "nama": ["Andi", "Budi", "Citra"],
    "usia": [25, 30, 28],
    "kota": ["Jakarta", "Bandung", "Surabaya"]
}
df = pd.DataFrame(data)

# Simpan ke Parquet
df.to_parquet("data.parquet", engine="pyarrow", index=False)

# Baca kembali
df_parquet = pd.read_parquet("data.parquet", engine="pyarrow")
print(df_parquet)

5. Jalankan script

python3 test_parquet.py

📊 Catatan Penting

  • Shared hosting tradisional (cPanel, PHP hosting) biasanya tidak mendukung instalasi bebas seperti ini.
  • VPS/Dedicated server Linux memberi kebebasan penuh untuk install Python + library big data.
  • Jika ingin integrasi lebih lanjut (misalnya Spark atau Hadoop), tinggal install paket tambahan: bash pip install pyspark

👉 Jadi, setup minimalnya cukup: Python + Pandas + PyArrow/Fastparquet. Dengan itu kamu sudah bisa membuat, membaca, dan mengolah file Parquet di Linux server.