การใช้ RDD จะให้ความยืดหยุ่นสูงสำหรับการประมวลผลข้อมูลที่ไม่มีโครงสร้าง และการควบคุมในระดับต่ำ แต่ DataFrame มีประสิทธิภาพดีในงานที่มีโครงสร้าง.
ตัวอย่างการนับคำด้วย DataFrame ต้องใช้ฟังก์ชันเฉพาะของ Spark SQL ในขณะที่การใช้ RDD ทำให้สามารถอ่าน log แบบไม่มีโครงสร้างและจัดการข้อมูลหลากหลายรูปแบบได้.
[
Collection
]
[
|
...
]