Hugging Face's Cosmopedia Hopes To Reshape Pre-Training Data

from Medium 11 months ago

To address this, the Hugging Face team crafted over 30 million Cosmopedia prompts spanning hundreds of topics, achieving a duplicate content rate of less than 1%.
Mediumhttps://odsc.medium.com/hugging-faces-cosmopedia-hopes-to-reshape-pre-training-data-53dd9f121f63

Cosmopedia's creation involved a dual approach: conditioning online data for scalability and curated sources for quality.
Mediumhttps://odsc.medium.com/hugging-faces-cosmopedia-hopes-to-reshape-pre-training-data-53dd9f121f63

The output not only enriches AI training resources but also highlights the necessity of innovative solutions like decontamination pathways to ensure the integrity of synthetic data.
Mediumhttps://odsc.medium.com/hugging-faces-cosmopedia-hopes-to-reshape-pre-training-data-53dd9f121f63

This method, akin to the one used for the Phi-1 model, involves removing potentially contaminated samples to maintain dataset purity.
Mediumhttps://odsc.medium.com/hugging-faces-cosmopedia-hopes-to-reshape-pre-training-data-53dd9f121f63

Read at Medium

#ai-models #synthetic-data-creation #hugging-face #cosmopedia #dataset-quality

Collection

[

...

]

Hugging Face's Cosmopedia Hopes To Reshape Pre-Training DataHugging Face's Cosmopedia Hopes To Reshape Pre-Training Data Briefly

Hugging Face's Cosmopedia Hopes To Reshape Pre-Training Data
Hugging Face's Cosmopedia Hopes To Reshape Pre-Training Data
Briefly