Common Crawl ist eine gemeinnützige Organisation (CommonCrawl.org), deren Ziel die Archivierung des Internets und seiner Inhalte ist. Zwischen 2008, dem Beginn der Archivierung, und Ende 2023 wurde ein Datenbestand über 240 Milliarden Webseiten erfasst. Jeden Monat kommen 3 bis 5 Milliarden hinzu. Der Bestand umfasst viele Petabytes (1 Petabyte = 1.048.576 Gigabytes), ist öffentlich und kann von jedem genutzt werden. Die Inhalte von Webseiten, für die es eines Logins bedarf, sind natürlich nicht erfasst. Common Crawl wird kostenfrei von Amazon Web Services bereit gestellt und aktualisiert. Das Unternehmen erlaubt Analysen der Daten im Direktzugriff, bei Bedarf können sie auch runtergeladen werden.

Common Crawl ist ein sehr wesentlicher Bestandteil der Daten, die von Machine Learning Modellen wie ChatGPT oder Google BARD für Trainingszwecke genutzt werden.