본문 바로가기
Machine Learning/News

카카오브레인 코요 Coyo 데이터셋 공개

by Physicist 2022. 9. 5.

 

https://news.hada.io/topic?id=7302  

 

https://kakaobrain.com/contents/?contentId=667c6d5c-507c-4c2d-a3e5-dc227ee8c89c  

 

 

카카오브레인, 글로벌 최상위급 데이터셋 ‘코요’ 공개

- 초거대 AI 연구 저변 확대 위해 약 7억 4천만 개 이미지-텍스트 데이터셋 공개
- 독자 기술로 구축한 고품질 데이터셋…구글 리서치, 오픈AI가 공개한 모델 재현 가능한 높은 수준 갖춰
- 현재까지 공개된 글로벌 데이터셋 중 최상위급 규모… 상반기 중 데이터셋 활용한 초거대 AI 모델 공개 예정

카카오브레인이 초거대 AI 연구 개발 저변을 확대하고자 국내 최대 규모의 이미지-텍스트 데이터셋을 외부에 공개합니다.
카카오브레인(대표 김일두)이 약 7억 4천만 개의 이미지-텍스트로 이루어진 데이터셋 ‘Coyo(이하 코요)’를 오는 31일 카카오브레인 공식 홈페이지를 통해 공개한다고 밝혔습니다. 초거대 AI 개발의 기반이자 기업의 핵심 자산인 데이터셋을 외부에 공개하는 것은 매우 이례적인 일입니다.

카카오브레인은 멕시코의 대표 화가 프리다 칼로(Frida Kahlo)의 고향인 멕시코시티 '코요아칸(Coyocán)'의 앞 글자를 따 이번 데이터셋 ‘코요'의 이름을 지었습니다. 프리다 칼로의 이름을 딴 ‘칼로’가 ‘코요’를 기반으로 탄생하게 된 것처럼, ‘코요’를 통해 수많은 AI 모델이 개발됐으면 하는 카카오브레인의 포부가 담겨있는 이름이죠.

데이터셋은 초거대 AI 모델이 정교한 결과값을 구현하는 데 필요한 핵심 요소 중 하나에요. 높은 성능을 위해 많은 기업들이 수작업으로 이미지-텍스트 쌍을 맞추어 데이터셋을 수집하는데, 이때 높은 비용과 많은 시간이 투입됩니다.

카카오브레인은 ‘코요’를 개발할 때 독자적으로 개발한 기술로 이미지-텍스트를 온라인에서 자동 수집해 투입되는 비용과 시간을 효과적으로 줄이는 동시에 양질의 데이터를 선별해 높은 퍼포먼스를 보였습니다. 카카오브레인은 실제로 구글 리서치(Google Research)와 오픈AI(OpenAI)에서 공개한 초거대 AI 모델 재현을 통해 교차 검증을 마쳐 이 데이터셋의 품질을 확인했습니다.

‘코요’는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 ‘RQ-Transformer’와 AI 아티스트 ‘칼로(Karlo)’ 개발에 적용된 데이터셋입니다. 4월에 공개한 ‘RQ-Transformer’는 기술의 우수성을 종합적으로 인정받아 6월에 열린 세계적 학술대회 CVPR 2022에서 해당 논문의 발표 기회를 얻었어요. 또한 ‘코요’를 활용한 AI 아티스트 ‘칼로’는 최근 현대미술가 고상우와 삼성전자 ‘갤럭시 북 아트 프로젝트’ 와의 협업을 통해 그 가능성을 입증한 바 있습니다.

카카오브레인은 현재까지 글로벌로 공개된 데이터셋 중 최상위급 규모인 ‘코요’를 세계 최대 수준으로 확대한다는 목표 하에 한국어를 비롯한 다양한 언어로 개발해 나갈 계획입니다. 또한, 내년 상반기 중 코요 데이터셋을 활용한 초거대 AI 모델을 추가 공개할 예정이에요.

카카오브레인 CEO Curtis는 “이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것”이라며, “앞으로도 카카오브레인은 다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지할 것”이라 말했습니다.

 

https://kakaobrain.com/contents?contentId=861c88b0-671d-4495-ac0c-1cd1d4bd6a0a   

 

 

COYO-700M: Image-Text Pair Dataset

COYO-700M은 약 7억 4천만 개의 이미지-텍스트 쌍과 그외 많은 속성을 포함하는 대규모 학습 데이터 세트입니다. COYO 데이터 세트는 기존에 공개된 vision-and-language 연구들에서 진행한 것과 유사한 방식으로 HTML 문서에 있는 이미지와 alt 속성 (HTML에서 그림이 화면에 그려지지 못할 때 나타날 문자열)을 수집합니다. 우리는 COYO가 다른 유사한 데이터 세트를 보완하여 대규모 기초 모델을 훈련하는데 사용될 것으로 기대합니다. 데이터 수집 프로세스에 대한 자세한 내용은 곧 공개될 Technical Paper에서 확인할 수 있습니다.
Links

* github  https://github.com/kakaobrain/coyo-dataset
* huggingface dataset  https://huggingface.co/datasets/kakaobrain/coyo-700m
* technical paper  [will be updated soon]
Data Collection Process

Common Crawl에서 2020년 10월부터 2021년 8월 사이에 수집한 HTML 문서에서 약 100억 쌍의 이미지-텍스트 쌍을 수집하고, 이미지 및 텍스트 필터링을 통해 정보가 충분하지 않은 이미지-텍스트 쌍을 제거하였습니다. 다음 그림은 데이터 수집 절차를 간략하게 보여줍니다.
Dataset Statistics

count  ratio
# of image-text pairs 756,972,269 100.00%
# of unique urls 656,114,783 87.84%
# of unique image_phash 579,679,137 77.60%
# of unique text 566,253,888 75.81%

COYO-700M의 보다 자세한 통계 정보는 COYO-700M DataStudio를 참고하시면 됩니다.
Disclaimer & Content warning

COYO 데이터 세트는 연구 목적으로 사용하기를 권장합니다. 카카오브레인은 COYO 데이터를 구축함에 있어, "안전(Safe)"한 데이터 세트를 구성하려 했습니다. 하지만, 본 데이터 세트는 7억 개 이상의 대용량 데이터 세트로, 모든 데이터를 사람이 직접 검수하는 데에는 어려움이 있습니다. 이는 검수 과정에서 선별하지 못한 데이터가 사람에게 매우 불편하고 부적절한 콘텐츠로 보여질 수 있다는 것을 의미합니다. COYO 데이터 세트는 일부 부적절한 데이터가 포함되어 있을 수 있으며, 해당 데이터로 인해 파생되는 문제는 이를 사용한 사용자에게 온전한 책임이 있습니다. 따라서, 본 데이터 세트는 연구 목적으로 사용하는 것을 권장합니다. 카카오브레인은 상용 제품 개발을 위해 COYO 데이터 세트를 사용할 때, 부적절한 데이터 정리를 위한 별도의 처리 없이 그대로 사용하는 것을 권장하지 않습니다.
License

카카오브레인 COYO 데이터 세트는 CC-BY-4.0 라이선스하에 공개되어 있습니다.
데이터 세트는 오픈 데이터 웹 크롤링 프로젝트인 Common Crawl 데이터를 분석하여 다양한 사이트로부터 수집된 "Image URL"과 "Text"를 포함합니다. 수집된 데이터(이미지와 텍스트)는 각 컨텐츠가 귀속된 라이선스를 따릅니다.
Obligation to use

오픈소스는 무료로 사용할 수 있지만 이것이 의무가 없다는 의미는 아닙니다. COYO 데이터 세트 사용에 앞서 라이선스 가이드를 살펴보고 예정한 사용이 CC-BY-4.0 라이선스를 준수하는지 여부를 먼저 확인하시기 바랍니다. 라이선스를 위반하는 경우, 내용에 따라 사용금지, 손해배상 청구 등의 법적 조치를 취할 수 있습니다.
Contact

coyo@kakaobrain.com 

 

https://github.com/kakaobrain/coyo-dataset