본문 바로가기

Machine Learning/News19

Whisper - OpenAI가 오픈소스로 공개한 다국어 음성 인식 시스템(ASR) https://news.hada.io/topic?id=7458 https://openai.com/blog/whisper/ 영어 음성 인식에 대해서는 인간 수준의 정확도에 도달 68만 시간 분량의 다국어 데이터로 훈련 크고 다양한 데이터 셋을 통해 악센트, 배경 소음 및 기술 언어등에 대해서도 견고성(robustness)을 개선 2022. 9. 26.
카카오브레인 NeRF-Factory 라이브러리 공개 https://www.aitimes.kr/news/articleView.html?idxno=26061 ‘NeRF’는 AI 딥러닝을 통해 3D 공간의 색과 밀도를 자체적으로 학습하여 2D 이미지로부터 새로운 3D 공간을 복원해내는 기술이다. 특히 물체의 색상 및 각도에 따라 달라지는 빛의 반사를 생생하게 재현함으로써 몰입감을 높여준다. 주어진 2D 이미지를 새로운 3D 이미지로 생성하는 대표적인 뉴럴 렌더링 기술 중 하나인 인공지능(AI) 기반 ‘NeRF’와 관련된 알고리즘을 통일된 코드 형태로 한 데 모아 공개함 ‘NeRF-Factory 라이브러리’는 현재까지 공개된 총 7개의 ‘NeRF’ 모델들을 하나의 코드로 재구현한 형태다. 파이토치(PyTorch) 기반의 코드를 사용한 동시에 코드 구조를 단순화함.. 2022. 9. 26.
Stable Diffusion : 최근 가장 핫한 Text-To-Image AI Art 모델 https://news.hada.io/weekly/202236 https://stability.ai/ https://github.com/CompVis/stable-diffusion 유료화한 DALL-E 와 비슷한 품질의 오픈소스 Text-To-Image AI 엔진 https://news.hada.io/topic?id=7300 https://multimodal.art/news/1-week-of-stable-diffusion 1주일 사이에 Stable Diffusion 을 이용한 다양한 유틸리티들 AMD GPU활용과 인텔CPU활용(OpenVINO) 포토샵, 블랜더, Gimp 를 위한 플러그인이 돋보임 https://news.hada.io/topic?id=7280 https://lexica.art/ 프롬프트(.. 2022. 9. 5.
카카오브레인 코요 Coyo 데이터셋 공개 https://news.hada.io/topic?id=7302 https://kakaobrain.com/contents/?contentId=667c6d5c-507c-4c2d-a3e5-dc227ee8c89c 카카오브레인, 글로벌 최상위급 데이터셋 ‘코요’ 공개 - 초거대 AI 연구 저변 확대 위해 약 7억 4천만 개 이미지-텍스트 데이터셋 공개 - 독자 기술로 구축한 고품질 데이터셋…구글 리서치, 오픈AI가 공개한 모델 재현 가능한 높은 수준 갖춰 - 현재까지 공개된 글로벌 데이터셋 중 최상위급 규모… 상반기 중 데이터셋 활용한 초거대 AI 모델 공개 예정 카카오브레인이 초거대 AI 연구 개발 저변을 확대하고자 국내 최대 규모의 이미지-텍스트 데이터셋을 외부에 공개합니다. 카카오브레인(대표 김일두)이 약 .. 2022. 9. 5.