리콘랩스는 지난 8월 7일~9일 서울 코엑스에서 열린 KCCV(한국컴퓨터비전학회) 2023 행사에 참여했습니다. 올해 열 번째를 맞이하는 행사에 리콘랩스는 플래티넘 협력사로서 구두 발표와 부스 전시를 진행했습니다.
이번 KCCV는 점점 증가하고 있는 컴퓨터 비전 기술에 관한 관심을 반영하듯 학계, 기업의 최대 참여를 기록했다고 합니다. 그 행사의 현장을 생생하게 담아 전해드려요.
행사 첫날, 리콘랩스를 비롯해 엔씨소프트, 카카오브레인, 루닛, 포스코, 슈퍼브에이아이, 오늘의 집 등 역량 있는 기업의 부스 전시가 속속 준비되었어요.
리콘랩스 부스는 행사장에서 가장 중심이 되는 자리에 위치하였고, 방문객들을 맞이할 준비를 하였습니다. 저희는 이번 행사에 참여하기 앞서 몇 가지 중요한 목표를 세웠어요.
•
컴퓨터 비전 학계와 기업의 최신 연구 성과를 통해 풍부한 인사이트 취득
•
관련 분야를 연구하는 학계, 기업과의 네트워크 형성
•
3D AI 생성 기술을 함께 연구할 인재 채용을 위한 밋업 진행
•
리콘랩스의 보유 기술과 3D 크리에이션 솔루션 3D프레소 솔루션 소개
행사는 리콘랩스 연구팀의 주도로 세션 발표와 참석, 부스 운영이 이루어졌고, 3일의 행사 기간 동안 목표했던 것들을 달성하기 위해 수고를 많이 해주셨어요.
리콘랩스 부스에서 3D프레소를 이용한 데모 영상이 재생되었는데, 많은 분들이
•
NeRF 기반으로 어떻게 결과물이 잘 나오는지
•
기술적인 한계를 어떻게 극복했는지
•
텍스트 프롬프트로 텍스처를 어떻게 변환하는지, shape도 변환 가능한지 궁금해하셨어요.
또, 3D 분야를 연구하시거나, 관심을 갖고 계신 분들이 채용 문의를 많이 주셨어요. 특히, 리콘랩스는 병역 특례 전문 연구원 채용도 하고 있어 관심을 보여주셨는데, 많은 인재분들의 지원 부탁드립니다!
행사 첫날, 리콘랩스 CTO 경원님이 구두 발표를 진행했어요.
3D AI Market Journey with 3Dpresso: Current Experiences and Future Research Topics
리콘랩스 CTO 윤경원
3D AI 기술 솔루션인 3D프레소가 시장에서 크리에이터의 워크플로우를 어떻게 변화시키고, 나아가 3D 생태계에서 어떤 역할을 하게 될 것인지를 담은 실제 사례 기반의 기업 발표였기 때문에 관련 분야를 연구하시는 많은 학계, 기업에서 많은 관심을 보여주신 것 같아요.
3일간 이어진 세션들은 기대 이상으로 풍부한 연구 내용으로 구성되어, 깊은 인사이트를 얻을 수 있었습니다.
행사에 참석하지 못한 여러분께 인상 깊은 몇 가지 세션에 대해 간단히 소개해 드릴게요.
Local 3D Editing via 3D Distillation of CLIP Knowledge
카이스트 AI 대학원 주재걸 교수
본 논문에서는 NeRF(Neural Radiance fields)의 한계점을 개선한 Local Editing NeRF(LENeRF)을 새롭게 제안하였습니다. 이 논문에서는 텍스트 입력만으로 조작이 가능한 LENeRF를 통해, 조작 후 시각적 품질이 저하되고 원하지 않는 부분이 함께 바뀌는 경향을 가진 기존 NeRF 기반 에디팅 연구의 한계를 극복하고자 하였습니다.
비지도 학습 방법을 사용해 자동으로 3D 마스크를 생성하는 3D distillation 기법을 제안하고, 지정된 영역만 자연스럽게 수정하는 feature fusion 방법론을 제시해 고품질의 3D 에디팅 성능을 달성하는 성과를 거두었습니다.
LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
고려대학교 ICT 명품인재 양성사업단 김승룡 교수 연구실, CVPR 2023 논문 채택
기존의 이미지 대 이미지 변환 기술은 보통 두 가지 중요한 문제점을 겪어왔습니다: 개별 샘플 도메인 주석에 대한 과도한 의존과 이미지 당 여러 속성을 처리할 수 없는 문제입니다.
최근의 진정한 비지도 학습 방법은 클러스터링 접근 방식을 채택하여 개별 샘플의 원-핫 도메인 레이블을 쉽게 제공할 수 있지만, 이것은 또 실제 세계 설정을 고려할 수 없습니다: 하나의 샘플에는 여러 속성이 있을 수 있기 때문입니다. 더욱이, 클러스터의 의미는 인간의 이해와 쉽게 결합되지 않습니다.이러한 문제를 극복하기 위해 언어 기반의 이미지 대 이미지 변환 모델인 "LANguage-driven Image-to-image Translation" 모델, 줄여서 LANIT을 제안했습니다.
데이터 셋에서 텍스트로 제공되는 후보 속성을 활용하여 이미지와 속성 간의 유사성이 개별 샘플 도메인 레이블을 나타내도록 하는 것이지요. 이러한 정의는 자연스럽게 다중 핫 레이블을 가능하게 하며, 사용자는 언어로 속성 집합과 함께 대상 도메인을 지정할 수 있습니다.
거대 모델 시대에서 AGI로 가기 위한 컴퓨터 비전의 역할과 발전 방향
패널 토의
AGI의 정의
다섯 명의 패널들은 각자 AGI (Artificial General Intelligence)의 정의에 대한 소견을 밝혔습니다. 대표적으로 김종욱 박사는 사람이 하는 일에 소요되는 시간 중 50%를 AI가 대체할 수 있을 때 그것을 AGI로 부를 수 있을 것이라고 정의했어요. 주한별 교수는 AGI는 해결하고자 하는 구체화된 문제를 정의하고 있을 것이며, 사람처럼 끊이지 않는 사고를 바탕으로 계속하여 이어지는 과업들을 다루게 될 것이라 했습니다. 그리고 패널들은 AGI를 위해서는 컴퓨터가 사람처럼 정보를 인식하고 처리할 수 있는 센서와 액션의 역할이 중요하다고 의견을 모았습니다.
AGI를 위한 컴퓨터 비전의 역할
패널들은 컴퓨터 비전의 주요한 기여가 멀티 센서에 있을 것이라고 주장했습니다. 현재 우리에게 AGI가 가능할 것이라는 비전을 제공한 것은 chatGPT가 선보인 퍼포먼스의 역할이 크다는 것은 부정할 수 없으나, 현실 세계의 문제를 풀기 위해서는 텍스트 만으로는 충분하지 않으며, 현실의 데이터를 해석하기 위해서는 비전 정보의 수집과 이해가 필수적이라고 했어요. 또, 패널들은 chatGPT가 텍스트의 파운데이션 모델이 된 것처럼 이미지, 더 나아가서는 비디오와 3D 분야의 파운데이션 모델이 등장할 수 있도록 더욱 관심이 필요하다는데 동의했습니다.
AGI로 가기 위한 우리의 방향
다수의 패널은 AGI를 위해서 액티브한 학습과 평가 그리고 자가-학습이 중요하다고 언급했습니다. 따라서 기존의 컴퓨터 비전 데이터와는 질과 양적으로 다른 데이터가 필요하기 때문에 데이터 수집 방법이 바뀌어야 할 것이라 의견을 밝혔습니다. 마지막으로 패널들은 개인들로써 AGI라는 거대한 공동 목표를 놓고, 파운데이션 모델이나 거대한 데이터 셋에 압도 당하기보다는 그것을 잘 활용해야 한다고 주장했습니다.
이번 KCCV 2023 참석을 통해 리콘랩스는 새로운 지식과 인사이트를 얻을 수 있었을 뿐만 아니라, 다양한 분야에서 활동하는 전문가들과의 소중한 만남을 가질 수 있었습니다.
더 나아가, 이번 학회에서 얻은 정보를 토대로 리콘랩스의 3D AI 기술 연구에도 큰 도움이 될 것으로 기대하고 있어요. 앞으로 리콘랩스는 더 많은 학회와 세미나에 참석하여 지식을 확장하고 교류하는 소중한 경험을 쌓아 나가겠습니다.