본문 바로가기
주식투자

ChatGPT 멀티모달, 보고 듣고 말할 수 있다! 주요 기능 알아보기

by 비케이퀀트 2023. 10. 15.

지난 9월 25일, 오픈 AI 사는 홈페이지를 통해 ChatGPT가 보고 듣고 말할 수 있다고 밝혔습니다. ChatGPT Plus, 그러니까 유료 사용자들을 대상으로 멀티모달 기능을 제공하기 시작했는데요. 어떤 것까지 할 수 있는지 자세한 내용 아래에서 알아보겠습니다. (Deepl을 통해 번역했습니다)

 

 

 

ChatGPT 멀티모달, 주요 기능 알아보기

 

이제 보고, 듣고, 말할 수 있는 ChatGPT

 

ChatGPT에 새로운 음성 및 이미지 기능을 출시하기 시작했습니다. 음

 

성 대화를 하거나 ChatGPT에 대화 내용을 보여줄 수 있는 새롭고 직관적인 유형의 인터페이스를 제공합니다. 음성과 이미지를 통해 일상에서 ChatGPT를 더 다양한 방법으로 사용할 수 있습니다.

 

여행 중에 랜드마크의 사진을 찍고 그 명소의 흥미로운 점에 대해 실시간으로 대화를 나눌 수 있습니다.

 

집에 돌아와서는 냉장고와 식료품 저장실 사진을 찍어 저녁 메뉴가 무엇인지 파악하고 단계별 레시피에 대한 후속 질문을 할 수 있습니다.

 

저녁 식사 후에는 사진을 찍고 문제 세트에 동그라미를 치고 부모와 함께 힌트를 공유하면서 자녀가 수학 문제를 풀 수 있도록 도와주세요.

 

 

앞으로 2주에 걸쳐 플러스 및 엔터프라이즈 사용자에게 ChatGPT의 음성 및 이미지 기능을 출시할 예정입니다.

 

음성은 iOS와 Android에서 제공되며(설정에서 옵트인), 이미지는 모든 플랫폼에서 사용할 수 있습니다.

 

 

ChatGPT와 대화하고 응답 받기

 

이제 음성을 사용하여 어시스턴트와 주고받는 대화를 할 수 있습니다.

 

이동 중에도 어시스턴트와 대화하고, 가족을 위해 잠자리 이야기를 요청하거나, 저녁 식탁에서 토론을 시작하세요.

 

음성을 시작하려면 모바일 앱에서 설정 → 새로운 기능으로 이동하여 음성 대화를 선택합니다. 그런 다음 홈 화면 오른쪽 상단에 있는 헤드폰 버튼을 탭 하고 다섯 가지 음성 중에서 원하는 음성을 선택하세요.

 

새로운 음성 기능은 텍스트와 몇 초 분량의 샘플 음성만으로 사람과 같은 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델을 기반으로 합니다. 각 음성을 만들기 위해 전문 성우와 협업했습니다.

 

또한 오픈소스 음성 인식 시스템인 Whisper를 사용하여 사용자가 말한 단어를 텍스트로 변환합니다.

 

 

이미지에 대한 채팅

 

이제 ChatGPT에 하나 이상의 이미지를 보여줄 수 있습니다.

 

그릴이 작동하지 않는 이유를 해결하거나, 냉장고의 내용물을 탐색하여 식단을 계획하거나, 복잡한 그래프를 분석하여 업무 관련 데이터를 확인할 수 있습니다.

 

이미지의 특정 부분에 집중하려면 모바일 앱의 그리기 도구를 사용할 수 있습니다.

 

시작하려면 사진 버튼을 탭 하여 이미지를 캡처하거나 선택합니다. iOS 또는 Android를 사용 중이라면 먼저 더하기 버튼을 탭 하세요.

 

여러 개의 이미지에 대해 토론하거나 그림 그리기 도구를 사용하여 어시스턴트를 안내할 수도 있습니다.

 

이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 합니다. 이 모델들은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서 등 다양한 이미지에 언어 추론 기술을 적용합니다.

 

 

이미지 및 음성 기능을 점진적으로 배포하고 있습니다.

 

OpenAI의 목표는 안전하고 유익한 AGI를 구축하는 것입니다.

 

우리는 도구를 점진적으로 제공함으로써 시간이 지남에 따라 개선하고 위험 완화 기능을 구체화하는 동시에 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있다고 믿습니다.

 

이러한 전략은 음성 및 시각을 포함하는 고급 모델에서 더욱 중요해집니다.

 

 

음성

 

단 몇 초의 실제 음성으로 사실적인 합성 음성을 제작할 수 있는 새로운 음성 기술은 창의적이고 접근성에 중점을 둔 다양한 애플리케이션의 문을 열어줍니다.

 

 

그러나 이러한 기능에는 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 수 있는 잠재력과 같은 새로운 위험도 존재합니다. 그렇기 때문에 저희는 이 기술을 특정 사용 사례인 음성 채팅에 적용하고 있습니다.

 

음성 채팅은 트위터에서 직접 작업한 성우들과 함께 만들었습니다. 다른 기업들과도 비슷한 방식으로 협업하고 있습니다.

 

예를 들어, Spotify는 팟캐스터가 자신의 목소리로 팟캐스트를 추가 언어로 번역하여 스토리텔링의 도달 범위를 넓힐 수 있도록 지원하는 음성 번역 기능의 파일럿에 이 기술을 활용하고 있습니다.

 

 

이미지 입력

 

비전 기반 모델은 사람에 대한 환각부터 위험도가 높은 영역의 이미지에 대한 모델의 해석에 의존하는 것까지 새로운 과제를 제시합니다.

 

광범위한 배포에 앞서 극단주의 및 과학적 숙련도와 같은 영역의 위험에 대해 레드 팀원 및 다양한 알파 테스터와 함께 모델을 테스트했습니다.

 

이러한 연구를 통해 책임감 있는 사용을 위한 몇 가지 주요 세부 사항을 조율할 수 있었습니다.

 

 

유용하고 안전한 비전 기능 만들기

 

다른 ChatGPT 기능과 마찬가지로 비전은 일상생활을 지원하는 기능입니다. 비전은 사용자가 보는 것을 볼 수 있을 때 가장 잘 작동합니다.

 

이러한 접근 방식은 시각장애인과 저시력자를 위한 무료 모바일 앱인 Be My Eyes와 협력하여 사용법과 한계를 파악하는 데 직접적으로 도움이 되었습니다.

 

사용자들은 리모컨 설정을 파악하는 동안 TV에 사람이 등장하는 경우와 같이 배경에 사람이 포함된 이미지에 대해 일반적인 대화를 나누는 것이 유용하다는 의견을 제시했습니다.

 

또한, ChatGPT가 항상 정확한 것은 아니며, 이러한 시스템은 개인의 프라이버시를 존중해야 하므로, 사람에 대한 분석 및 직접적인 발언을 하는 기능을 상당히 제한하는 기술적 조치를 취했습니다.

 

 

실제 사용 사례와 피드백을 통해 이러한 안전장치를 더욱 개선하는 동시에 도구를 유용하게 사용하는 데 도움이 될 것입니다.

 

 

모델 제한에 대한 투명성

 

사용자는 연구와 같은 특수한 주제에 대해 ChatGPT를 사용할 수 있습니다.

 

저희는 모델의 한계에 대해 투명하게 공개하고 있으며, 적절한 검증 없이 위험성이 높은 사용 사례를 권장하지 않습니다.

 

또한 이 모델은 영어 텍스트를 능숙하게 전사하지만 일부 다른 언어, 특히 로마자가 아닌 스크립트를 사용하는 언어에서는 성능이 떨어집니다.

 

따라서 비영어권 사용자는 이러한 용도로 ChatGPT를 사용하지 않는 것이 좋습니다.

 

이미지 입력용 시스템 카드에서 안전에 대한 트위터의 접근 방식과 Be My Eyes와의 협력에 대한 자세한 내용을 확인할 수 있습니다.

 

 

액세스 권한을 확대할 예정입니다.

 

플러스 및 엔터프라이즈 사용자는 앞으로 2주 내에 음성 및 이미지 입력 기능을 경험하실 수 있습니다. 조만간 개발자를 포함한 다른 사용자 그룹에게도 이러한 기능을 제공할 수 있게 되어 기대가 큽니다.

 

 

마무리

 

멀티모달 지원이 시작되면서 한동안 사그라들었던 챗GPT를 비롯한 생성형 AI의 세계가 다시 한번 주목을 받을 것 같습니다. 얼마나 다양하고 새로운 시도들이 시작될지 벌써 기대가 되는데요.

 

아래 링크를 클릭하시면 기사의 원문을 확인하실 수 있습니다. 챗GPT 관련 다른 흥미로운 글들도 참고해 주세요.

 

[기사 원문 바로 보러 가기 - OpenAI]

 

 

[함께 보면 좋은 글]

 

문과 출신 코알못 직장인의 미국주식 자동매매 도전기 1 (feat. 챗GPT)

 

문과 출신 코알못 직장인의 미국주식 자동매매 도전기1 (feat.챗GPT)

저는 젠포트라는 무료 자동매매 플랫폼을 활용해 국내 주식에 투자하고 있습니다. 코딩을 할 줄 모르는 코알못도 기본적인 조건식만 익히면 자신만의 전략을 짜고 실전매매까지 할 수 있어서

mproject2017.tistory.com

 

chatGPT 활용 코스닥 주식투자전략 개발 가능?

 

chatGPT 활용 코스닥 주식투자전략 개발 가능?

오랜만에 chatGPT를 가지고 왔습니다. 오늘은 chatGPT를 활용해 젠포트 전략을 개발해 보려고 하는데요. 챗GPT에게 코스닥 데이터를 주고 CAGR 20% 이상, MDD -10% 미만의 좋은 성과를 거둘 수 있는 매수

mproject2017.tistory.com

 

GPT-4, OpenAI 전격 출시! 차이점은?

 

GPT-4, OpenAI 전격 출시! 차이점은?

오늘 챗 gpt4.0, GPT-4가 출시되었는데요. 이전 모델인 GPT-3.5에 비해 크게 향상된 성능을 가지고 있다고 합니다. 어떤 분은 고등학생이 대학생으로 성장한 느낌이라고 평가하셨는데요. 구체적으로

mproject2017.tistory.com

 

챗 gpt 특징, 사용법 (Chat GPT에게 주식투자 하는 법을 물어봤더니?)

 

챗 gpt 특징, 사용법 (Chat GPT에게 주식투자 하는 법을 물어 봤더니?)

요즘 챗GPT가(ChatGPT) 아주 핫하죠? 챗 GPT는 OpenAI가 개발한 대화형 인공지능 챗봇입니다. 저도 Chat gpt에게 퀀트투자 하는 방법에 대해 한번 물어봤는데요. 이를 통해 ChatGPT가 어떤 특징을 가지고 있

mproject2017.tistory.com

 

감사합니다.

댓글