최근 정말 뜨겁게 언급되고 있는 DeepSeek 🐳
발표 하루만에 NVIDIA의 주가를 무려 16%나 하락하게 만들기도 하였는데..!!
딥시크(DeepSeek)는 무엇이며, 왜 NVIDIA와 다른 주식들을 폭락시키며 (미국에게) 충격을 주었을까?
DeepSeek란?
DeepSeek는 중국인 량원펑이 2023년 7월에 설립한 중국의 민간 기업으로, 지난 1월 20일 최신 AI 모델을 출시했다. 이 모델 때문에 AI 부문에 대한 재평가를 불러일으키고 있다.
이 모델이 처음 주목받게 된 이유 중 하나는 'DeepSeek 학습 비용이 메타 수석 엔지니어 연봉보다 적다'는 이야기가 나오면서인데...
DeepSeek는 OpenAI의 ChatGPT와 Meta의 Llama 3.1에 필적하는 모델을 출시했고, 발표 주 주말에는 Apple의 앱 스토어에서 1위를 차지했다. 특히 주목할 점은 DeepSeek는 NVIDIA의 저비용 성능 칩을 사용하여 모델을 구축했는데, 이 모델이 비용을 줄이면서도 성능을 향상시켰다는 것이다.
기존 미국 AI 업체들은 어마어마한 돈을 투입해 LLM을 개발 중이었다. 그런데 갑자기 나타난 DeepSeek가 “우리는 훨씬 더 싸게 가능한데?”라며 등장했다.
아래의 내용은 해당 글을 기반으로 작성하였습니다.
기존 LLM 과의 차이는 무엇일까??
- 메모리 사용량을 75% 감소시켰다.
- 기존 LLM이 단어 단위로 읽었다면, 딥시크는 문장 전체를 한 번에 읽어 처리 속도를 두 배로 높이고, 90%의 정확도롤 유지한다.
- 기존 LLM이 모든 에이전트를 동시에 호출하는 반면, 딥시크는 필요할 때만 호출한다.
- 기존 모델은 1.8조 개의 파라미터를 활성화해야 하지만, 딥시크는 6710억 개의 파라미터 중 370억개만 활성화한다.
그리고 그 결과는 어마무시 했다.
- 훈련 비용 : 1억 달러 → 500만 달러
- 필요 GPU 수 : 100,000 → 2,000
- API 비용 : 95% 저렴
더욱이 오픈소스이기 때문에, 코드가 공개되었고 누구나 검증할 수 있다. 뿐만 아니라 기존 LLM은 대형 기술 기업들이 엄청난 자금을 투입해 개발한 반면, 딥시크는 소수의 인원으로 개발되었다. 현재 NVIDIA 매출의 상당 부분은 AI 연구를 위한 H100과 같은 초고가 GPU에 의존하고 있는데, DeepSeek 팀이 일반 게이밍 GPU로도 가능하다는 것을 입증한 것이다. 메타의 경우도 딥시크 대비 인원도 훨씬 많고 연봉도 훨씬 높지만, 성과는 현저히 낮은 상황이다.
이처럼 DeepSeek의 AI 모델 개발 방식은 업계에 큰 충격을 주었다. 쉽게 말해 기존 AI 기업들이 수천억 원의 비용을 들여 개발하던 것을 훨씬 적은 비용으로 구현해냈기 때문이다. 특히 메모리 사용량을 75% 감소시키는 획기적인 기술력을 선보이며 AI 업계의 새로운 가능성을 보여주었다.
DeepSeek는 어떻게 훨씬 더 저렴한 비용으로 모델 트레이딩이 가능했을까?
앞서 기존 LLM과의 차이를 간략히 살펴보았지만, 다시 한번 정리해보자.
1) 메모리 사용량 75% 저하
기존 AI 모델은 모든 숫자를 소수점 32까지 사용했는데, DeepSeek는 8자리까지만 사용했다. 이를 통해 메모리 사용량을 75% 줄일 수 있었다.
2) 멀티 토큰 시스템
기존의 LLM은 문장을 토큰 하나씩 분리하여 “나는 / 학교에 / 간다”와 같이 읽었다. 반면에 DeepSeek는 한 번에 전체 구문을 읽는다. 이를 통해 처리 속도는 2배 빨라졌고, 정확도 90%를 유지했다.
3) 전문가 시스템
DeepSeek는 전문가 시스템을 도입하여, 하나의 AI가 모든 작업을 수행하는 것이 아니라 필요한 순간에만 작동하는 전문가 모델을 만들었다.
4) 파라미터 축소
기존 LLM은 1.8조 개의 파라미터가 활성화되지만, 딥시크는 6710억 개 중 370억 개만 활성화한다.
다만 "DeepSeek는 기존 AI 모델보다 정말 뛰어날까?"라고 묻는다면,
특정 벤치마크에서는 높은 성능을 보이지만, 범용적인 문제 해결력에서는 여전히 검증이 필요하다고 할 수 있다.
DeepSeek가 몰고온 폭풍
CNBC에 따르면 발표 후 월요일에 AI 관련 주식이 타격을 입었고, Nvidia 주가는 17% 폭락하여 6,000억 달러의 가치가 손실되었고, 주식 시장 역사상 단일 회사로는 가장 큰 하루 손실을 기록했다고 한다. ASML은 6% 하락했고, 또 다른 반도체 주식인 Broadcom도 17% 폭락했다.
심지어 AI 관련 주식 뿐만 아니라, 일부 에너지 관련 주식에도 영향을 주었는데, AI 기술이 작동하는 데 에너지가 덜 필요할 수 있다는 우려 때문이었다. 이는 기술 부문의 수요 감소로 이어지고, 풍력 및 가스 터빈을 만드는 GE Vernova는 21% 폭락했고, 전기 생산업체 Vistra는 28% 폭락하기도 했다.
DeepSeek가 발표되고, 최근 며칠 사용해봤는데 꽤 만족하면서 사용 중이다. 다만 전세계적으로 폭발적인 반응이 있었다보니, 많이 힘들긴 한가보다.
앞으로도 AI 경쟁은 매우 치열할 것 같다. 근 몇년 AI의 성장은 눈부실 정도로 빨랐고, 이제 우리 삶에서 빠질 수 없는 존재가 되었다. 그 중 스스로도 느끼는 것은, 구글 사용량이 현저히 줄어들었다는 것이다. 요즘은 궁금한게 생기면 구글링을 한다기 보다는 AI에 바로 물어보는 경우가 많아졌다.
이처럼 구글링 보다는 ‘AI 검색’이 많아지며, 이를 다음과 같이 표현하기도 한다.
💡 사람들은 더 이상 정보를 ‘찾지(Search)’ 않는다. 동영상을 보며, 쇼핑하며, 커뮤니티에서 대화를 나누며 정보를 ‘발견(Discover)’한다. 필요한 정보가 있을 때는 생성AI 챗봇에 ‘질문’ 한다.
‘검색의 제왕’이라 불리던 구글도, (2024 기준) 점유율이 6년 만에 최하를 기록하기도 했다.
개인 정보는 안전할까?
하지만 아무래도 중국 기업이다 보니 걱정되는 부분이 있다. 개인 정보나 데이터가 보안상으로 문제가 되지 않을까하는 우려이다. 실제로 일부 전문가들이 DeepSeek가 수집하는 개인 데이터에 대해 우려를 제기하고 있다. DeepSeek는 회사의 개인정보 보호 정책에 따라 사용자의 생년월일, 오디오 입력, 업로드한 파일, 채팅 기록 및 기타 데이터를 중국에 있는 서버에 저장하기 때문이다.
DeepSeek는 기존 LLM에 비해 개인정보 수집 범위가 더 넓다. 사용자의 디바이스, 마우스·키보드 이동 패턴까지 수집한다고 알려져 있는데, 더 정교한 개인화 모델을 만들고, AI의 문맥 이해도를 높이는 데 도움을 준다고 한다. 다만 이런 데이터가 어떻게 활용되는지 반드시 확인하고 신중하게 접근하는 게 좋을 것 같다.
게다가, 며칠 전 DeepSeek의 내부 데이터베이스가 인터넷에 노출되는 사고가 발생했다. 보안 글로벌 기업 위즈(Wiz)의 연구소(Wiz Research) 갈 나글리(Gal Nagli) 연구원이 지난 30일 자사블로그를 통해 “딥시크의 클릭하우스(ClickHouse) 데이터베이스가 완전히 노출된 상태였다”며 밝힌 것이다.
Wiz의 경고를 받은 DeepSeek는 즉시 보안 취약점을 수정했지만, 데이터가 실제로 외부의 악의적인 행위자들에게 노출되었는 지는 아직 확인되지 않았다. 이번 사건을 계기로, AI 서비스 도입 속도에 비해 보안 조치가 미흡하다며 지적받고 있는 상황이다.
이와 함께 DeepSeek는 개인정보 보호 정책과 관련하여 이탈리아 데이터 보호 당국 가란테(Garante)의 조상이 되었으며, 아일랜드 데이터 보호 위원회(DPC)도 유사한 요청을 보낸 상태이다. 이에 따라 DeepSeek의 앱은 현재 이탈리아에서 사용할 수 없는 상태이다.
개인적으로는 큰 걱정 없이 사용할 수 있지만, 기업 입장에서는 사용을 자제하고 지켜보는 것이 더 필요할 것 같다.
이와 관련해서는 아래에 잘 정리된 글이 있어, 함께 참고하면 좋을 것 같다.
앞으로 DeepSeek가 AI 시장에 미칠 영향은??
아래 내용은 뉴닉의 기사를 기반으로 작성하였습니다.
DeepSeek의 등장이 엔비디아 GPU 수요를 낮출 거라는 전망이 있었지만, 실상을 살펴보면 그렇게 단순하지 않다.
✓ AI 모델 개발 속도가 빠른 이유
DeepSeek는 OpenAI의 o1 모델을 참고해서 개발되었기 때문에 개발 속도가 상대적으로 빠를 수밖에 없다. 마치 해설을 보고 공부한 학생과 그렇지 않은 학생의 차이라고 보면 이해하기 쉽다.
✓ GPU 사용이 줄어든다는 건 오해일 수도?
DeepSeek는 연산 효율을 높이긴 했지만, 여전히 고성능 GPU가 필요하다. 효율적인 학습 방식이 도입되면 연구 개발이 더 활발해지면서 오히려 GPU 수요가 증가할 가능성도 있다.
이를 표현한 밈이 있어 가져와봤다.
결론: DeepSeek, 혁신일까? 거품일까?
DeepSeek는 흥미로운 접근 방식을 제시하며 AI 모델의 효율성을 극대화하는 방향성을 보여주고 있다. 하지만, 현재의 반응은 언론과 SNS가 만들어낸 확대 재생산의 결과일 가능성이 크다. 벤치마크 성능이 높다고 해서 실전 활용에서도 뛰어난 성과를 보장하는 것은 아니기 때문이다.
DeepSeek는 특정 분야에서 강력한 보완적 역할을 할 가능성이 높지만, OpenAI 같은 대형 모델을 완전히 대체하기엔 아직 부족한 점이 많다. 그리고 GPU 수요 감소 역시 현실적인 접근이 필요하다. AI 기술이 더 효율적으로 발전할수록 연구 개발은 더욱 활발해질 것이고, 결국 GPU에 대한 수요는 유지되거나 오히려 증가할 가능성이 높다.
결국, DeepSeek는 현재의 과대평가를 걷어내고 나면 AI 모델의 발전을 위한 중요한 실험이자 참고 모델로 자리 잡을 것으로 보인다.
지금까지 DeepSeek에 대해 알아보았다. AI 전문가가 아니기 때문에, 얕은 수준의 정리였지만 더 깊은 이해를 원한다면 아래의 논문을 확인하기를 추천한다. 워낙 이슈였기 때문에 논문 리뷰도 쉽게 찾아볼 수 있다.
Reference
- https://www.cbsnews.com/news/what-is-deepseek-ai-china-stock-nvidia-nvda-asml/
- https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/
- https://www.themiilk.com/articles/a003f2664?from=/articles/afc10ea66
- https://www.kmib.co.kr/article/view.asp?arcid=1714984641
- https://www.linkedin.com/posts/cailyn-yong_deepseek-%EC%9D%B4%EC%96%B4%EC%84%9C-%EC%96%B4%EC%A9%8C%EB%8B%A4%EA%B0%80-deepseek%EC%9D%80-%ED%9B%A8%EC%94%AC-%EA%B0%92%EC%8B%B8%EA%B2%8C-%EB%AA%A8%EB%8D%B8-%ED%8A%B8%EB%A0%88%EC%9D%B4%EB%8B%9D%EC%9D%84-activity-7289620080617828353-0XqG?utm_source=share&utm_medium=member_desktop
- https://newneek.co/@growthmaker/article/16615