
“암 입니다” 의사 뛰어넘은 AI닥터
인공지능(AI)이 의료 진단 분야에서 인간 의사를 능가하는 능력을 보여주고 있다는 내용입니다. 오픈AI의 최신 AI 모델인 GPT-4는 임상 사례를 기반으로 한 진단 테스트에서 인간 의사보다 16%포인트 더 높은 정확도를 기록했습니다. 스탠퍼드대학교 인간중심인공지능연구소(HAI)의 ‘AI 인덱스 2025’ 보고서에 따르면, GPT-4는 단독 진단 성능이 가장 높았으며, 인간 의사와 협업할 경우에도 활용 방식에 따라 성과 편차가 컸습니다. AI는 로봇 수술, 의학 데이터 분석, 암 검진 솔루션 등 다양한 의료 분야에 도입되고 있으며, GPT-4는 ‘메드QA’ 벤치마크 테스트에서도 높은 정확도를 기록했습니다. 보고서는 AI와 의사의 협업이 최선의 결과를 낳을 수 있다고 언급하면서도, AI 시스템의 신뢰성과 안전성에 대한 우려를 제기했습니다.
AI 기술의 발전으로 의료 분야에서 AI의 역할이 확대될 가능성이 높으며, AI 의사의 시대가 가까워지고 있다는 것입니다. AI는 의료 서비스의 질을 개선하고, 의료진의 업무 효율성을 높이는 데 기여할 수 있습니다. AI 시스템의 신뢰성과 안전성에 대한 우려를 해소하고, 정책적 대비가 필요해 보입니다.


[AI는 지금] “양보다 질이다”…AI 기업들, 정제 데이터 ‘버티컬 모델’ 베팅
AI 산업이 일반적인 대규모 언어 모델(LLM)에서 특정 산업에 맞는 ‘버티컬 AI’ 모델로 전환되고 있음을 논의합니다.
일반 LLM은 다양한 주제를 빠르게 학습할 수 있다는 장점이 있지만, 특정 산업에 필요한 정확도, 상황 이해, 규제 준수가 부족한 경우가 많습니다. 법률, 금융, 상거래 등 특정 산업에 맞게 설계된 수직형 AI는 강화된 문제 해결 능력, 데이터 기반 경량화 전략, 향상된 정확도로 인해 인기를 얻고 있습니다.
BHSN의 ‘앨리비’ 법률 문서 분석, ‘젠투’ 전자 상거래 고객 참여, ‘알프’ 패션 및 뷰티 산업 고객 서비스 등 수직형 AI 응용 프로그램의 여러 예가 있습니다.
이러한 애플리케이션은 다양한 산업에서 효율성을 높이고 오류를 줄이며 고객 만족도를 향상시킬 수 있는 수직형 AI의 잠재력을 보여줍니다. 기사는 AI 기술의 미래가 특정 산업에 맞게 최적화된 방식으로 작동하는 능력에 달려 있으며, 이러한 특화가 기술 경쟁력의 핵심 요소가 될 것임을 시사합니다.
수직형 AI는 특정 산업에 맞게 설계되어 일반 LLM보다 더욱 정확하고 효율적이며, 다양한 산업에서 활용되어 비용 절감과 생산성 향상에 기여할 수 있습니다. AI 기술의 발전과 상용화를 가속화할 것으로 예상됩니다.


AI 총동원해 오즈의마법사 생성…구글이 보여준 동영상 AI의 미래 [팩플]
구글은 1939년 작은 셀룰로이드 필름 프레임으로 찍힌 영화를 스피어의 초대형 고해상도(16K) LED 스크린에 맞출 수 있게끔 이미지를 바꿔주는 AI 기반 도구를 개발했다. 전통적인 영화 프레임보다 훨씬 넓은 스피어의 초대형 화면을 실감나게 채우기 위해 기존 영화 프레임 바깥에 있던 이미지도 동영상 AI 기술(AI 아웃페인팅)로 생성해 냈다. 실제로 스피어 화면에 펼쳐진 도로시와 양철 나무꾼 영상은 최신 영화라고 해도 믿을만큼 선명했고, 이질감도 없었다.
이 프로젝트에는 Google Cloud, Google DeepMind, Sphere Studios, Warner Bros.가 협력했으며 영화 및 기술 산업에서 수천 명이 참여했습니다. Google은 AI 기반 도구를 개발하여 영화 이미지를 스피어의 16K 해상도 화면에 맞게 조정하고 AI 아웃페인팅 기술을 사용하여 원래 영화 프레임 외부의 새로운 이미지를 생성했습니다.
Google은 영화 산업에서 AI와 인간 창작자 간의 협력 모델을 구축하는 것을 목표로 합니다. ‘오즈의 마법사’의 향상된 버전은 8월 28일 스피어에서 개봉될 예정입니다.


사람처럼 사고하는 AI 시대…구글도 추론용 AI칩 내놨다
Google이 라스베이거스에서 열린 Next 2025 기술 컨퍼런스에서 첫 번째 추론 전용 AI 칩인 Ironwood를 소개한 것에 대해 논의합니다. 이 칩의 개발은 AI 업계가 단계별 문제 해결을 제공하여 인간과 유사한 사고를 모방하는 추론 모델로 이동하는 것을 의미합니다. 이는 학습된 패턴에서 확률에 따라 답변을 생성하는 기존 AI 모델과는 대조적입니다.
Ironwood TPU는 Google의 첫 번째 TPU에 비해 3600배의 성능 향상을 자랑하여 AI 에이전트가 요구하는 복잡한 작업을 처리할 수 있습니다. Google은 또한 간단한 질문에 빠른 답변과 복잡한 질문에 대한 더 자세한 답변을 제공하도록 설계된 경량화된 추론 AI 모델인 Gemini 2.5 Flash를 공개했습니다. 이 기사는 AI 랜드스케이프에서 추론 모델의 중요성이 커지고 이러한 모델을 지원하기 위한 강력한 컴퓨팅 성능에 대한 수요가 증가함에 따라 Google의 노력을 강조합니다.


AI 모델 편향·환각 줄이는 ‘머신 언러닝 플랫폼’…LLM 공정성 강화
머신 러닝 스타트업 히룬도(Hirundo)가 AI 모델의 원치 않는 데이터나 동작을 관리하는 ‘머신 언러닝 플랫폼’을 발표했습니다. 이 플랫폼을 통해 메타의 라마 4 모델의 편향을 평균 44% 줄이는 데 성공했습니다.
머신 언러닝은 AI 모델에서 특정 지식을 제거하는 기술로, 히룬도는 이를 통해 편향 완화뿐 아니라 환각, 적대적 취약성, 유해한 출력 등의 문제도 해결할 수 있다고 합니다. 히룬도의 CEO 벤 루리아는 라마 4와의 협력을 통해 플랫폼의 견고성과 확장성을 입증했으며, 더 안전하고 공정한 AI 솔루션 배포를 지원하겠다고 밝혔습니다.
히룬도의 머신언러닝 플랫폼은 메타의 라마 4 모델에서 효과를 입증했으며, 앞으로 더욱 안전하고 공정한 AI 솔루션 개발에 기여할 것으로 기대됩니다.


추론형 AI 급성장…테스트 시장도 커진다
기사 요약
최근 인공지능(AI) 모델들의 성능을 객관적으로 평가하기 위한 고난도 벤치마크들이 등장하고 있습니다. 구글은 과학 분야 문제 해결 능력을 평가하는 ‘큐리’를, 오픈AI는 AI 에이전트의 연구 능력을 측정하는 ‘페이퍼벤치’를, 스케일AI는 100개 이상의 이종 영역에서 난제를 선별한 ‘HLE’를 개발했습니다.
그러나 일부 기업들이 자사 AI 모델의 성능을 과장하기 위해 벤치마크 결과를 조작하거나 유리한 지표만 선별해 공개하는 등 논란이 발생하고 있습니다. 또한, 추론 능력을 강조한 모델들의 등장으로 평가 비용이 급증하면서 독립적인 성능 검증이 어려워질 수 있다는 우려도 제기되고 있습니다.
– AI 성능 평가의 중요성 증대: AI 모델이 복잡한 추론 능력을 갖추게 되면서, 그 성능을 객관적으로 평가하는 벤치마크의 중요성이 더욱 커지고 있습니다.
– 벤치마크의 진화: 기존 벤치마크의 한계를 극복하고 AI 모델의 실제 능력을 보다 정확하게 측정하기 위한 고난도 벤치마크들이 등장하고 있습니다.
– 벤치마크 조작 및 신뢰성 문제: 일부 기업들의 벤치마크 결과 조작 및 과장 홍보는 AI 성능 평가의 신뢰성을 저해하고 있습니다.
– 평가 비용 증가: 추론 능력을 강조한 모델들의 등장으로 평가 비용이 급증하면서, 독립적인 성능 검증이 어려워질 수 있다는 우려가 있습니다.
– 통일된 평가 기준의 필요성: 다양한 AI 모델의 성능을 객관적으로 비교하기 위한 통일된 평가 기준 마련이 필요합니다.


영어 발음 교정까지 해주는 AI 교과서… 맞춤형 문제도 추천
AI 교과서는 학생들의 학업 성취도를 즉시 파악하고 맞춤형 문제를 추천하는 기능을 제공하여 교사들이 학생 개개인에게 더욱 효과적인 지도를 할 수 있도록 돕고 있습니다. 특히 영어 수업에서는 AI가 학생들의 발음을 교정해주는 기능이 유용하게 활용되고 있습니다.
AI 교과서 도입 초기에는 학부모들의 우려도 있었지만, 실제 사용 후에는 긍정적인 반응이 많았으며, 학생들도 AI 교과서의 다양한 문제 유형과 다른 학생들의 풀이 과정을 볼 수 있다는 점에 만족하고 있습니다. 다만, 일부 학생들은 기기 사용에 미숙한 모습을 보이기도 했습니다.


두차례나 ‘GPT-4.5’ 사전 훈련한 오픈AI…“GPT-4쯤은 5명으로 개발 가능”
오픈AI가 ‘GPT-4.5’ 개발 경험을 바탕으로 ‘GPT-4’ 수준의 모델을 더 적은 인원으로 개발할 수 있게 되었다는 내용을 다룹니다.
- 오픈AI는 ‘GPT-4.5’ 개발을 통해 얻은 기술적 노하우를 바탕으로, 과거 수백 명이 필요했던 ‘GPT-4’ 사전 훈련을 이제 5명으로 수행할 수 있게 되었다고 밝혔습니다.
- 샘 알트먼 CEO는 GPT-4.5 개발을 주도한 엔지니어들과의 팟캐스트에서 이 내용을 공유하며, GPT-4.5 사전 훈련 과정이 어려웠음을 시사했습니다.
- 오픈AI 연구원들은 모델 구축 경험이 반복 작업의 효율성을 크게 높여준다고 언급하며, 이를 “치트 키”에 비유했습니다.
- GPT-4.5는 2월에 공개된 최신 모델로, 오픈AI는 이를 “가장 크고 강력한 모델”이라고 소개했지만, 개발 과정에서 성능 향상에 어려움을 겪어 사전 훈련을 다시 시작하기도 했습니다.
- AI 스케일링 법칙에 대한 의문이 제기되었는데, 이는 더 많은 데이터와 컴퓨팅 자원을 투입하는 것만으로는 더 이상 큰 성능 향상을 기대하기 어렵다는 의미입니다.
- 알트먼 CEO는 GPT-4.5가 오픈AI의 마지막 비추론 모델이며, 앞으로는 플래그십 모델에 추론을 통합할 것이라고 예고했습니다.
오픈AI가 GPT-4.5 개발을 통해 모델 개발 효율성을 크게 높였다는 것을 보여줍니다. 이는 AI 모델 개발 비용을 낮추고, 더 많은 사람들이 AI 기술을 활용할 수 있도록 하는 데 기여할 것으로 기대됩니다. 또한, AI 스케일링 법칙에 대한 의문을 제기하며, AI 모델 개발이 더 이상 단순히 데이터와 컴퓨팅 자원을 투입하는 것만으로는 이루어지지 않을 수 있다는 점을 보여줍니다.