Mô hình suy luận mã nguồn mở Trinity-Large-Thinking của Arcee tại Mỹ, tuyên bố tiệm cận Opus 4.6, rẻ hơn 96%

動區BlockTempo

Arcee 미국 AI 스타트업이 오픈 소스 추론 모델 Trinity-Large-Thinking을 공개했으며, Agent 기능 벤치마크 PinchBench에서 91.9점을 기록해 Opus 4.6의 93.3점에 이어 2위를 차지했습니다. Tau2-Airline Agent 작업 벤치마크에서는 88.0으로 모든 비교 모델 중 최고 점수를 차지했습니다. 모델은 400B 희소 혼합 전문가(MoE) 아키텍처를 채택했으며, API 가격은 출력 $0.90/백만 token으로 Opus 4.6보다 약 96% 저렴합니다. Apache 2.0 라이선스로 가중치 다운로드가 가능합니다. 동아닷컴이 정리한 보도입니다.
(전후 맥락: OpenRouter 분석 100兆 Token 리포트: 인간은 도대체 AI로 무엇을 하고, 중국 모델의 부상과 사용자의 잔류(리텐션) 비밀)
(배경 추가: Claude Opus 4.6가 왔습니다: 직접 컴파일러를 쓰고, PPT를 만들며, 손쉽게 500개의 제로데이 취약점을 캐냈는데, 당신의 일이면 그것도 다 해보려 합니다).

직원 수가 100명도 안 되는 미국 AI 스타트업 Arcee는 Agent 능력 평가에서 앤트로픽(Anthropic) 플래그십 모델을 바짝 추격하는 점수를 냈고, 가격은 상대의 4% 수준에 불과합니다.

Arcee 이 회사는 과거에는 주류 관심의 초점이 아니었지만, 그들의 최신 공개작 Trinity-Large-Thinking은 여러 Agent 시나리오 벤치마크에서 이미 상위권에 진입했습니다.

Kilo가 개발한 PinchBench는 현재 업계에서 모델의 Agent 워크플로우에서의 실전 능력을 가늠하는 중요한 지표이며, Trinity-Large-Thinking은 이 테스트에서 91.9점을 받았습니다. 현재 1위인 Opus 4.6은 93.3점으로, 격차는 1.4%에 불과합니다.

또 다른 시뮬레이션된 실제 고객상담 시나리오 벤치마크인 Tau2-Airline에서, 그것은 더 높은 88.0점을 기록해 비교에 참여한 모든 모델보다 앞섰습니다. 이는 여러 차례의 대화와 도구를 반복 조회해야 하는 실제 Agent 작업에서, 이 오픈 소스 모델이 확실히 높은 수준을 갖추고 있음을 의미합니다.

그리고 Arcee API의 가격은 출력 $0.90/백만 token이며, 공식은 이것이 Opus 4.6보다 약 96% 저렴하다고 말합니다. Agent가 장시간 자동으로 실행되고 token을 지속적으로 소모해야 하는 애플리케이션 시나리오에서는, 모델 점수 격차보다 비용 차이가 더 의미 있을 수 있습니다.

400B 총 파라미터, 매 추론은 13B만 소모

Arcee AI 공식 블로그에 따르면, 이러한 가성비를 만드는 핵심은 아키텍처 선택입니다. Trinity-Large-Thinking은 희소 MoE(혼합 전문가) 설계를 사용하며, 그 안에는 256개의 전문가 모듈이 들어가 있지만, 토큰을 처리할 때는 그중 4개만 실행됩니다. 계산해 보면, 400B 규모의 거대한 모델이 실제 추론에서는 13B 수준의 연산 부담만 필요하며, 실행 효율은 같은 계열의 조밀(dense) 모델 대비 약 2-3배입니다.

올해 1월 말에 공개된 직전 Preview와 비교했을 때, 가장 큰 업그레이드는 추론 사고 체인(thinking chain)을 추가한 것입니다.

Preview는 지시(instruction) 미세조정만 했지만, 이번 Thinking 버전은 답변 전에 먼저 “생각”을 하고, 다중 라운드 도구 호출의 안정성과 긴 컨텍스트에서의 일관성도 뚜렷하게 개선되었습니다. Arcee는 스스로도 매우 직접적으로 말합니다. 이 모델은 장시간 Agent 루프에서 무너지지 않도록 설계되었다고요.

전체 기반 모델은 2,000만 달러, 33일 동안 훈련을 완료했으며, Thinking 버전의 후속 학습(후훈련)은 9개월을 들여 다듬었습니다.

Arcee CEO Lucas Atkins는 공개문에서 “Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.”라고 썼습니다.

범용 추론은 그 메인 무대가 아니다

물론, Agent에 특화된 만큼에는 선택과 포기가 따릅니다. 범용 추론 벤치마크에서 Trinity-Large-Thinking의 성적은 그다지 빛나지 않습니다. GPQA-D는 76.3점을 받았고, Kimi K2.5는 86.9, Opus 4.6는 89.2로, 격차는 각각 10과 13 퍼센트포인트입니다. MMLU-Pro의 83.4 역시 비교 모델들 중 바닥에 있습니다.

하지만 Arcee는 이 방향에서 정면으로 맞서기보다는 하지 않겠다는 듯하며, 공식은 “Trinity-Large-Thinking은 여러 측면에서 중국 이외 지역에서 가장 강력한 오픈 소스 모델”이라고 밝혔습니다. 또한 그들의 상대는 Opus나 GPT가 아니라, DeepSeek, Kimi 등 중국 오픈 소스 진영이라고 이미 밝혔습니다.

Trinity-Large-Thinking은 OpenRouter에도 동기화되어 올라갔고, OpenClaw에서 처음 5일 동안 무료로 사용할 수 있습니다. 직전 Preview 역시 계속 무료로 제공됩니다.

직전 버전 Preview에 대해 말하자면, 1월 말부터 OpenRouter 플랫폼에서 누적 처리한 토큰이 3.37兆(3.37 trillion) 토큰을 넘었습니다. OpenClaw의 통계에 따르면, 그것은 미국 사용량에서 1위, 전 세계에서는 4위인 오픈 소스 모델입니다. 규모가 크지 않은 스타트업에게 있어서 이 채택률은 그의 저렴함과 사용 편의성이 이미 입증되었고, 실제 시장 수요가 존재한다는 사실 또한 보여줍니다.

모델 가중치는 Apache 2.0 라이선스로 Hugging Face에 공개되어 있으며, 누구나 다운로드하고 수정하며 상용 배포할 수 있습니다.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận