OpenAI, GPT‑5.4로 AI 화학자 공개… 10,080회 실험으로 난반응 수율 높인 방법

Q: OpenAI의 AI 화학자는 완전 자율 시스템인가?

아니다. OpenAI는 이를 fully autonomous가 아니라 near autonomous로 규정했다. 사람은 제안 선택, 계획 수정, 기본 실험실 작업, 최종 검증에 관여했다.

Q: 수율 개선을 바로 제조 공정 개선으로 봐도 되나?

그렇게 단정하기 어렵다. 평균 수율과 bench scale 재현은 확인됐지만, 대규모 제조 공정과는 다른 검증 단계다.

OpenAI가 GPT‑5.4를 Molecule.one의 Maria AI와 고처리량 실험실에 연결해 의약화학 난제인 Chan–Lam coupling 개선 결과를 공개했다. 이번 사례의 핵심은 완전 자율이 아니라, AI가 가설 생성·실험 설계·데이터 분석·후속 제안을 맡고 사람이 선택·수정·검증을 담당한 near-autonomous 워크플로우라는 점이다.

코딩하는 상인·2026.06.18· 읽기 5분국내 제약·바이오 R&D 연구자자동화 실험실 및 화학 AI 검토 조직공식 출처 확인됨

OpenAI가 2026년 6월 17일 공개한 연구의 핵심은 GPT‑5.4를 Molecule.one의 Maria AI와 고처리량 실험실에 연결해, 의약화학의 까다로운 Chan–Lam coupling을 실제로 개선했다는 데 있다. OpenAI는 이 과정을 완전 자율이 아닌 near-autonomous라고 설명했다. 사람은 여전히 프롬프트 설계, 실험안 선택, 계획 수정, 기본 실험실 작업, 최종 검증을 맡았다.

이번 사례가 중요한 이유는 ‘문헌 요약’이 아니라 ‘실험 개선’에 있다

이번 연구는 모델이 논문을 읽고 답하는 수준을 넘어, 열린 목표에서 연구 제안을 만들고 실험으로 검증한 사례다. 특히 핵심 제안 OAI-M1-03은 primary sulfonamides의 Chan–Lam coupling 문제를 겨냥했고, GPT‑5.4는 primary sulfonamides를 중요한 substrate class로 식별한 뒤 TEMPO를 포함한 mild oxidants가 반응을 개선할 수 있다고 제안했다.

이 지점이 중요하다. 단순한 정보 검색이 아니라, 어떤 기질군이 병목인지 좁히고, 어떤 조건이 개선 여지가 있는지 가설을 제시했기 때문이다.

3개월 동안 돌아간 연구 루프

OpenAI가 밝힌 타임라인은 비교적 분명하다. 첫 프롬프트는 2026년 3월 4일이었고, OAI-M1-03 결과는 2026년 6월 4일 독립 전문가들과 공유됐으며, 전체 과정은 약 3개월이 걸렸다.

작동 순서는 다음과 같다.

과학자가 작성한 프롬프트를 GPT‑5.4와 하니스에 넣어 수천 개의 연구 제안을 생성하고 순위를 매겼다.
사람이 상위 제안 일부를 검토해 4개를 실험 대상으로 골랐다.
Maria AI가 선택된 고수준 계획을 구체적인 lab instructions로 변환했다.
Maria Lab가 실험 그리드를 실행하고 원시 데이터를 분석해 구조화된 결과를 반환했다.
GPT‑5.4가 결과를 바탕으로 후속 가설과 추가 실험을 제안했다.
사람이 계획의 일부를 수정하고, 핵심 결과를 bench scale에서 수동으로 재현해 검증했다.

즉, AI가 한 번에 정답을 내놓는 구조가 아니라, 제안 생성-실험-분석-후속 제안이 반복되는 폐쇄루프 구조였다.

10,080회 반응으로 확인한 성과

Maria Lab는 이 프로젝트에서 총 10,080 reactions을 수행했다. 최적화 조건에서는 시험한 boronic acids의 88%, sulfonamides의 83%에서 수율이 개선됐다. 평균 수율은 16.6%에서 25.2%로 상승했고, 30%를 넘는 반응 비율은 15.6%에서 37.5%로 늘었다.

이 수치들이 의미하는 바는 단순히 평균값이 오른 것 이상이다. low-yield 반응에서 실무적으로 쓸 만한 조건의 비중이 늘었다는 뜻이기 때문이다. 특히 30% 초과 반응 비율이 크게 늘어난 점은 탐색 후보 중 실제 합성에 올릴 수 있는 조합이 많아졌다는 신호로 읽힌다.

또한 후속 분석에서는 TEMPO가 훨씬 더 저렴한 4-hydroxy-TEMPO로도 큰 성능 저하 없이 대체될 수 있었다. 다만 상세 정량 비교표 전체는 본문 요약만으로 완전하게 복원되지 않는다.

bench-scale 검증에서는 14개 중 11개가 개선됐다

마이크로리터 스케일의 고처리량 실험은 빠르지만, 실제 실험대에서 재현되는지 따로 확인해야 한다. OpenAI는 human chemists가 microliter-scale 결과를 bench scale에서 재현했다고 설명했다.

그 결과 14개의 substrate pairs 중 11개에서 더 높은 수율이 확인됐고, 8개는 2배 이상 증가했다. 이는 자동화 스크리닝의 개선이 대표 조합 일부에서 사람 손의 검증으로 이어졌다는 뜻이다.

다만 이 수치는 제조 공정 성과로 바로 이어지는 값은 아니다. 공개된 결과는 bench-scale validation이며, 독립 외부 연구실의 재현은 아직 공개되지 않았다.

왜 fully autonomous가 아닌가

OpenAI는 이 시스템을 fully autonomous chemistry AI로 부르지 않았다. 사람이 프롬프트와 grading prompts를 만들고, 실험 대상으로 보낼 제안을 고르며, 계획을 일부 수정했고, 최종 결과를 독립적으로 검증했기 때문이다.

또한 워크플로우는 specialized high-throughput infrastructure에 의존했다. 다시 말해, 모델 하나만으로 된 성과가 아니라 AI, 자동화 실험실, 사람의 판단이 함께 맞물린 결과다.

국내 연구자가 볼 지점

국내 제약사, CDMO, 대학 의약화학 연구실이 이 사례에서 볼 지점은 범용 화학 AI의 등장이 아니다. 오히려 low-yield coupling reaction처럼 병목이 분명한 구간에서, AI가 가설 생성과 실험 우선순위 정리에 얼마나 기여할 수 있는지다.

특히 중요한 것은 반응 수율 자체보다 워크플로우다. 어떤 문제를 먼저 좁히고, 어떤 제안을 실험 대상으로 고르며, 어떤 결과를 bench scale에서 다시 확인할지까지 포함한 연구 체계가 함께 필요하다는 점을 보여준다.

한계도 분명하다

이번 공개가 의미 있는 건 맞지만, 과장하면 안 된다. OpenAI는 이 결과가 AI가 화학 연구 프로그램을 end to end로 독립 수행할 수 있음을 보여주지는 않는다고 밝혔다. 또한 이번 성과가 다른 reaction class, 다른 substrate classes, 제조 조건으로 일반화된다고 입증한 것도 아니다.

반응 메커니즘 역시 아직 완전히 설명되지 않았고, 더 넓은 substrate scope와 다른 조건에서의 추가 검증이 필요하다. 따라서 이번 사례는 특정 반응군에서의 early result로 보는 것이 맞다.

보안 측면에서도 선을 그어야 한다. OpenAI는 이번 작업을 legitimate medicinal-chemistry problem에 한정했다고 밝혔고, 유해 화학 설계를 입증한 사례로 읽어서는 안 된다고 분명히 했다.

FAQ

OpenAI의 AI 화학자는 완전 자율 시스템인가

아니다. OpenAI는 이를 fully autonomous가 아니라 near-autonomous로 규정했다. 사람은 제안 선택, 계획 수정, 기본 실험실 작업, 최종 검증에 관여했다.

이번 결과가 다른 화학 반응에도 그대로 적용되나

아직 아니다. 공개된 성과는 primary sulfonamides의 Chan–Lam coupling이라는 특정 반응군 중심이며, 다른 reaction class나 제조 조건으로의 일반화는 입증되지 않았다.

수율 개선을 바로 제조 공정 개선으로 봐도 되나

그렇게 단정하기 어렵다. 평균 수율과 bench-scale 재현은 확인됐지만, 대규모 제조 공정과는 다른 검증 단계다.

참고 출처

공식 2 · 보조 0

공식 출처 확인됨공식 발표·문서·changelog 기반으로 작성했습니다.

#OpenAI #research #AI Chemistry #Medicinal Chemistry #GPT-5.4