[앵커]
어느덧 AI는 우리의 일상 뿐 아니라 목회와 신앙 생활 속에도 깊이 들어와 있는데요.
다양한 AI가 생성해내는 답변들이 기독교의 핵심 교리와 윤리 기준에 얼마나 적합한지, 체계적으로 평가해 보는 연구가 진행됐습니다.
일부 이단적 오류와 위험한 불안정성이 드러나 주의가 필요한 것으로 나타났습니다.
오요셉 기자입니다.
[기자]
대규모 언어모델, LLM을 바탕으로 한 대화형 AI 챗봇이 목회 현장은 물론, 성도들의 일상 신앙 상담 도구로까지 빠르게 확산되고 있습니다.
이런 가운데 목회자와 신학자, 각 분야 AI 전문가 등으로 구성된 '신앙과 AI의 미래'는 주요 LLM 모델들이 신학·윤리적으로 얼마나 건전한 답변을 내놓는지 체계적으로 검증하는 연구를 진행했습니다.
28일, 서울 중구 달개비에서 진행된 '신앙과 AI 벤치마크 데이터셋 구축 결과 발표' 기자회견. 이번 연구는 장로회신학대학교 교육혁신처와 연세대 미래융합연구원 JPIC센터, 에모리대 NLP Research Lab, 문화선교연구원, 소망교회 등이 협력해 진행했다. 오요셉 기자연구진은 "AI가 기독교의 보편적 진리와 배치되거나 특정 교리에 치우친 비정통·이단적 논리를 별다른 여과 없이 생성할 경우, 올바른 신앙 형성에 심각한 위협이 될 수 있다"며 "신뢰성과 신학적 안정성을 정량적으로 점검해야 한다"고 강조했습니다.
[임성빈 명예교수 / 장로회신학대학교 전 총장]
"'우리 다음 세대들은 첫 번째 만나는 선생님이 LLM 모델이 될 것입니다. 그 LLM 모델이 해주는 이야기가 결국은 그의 세계관을 좌우하게 될 것입니다. 과연 기독교는, 교회는 여기에 대한 준비가 되어 있나요?'라는 문제 제기를 했어요."이번 연구는 엔트로픽과 구글, 오픈AI 등 널리 사용되는 주요 AI 제공사의 LLM 10종을 대상으로 진행됐습니다.
조직신학 영역 10문항과 기독교 윤리·실천 영역 10문항, 총 20개 문항을 신학자들이 설계·검토해 각 모델에 두 차례씩 질의했습니다.
특히 이단 교리와 관련해선 자주 등장하는 핵심 키워드와 논리 패턴을 분석해, 40여 개의 오류 코드와 세부 판정 기준을 만들었습니다.
[양형주 원장 / 바이블백신센터]
"특별히 이단들은 영적인 체험을 강조하다 보니까 천사나 사탄에 대한 왜곡들도 많이 있어서, 이런 부분에 대해선 실질적인 (이단) 상담을 통해 궁금해하는 부분들을 저희들이 도출을 해서 문항들을 만들었고…"
모델별·제공사별 평균 HDI 비교 분석. 상위 모델은 평균적으로 높은 신학·윤리 적합성을 보였으나, 하위 모델은 특정 문항에서 낮은 점수와 큰 편차를 보였다. 연구진은 "평균 점수만으로는 드러나지 않는 신뢰성 차이가 반복 질의 분석을 통해 확인됐다"며 "실제 목회·교육 현장에서 사용될 때 더 높은 주의가 필요하다"고 강조했다. 신앙과AI의미래 제공평가 결과, 전체 평균 점수는 88.53점으로 LLM들이 전반적으로는 신학·윤리적 질문에 대해 상당히 높은 수준의 응답을 생성하는 것으로 나타났습니다.
하지만 세부 문항으로 들어가면 일부 교리와 윤리 영역에서 심각한 오류와 불안정한 답변이 적지 않게 확인됐습니다.
예를 들어, 임박한 종말에 대한 공포 조성 문항과 관련해선 일상 포기, 사회적 고립, 공동체에 대한 과도한 헌신 요구와 같은 위험 요소들을 충분히 비판하지 못했습니다.
또, 교회 지도자의 권위에 대해선 성경적 균형을 벗어난 지나친 권위주의적인 답을 내놓았고, 삼위일체 교리를 묻는 질문에는 '성부·성자·성령'의 위격 구별을 사실상 부정하는 양태론적 오류를 드러내기도 했습니다.
[김경래 교수 / 장로회신학대학교]
"실제로 80점 미만의 응답이 66개가 있었고, 60점 미만도 30개가 있었고, 치명적 오류가 부여된 문항들도 있었기 때문에 평균의 함정에 우리가 속아서는 안 되겠다… 안전한 AI 활용을 위해서는 인간 개입이 꼭 필요하다, (AI는) 어디까지나 보조 도구라는 것을 생각하면서 최종적으로 인간 전문가의 감수가 필요하다."
[정대경 교수 / 연세대학교]
"'특정한 주석서를 바탕으로 이 질문에 대한 답변을 해줘'라는 식으로 질문한다면 지금 나온 이 결과표보다는 훨씬 더 좋은 답변을 얻을 수가 있을 겁니다. 질문에 대한 구체적인 맥락을 가지고서 사용하신다면 신앙생활에 더욱더 도움이 될 것 같다는 생각을 해 봤고요."
실제 일부 응답에서는 삼위일체·종말론·계시 이해 등 신학을 왜곡하는 심각한 오류가 확인됐다. 연구진은 "높은 평균 점수 이면에는 이단적 교리와 비윤리적 지시를 승인하는 치명적 오류가 다수 숨어 있다"며 "목회 현장이나 성도가 필터링 없이 사용할 경우 왜곡된 신학을 그대로 수용할 위험이 크다"고 경고했다. 신앙과AI의미래 제공연구진은 "이번 결과가 AI 기술 발전 과정에 교회의 신학·윤리적 고민이 실질적으로 반영되는 계기가 되길 바란다"며 "정통 신학 데이터 학습 등 교단과 신학교, AI 개발 기업이 함께 협력해 안전하고 유익한 '기독교 AI 생태계'를 만들어가자"고 제안했습니다.
특히, "교회와 성도들이 참고할 수 있는 공신력 있는 가이드라인을 제시하고, AI 개발자들을 위한 신학·윤리 안전성 평가 기준을 제도화 하는 일이 필요하다"며 "이번 평가 모델을 지속적으로 확대해 나가겠다"고 밝혔습니다.
이번 연구의 자세한 평가 항목과 점수, 개별 LLM 모델들의 세부 결과는 '신앙과 AI의 미래' 홈페이지에서 확인할 수 있습니다.
CBS뉴스 오요셉입니다.
[영상기자 정선택] [영상편집 김영찬]