수업자료·평가문항 제작 AI 활용 - 검증 책임과 경계선

수업자료·평가문항 만들기

핵심 제작 시간은 줄이되, 검증 책임은 100퍼센트 교사에게 있습니다. AI는 초안 생산기, 교사는 최종 검증자입니다.

AI는 초안 생산기, 교사는 최종 검증자

수업자료와 평가문항 제작에서 AI에게 맡길 일과 교사가 쥐어야 할 일을 처음부터 갈라두면 흔들리지 않습니다. AI에게는 빠른 초안과 다양한 변형을 맡기고, 교사는 그 초안을 다음 세 가지 기준으로 검증합니다.

(1) 우리 학년 성취기준에 맞는지
(2) 사실 오류나 할루시네이션이 없는지
(3) 특정 성별·지역·학습수준에 편향된 표현이 없는지

서울특별시교육청 가이드라인은 교사 영역에서 "AI가 제안하는 평가 피드백은 어디까지나 참고 자료일 뿐이며 최종적인 가치 판단과 기록은 교사의 책임"이라고 명시합니다. 제작 시간은 줄이되 검증 책임은 100퍼센트 교사에게 있다고 생각하면 됩니다. 교육부와 시도교육청이 함께 만든 가이드라인 역시 생성형 AI를 일률적으로 금지하지 않되 최종 판단과 의사결정의 주체는 사람(교사)이라는 원칙을 일관되게 강조합니다.

AI 산출 문항·루브릭·피드백은 보조 자료일 뿐이며, 채점기준의 변별력·정답 유일성·편향 여부에 대한 최종 가치판단과 기록 책임은 교사에게 있습니다.

출처: 서울특별시교육청 창의미래교육과 - AI·에듀테크 공교육 도입 및 활용 가이드라인 v1.0 원문

성취기준 연계 - 공식 포털에서 가져와 먹이기

작업 순서는 거꾸로입니다. AI가 만든 문항이 그럴듯해 보여도 우리 교육과정 성취기준과 어긋나면 평가로 쓸 수 없습니다. AI에게 성취기준을 외우게 하지 말고, 공식 출처에서 가져와 먹이세요.

먼저 KICE 학생평가지원포털(stas.moe.go.kr)에서 해당 단원의 성취기준 코드와 성취수준 진술을 확보합니다.
이를 프롬프트에 그대로 붙여넣고, "이 성취기준과 성취수준 B 도달을 측정하는 문항을 만들라"고 지시합니다.
포털에는 고등학교 전 과목의 서논술형 평가도구와 채점기준 예시가 탑재되어 있어, AI 산출물을 이 공식 예시와 대조하면 타당도 검증이 한 번에 끝납니다.
성취기준 코드와 진술은 반드시 stas.moe.go.kr 또는 국가교육과정정보센터에서 직접 복사해 붙여넣고, 코드를 기억으로 짐작해 적지 않습니다.
포털의 고교 전 교과 평가도구 커버리지와 갱신 시점은 로그인해 직접 확인하세요.

역할: 너는 고등학교 [공통국어1] 수업을 설계하는 베테랑 교사다.
맥락: 단원은 [작문 - 설득하는 글쓰기]이고, 적용할 2022 개정 교육과정 성취기준은 다음과 같다. [여기에 stas.moe.go.kr에서 복사한 성취기준 코드와 진술 전문을 붙여넣기]. 대상은 고1, 한 차시는 50분, 총 3차시로 구성한다.
형식: 차시별로 (1) 학습목표 1~2개 (2) 핵심질문 (3) 도입-전개-정리 활동 흐름과 각 활동 예상 소요시간 (4) 각 차시에 쓸 형성평가 아이디어를 줄글과 목록으로 제시하라. 표는 쓰지 마라.
제약: 모든 활동은 위 성취기준 도달에 직접 기여해야 한다. 학생의 사고를 대체하지 않고 자극하는 활동 위주로 설계하라. 확실하지 않은 내용은 추측하지 말고 '교사 확인 필요'로 표시하라.

AI 산출 문항이 우리 교육과정 성취기준·인지수준과 어긋나면 평가로 쓸 수 없습니다. KICE 학생평가지원포털(stas.moe.go.kr)의 공식 성취수준·서논술형 평가도구와 반드시 대조하세요.

출처: 교육부 / 한국교육과정평가원(KICE) - KICE 학생평가지원포털 원문

서논술형 문항 + 채점 루브릭 세트

고교학점제 성취평가제에서 서논술형 평가의 비중이 커지면서 문항과 채점 루브릭을 짝지어 만드는 일이 잦아졌습니다. AI는 이 작업에 특히 강합니다.

문항을 만든 직후 같은 대화에서 "위 문항의 채점 루브릭을 만들되 평가요소 3개, 각 요소마다 상(3점)·중(2점)·하(1점) 도달 기준을 행동 동사로 진술하라"고 이어서 지시하면 문항-배점-채점기준이 정렬된 세트가 나옵니다.
다만 교풀AI 같은 교육 플랫폼은 마크다운 표를 지원하지 않으므로, 루브릭을 표가 아니라 항목별 줄글이나 목록으로 출력하게 하는 편이 현장 적용에 편합니다.
핵심 검증 포인트는 채점기준의 변별력입니다. 상·중·하 진술이 서로 충분히 구별되는지, 채점자 간 신뢰도를 해칠 모호한 표현(예: 적절히, 충분히)이 없는지 교사가 다듬어야 합니다.

도달 수준	배점
상	3점
중	2점
하	1점

역할: 너는 고등학교 [과목명] 평가문항 출제 전문가다.
맥락: 다음 성취기준과 성취수준을 측정한다. [성취기준 코드 + 진술 붙여넣기]. 성취수준 B에 도달한 고2 학생을 변별하는 것이 목표다.
형식: (1) 서술형 문항 1개(발문, 조건, 예상 답안 분량 명시) (2) 채점 루브릭 - 평가요소 3개를 정하고 각 요소마다 상(3점)/중(2점)/하(1점) 도달 기준을 관찰 가능한 행동 동사로 진술. 루브릭은 표가 아니라 요소별 줄글 목록으로 출력하라. (3) 채점 시 유의점 2~3가지.
제약: 채점기준의 상/중/하 진술이 서로 명확히 구별되게 하고 '적절히, 충분히' 같은 모호한 표현을 쓰지 마라. AI가 대신 답하기 쉬운 일반적 주제는 피하고 자료 해석이나 근거 제시가 필요한 형태로 만들라.

출처: 교육부 / 한국교육과정평가원(KICE) - KICE 학생평가지원포털 원문

선택형 문항 - 매력적 오답 설계

객관식 선택형 문항은 AI가 정답지는 잘 만들지만 오답지에서 자주 무너집니다. 학생이 흔히 저지르는 오개념을 반영한 매력적 오답을 만드는 것이 선택형 문항의 핵심인데, 약한 모델은 명백히 틀린 들러리 오답만 내놓기 쉽습니다.

프롬프트에 "각 오답지가 어떤 오개념이나 흔한 실수를 노린 것인지 괄호 안에 근거를 함께 쓰라"고 요구하면 문항의 질이 올라가고, 동시에 교사가 그 근거를 보고 부적절한 오답을 골라낼 수 있습니다.
정답이 한 개로 명확한지 교사가 최종 확인합니다.
보기들의 길이와 형식이 균질한지(길이로 정답이 드러나지 않는지) 확인합니다.
성취기준이 묻는 인지수준(이해·적용·분석)과 문항 난이도가 맞는지 확인합니다.

역할: 너는 고등학교 [과목명] 객관식 문항 출제자다.
맥락: 측정할 성취기준은 [코드+진술]이고, 묻고자 하는 인지수준은 [이해/적용/분석 중 택1]이다. 대상은 고1이다.
형식: 5지선다 문항 2개를 만들어라. 각 문항은 (1) 발문 (2) 보기 5개 (3) 정답 (4) 각 오답지마다 괄호로 '어떤 오개념 또는 흔한 실수를 노렸는지' 근거를 함께 적어라.
제약: 정답은 반드시 하나만 명확하게, 보기들의 길이와 형식은 균질하게 만들어 길이로 정답이 드러나지 않게 하라. 명백히 틀린 들러리 오답이 아니라 학생이 실제로 헷갈릴 매력적 오답을 만들라. 사실 오류가 없도록 하고, 불확실하면 '검증 필요'로 표시하라.

출처: 교육부 / 한국교육과정평가원(KICE) - 성취기준(평가기준) 검색 원문

AI 대필 방지형 수행평가 설계

교육부 수행평가 AI 활용 관리 방안의 핵심 메시지 중 하나는 평가 설계 방향입니다. AI가 일반적이고 표준적인 답변을 내놓기 어려운 형태로 과제를 설계하라는 것입니다. 구체적으로는 다음을 권합니다.

(1) 수업시간 중 교사가 학생의 산출 과정을 직접 관찰할 수 있는 형태로 평가합니다.
(2) 우리 학교나 지역의 특성, 학생 개인의 경험과 성찰을 평가요소로 포함합니다. 예를 들어 일반적인 논설문 쓰기 대신 "우리 학교 등굣길의 구체적 문제를 관찰해 해결책을 제안하라"처럼 AI가 대신 써주기 어려운 맥락을 넣습니다.
학생에게 안내할 'AI 활용 허용 범위'와 'AI 활용 표기 양식'을 문항과 한 세트로 설계해두면 채점 단계의 분쟁을 예방할 수 있습니다.
학생이 AI를 쓴 경우 결과물에 AI 종류, 입력한 질문(프롬프트), 결과 반영 방식, 출처를 표기하게 합니다.

이 관리 방안은 2026학년도부터 시도교육청 학업성적관리 시행지침에 반영될 예정입니다.

역할: 너는 고등학교 [과목명] 수행평가를 설계하는 교사다.
맥락: 성취기준 [코드+진술]을 평가한다. 교육부 수행평가 AI 활용 관리 방안에 따라, 생성형 AI가 일반적이고 표준적인 답을 내놓기 어려운 형태로 과제를 설계해야 한다.
형식: (1) 학생 개인의 경험, 우리 지역이나 학교의 구체적 맥락, 수업 중 관찰 활동을 평가요소에 포함한 수행과제 2가지 안 (2) 각 안에 대해 교사가 수업시간 중 산출 과정을 직접 관찰할 수 있는 지점 (3) 학생에게 안내할 'AI 활용 허용 범위'(계획/탐색/작성/피드백 단계별 허용·금지)와 'AI 활용 표기 양식'을 줄글로 제시하라.
제약: 표는 쓰지 마라. 학생 실명이나 식별정보가 과제에 포함되지 않게 하라.

일반적·표준적 답이 가능한 과제는 AI 대필에 취약합니다. 수업 중 산출 과정 관찰, 개인 경험·지역 맥락 반영, AI 허용 범위·표기 규칙 사전 안내를 설계 단계에서 함께 마련하세요.

출처: 교육부 - 수행평가 시, 인공지능(AI) 활용 관리 방안(보도자료, 2025-12-23) 원문

출력 전 통과시킬 검증 5문항

AI가 만든 모든 수업자료와 평가문항은 학생에게 나가기 전 다음 5가지를 통과해야 합니다. 이 다섯을 묻는 것이 KICE의 5대 윤리원칙(투명성·안전성·공정성·책임성·협력적 파트너)을 현장 동작으로 옮긴 체크리스트입니다.

첫째 사실성, 인명·연도·개념 정의·수식에 오류나 환각이 없는가(교과서나 공신력 있는 자료와 대조).
둘째 성취기준 정합성, 묻고자 한 성취기준과 인지수준에 실제로 부합하는가.
셋째 편향성, 특정 성별·지역·직업·학습수준을 비하하거나 일반화하는 표현이 없는가.
넷째 변별력과 명확성, 채점기준이 채점자 간에 일관되게 적용될 만큼 구체적인가, 선택형은 정답이 유일한가.

할루시네이션 검증은 필수입니다. AI가 만든 지문·예시·인명·연도·수식·개념 정의는 사실이 아닌데 그럴듯하게 제시될 수 있으니, 교과서나 공신력 있는 자료와 반드시 대조한 뒤 학생에게 배포하세요.

평가문항 제작이나 채점 보조 과정에서 학생 이름·학번·생년월일·주소·성적·민감한 행동특성을 범용 생성형 AI 입력창에 넣지 마세요. 입력 내용이 저장·학습에 쓰여 개인정보보호법 위반이 될 수 있습니다. 제출 파일 메타데이터의 작성자명도 점검하세요.

출처: 한국교육과정평가원(KICE) / 에듀프레스 - 수업·평가에 생성형 AI 활용 가이드라인(5대 윤리원칙) 원문

평가 문항·루브릭, 범용 AI보다 교풀AI로

분석적 루브릭 작성 도우미로 채점기준표 초안을 만들고, 수행평가 중 학생이 막히면 답 대신 질문을 주는 보조 도구를 안내할 수 있습니다(교사 안내용).

분석적 루브릭 작성 도우미 소크라틱 질문 코치 (학생용)반론 도우미 (학생용)자가점검 도우미 (학생용)

*교풀AI는 교사들의 수업, 행정 업무를 보조하는 학교용 AI 에듀테크 입니다. 로그인시 무료 플랜 이용이 가능합니다.