LLM을 뇌처럼 들여다봤더니 — 고등학생을 위한 발견 요약

아래 신호등 칩을 눌러 골라 볼 수 있어요. 각 카드의 F##는 원본 실험의 발견 번호예요.

★ 비교 가능 (잠정·약신호/weak-signal) · 과학자가 스스로 검사한 이야기

'진짜 뇌'와 맞춰 본 점수가 알고 보니 대부분 '데이터 누수'였다 — 그런데 결론은 살아남았다

지난번엔 LLM의 내부 활동만 보고 "이 단어엔 뇌의 어느 점이 켜질 것"을 맞히는 점수가 측정 한계의 0.75~0.88이라고 적었어요. 그런데 과학자들이 자기 결과를 더 엄격하게 다시 검사(주제별로 칸막이 친 시험)했더니, 그 점수의 67~86%가 '데이터 누수' 때문이었어요 — 연습 문제와 시험 문제에 비슷한 주제 문장이 슬쩍 새어 들어가 있었던 거죠. 누수를 막고 정직하게 재니 점수는 r ≈ 0.13~0.25(원점수로는 0.05~0.09)로 확 작아졌어요.

그런데 좋은 과학이었던 이유는 점수가 작아져도 두 가지가 버텼기 때문이에요. ① 누수를 막아도 LLM은 여전히 '우연'보다 또렷이 잘 맞혔어요(p≈0.02~0.03). ② 학습 안 한 '겉만 똑같은' 쌍둥이 모델은 오히려 마이너스(−)로 떨어졌어요 — 그래서 '학습한 LLM'과 '학습 안 한 모델'의 차이는 더 깨끗해졌어요. 즉 "학습한 LLM이 실제로 잰 뇌 활동과 줄이 맞는다"는 결론은 살아남았고, 줄어든 건 '효과의 크기'뿐이에요.

🧠 실제 fMRI(Pereira-2018, 6~9명)🤖 LLM 내부 활동 → 뇌 지점 예측📉 누수 제거 후 r ≈ 0.13~0.25 (작지만 진짜)✅ 쌍둥이는 음수 → 차이는 더 깨끗

정직하게 — 무엇이 '약신호·잠정'이고 무엇이 새 걱정인가: ① 살아남은 건 '줄이 맞는다'는 관계예요. 효과의 크기(원점수 0.05~0.09)는 작아서 약신호로 둬요. (그래서 "뇌의 ¾~⅞를 설명한다"는 옛 표현은 폐기했어요 — 0.75~0.88은 이제 '누수 끼었던 옛 값'으로만 적어요.) ② 사람 6~9명, 모델 2개뿐이라 "이런 일이 일어난다"까지지 "누구에게나 그렇다"는 아니에요. ③ 새 걱정 하나: 누수를 막고 나니 어느 '층'이 뇌 신호를 나르는지가 검사를 다시 할 때마다 흔들렸어요(아래 16번 질문 = 미검증).

F33 · 누수 제거 후 leak-free 재측정

🆕 비교 가능 (잠정·existence) · 새 초록

LLM의 '쓰는 방향'이 실제 뇌 신호와 줄이 맞는다 (단, '뇌의 편집 버튼'은 아직 아니에요)

LLM 안에는 출력을 실제로 바꾸는 '쓰기/조종' 방향이 있어요. 이 방향을 실제 사람 뇌 스캔에 맞춰 봤더니, 모델 덩치만으로 설명되는 것 이상으로 뇌 활동을 예측했어요(z 2.5~4.0). 덩치를 맞춘 무작위 대조군도, 학습 안 한 쌍둥이도 못 이긴 걸 4번 중 4번 이겼죠. 반면 그냥 '읽기/탐지' 방향은 이런 특권이 없었어요(4번 중 0번).

중요 — 두 가지를 꼭 구분해요: 이건 쓰기 방향이 뇌 신호와 '줄이 맞는다(예측한다)'는 뜻이에요. 이게 뇌의 진짜 '편집 버튼'이라는 뜻은 아니에요 — 뇌를 직접 건드려 본 게 아니라, 뇌 활동을 맞히기만 한 거니까요. "예측한다 ≠ 개입한다"를 섞지 않는 게 이 카드의 정직함이에요. 그래서 '예측축이 맞다'는 비교 가능(잠정), '뇌의 편집 인과축이다'는 아직 미검증이에요.

🧠 실제 fMRI 피질(Pereira-2018)🤖 쓰기축 → 뇌 예측 (덩치 넘어 / 4·4)📖 읽기축 → 특권 없음 (0·4)

F25 · WRITE축 brain-privilege

🆕 비교 가능 (잠정·existence) · 새 초록

여러 언어가 공유하는 '뜻 허브'가 진짜 사람 뇌에도 있다

과학자들이 같은 이야기(어린 왕자)를 영어·중국어·프랑스어로 들려주며 사람들의 뇌를 스캔했어요. 그랬더니 세 언어 모두에서 뇌의 언어 영역이 똑같은 '뜻의 지형'을 보였어요(언어 간 뇌 유사도 0.24~0.28, 통계적으로 또렷함). 즉 LLM이 가진 '언어를 넘어선 의미 허브'(F5)가 실제 사람 뇌에서도 진짜로 발견된 거예요.

쉽게 말하면 '사과·apple·pomme'가 어느 언어든 같은 뜻 한 곳으로 모이는 허브가, LLM 속만이 아니라 측정한 사람 뇌 피질에서도 관찰됐어요. 그래서 이 '허브가 존재한다'는 부분은 비교 가능(잠정) 초록이 됐어요.

🧠 EN·CN·FR 뇌 RSA 0.24~0.28🤖 LLM 언어무관 의미 허브(F5)

다만 솔직히: 영어–프랑스어 쌍은 가장 약했어요(0.115 — 다른 쌍의 절반). 그리고 LLM → 뇌로 '언어를 건너 예측'하는 다리는 사람이 언어당 딱 1명뿐이라 신호가 약했어요(아직 유추 — 아래 15번 질문). 그래서 이 초록은 '뇌에 허브가 있다'까지만이고, "최초의 다국어 LLM–뇌 정렬"이라고는 말하지 않아요(이미 다른 연구들이 했어요).

F34 · R1 measured-cortex 허브

🔎 풀이 카드 · LLM 작동 그림 (뇌 비교 아님)

독자 질문에 답합니다: "여러 개념이 한 곳에 들어 있다 = 개념 방향들의 (가중) 합"이란 뭘까?

아래 카드들(F1·F15·F16·F17)에서 "의미는 자리가 아니라 방향에 담긴다"고 했죠. 그럼 한 순간 LLM 머릿속에 여러 개념이 동시에 들어 있을 땐 어떻게 생겼을까요? 한 줄로 답하면 — 그 순간의 상태 = (개념1 방향 × 양1) + (개념2 방향 × 양2) + … 즉 개념 방향들의 가중 합이에요. 이건 새 발견이 아니라, 이미 검증된 위 발견들을 쉬운 말로 풀어 쓴 설명이에요.

🎵 한 줄로 더 쉽게 — 합주(合奏)예요
여러 악기가 함께 연주하면 공기에는 합쳐진 소리 하나만 흐르지만, 우리 귀는 거기서 피아노·바이올린을 따로 골라 듣죠. 한 자리(은닉상태)에 여러 뜻이 겹쳐 있어도, 각 뜻의 '방향'으로 비추면 따로 읽어 내는 게 똑같아요. (그리고 비슷한 음끼리 헷갈리듯, 비슷한 개념끼리는 살짝 간섭해요 — 아래 F19.)

먼저 가장 중요한 구분 — '서로 다른 두 화살표' 🏹

은닉상태(hidden state) = 한 층의 유닛(뉴런) 출력값을 죽 늘어놓은 실제 벡터 1개. "지금 이 순간의 머릿속 상태값"이에요.
개념 방향(concept direction) = 그 같은 공간 안에서 한 개념("빨강", "고양이")을 가리키는 화살표 방향. 개념마다 자기 방향이 있어요.

핵심 문장: 은닉상태 ≈ (개념1 방향 × 양1) + (개념2 방향 × 양2) + …
그리고 "지금 어떤 개념이 들어 있나?"는 그 개념 방향에 투영(내적)해서 — 즉 그 방향으로 비춰 봐서 — 읽어 내요. 양이 크면 그 개념이 강하게 켜진 거죠.

두 개념 방향을 각자의 '양'만큼 늘여 이어 붙이면(더하면) 그 순간의 은닉상태 벡터가 돼요. 개념이 많으면 화살표를 계속 더해 가는 거예요.

비유 — 같은 게시판에 메모를 '더해' 붙인다 📌 (위 F16 카드의 '가산 공유버스'와 같은 그림이에요)
LLM 속 정보 통로(residual stream)는 모두가 같은 게시판(버스)에 자기 메모를 덧붙이는 곳이에요. 그래서 한 자리에 여러 메모가 겹쳐 있고, 읽는 쪽은 자기 방향으로 비춰(투영) 자기 메모만 골라 읽어요. 각 층이 더하기만 하니까, 깊이로 내려가도 계속 누적된 합이에요.

왜 이게 되나 — 중첩(superposition) 🧩
담을 차원(축의 수)보다 개념이 훨씬 많아서, 개념들을 거의(완전히는 아님) 직교하는 방향으로 빽빽이 욱여넣어요. 그리고 "한 번에 몇 개만 켜진다(sparsity·희소성)"는 성질 덕분에 겹쳐 있어도 덜 망가져요. 단 공짜가 아니라 손실 있는 압축이에요 — 욱여넣은 대가로 약간씩 뭉개져요.

그래서 '합'은 편리한 근사예요 — 과장하지 않으려면 이 4가지를 꼭 기억해요:

방향들이 완전 직교는 아니에요 F19 → 관련 개념끼리 살짝 간섭(crosstalk)해요. 그래서 깨끗한 독립 덧셈이 아니라 '근사적' 합이에요.
크기는 상대값만 뜻이 있어요 F16 → 화살표의 절대 길이가 아니라 방향과 비율이 코드예요(LayerNorm 때문).
선형(합)이 주된 코드지 전부는 아니에요 F21 → 비선형 도구로 읽어도 거의 안 좋아지지만(≤0.003), 네트워크의 계산 자체는 비선형이에요. '합'은 정보를 읽는 구조지 연산 전체가 아니에요.
모든 개념이 1차원 방향은 아니에요 F29 → 요일·달(月) 같은 순환 개념은 화살표 하나가 아니라 작은 2차원 면(원형 배치)을 써요. (단 '완전히 닫힌 고리'라는 주장은 철회됐고, 지금은 '순서 있음/없음을 가르는 점수'만 살아남았어요 — 아래 F29 카드 참고.)

🤖 은닉상태 = Σ (개념 방향 × 양) F20 📌 가산 버스 · 내적으로 읽기 F16 🏹 한 개념 ≈ 방향 1개 F17 🧩 중첩 · 비직교 F19 ➕ 합이 주된 코드 F21 🔁 순환=2D 면 F29

이 카드는 뇌 비교가 아니라 'LLM이 안에서 어떻게 작동하나'를 푼 설명이에요. 그래서 초록(비교 가능) 같은 뇌 라벨을 붙이지 않아요. 다만 위 사실들은 모두 실험·문헌으로 뒷받침된 작동 그림이고(F16·F17·F19·F20·F21·F29), 이건 mechanistic interpretability에서 '선형 표상(linear representation) + 중첩(superposition)'이라 부르는 표준 그림이에요.

F20 · F16 · F17 · F19 · F21 · F29 (이미 검증된 발견을 쉬운 말로 풀이)

비교 가능 · 대조

뇌엔 "얼굴 전담 구역"이 있지만, LLM은 개념이 흩어져 있다

뉴런 한 개씩 보면 어디에도 "고양이 담당"이 없어요. 그런데 개념을 가리키는 하나의 '방향'을 끄면 그 개념이 통째로 무너졌어요.

쉽게 말하면 뇌는 얼굴을 보는 특정 동네(FFA)가 있는데, LLM에선 "고양이"가 한 군데가 아니라 여러 유닛에 잘게 나눠 저장돼요. 같은 질문("의미가 한 군데냐 흩어졌냐")에 뇌와 LLM이 반대로 답한 거예요.

🧠 한 동네(국재)🤖 흩어짐(분산·중첩)

F1 · F7 · F15

비교 가능 · 방법

"방향 하나를 끄기" = 뇌 수술로 한 부분 끄기

개념을 가리키는 방향만 제거하면 행동이 무너지고, 유닛을 끄면 멀쩡했어요. 즉 의미는 '자리'가 아니라 '방향'에 담겨 있어요.

쉽게 말하면 뇌과학자는 특정 부위를 잠깐 꺼서(lesion·TMS) "이게 원인이구나"를 확인해요. LLM에선 이걸 완벽히, 되돌릴 수 있게 할 수 있어서 같은 방식으로 원인을 증명했어요.

🧠 lesion·TMS🤖 방향 ablation

F1 · F17 · F16

비교 가능 · 차이

뇌엔 "지도"가 있는데, LLM엔 자리 개념이 없다

뇌는 옆자리 신경세포끼리 비슷한 일을 해요(지도처럼). LLM에서 그 "옆자리 닮음 점수"를 쟀더니 거의 0이었어요(0.01 vs 뇌 0.3~0.7).

쉽게 말하면 뇌의 시각·청각 영역은 '지도'처럼 정리돼 있어요. LLM은 유닛에 자리(앞뒤·좌우) 개념 자체가 없어서, 깨끗하게 "이건 다르다"가 나온 보기 드문 사례예요.

🧠 지도 있음🤖 지도 없음

유추 · 더 엄격히 봤더니 일부만 살아남음

'요일·달(月)' 같은 순환 개념 — '닫힌 고리'는 철회, '순서 있음'은 살아남음

월·화·수…처럼 빙 도는 개념을 LLM이 완전히 닫힌 동그란 고리로 그린다고 봤었는데, 더 엄격한 검사(순서 섞기)에서 두 모델 모두 통과 못 했어요 → 그 주장은 철회했어요. 살아남은 건: '순서가 있는 개념'과 '순서 없는(명목) 개념'을 구분하는 점수(circR)는 여전히 또렷이 갈렸다는 거예요.

쉽게 말하면 동물의 뇌엔 방향을 둥글게 표현하는 세포(방향세포)가 있어요. LLM도 "순서 있는" 개념을 다르게 다룬다는 흔적은 남았지만, '완전히 닫힌 고리'라는 강한 주장은 검증을 못 버텼어요. 그래서 이 카드는 초록에서 유추로 내렸어요 — 정직 신호등이 작동한 거예요.

🧠 방향세포(고리형 코드)🤖 순서 있음 vs 없음만 구분

다만 솔직히: 더 복잡한 '도넛(torus)' 모양(격자세포 집단)까지 같은지는 아직 같은 도구로 재지 못해 보류해요. '닫힌 고리'도, '도넛'도 지금은 모두 유추 — 살아남은 비교 가능 조각은 'circR이 순서를 구분한다'는 좁은 사실뿐이에요.

F29

비교 가능

서로 다르게 만든 AI들이 비슷한 '머릿속 지형'에 도착한다

제작사·구조가 다른 모델들의 내부 표현이 우연 이상으로 비슷했어요. 게다가 세 가지 다른 잣대(CKA·RSA·Procrustes) 모두 같은 결론을 줬어요 — 그래서 단단해요.

쉽게 말하면 출발이 달라도 비슷한 답에 도달하는 '수렴 진화'처럼요. 뇌도 서로 다른 사람·종이 비슷한 의미 표현을 갖는 것과 같은 잣대(RSA/CKA)로 견줄 수 있어요.

바로잡음: 예전엔 "가문이 다른 모델끼리 가장 비슷(0.767)"이라고 적었는데, 다시 보니 그건 측정 방식 때문에 생긴 착시(임베딩 층 영향)라 철회했어요. 살아남은 건 "독립적으로 만든 모델들이 우연 이상으로 모인다"는 단단한 사실이에요.

F4 · F5

비교 가능 · 부분 차이

둘 다 '좁은 세상'이지만, LLM은 끼리끼리 뭉침이 약하다

LLM 연결망도 뇌처럼 좁은세상(small-world)·허브(rich-club) 구조였어요. 다만 '모듈성'은 뇌(0.3~0.5)보다 훨씬 낮았고(0.09~0.23), 세대가 올라갈수록 조금씩 뇌 쪽으로 갔어요.

쉽게 말하면 친구 관계망처럼 몇 다리만 건너면 다 연결되고(좁은세상), 인기 허브도 있어요. 하지만 뇌만큼 '동아리(모듈)'가 뚜렷하진 않아요.

F2 · F14 · F9

유추 · 닮은꼴

'똑똑함'은 고정된 구조가 아니라 "그 자리에서 규칙을 배우는 힘"에 있다

모델이 클수록 정적인 내부 구조가 좋아지는 건 아니었어요. 대신 예시 몇 개로 규칙을 즉석에서 배우는 능력(in-context learning)만 또렷이 커졌어요(한 가문에서 통계 검증 통과, p=0.033).

쉽게 말하면 뇌도 '천천히 외우는 시스템(피질)'과 '그 자리에서 빨리 적응하는 시스템(해마)'이 따로 있다고 봐요. LLM의 즉석 학습이 이 '빠른 시스템'과 닮아 보여요 — 아직 같은 잣대로 둘 다 재진 못했어요.

🧠 해마 빠른 학습(CLS)🤖 맥락 학습(ICL)

정확히: 이 추세는 한 모델 가문 안에서만 통계적으로 또렷해요(p=0.033). 다른 가문끼리는 '같은 방향으로 움직인다'는 약한 일치일 뿐 통계적으로 유의하진 않았어요. 그래서 "닮았다" 이상으로 밀어붙이지 않아요.

F24 · F27 · F30

유추 · 닮은꼴

학습 안 한 AI는 '텅 비어' 있다 — 구조는 전부 배워서 생긴 것

똑같이 생겼지만 학습만 안 시킨 '쌍둥이 모델'은, 어느 층에서도 의미 구조가 우연 수준이었어요.

쉽게 말하면 우리가 발견한 모든 멋진 구조는 타고난 게 아니라 경험(학습)으로 만들어진 것이에요. 뇌-AI 비교 연구에서 "학습이 정렬을 만든다"는 점을 확인하는 중요한 대조군이에요.

F6 · F23

유추 · 닮은꼴 (LLM 안에서)

여러 언어의 같은 뜻이 깊은 층에서 하나로 모인다 (LLM 내부)

'사과·apple·りんご'처럼 뜻이 같은 단어들이, 이른 층에서 거의 같은 표현으로 합쳐졌어요(한 모델은 완벽히 1.0). 이건 LLM 속에서 본 거예요.

쉽게 말하면 LLM이 겉모습(언어)을 벗고 의미로 모이는 모습이에요. 참고: 이번에 같은 '뜻 허브'가 실제 사람 뇌 스캔에서도 발견돼 위쪽 새 초록 카드(F34 뇌 허브)로 올라갔어요. 이 주황 카드는 그 'LLM-내부에서 본' 짝이에요.

유추 · 닮은꼴 (LLM 안에서)

'읽는 방향'과 '쓰는 방향'이 다르다 (LLM 내부 닮은꼴)

개념을 찾아내는 방향과, 그 개념을 주입해 행동을 바꾸는 방향이 서로 달랐어요. 이건 LLM 속에서만 본 닮은꼴이에요.

쉽게 말하면 뇌도 '감각으로 알아채는 길'과 '행동으로 만들어 내는 길'이 갈려 있죠. LLM의 탐지축≠생성축이 그것과 닮아 보여요. 참고: 이 중 '쓰기 방향'은 이번에 실제 뇌 스캔과 줄이 맞는 게 확인돼 위쪽 새 초록 카드(F25 WRITE축)로 따로 올라갔어요. 이 주황 카드는 그 '뇌 측정 전' 단계의 LLM-내부 닮은꼴로 남겨 둔 거예요.

F25 · F19

유추 · 깨끗한 '차이' (학습이 멀어지게 함)

학습할수록 뇌에서 더 멀어지는 축이 있다 — 정직한 반례

활동의 '에너지'가 여러 차원에 어떻게 퍼지는지를 나타내는 한 숫자(power-law α)가 있어요. 뇌(피질)는 ≈1.04, 학습 안 한 모델은 ≈1.0이었는데, 학습을 시키자 1.4~1.9로 뇌에서 더 멀어졌어요.

왜 중요하냐면 흔히 "학습을 많이 시키면 AI가 뇌랑 비슷해진다"고 생각하기 쉬운데, 이 축에선 정반대예요 — 학습이 오히려 덜 뇌같게 만들었어요. '닮음'이 아니라 깨끗한 차이(학습된 발산)라서, 그렇게 정직하게 표기해요.

🧠 피질 α ≈ 1.04🤖 학습 후 α 1.4~1.9 (멀어짐)

다만 솔직히: 뇌의 α와 LLM의 α는 서로 다른 조건(자극·측정 방식)에서 잰 값이라, "멀어졌다"는 방향까지 못 박진 못해요. 조건을 맞춰 다시 재야 확실해져요. 그래서 '닮음'으로도, 확정된 차이로도 올리지 않고 유추(차이)로 둬요.

F31

유추 · 🧠 vs 🤖 대비

거의 다 흩어져 있는데, 딱 하나 '숫자'만 전담 칸이 있다

가장 좋은 '특징 사전(gold SAE)'으로 다시 봐도 대부분의 개념은 여전히 여러 곳에 흩어져 있었어요. 그런데 '숫자(numbers)'라는 개념 하나만은 깨끗하게 전담하는 특징 하나를 가졌어요.

쉽게 말하면 사람 뇌엔 숫자를 다루는 전담 구역(number-form-area)이 있다고 봐요. LLM에서도 거의 모든 게 흩어져 있는 와중에 '숫자'만은 한 칸에 깔끔히 모인, 뇌의 '전담 구역'을 느슨하게 닮은 유일한 사례였어요.

🧠 숫자 전담 구역(NFA)🤖 'numbers' 특징 하나만 전담

F32

유추 · 닮은꼴 ⬆ 미검증서 승급

옛 메모의 '계층 추상화' 아이디어와 닮았다

한 연구자가 오래전 적어 둔 '낮은 신호에서 위로 갈수록 추상'이라는 생각과, LLM이 층을 지날수록 추상이 쌓이는 방식이 개념적으로 닮았어요.

쉽게 말하면 예전 메모의 "패턴을 쌓아 개념을 만든다"는 방향성이, 오늘날 LLM의 층별 추상화와 닮은 흐름이에요. 단 같은 잣대로 둘 다 잰 건 아니라서 '닮았다'까지예요 — '증명·예견'이 아니에요. (자세한 흐름은 아래 25년 계보 섹션)

F3 · F17 · F18

미검증 · 아직 몰라요

'갑자기 똑똑해짐(창발)'은 진짜일까, 착시일까?

능력이 어느 크기에서 '확' 생기는 것처럼 보이는데, 측정 방식을 바꾸면 그 도약이 사라지기도 했어요.

쉽게 말하면 발달에서 '갑자기 되는 것'이 진짜 단계 도약인지, 아니면 우리가 재는 방법 탓인지 — 뇌와 AI 둘 다 똑같은 논쟁이 있어요. 같은 잣대로 둘 다 재 보기 전엔 결론을 미뤄 둡니다.

F11 · F23

인공지능을 뇌처럼 들여다봤더니

01이게 무슨 연구예요?

🧠 뇌를 볼 때의 한계

🤖 LLM을 볼 때의 장점

02먼저, 정직 신호등 🚦

03새로 발견한 것들