사람 뇌는 흐릿한 사진(fMRI)으로밖에 못 봐요. 그런데 거대 언어모델(LLM)은
모든 뉴런을, 한 치의 오차 없이, 켜고 끌 수도 있게 들여다볼 수 있어요.
그래서 "지능이 어떻게 만들어지는가"를 뇌와 직접 비교해 봤습니다. 그 발견을 고등학생도 알 수 있게 정리했어요.
한 문장으로: "LLM이 똑똑해 보이는 방식이, 진짜 뇌가 일하는 방식과 얼마나 같고 얼마나 다른지"를 같은 잣대로 재 봤어요.
🧠 뇌를 볼 때의 한계
흐릿함fMRI는 수십만 개 신경세포를 뭉뚱그린 "동네 사진"이에요. 한 세포만 콕 집어 끄고 결과를 보는 일은 사람 뇌에선 거의 불가능하죠.
🤖 LLM을 볼 때의 장점
완벽 해상도LLM은 모든 유닛 값을 정확히 읽고, 특정 부분을 껐다 켤 수 있어요. 그래서 "이 부분이 진짜 원인인가?"를 인과적으로 확인할 수 있습니다.
02먼저, 정직 신호등 🚦
과학에서 제일 중요한 건 "얼마나 확실한지"를 솔직하게 말하는 거예요. 이 페이지의 모든 발견에는 아래 세 가지 라벨 중 하나가 붙어 있어요. 닮아 보인다고 증명된 건 아니에요.
● 비교 가능뇌와 LLM을 똑같은 잣대(숫자)로 둘 다 재서 직접 견줘 본 것. 가장 단단한 결과.
● 유추(닮은꼴)개념이나 구조가 비슷해 보이지만, 아직 같은 잣대로 둘 다 재 보진 못한 것. "닮았다"까지만.
● 미검증한쪽 근거만 있거나 아직 안 해 본 것. "모른다"를 숨기지 않고 자리만 남겨 둠.
🟢 이번 라운드의 정직 이야기: 초록 하나는 작아졌고, 초록 둘이 새로 켜졌어요. 지금까지의 초록(비교 가능) 카드 대부분은 같은 '잣대'는 공유하지만 뇌 쪽 숫자는 교과서 '대략 범위' 값을 빌려 쓴 것이고,
실제 사람의 뇌 스캔(fMRI)과 실제 LLM의 속을 하나의 모델로 묶어 같은 숫자로 맞춰 본 '진짜 양쪽 잰' 초록은 따로 있어요.
이번에 큰 일이 셋 있었어요: ① 첫 번째 '진짜 뇌' 결과(F33)는 과학자들이 스스로 다시 검사해 보니 점수의 대부분이 '데이터 누수' 때문이었어요 — 그래서 점수가 확 작아졌지만, 그래도 관계 자체(학습한 LLM이 뇌와 줄이 맞는다)는 살아남았어요.② '쓰는 방향'이 뇌 신호와 줄이 맞는다는 새 초록(F25), ③ 여러 언어가 공유하는 '뜻 허브'가 실제 뇌에도 있다는 새 초록(F34)이 켜졌어요.
그래서 초록은 9개 → 11개가 됐어요. 단, 모든 초록은 여전히 "있다·줄이 맞는다"까지지 "메커니즘을 증명했다"가 아니에요 — 그래서 전부 '잠정' 꼬리표가 붙어요(왜인지는 각 카드 안에).
03새로 발견한 것들
아래 신호등 칩을 눌러 골라 볼 수 있어요. 각 카드의 F##는 원본 실험의 발견 번호예요.
전체● 비교 가능● 유추● 미검증
★ 비교 가능 (잠정·약신호/weak-signal) · 과학자가 스스로 검사한 이야기
'진짜 뇌'와 맞춰 본 점수가 알고 보니 대부분 '데이터 누수'였다 — 그런데 결론은 살아남았다
지난번엔 LLM의 내부 활동만 보고 "이 단어엔 뇌의 어느 점이 켜질 것"을 맞히는 점수가 측정 한계의 0.75~0.88이라고 적었어요. 그런데 과학자들이 자기 결과를 더 엄격하게 다시 검사(주제별로 칸막이 친 시험)했더니, 그 점수의 67~86%가 '데이터 누수' 때문이었어요 — 연습 문제와 시험 문제에 비슷한 주제 문장이 슬쩍 새어 들어가 있었던 거죠. 누수를 막고 정직하게 재니 점수는 r ≈ 0.13~0.25(원점수로는 0.05~0.09)로 확 작아졌어요.
그런데 좋은 과학이었던 이유는 점수가 작아져도 두 가지가 버텼기 때문이에요.
① 누수를 막아도 LLM은 여전히 '우연'보다 또렷이 잘 맞혔어요(p≈0.02~0.03). ② 학습 안 한 '겉만 똑같은' 쌍둥이 모델은 오히려 마이너스(−)로 떨어졌어요 — 그래서 '학습한 LLM'과 '학습 안 한 모델'의 차이는 더 깨끗해졌어요. 즉 "학습한 LLM이 실제로 잰 뇌 활동과 줄이 맞는다"는 결론은 살아남았고, 줄어든 건 '효과의 크기'뿐이에요.
🧠 실제 fMRI(Pereira-2018, 6~9명)🤖 LLM 내부 활동 → 뇌 지점 예측📉 누수 제거 후 r ≈ 0.13~0.25 (작지만 진짜)✅ 쌍둥이는 음수 → 차이는 더 깨끗
정직하게 — 무엇이 '약신호·잠정'이고 무엇이 새 걱정인가:① 살아남은 건 '줄이 맞는다'는 관계예요. 효과의 크기(원점수 0.05~0.09)는 작아서 약신호로 둬요. (그래서 "뇌의 ¾~⅞를 설명한다"는 옛 표현은 폐기했어요 — 0.75~0.88은 이제 '누수 끼었던 옛 값'으로만 적어요.)
② 사람 6~9명, 모델 2개뿐이라 "이런 일이 일어난다"까지지 "누구에게나 그렇다"는 아니에요.
③새 걱정 하나: 누수를 막고 나니 어느 '층'이 뇌 신호를 나르는지가 검사를 다시 할 때마다 흔들렸어요(아래 16번 질문 = 미검증).
F33 · 누수 제거 후 leak-free 재측정🆕 비교 가능 (잠정·existence) · 새 초록
LLM의 '쓰는 방향'이 실제 뇌 신호와 줄이 맞는다 (단, '뇌의 편집 버튼'은 아직 아니에요)
LLM 안에는 출력을 실제로 바꾸는 '쓰기/조종' 방향이 있어요. 이 방향을 실제 사람 뇌 스캔에 맞춰 봤더니, 모델 덩치만으로 설명되는 것 이상으로 뇌 활동을 예측했어요(z 2.5~4.0). 덩치를 맞춘 무작위 대조군도, 학습 안 한 쌍둥이도 못 이긴 걸 4번 중 4번 이겼죠. 반면 그냥 '읽기/탐지' 방향은 이런 특권이 없었어요(4번 중 0번).
중요 — 두 가지를 꼭 구분해요: 이건 쓰기 방향이 뇌 신호와 '줄이 맞는다(예측한다)'는 뜻이에요. 이게 뇌의 진짜 '편집 버튼'이라는 뜻은 아니에요 — 뇌를 직접 건드려 본 게 아니라, 뇌 활동을 맞히기만 한 거니까요. "예측한다 ≠ 개입한다"를 섞지 않는 게 이 카드의 정직함이에요. 그래서 '예측축이 맞다'는 비교 가능(잠정), '뇌의 편집 인과축이다'는 아직 미검증이에요.
🧠 실제 fMRI 피질(Pereira-2018)🤖 쓰기축 → 뇌 예측 (덩치 넘어 / 4·4)📖 읽기축 → 특권 없음 (0·4)
F25 · WRITE축 brain-privilege🆕 비교 가능 (잠정·existence) · 새 초록
여러 언어가 공유하는 '뜻 허브'가 진짜 사람 뇌에도 있다
과학자들이 같은 이야기(어린 왕자)를 영어·중국어·프랑스어로 들려주며 사람들의 뇌를 스캔했어요. 그랬더니 세 언어 모두에서 뇌의 언어 영역이 똑같은 '뜻의 지형'을 보였어요(언어 간 뇌 유사도 0.24~0.28, 통계적으로 또렷함). 즉 LLM이 가진 '언어를 넘어선 의미 허브'(F5)가 실제 사람 뇌에서도 진짜로 발견된 거예요.
쉽게 말하면 '사과·apple·pomme'가 어느 언어든 같은 뜻 한 곳으로 모이는 허브가, LLM 속만이 아니라 측정한 사람 뇌 피질에서도 관찰됐어요. 그래서 이 '허브가 존재한다'는 부분은 비교 가능(잠정) 초록이 됐어요.
🧠 EN·CN·FR 뇌 RSA 0.24~0.28🤖 LLM 언어무관 의미 허브(F5)
다만 솔직히: 영어–프랑스어 쌍은 가장 약했어요(0.115 — 다른 쌍의 절반). 그리고 LLM → 뇌로 '언어를 건너 예측'하는 다리는 사람이 언어당 딱 1명뿐이라 신호가 약했어요(아직 유추 — 아래 15번 질문). 그래서 이 초록은 '뇌에 허브가 있다'까지만이고, "최초의 다국어 LLM–뇌 정렬"이라고는 말하지 않아요(이미 다른 연구들이 했어요).
F34 · R1 measured-cortex 허브🔎 풀이 카드 · LLM 작동 그림 (뇌 비교 아님)
독자 질문에 답합니다: "여러 개념이 한 곳에 들어 있다 = 개념 방향들의 (가중) 합"이란 뭘까?
아래 카드들(F1·F15·F16·F17)에서 "의미는 자리가 아니라 방향에 담긴다"고 했죠. 그럼 한 순간 LLM 머릿속에 여러 개념이 동시에 들어 있을 땐 어떻게 생겼을까요? 한 줄로 답하면 — 그 순간의 상태 = (개념1 방향 × 양1) + (개념2 방향 × 양2) + … 즉 개념 방향들의 가중 합이에요. 이건 새 발견이 아니라, 이미 검증된 위 발견들을 쉬운 말로 풀어 쓴 설명이에요.
🎵 한 줄로 더 쉽게 — 합주(合奏)예요
여러 악기가 함께 연주하면 공기에는 합쳐진 소리 하나만 흐르지만, 우리 귀는 거기서 피아노·바이올린을 따로 골라 듣죠. 한 자리(은닉상태)에 여러 뜻이 겹쳐 있어도, 각 뜻의 '방향'으로 비추면 따로 읽어 내는 게 똑같아요. (그리고 비슷한 음끼리 헷갈리듯, 비슷한 개념끼리는 살짝 간섭해요 — 아래 F19.)
먼저 가장 중요한 구분 — '서로 다른 두 화살표' 🏹
은닉상태(hidden state) = 한 층의 유닛(뉴런) 출력값을 죽 늘어놓은 실제 벡터 1개. "지금 이 순간의 머릿속 상태값"이에요.
개념 방향(concept direction) = 그 같은 공간 안에서 한 개념("빨강", "고양이")을 가리키는 화살표 방향. 개념마다 자기 방향이 있어요.
핵심 문장: 은닉상태 ≈ (개념1 방향 × 양1) + (개념2 방향 × 양2) + …
그리고 "지금 어떤 개념이 들어 있나?"는 그 개념 방향에 투영(내적)해서 — 즉 그 방향으로 비춰 봐서 — 읽어 내요. 양이 크면 그 개념이 강하게 켜진 거죠.
두 개념 방향을 각자의 '양'만큼 늘여 이어 붙이면(더하면) 그 순간의 은닉상태 벡터가 돼요. 개념이 많으면 화살표를 계속 더해 가는 거예요.
비유 — 같은 게시판에 메모를 '더해' 붙인다 📌 (위 F16 카드의 '가산 공유버스'와 같은 그림이에요)
LLM 속 정보 통로(residual stream)는 모두가 같은 게시판(버스)에 자기 메모를 덧붙이는 곳이에요. 그래서 한 자리에 여러 메모가 겹쳐 있고, 읽는 쪽은 자기 방향으로 비춰(투영) 자기 메모만 골라 읽어요. 각 층이 더하기만 하니까, 깊이로 내려가도 계속 누적된 합이에요.
왜 이게 되나 — 중첩(superposition) 🧩
담을 차원(축의 수)보다 개념이 훨씬 많아서, 개념들을 거의(완전히는 아님) 직교하는 방향으로 빽빽이 욱여넣어요. 그리고 "한 번에 몇 개만 켜진다(sparsity·희소성)"는 성질 덕분에 겹쳐 있어도 덜 망가져요. 단 공짜가 아니라 손실 있는 압축이에요 — 욱여넣은 대가로 약간씩 뭉개져요.
그래서 '합'은 편리한 근사예요 — 과장하지 않으려면 이 4가지를 꼭 기억해요:
방향들이 완전 직교는 아니에요F19 → 관련 개념끼리 살짝 간섭(crosstalk)해요. 그래서 깨끗한 독립 덧셈이 아니라 '근사적' 합이에요.
크기는 상대값만 뜻이 있어요F16 → 화살표의 절대 길이가 아니라 방향과 비율이 코드예요(LayerNorm 때문).
선형(합)이 주된 코드지 전부는 아니에요F21 → 비선형 도구로 읽어도 거의 안 좋아지지만(≤0.003), 네트워크의 계산 자체는 비선형이에요. '합'은 정보를 읽는 구조지 연산 전체가 아니에요.
모든 개념이 1차원 방향은 아니에요F29 → 요일·달(月) 같은 순환 개념은 화살표 하나가 아니라 작은 2차원 면(원형 배치)을 써요. (단 '완전히 닫힌 고리'라는 주장은 철회됐고, 지금은 '순서 있음/없음을 가르는 점수'만 살아남았어요 — 아래 F29 카드 참고.)
🤖 은닉상태 = Σ (개념 방향 × 양) F20📌 가산 버스 · 내적으로 읽기 F16🏹 한 개념 ≈ 방향 1개 F17🧩 중첩 · 비직교 F19➕ 합이 주된 코드 F21🔁 순환=2D 면 F29
이 카드는 뇌 비교가 아니라 'LLM이 안에서 어떻게 작동하나'를 푼 설명이에요. 그래서 초록(비교 가능) 같은 뇌 라벨을 붙이지 않아요. 다만 위 사실들은 모두 실험·문헌으로 뒷받침된 작동 그림이고(F16·F17·F19·F20·F21·F29), 이건 mechanistic interpretability에서 '선형 표상(linear representation) + 중첩(superposition)'이라 부르는 표준 그림이에요.
F20 · F16 · F17 · F19 · F21 · F29 (이미 검증된 발견을 쉬운 말로 풀이)비교 가능 · 대조
뇌엔 "얼굴 전담 구역"이 있지만, LLM은 개념이 흩어져 있다
뉴런 한 개씩 보면 어디에도 "고양이 담당"이 없어요. 그런데 개념을 가리키는 하나의 '방향'을 끄면 그 개념이 통째로 무너졌어요.
쉽게 말하면 뇌는 얼굴을 보는 특정 동네(FFA)가 있는데, LLM에선 "고양이"가 한 군데가 아니라 여러 유닛에 잘게 나눠 저장돼요. 같은 질문("의미가 한 군데냐 흩어졌냐")에 뇌와 LLM이 반대로 답한 거예요.
🧠 한 동네(국재)🤖 흩어짐(분산·중첩)
F1 · F7 · F15비교 가능 · 방법
"방향 하나를 끄기" = 뇌 수술로 한 부분 끄기
개념을 가리키는 방향만 제거하면 행동이 무너지고, 유닛을 끄면 멀쩡했어요. 즉 의미는 '자리'가 아니라 '방향'에 담겨 있어요.
쉽게 말하면 뇌과학자는 특정 부위를 잠깐 꺼서(lesion·TMS) "이게 원인이구나"를 확인해요. LLM에선 이걸 완벽히, 되돌릴 수 있게 할 수 있어서 같은 방식으로 원인을 증명했어요.
🧠 lesion·TMS🤖 방향 ablation
F1 · F17 · F16비교 가능 · 차이
뇌엔 "지도"가 있는데, LLM엔 자리 개념이 없다
뇌는 옆자리 신경세포끼리 비슷한 일을 해요(지도처럼). LLM에서 그 "옆자리 닮음 점수"를 쟀더니 거의 0이었어요(0.01 vs 뇌 0.3~0.7).
쉽게 말하면 뇌의 시각·청각 영역은 '지도'처럼 정리돼 있어요. LLM은 유닛에 자리(앞뒤·좌우) 개념 자체가 없어서, 깨끗하게 "이건 다르다"가 나온 보기 드문 사례예요.
🧠 지도 있음🤖 지도 없음
F8유추 · 더 엄격히 봤더니 일부만 살아남음
'요일·달(月)' 같은 순환 개념 — '닫힌 고리'는 철회, '순서 있음'은 살아남음
월·화·수…처럼 빙 도는 개념을 LLM이 완전히 닫힌 동그란 고리로 그린다고 봤었는데, 더 엄격한 검사(순서 섞기)에서 두 모델 모두 통과 못 했어요 → 그 주장은 철회했어요. 살아남은 건: '순서가 있는 개념'과 '순서 없는(명목) 개념'을 구분하는 점수(circR)는 여전히 또렷이 갈렸다는 거예요.
쉽게 말하면 동물의 뇌엔 방향을 둥글게 표현하는 세포(방향세포)가 있어요. LLM도 "순서 있는" 개념을 다르게 다룬다는 흔적은 남았지만, '완전히 닫힌 고리'라는 강한 주장은 검증을 못 버텼어요. 그래서 이 카드는 초록에서 유추로 내렸어요 — 정직 신호등이 작동한 거예요.
🧠 방향세포(고리형 코드)🤖 순서 있음 vs 없음만 구분
다만 솔직히: 더 복잡한 '도넛(torus)' 모양(격자세포 집단)까지 같은지는 아직 같은 도구로 재지 못해 보류해요. '닫힌 고리'도, '도넛'도 지금은 모두 유추 — 살아남은 비교 가능 조각은 'circR이 순서를 구분한다'는 좁은 사실뿐이에요.
F29비교 가능
서로 다르게 만든 AI들이 비슷한 '머릿속 지형'에 도착한다
제작사·구조가 다른 모델들의 내부 표현이 우연 이상으로 비슷했어요. 게다가 세 가지 다른 잣대(CKA·RSA·Procrustes) 모두 같은 결론을 줬어요 — 그래서 단단해요.
쉽게 말하면 출발이 달라도 비슷한 답에 도달하는 '수렴 진화'처럼요. 뇌도 서로 다른 사람·종이 비슷한 의미 표현을 갖는 것과 같은 잣대(RSA/CKA)로 견줄 수 있어요.
바로잡음: 예전엔 "가문이 다른 모델끼리 가장 비슷(0.767)"이라고 적었는데, 다시 보니 그건 측정 방식 때문에 생긴 착시(임베딩 층 영향)라 철회했어요. 살아남은 건 "독립적으로 만든 모델들이 우연 이상으로 모인다"는 단단한 사실이에요.
F4 · F5비교 가능 · 부분 차이
둘 다 '좁은 세상'이지만, LLM은 끼리끼리 뭉침이 약하다
LLM 연결망도 뇌처럼 좁은세상(small-world)·허브(rich-club) 구조였어요. 다만 '모듈성'은 뇌(0.3~0.5)보다 훨씬 낮았고(0.09~0.23), 세대가 올라갈수록 조금씩 뇌 쪽으로 갔어요.
쉽게 말하면 친구 관계망처럼 몇 다리만 건너면 다 연결되고(좁은세상), 인기 허브도 있어요. 하지만 뇌만큼 '동아리(모듈)'가 뚜렷하진 않아요.
F2 · F14 · F9유추 · 닮은꼴
'똑똑함'은 고정된 구조가 아니라 "그 자리에서 규칙을 배우는 힘"에 있다
모델이 클수록 정적인 내부 구조가 좋아지는 건 아니었어요. 대신 예시 몇 개로 규칙을 즉석에서 배우는 능력(in-context learning)만 또렷이 커졌어요(한 가문에서 통계 검증 통과, p=0.033).
쉽게 말하면 뇌도 '천천히 외우는 시스템(피질)'과 '그 자리에서 빨리 적응하는 시스템(해마)'이 따로 있다고 봐요. LLM의 즉석 학습이 이 '빠른 시스템'과 닮아 보여요 — 아직 같은 잣대로 둘 다 재진 못했어요.
🧠 해마 빠른 학습(CLS)🤖 맥락 학습(ICL)
정확히: 이 추세는 한 모델 가문 안에서만 통계적으로 또렷해요(p=0.033). 다른 가문끼리는 '같은 방향으로 움직인다'는 약한 일치일 뿐 통계적으로 유의하진 않았어요. 그래서 "닮았다" 이상으로 밀어붙이지 않아요.
F24 · F27 · F30유추 · 닮은꼴
학습 안 한 AI는 '텅 비어' 있다 — 구조는 전부 배워서 생긴 것
똑같이 생겼지만 학습만 안 시킨 '쌍둥이 모델'은, 어느 층에서도 의미 구조가 우연 수준이었어요.
쉽게 말하면 우리가 발견한 모든 멋진 구조는 타고난 게 아니라 경험(학습)으로 만들어진 것이에요. 뇌-AI 비교 연구에서 "학습이 정렬을 만든다"는 점을 확인하는 중요한 대조군이에요.
F6 · F23유추 · 닮은꼴 (LLM 안에서)
여러 언어의 같은 뜻이 깊은 층에서 하나로 모인다 (LLM 내부)
'사과·apple·りんご'처럼 뜻이 같은 단어들이, 이른 층에서 거의 같은 표현으로 합쳐졌어요(한 모델은 완벽히 1.0). 이건 LLM 속에서 본 거예요.
쉽게 말하면 LLM이 겉모습(언어)을 벗고 의미로 모이는 모습이에요. 참고: 이번에 같은 '뜻 허브'가 실제 사람 뇌 스캔에서도 발견돼 위쪽 새 초록 카드(F34 뇌 허브)로 올라갔어요. 이 주황 카드는 그 'LLM-내부에서 본' 짝이에요.
F5유추 · 닮은꼴 (LLM 안에서)
'읽는 방향'과 '쓰는 방향'이 다르다 (LLM 내부 닮은꼴)
개념을 찾아내는 방향과, 그 개념을 주입해 행동을 바꾸는 방향이 서로 달랐어요. 이건 LLM 속에서만 본 닮은꼴이에요.
쉽게 말하면 뇌도 '감각으로 알아채는 길'과 '행동으로 만들어 내는 길'이 갈려 있죠. LLM의 탐지축≠생성축이 그것과 닮아 보여요. 참고: 이 중 '쓰기 방향'은 이번에 실제 뇌 스캔과 줄이 맞는 게 확인돼 위쪽 새 초록 카드(F25 WRITE축)로 따로 올라갔어요. 이 주황 카드는 그 '뇌 측정 전' 단계의 LLM-내부 닮은꼴로 남겨 둔 거예요.
F25 · F19유추 · 깨끗한 '차이' (학습이 멀어지게 함)
학습할수록 뇌에서 더 멀어지는 축이 있다 — 정직한 반례
활동의 '에너지'가 여러 차원에 어떻게 퍼지는지를 나타내는 한 숫자(power-law α)가 있어요. 뇌(피질)는 ≈1.04, 학습 안 한 모델은 ≈1.0이었는데, 학습을 시키자 1.4~1.9로 뇌에서 더 멀어졌어요.
왜 중요하냐면 흔히 "학습을 많이 시키면 AI가 뇌랑 비슷해진다"고 생각하기 쉬운데, 이 축에선 정반대예요 — 학습이 오히려 덜 뇌같게 만들었어요. '닮음'이 아니라 깨끗한 차이(학습된 발산)라서, 그렇게 정직하게 표기해요.
🧠 피질 α ≈ 1.04🤖 학습 후 α 1.4~1.9 (멀어짐)
다만 솔직히: 뇌의 α와 LLM의 α는 서로 다른 조건(자극·측정 방식)에서 잰 값이라, "멀어졌다"는 방향까지 못 박진 못해요. 조건을 맞춰 다시 재야 확실해져요. 그래서 '닮음'으로도, 확정된 차이로도 올리지 않고 유추(차이)로 둬요.
F31유추 · 🧠 vs 🤖 대비
거의 다 흩어져 있는데, 딱 하나 '숫자'만 전담 칸이 있다
가장 좋은 '특징 사전(gold SAE)'으로 다시 봐도 대부분의 개념은 여전히 여러 곳에 흩어져 있었어요. 그런데 '숫자(numbers)'라는 개념 하나만은 깨끗하게 전담하는 특징 하나를 가졌어요.
쉽게 말하면 사람 뇌엔 숫자를 다루는 전담 구역(number-form-area)이 있다고 봐요. LLM에서도 거의 모든 게 흩어져 있는 와중에 '숫자'만은 한 칸에 깔끔히 모인, 뇌의 '전담 구역'을 느슨하게 닮은 유일한 사례였어요.
🧠 숫자 전담 구역(NFA)🤖 'numbers' 특징 하나만 전담
F32유추 · 닮은꼴 ⬆ 미검증서 승급
옛 메모의 '계층 추상화' 아이디어와 닮았다
한 연구자가 오래전 적어 둔 '낮은 신호에서 위로 갈수록 추상'이라는 생각과, LLM이 층을 지날수록 추상이 쌓이는 방식이 개념적으로 닮았어요.
쉽게 말하면 예전 메모의 "패턴을 쌓아 개념을 만든다"는 방향성이, 오늘날 LLM의 층별 추상화와 닮은 흐름이에요. 단 같은 잣대로 둘 다 잰 건 아니라서 '닮았다'까지예요 — '증명·예견'이 아니에요. (자세한 흐름은 아래 25년 계보 섹션)
F3 · F17 · F18미검증 · 아직 몰라요
'갑자기 똑똑해짐(창발)'은 진짜일까, 착시일까?
능력이 어느 크기에서 '확' 생기는 것처럼 보이는데, 측정 방식을 바꾸면 그 도약이 사라지기도 했어요.
쉽게 말하면 발달에서 '갑자기 되는 것'이 진짜 단계 도약인지, 아니면 우리가 재는 방법 탓인지 — 뇌와 AI 둘 다 똑같은 논쟁이 있어요. 같은 잣대로 둘 다 재 보기 전엔 결론을 미뤄 둡니다.
F11 · F23
04우리가 던진 16가지 질문
이 연구의 핵심은 '답'보다 좋은 질문이에요. 각 질문엔 지금까지의 신호등이 붙어 있어요. (이번 갱신: 12번이 답 도착으로 풀렸고 — 누수를 막으니 점수는 작지만 진짜였어요 — 14번이 비교가능(잠정)으로 올라가고, 15·16번이 새로 추가됐어요.)
1
의미를 뇌는 한 군데에, LLM은 흩어서 담을까?
분산 vs 국재 — 같은 'selectivity' 잣대로 양극 비교
비교 가능
2
LLM의 '개념=방향'은 뇌의 population vector와 같은 단위일까?
"방향이 곧 코드" vs 신경세포 집단의 방향 표현
비교 가능
3
방향 끄기 실험은 뇌 수술(lesion/TMS)과 같은 방법일까?
인과를 확인하는 도구로서의 평행
비교 가능
4
LLM의 '층 깊이' 추상화는 뇌의 '공간' 경사와 비교 가능할까?
같은 메트릭이어도 '깊이 축 vs 공간 축' 의미가 달라 조심
단서부
5
서로 다른 AI가 같은 지형에 모이는 건, 뇌의 보편 표현과 같을까? 비교가능(잠정)
실제 사람 뇌 스캔으로 다리를 놓은 결과(F33)는 비교가능(잠정)을 유지해요 — 단, 점수의 크기를 0.75~0.88에서 0.13~0.25(약신호)로 정정했어요(누수를 막으니 작아짐). '관계가 있다'는 살아남았고, 작아진 건 '크기'예요.
비교가능(잠정·약신호)
6
LLM의 '지도 없음'은 깨끗한 차이일까, 잣대 탓일까?
LLM엔 자리 개념이 없어 '옆자리'를 우리가 정의해야 함
단서부
7
연결망은 어디까지 뇌와 같고, 모듈성만 다를까?
좁은세상·허브는 공유, 모듈성 Q는 뇌보다 낮음
비교 가능
8
LLM의 추상화는 옛 노트의 '계층 추상화' 아이디어와 닮았을까? ⬆ 승급
한 연구자가 오래전 적어 둔 '낮은 신호 → 위로 갈수록 추상' 생각과 개념이 닮음이 확인됨 — 다만 같은 잣대로 둘 다 잰 건 아니에요(닮음까지만).
유추
9
LLM의 즉석 학습(ICL)은 뇌의 어떤 시스템과 닮았을까?
해마 '빠른 학습'·작업기억과 비교 — 같은 잣대 측정이 다음 숙제
유추
10
AI는 새로 배우면 옛 걸 잊을까? 골라서 배울 수 있을까? 🆕 신규
새 걸 배우다 옛 걸 통째로 잊는 현상(catastrophic forgetting)을 뇌처럼 막을 수 있을지 — 아직 LLM 쪽에서 직접 재 보지 않았어요. 빈자리를 상상으로 채우지 않고 '미검증'으로 남겨 둬요.
미검증
11
여러 AI를 모아 합의시키면, 작은 신경망들을 묶는 뇌와 닮은 걸까?
여러 AI의 의견을 모으는 방식이 뇌가 여러 회로를 묶어 함께 계산하는 것과 구조가 닮아 보여요(유추). 단, 이 연구 자체가 여러 AI 합의로 돌아가니 "잘 돌아간다"를 증거로 삼지 않도록 조심해요.
유추
12
데이터 누수를 막고 다시 재면, '실제 뇌 예측' 점수는 정직하게 얼마일까? ✅ 답 도착
이제 답했어요. 주제별로 칸막이 친 시험(passage-blocked)으로 다시 재니, 옛 점수(0.75~0.88)의 67~86%가 누수였어요. 누수를 막은 정직한 점수는 r ≈ 0.13~0.25 — 작지만 진짜예요(우연·쌍둥이 둘 다 이김). "누수를 걷어냈고, 남은 신호는 작지만 실재한다"가 정직한 결론이에요. 전부 다 풀린 건 아니에요: '어느 층이 신호를 나르는지'는 새 숙제로 16번에 넘겼어요.
답 도착
13
왜 학습을 더 시킬수록 '에너지 퍼짐' 축에선 뇌에서 더 멀어질까?
다른 축들은 학습이 뇌 쪽으로 데려가는데, '에너지가 차원에 퍼지는 정도(α)'만은 학습이 뇌에서 멀어지게 했어요(F31). 왜 이 축만 거꾸로 가는지가 새 숙제예요 — 깨끗한 차이라서 유추로 둬요.
유추
14
여러 언어가 공유하는 '뜻 허브'는 진짜 사람 뇌에도 있을까? ⬆ 승급
같은 이야기(어린 왕자)를 영어·중국어·프랑스어로 들려주고 뇌를 스캔했더니, 세 언어 모두에서 같은 '뜻의 지형'이 나왔어요(0.24~0.28, 통계적으로 또렷). 그래서 'LLM의 언어무관 의미 허브가 실제 뇌에도 존재한다'까지 비교가능(잠정)으로 올랐어요(F34-R1). 단 영어–프랑스어 쌍은 약했어요(0.115).
비교가능(잠정)
15
LLM↔뇌 다국어 다리는 사람을 더 모으면 버틸까? 🆕 신규
LLM의 언어무관 표상으로 다른 언어 청자의 뇌를 건너 예측하는 다리는, 사람이 언어당 딱 1명뿐이라 신호가 약하거나 없었어요(힌트만, 통계 유의 미달). 사람을 2~4명으로 늘리면 살아남을지가 숙제예요 — 아직 닮음(유추) 단계예요. (14번의 '뇌에 허브가 있다'와는 별개 질문이에요.)
유추
16
누수를 걷어낸 뒤, 진짜로 '어느 층'이 뇌 신호를 나를까? 🆕 신규
12번에서 누수를 막고 나니, 어느 층이 뇌 신호의 정점인지가 검사를 다시 할 때마다 흔들렸어요(F33). 신호의 '크기'는 실재하는데 '위치(층)'가 불안정한 거예요. 더 많은 사람·자극으로 안정화해야 답할 수 있어서 미검증으로 둬요.
미검증
05💡 25년 아이디어 계보
재미있는 관찰: 한 연구자가 2001년부터 비슷한 생각을 머릿속에서만이 아니라 직접 코드로 만들어 왔어요. 오늘날 AI 개념과 닮은 흐름이 세 갈래 보여요. 셋 다 유추예요 — "예견했다·증명됐다"가 아니라 "닮은 흐름이 있다"까지만이에요.
2004 → 오늘
① "여러 신경망을 따로 학습시켜 위에서 합치기" 유추
2004년의 한 메모에 "서로 다른 신경망을 따로따로 학습시킨 뒤, 그 위에서 결과를 합친다"는 구상이 있었어요.
오늘날 여러 AI를 모아 합의시키는 방식(앙상블·다수 AI 합의)과 닮은 흐름이에요. 위 11번 질문과 바로 이어져요.
2001 → 오늘
② 직접 만든 분산 클러스터 유추
2001년에 작업을 잘게 나눠 여러 컴퓨터가 협력하게 하는 분산 시스템을 직접 만들었어요(가운데는 안내만 하고, 노드끼리 협력하는 구조).
오늘날 여러 머신·여러 AI 에이전트를 묶어 함께 일하게 하는 구조(fleet·다중 에이전트)와 토폴로지(연결 모양)가 닮았어요. 같은 모양이지 같은 것의 증명은 아니에요.
2009 → 2017
③ 통계 이상탐지 → 오토인코더 유추
2009년엔 통계로 '튀는 값'을 찾는 이상탐지를 했고, 8년 뒤 2017년엔 같은 문제를 신경망(오토인코더)으로 다시 풀었어요.
같은 사람이 같은 문제를 다른 도구로 다시 공격한 기록이에요. "미리 알았다"가 아니라 도구가 통계 → 표상학습으로 바뀐 흐름이 닮은 거예요.
공개 페이지 규칙: 이 계보는 아이디어 수준만 적었어요. 개인 파일·폴더 경로, 사람·회사 이름, 민감한 내용은 일절 담지 않았어요. 또한 "닮은 흐름"이 곧 "증명"은 아니에요 — 같은 잣대로 옛 생각과 오늘 모델을 둘 다 잰 게 아니라서, 전부 유추로만 남겨 둡니다.
06한 줄 용어 사전
어려운 말이 나오면 여기서 확인하세요.
LLM
아주 큰 언어 인공지능. ChatGPT 같은 모델의 속 구조를 가리켜요.
층(layer)
정보가 통과하는 단계. 입력에서 출력까지 수십 층을 지나며 점점 추상적이 돼요.
유닛/뉴런
각 층 안의 작은 계산 단위. 뇌의 신경세포에 빗댄 말.
중첩(superposition)
한 유닛이 여러 뜻을 겹쳐 담는 것. 그래서 "고양이 담당 유닛"을 못 찾아요.
방향(direction)
여러 유닛 값을 합친 '가상의 화살표'. LLM에선 이 방향 하나가 한 개념을 뜻해요.
은닉상태(hidden state)
한 층의 유닛(뉴런) 출력값을 죽 늘어놓은 '실제 벡터 1개'. 그 순간의 머릿속 상태값이에요.
개념 방향(concept direction)
은닉상태와 같은 공간 안에서 한 개념을 가리키는 화살표 방향. 은닉상태는 여러 개념 방향에 각자의 '양'을 곱해 더한 합으로 볼 수 있어요.
내적·투영(dot product)
한 벡터를 어떤 방향으로 '비춰 본' 값. 은닉상태를 개념 방향에 내적하면 "그 개념이 지금 얼마나 켜졌나"를 읽을 수 있어요.
residual stream(잔차 스트림)
LLM 속 정보 통로. 모두가 같은 '게시판/버스'에 메모를 더해 붙이는 곳이라, 한 자리에 여러 개념이 합으로 겹쳐 있어요.
맥락 학습(ICL)
모델을 새로 훈련하지 않고, 보여 준 예시만으로 그 자리에서 규칙을 배우는 능력.
ablation
일부를 일부러 꺼서 결과 변화를 보는 실험. "이게 원인인가?"를 확인.
lesion·TMS
뇌의 일부를 손상·자극해 기능을 보는 신경과학 방법.
FFA
사람 뇌에서 얼굴에 특히 반응하는 부위. '국재화(한 군데 담당)'의 대표 예.
모듈성(Q)
연결망이 동아리처럼 끼리끼리 뭉친 정도. 뇌가 LLM보다 높아요.
좁은세상·rich-club
몇 다리만 건너면 다 연결되고(좁은세상), 인기 허브들이 따로 뭉치는(rich-club) 망 구조.
Moran's I
'옆자리끼리 얼마나 비슷한가' 점수. LLM은 거의 0(지도 없음).
CKA / RSA
두 시스템의 '머릿속 지형'이 얼마나 닮았는지 재는 점수. 뇌-AI 비교의 공용 잣대.
circR (고리 적합도)
어떤 표현이 얼마나 '둥근 고리'에 잘 들어맞는지 재는 점수. 순환 개념과 뇌의 방향세포를 같은 잣대로 견줄 때 써요.
catastrophic forgetting
'급격한 망각'. AI가 새 걸 배우다 전에 배운 걸 통째로 잊어버리는 현상.
앙상블(ensemble)
여러 모델(또는 여러 AI)의 결과를 합쳐 더 나은 답을 내는 방법.
방향세포 / 격자세포
동물 뇌에서 방향·위치를 표현하는 세포. 방향세포는 방향을 '둥근 고리'로, 격자세포는 공간을 격자(도넛 모양)로 코딩해요.
도넛(torus)
격자세포 집단이 그리는, 고리보다 한 단계 복잡한 위상 모양. LLM에서 이게 같은지는 아직 보류(유추).
fMRI
사람 뇌의 활동을 (흐릿하게) 찍는 스캔. 어느 단어에 뇌의 어느 점이 켜지는지 보여줘요.
인코딩 예측
LLM의 내부 활동만 보고 '뇌의 이 점이 켜질 것'을 맞히는 일. 잘 맞히면 둘이 같은 정보를 담은 셈.
측정 한계(ceiling)
뇌 스캔은 잡음이 있어 '아무리 잘해도 여기까지'라는 천장이 있어요. 점수는 그 천장 대비 비율로 봐요.
쌍둥이 모델(untrained twin)
구조는 똑같지만 학습만 안 시킨 모델. 진짜 능력이 '학습으로 생긴 것'인지 가려내는 대조군.
데이터 누수(leak)
시험 문제와 연습 문제가 비슷해 점수가 실제보다 높게 나오는 것. 막아야 정직한 점수가 나와요.
주제별 칸막이 시험(passage-blocked)
비슷한 주제 문장이 연습·시험에 섞이지 않게 주제별로 갈라서 검사하는 법. 데이터 누수를 막아 정직한 점수를 재요.
변량 맞춘 대조군(variance-matched control)
덩치(설명력)만 같고 내용은 무작위인 비교 상대. '진짜 신호'가 단순히 덩치 때문은 아닌지 가려내요.
쓰기축·읽기축(write/read)
LLM 안에서 출력을 바꾸는 방향(쓰기)과 개념을 찾아내는 방향(읽기). 둘은 거의 직교해요.
RSA(표상 유사도 분석)
두 시스템(또는 두 언어의 뇌)이 '뜻의 지형'을 얼마나 같게 그리는지 재는 점수. 다국어 뇌 허브를 잴 때 썼어요.
α (에너지 퍼짐)
활동의 '에너지'가 여러 차원에 얼마나 가파르게/완만하게 퍼지는지 나타내는 숫자. 뇌(피질)는 ≈1.04.
number-form-area
사람 뇌에서 숫자를 다루는 전담 구역으로 알려진 곳. LLM의 '숫자 전담 특징'과 비교 후보.
rigor gate
발견을 '확정'으로 인정하기 전 통과해야 하는 4가지 엄격한 검사.
⚖️ 솔직하게 — 아직 모르는 것들
전체 비교표 50개의 정직 신호등 집계예요:
비교 가능 11유추 30미검증 9
— 초록은 지난번 9개에서 11개로 늘었어요. 단, 모든 초록은 여전히 "있다·줄이 맞는다"까지지 "메커니즘을 증명했다"가 아니에요. 그리고 그중 '양쪽 다 실제로 잰' 초록(실제 뇌+실제 LLM)은 F33·F25·F34 세 건이고, 나머지 초록은 잣대는 같지만 뇌 쪽 숫자가 교과서 대략값이에요.
멋져 보이는 결론도 함부로 단정하지 않았어요. 다음은 아직 확실하지 않은 것들이에요.
'닮았다'는 증명이 아니에요. 주황색(유추) 카드는 뇌와 AI가 비슷해 보이는 것이지, 같은 잣대로 둘 다 잰 건 아니에요.
한 결과는 더 정직해지고 더 작아졌어요(F33). '진짜 뇌' 예측 점수(옛 0.75~0.88)를 과학자들이 스스로 더 엄격히 검사하니 67~86%가 '데이터 누수'였어요. 정직한 점수는 r ≈ 0.13~0.25(약신호)로 작아졌어요. 그래도 '우연보다 잘 맞힘'과 '쌍둥이가 음수로 떨어짐'은 버텨서 관계(줄이 맞는다)는 살아남았고, 줄어든 건 '크기'뿐이에요. "뇌의 ¾~⅞를 설명한다"는 옛 표현은 폐기했어요(질문 12).
새 초록 둘은 "있다·줄이 맞는다"까지만이에요. '쓰는 방향'이 뇌 신호와 줄이 맞고(F25), 다국어 '뜻 허브'가 실제 뇌에도 있어요(F34). 하지만 '쓰기 방향=뇌의 편집 버튼'은 아직 미검증(예측한다 ≠ 개입한다), 그리고 LLM→뇌 다국어 다리는 사람이 너무 적어 아직 유추예요(질문 15·16). "최초의 다국어 LLM–뇌 정렬"이라고는 말하지 않아요(선행 연구 있음).
학습이 오히려 덜 뇌같게 만든 축도 있어요. '에너지 퍼짐(α)' 축에선 학습이 뇌에서 멀어지게 했어요 — '닮음'이 아니라 깨끗한 차이예요. 게다가 두 α는 다른 조건에서 재서 방향까지 못 박았어요(F31, 질문 13).
고리는 철회됐어요. 순환 개념이 '닫힌 고리'를 그린다는 주장은 더 엄격한 검사(순서 섞기)를 두 모델 모두 통과 못 해 철회했어요. '순서 있음/없음을 구분하는 점수(circR)'만 살아남아 유추로 남겨 둬요(F29). 더 복잡한 '도넛(torus)'도 보류예요.
축의 의미가 다를 수 있어요. LLM의 '층 깊이'와 뇌의 '공간 위치'를 같은 그래프로 그려도, 뜻이 정말 같은지는 더 확인해야 해요(질문 4·6).
"새로 배우면 옛 걸 잊나?"는 아직 안 쟀어요. AI의 급격한 망각(catastrophic forgetting)과 뇌의 학습을 비교하려면 LLM 쪽에서 직접 실험해야 하는데, 아직 측정 전이라 미검증으로 둬요(질문 10).
'여러 AI 합의'는 조심해서 봐요. 이 연구 자체가 여러 AI를 모아 합의시키는 방식으로 돌아가요. 그래서 "이 작업이 잘 돌아가니까 합의=뇌와 같다"는 식으로 스스로를 증거 삼지 않도록 경계해요. 흥미로운 관찰일 뿐, 증거 격상 사유는 아니에요(질문 11).
실험은 다른 곳에서 해요. 이 페이지는 요약·종합이고, 실제 측정·실험은 별도 연구 하네스(LLM-fMRI)에서 이뤄졌어요. 여기선 그 결과를 인용만 합니다.
숫자엔 근거가 있어요. 모든 수치는 원본 실험의 데이터 파일로 거슬러 올라갈 수 있고, 서로 어긋나는 값은 지우지 않고 둘 다 적어 뒀어요.