로고 로고

Product

Ternary-SRAM이 필요한 이유

터넬이 3진법 반도체 기술을 기반으로 가장 먼저 집중하고 있는 분야는 On-chip cache memory 용 SRAM 입니다.

최근 AI 컴퓨팅에 대한 수요 증가로 GPU를 비롯한 다양한 유형의 AI 가속기로 불리우는 SoC(System on Chip)형 반도체와 이를 내재한 시스템이 출시되고 있습니다.

우수한 성능의 AI 가속기 개발을 위해서는 고성능 병렬 연산을 수행할 수 있는 연산 회로인 ALU(Arithmetic Logic Unit) core에 대한 설계도 중요하지만, ALU를 가까이에서 지원할 수 있는 효과적인 메모리 계층구조(Memory Hierarchy)의 설계와 활용도 중요합니다.

고성능의 SoC형 반도체의 설계를 위해서는 ALU와 함께 같은 silicon die 위에 cache 메모리로 만들어지는 on-chip 메모리의  용량이가급적 크게 설계되어야 합니다. on-chip 메모리로 고성능 메모리인 SRAM이 사용되어야 하나, SRAM은 main memory인 DRAM에 비해 부피가 크고 집적이 어려우며, 발열로 인해 필요한 만큼 큰 용량으로 사용하기 어렵습니다.

그러나 터넬의 3진법 기반 SRAM인 T-SRAM으로 On-chip 메모리를 제작하면, 7-nm 이하 공정에서 면적과 소비전력 모두 50% 이상 감소하게 됩니다.

고성능 SoC인 CPU나 GPU와 같은 반도체에서는 on-chip cache 메모리로 사용되는 SRAM이 전체 반도체 면적의 70~80%까지 차지하기 때문에, SoC 설계 엔지니어 입장에서 이러한 면적 감소와 소비 전력 감소는 매우 큰 효익입니다.

Ternary-CMOS를 활용한 Ternary-SRAM

터넬은 2019년 110-nm 파운드리 양산 공정에서 처음 Ternary-CMOS 양산에 성공한 결과를 Nature Electronics에 발표한 이후, 꾸준한 기술 개발을 통해 28-nm 공정 기반으로 Ternary-SRAM 제품까지 성공적으로 개발하였습니다. 28-nm 공정으로 제작된 Ternary-SRAM은 L1 cache의 경우 read 속도 0.9ns이며, L2 cache는 4.2ns로 기존 2진법으로 제작된 cache SRAM과 동일한 속도를 보여주면서도 면적은 33%, 전력 소비는 51% 절감할 수 있습니다.

현재 14-nm 공정 기반 제품 설계를 완료하고 테스트 중이며, 글로벌 선도 파운드리 업체들과 4-nm 이하 제품도 공동 개발을 진행하고 있습니다.

Ternary-SRAM의 2진법 체계 호환성

Ternary-SRAM은 3진법 기반으로 설계된 반도체이지만, 2진법 체계로 설계된 SoC 내에 다른 logic block들과 함께 동일한 silicon die에 만들어질 수 있습니다.  다시 말해 Ternary-SRAM은 기존 SRAM 대신 plug-in 형태로 대체 가능한 모듈처럼 사용될 수 있습니다.

이러한 것이 가능한 이유는 터넬이 개발한  2진법-3진법  T-encoder/decoder와 결합된 고속 T-READ/WRITE 설계 IP 때문입니다.

이 T-encoder/decoder는 간단한 combinational logic gate로, 마지막 I/O단에서 병렬처리되는 방식이라서 코어 메모리 용량 확장과 무관하게 빠른 속도로 동작합니다.

따라서, 2진-3진 변환으로 인한 delay가 거의 없어서 2진법 시스템으로만 구성된 것처럼 동작하며, encode, decode하는데 필요한 부가적인 에너지 소모는 미미합니다.

Ternary-SRAM의 Error Correction 방안

2진법-3진법 컨버터로 인해 3진법 방식으로 검사/수정하기 위한 추가 알고리즘 혹은 testing setup이 요구되지 않기에 기존에 사용되던 2진법 입/출력으로 검증하는 testing 방식으로 충분히 진행 가능합니다.

- Hard error: 메모리 IP 내부 BIST를 통해 march test 검증하여, dead cell 주소 부분 redundant col.으로 hard wiring 기법 처리하여 repair합니다.

- Soft error: 2진 데이터로 동작하는 Ternary-SRAM이기에, 기존 2진법 기반 ECC를 도입가능합니다. 각 word 당 추가 1 비트, parity bit으로 사용하여 출력 결과에 따라 correction 진행합니다.

Ternary-SRAM의 Scaling down

기존 2진법 CMOS는 고집적화에 따른 발열문제가 심화되지만, 터넬의 3진법 기술로 만든 SRAM은 미세공정 수준이 높아질 수록 오히려 안정적입니다.

특히, 14-nm 이하에서 미세화 될수록 기존 CMOS의 발열문제가 매우 심화되지만, T-CMOS는 터널링 전류를 활용하여 동작하기에 발열에 의한 대기전력 증가 문제를 대폭 개선할 수 있습니다.

또한, FinFet 구조로 인해 터널링 전류가 흐르는 영역이 기존 채널과 분리되며, GAA에서는 그러한 분리가 보다 명확해지기 때문에 안정적인 동작에 더욱 유리합니다.

이로 인해 소자 자체의 소비 전력도 감소하지만, ECC burden도 상대적으로 줄어들기 때문에 실질적인 density 개선에 큰 도움이 됩니다.

Ternary-SRAM의 집적도

각 sub-bank array는 1024 wordline 구조의 32kb로 발전, T-cache macro 당 128kb 용량을 설계하여, 최종적으로 수율 확보된 고용량 macro 병합을 통해 L3 기준 256MB 까지 구현됩니다.

메모리 용량이 더 커질수록 면적 감소 효율은 더 커지며, 대용량 L3~L4 급 64MB~256MB 수준에서는 80% 이상의 셀 집적도 상승이 시현됩니다.