2025 AI 개발자 추천 독서 목록

각 분야별 주요 논문, 모델, 블로그의 공식 논문/자료 링크를 최대한 직접적으로 정리한 목록입니다. 일부 최신 모델은 시스템 카드, 공식 블로그, arXiv 등으로 대체될 수 있습니다.

1. 최전선 LLMs (Frontier LLMs)

최신 대형 언어모델들은 AI 기술 발전의 중심에 있습니다. OpenAI, Anthropic, Google, Meta 등 주요 기업의 대표 모델과 AI2, DeepSeek, Apple Intelligence 등 다양한 오픈소스 및 상용 모델을 포함합니다. 이 섹션에서는 각 모델의 공식 논문과 시스템 카드, LLM의 성능을 좌우하는 Scaling Laws 등 핵심 연구를 소개합니다.

모델/논문명	공식 자료/논문 링크
GPT-1	arXiv: Improving Language Understanding by Generative Pre-Training
GPT-2	arXiv: Language Models are Unsupervised Multitask Learners
GPT-3	arXiv: Language Models are Few-Shot Learners
Codex	arXiv: Evaluating Large Language Models Trained on Code
InstructGPT	arXiv: Training language models to follow instructions with human feedback
GPT-4	OpenAI GPT-4 Technical Report
GPT-4o	OpenAI Blog: GPT-4o 소개
GPT-4.5	OpenAI GPT-4.5 System Card
Claude 3	Anthropic Claude 3 소개, Wikipedia
Claude 3.5 Sonnet	Anthropic 공식 블로그
Gemini 1	Google Gemini 공식 소개
Gemini 2.5	Google Gemini 업데이트
Llama 1	arXiv: LLaMA: Open and Efficient Foundation Language Models
Llama 2	Meta Llama 2 공식 페이지
Llama 3	arXiv: Llama 3, Hugging Face Papers
DeepSeek V1/Coder	DeepSeek 공식 블로그
AI2 Olmo	arXiv: OLMo: Accelerating Language Model Research with Full-Stack Open-Source
Scaling Laws	Kaplan et al. (2020), Chinchilla, Emergence

2. 벤치마크 & 평가 (Benchmarks & Evals)

AI 모델의 성능을 객관적으로 평가하는 벤치마크와 평가 프레임워크는 실무와 연구 모두에서 필수적입니다. MMLU, MuSR, MATH, FrontierMath, IFEval, ARC AGI 등 다양한 벤치마크와 평가 논문을 통해, LLM 및 멀티모달 모델의 실제 능력을 측정하는 방법을 다룹니다.

벤치마크/논문명	공식 자료/논문 링크
MMLU	arXiv: Measuring Massive Multitask Language Understanding
MuSR	arXiv: MuSR: Multi-Scale Reasoning Benchmark
MATH	arXiv: Evaluating Mathematical Reasoning
FrontierMath	arXiv: FrontierMath Benchmark
IFEval	arXiv: IFEval: Instruction Following Evaluation
ARC AGI	ARC AGI Benchmark

3. 프롬프팅, ICL, Chain of Thought (Prompting, In-Context Learning, CoT)

프롬프팅과 In-Context Learning(ICL), 사고의 연쇄(CoT)는 LLM의 활용도를 극대화하는 핵심 기법입니다. 이 섹션에서는 프롬프트 설계, 보안 이슈, Chain-of-Thought 및 Tree of Thought와 같은 최신 연구, 자동 프롬프트 엔지니어링, 실무 가이드 등 실질적인 프롬프팅 전략을 다룹니다.

논문/자료명	공식 자료/논문 링크
GPT-3와 ICL	arXiv: Language Models are Few-Shot Learners
Prompt Injection	Lilian Weng 블로그: Prompt Injection, Simon Willison 시리즈
The Prompt Report	The Prompt Report
Chain-of-Thought	arXiv: Chain of Thought Prompting Elicits Reasoning in LLMs
Tree of Thought	arXiv: Tree of Thoughts
DSPy 프레임워크	arXiv: DSPy: Programming Large Language Models
Anthropic 튜토리얼	Anthropic Prompt Engineering Guide

4. RAG (Retrieval-Augmented Generation)

RAG는 검색 기반의 외부 지식을 활용해 LLM의 한계를 극복하는 대표적 접근법입니다. 정보 검색 이론, 최신 RAG 논문, 임베딩 및 벡터 검색, 평가 프레임워크 등 RAG 시스템 구축과 성능 개선을 위한 필수 자료를 정리했습니다.

논문/자료명	공식 자료/논문 링크
Introduction to IR	책: Introduction to Information Retrieval
Meta RAG	arXiv: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
HyDE	arXiv: Hypothetical Document Embeddings
Rerankers	Cohere 블로그: Rerankers
GraphRAG	Microsoft GraphRAG
RAGAS	arXiv: RAGAS: Retrieval Augmented Generation Assessment Suite
Nvidia FACTS	arXiv: FACTS: Faithful and Consistent Text Summarization

5. 에이전트 (Agents)

에이전트는 LLM을 활용해 복잡한 작업을 자동화하고, 장기 메모리와 추론, 체이닝, 오케스트레이션 등 고급 기능을 구현합니다. SWE-Bench, ReAct, MemGPT, Voyager 등 대표 논문과 Anthropic, UC Berkeley 등에서 제시한 최신 설계 원칙을 포함합니다.

논문/자료명	공식 자료/논문 링크
SWE-Bench	arXiv: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
ReAct	arXiv: ReAct: Synergizing Reasoning and Acting in Language Models
MemGPT	arXiv: MemGPT: Long-Term Memory for LLMs
Voyager	arXiv: Voyager: Continual LLM Agent
Agent Workflow Memory	arXiv: Agent Workflow Memory
Building Effective Agents	Anthropic 블로그: Building Effective Agents

6. 코드 생성 (Code Generation)

AI 기반 코드 생성은 소프트웨어 개발의 혁신을 이끌고 있습니다. 대규모 코드 데이터셋, StarCoder, DeepSeek-Coder, CodeLlama 등 코드 특화 LLM, HumanEval/Codex 벤치마크, AlphaCode, CriticGPT 등 실전 적용 및 보안 관련 연구를 다룹니다.

논문/자료명	공식 자료/논문 링크
The Stack	arXiv: The Stack: 3 TB of permissively licensed source code
StarCoder	arXiv: StarCoder: May the Source Be With You!
DeepSeek-Coder	arXiv: DeepSeek Coder
Qwen2.5-Coder	arXiv: Qwen2.5-Coder
CodeLlama	Meta AI: Code Llama
HumanEval/Codex	arXiv: Evaluating Large Language Models Trained on Code
AlphaCode	arXiv: Competition-Level Code Generation with AlphaCode
CriticGPT	arXiv: CriticGPT: Large Language Models Can Self-Critique Code

7. 비전 (Vision)

비전 분야는 이미지·비디오·멀티모달 AI의 발전을 이끌고 있습니다. CLIP, Segment Anything, MMVP, GPT-4V 등 최신 비전 모델과 벤치마크, OpenAI 4o 등 텍스트-비전 융합 모델의 핵심 논문 및 실용 사례를 소개합니다.

논문/자료명	공식 자료/논문 링크
CLIP	arXiv: Learning Transferable Visual Models From Natural Language Supervision
Segment Anything	arXiv: Segment Anything
SAM 2	Latent Space Podcast: SAM 2
MMVP	arXiv: MMVP Benchmark
GPT-4V	OpenAI GPT-4V System Card
OpenAI 4o	OpenAI Blog: GPT-4o

8. 음성 (Voice)

음성 인식과 합성, 멀티모달 음성 AI는 인간-컴퓨터 상호작용을 혁신하고 있습니다. Whisper, AudioPaLM, NaturalSpeech 등 대표적 음성 모델, 최신 API, 산업 동향 및 융합 연구를 다룹니다.

논문/자료명	공식 자료/논문 링크
Whisper	OpenAI Whisper 공식, Hugging Face Model Card
AudioPaLM	arXiv: AudioPaLM: A Large Language Model That Can Speak and Listen
NaturalSpeech v3	arXiv: NaturalSpeech 3
Kyutai Moshi	Kyutai Moshi 공식
State of Voice AI 2024	Latent Space: State of Voice AI

9. 이미지/비디오 확산 (Diffusion)

이미지·비디오 생성 분야는 확산 모델(Diffusion Model)의 발전으로 급속히 성장하고 있습니다. Latent Diffusion, Stable Diffusion, DALL-E, Consistency Models, Sora 등 텍스트-이미지·비디오 생성의 최신 논문과 오픈소스 프로젝트를 정리했습니다.

논문/자료명	공식 자료/논문 링크
Latent Diffusion	arXiv: High-Resolution Image Synthesis with Latent Diffusion Models
Stable Diffusion	Wikipedia: Stable Diffusion, Stable Diffusion 3 논문
DALL-E 2	arXiv: Hierarchical Text-Conditional Image Generation with CLIP Latents
DALL-E 3	OpenAI Blog: DALL-E 3, 해설
Consistency Models	arXiv: Consistency Models
Sora	OpenAI Sora 공식
OpenSora	OpenSora GitHub

10. 파인튜닝 (Finetuning)

파인튜닝은 LLM, 비전, 음성 등 다양한 모델을 특정 도메인이나 목적에 맞게 최적화하는 핵심 기법입니다. LoRA, QLoRA, DPO, PPO, ReFT, Orca 3 등 최신 파인튜닝 논문과 실무 가이드, 오픈소스 튜토리얼을 소개합니다.

논문/자료명	공식 자료/논문 링크
LoRA	arXiv: LoRA: Low-Rank Adaptation of Large Language Models
QLoRA	arXiv: QLoRA: Efficient Finetuning of Quantized LLMs
DPO	arXiv: Direct Preference Optimization
PPO	arXiv: Proximal Policy Optimization Algorithms
ReFT	arXiv: Reinforcement Fine-Tuning for Language Models
Orca 3	arXiv: Orca 3: Progressive Learning from Complex Explanation Traces
HuggingFace 가이드	HuggingFace: LLM 파인튜닝 가이드

AI 개발을 공부하시다 보면 어려운 순간도 많고 변화가 너무 빨라서 부담스러울 때도 있으실 거예요. 그래도 포기하지 않고 한 걸음씩 나아가다 보면 분명히 실력이 쌓이고 있다는 걸 느끼실 수 있습니다.

궁금한 점이 생기면 직접 실험해 보시고 혹시 실패하더라도 너무 걱정하지 마세요. 누구나 시행착오를 겪으면서 성장합니다.

그래픽 카드도 사보고.. 미니 서버도 구축해보고.. 간단한 챗봇도 만들어보고.. 간단하게 학습도 시켜보고.. 재능의 벽에 좌절도 해보고..

저작자표시 비영리 변경금지 (새창열림)

'개발자 정보' 카테고리의 다른 글

내가 쓰는 OS 이미지(.img, .iso)를 SD카드나 USB, SSD에 굽는 프로그램 (0)	2025.10.28
AI에서 VRAM이 미치는 영향 (0)	2025.10.28

2025 AI 개발자 추천 도서 목록

2025 AI 개발자 추천 독서 목록

1. 최전선 LLMs (Frontier LLMs)

2. 벤치마크 & 평가 (Benchmarks & Evals)

3. 프롬프팅, ICL, Chain of Thought (Prompting, In-Context Learning, CoT)

4. RAG (Retrieval-Augmented Generation)

5. 에이전트 (Agents)

6. 코드 생성 (Code Generation)

7. 비전 (Vision)

8. 음성 (Voice)

9. 이미지/비디오 확산 (Diffusion)

10. 파인튜닝 (Finetuning)

'개발자 정보' 카테고리의 다른 글

티스토리툴바