2025 AI 개발자 추천 독서 목록
각 분야별 주요 논문, 모델, 블로그의 공식 논문/자료 링크를 최대한 직접적으로 정리한 목록입니다. 일부 최신 모델은 시스템 카드, 공식 블로그, arXiv 등으로 대체될 수 있습니다.
1. 최전선 LLMs (Frontier LLMs)
최신 대형 언어모델들은 AI 기술 발전의 중심에 있습니다. OpenAI, Anthropic, Google, Meta 등 주요 기업의 대표 모델과 AI2, DeepSeek, Apple Intelligence 등 다양한 오픈소스 및 상용 모델을 포함합니다. 이 섹션에서는 각 모델의 공식 논문과 시스템 카드, LLM의 성능을 좌우하는 Scaling Laws 등 핵심 연구를 소개합니다.
| 모델/논문명 | 공식 자료/논문 링크 |
|---|---|
| GPT-1 | arXiv: Improving Language Understanding by Generative Pre-Training |
| GPT-2 | arXiv: Language Models are Unsupervised Multitask Learners |
| GPT-3 | arXiv: Language Models are Few-Shot Learners |
| Codex | arXiv: Evaluating Large Language Models Trained on Code |
| InstructGPT | arXiv: Training language models to follow instructions with human feedback |
| GPT-4 | OpenAI GPT-4 Technical Report |
| GPT-4o | OpenAI Blog: GPT-4o 소개 |
| GPT-4.5 | OpenAI GPT-4.5 System Card |
| Claude 3 | Anthropic Claude 3 소개, Wikipedia |
| Claude 3.5 Sonnet | Anthropic 공식 블로그 |
| Gemini 1 | Google Gemini 공식 소개 |
| Gemini 2.5 | Google Gemini 업데이트 |
| Llama 1 | arXiv: LLaMA: Open and Efficient Foundation Language Models |
| Llama 2 | Meta Llama 2 공식 페이지 |
| Llama 3 | arXiv: Llama 3, Hugging Face Papers |
| DeepSeek V1/Coder | DeepSeek 공식 블로그 |
| AI2 Olmo | arXiv: OLMo: Accelerating Language Model Research with Full-Stack Open-Source |
| Scaling Laws | Kaplan et al. (2020), Chinchilla, Emergence |
2. 벤치마크 & 평가 (Benchmarks & Evals)
AI 모델의 성능을 객관적으로 평가하는 벤치마크와 평가 프레임워크는 실무와 연구 모두에서 필수적입니다. MMLU, MuSR, MATH, FrontierMath, IFEval, ARC AGI 등 다양한 벤치마크와 평가 논문을 통해, LLM 및 멀티모달 모델의 실제 능력을 측정하는 방법을 다룹니다.
| 벤치마크/논문명 | 공식 자료/논문 링크 |
|---|---|
| MMLU | arXiv: Measuring Massive Multitask Language Understanding |
| MuSR | arXiv: MuSR: Multi-Scale Reasoning Benchmark |
| MATH | arXiv: Evaluating Mathematical Reasoning |
| FrontierMath | arXiv: FrontierMath Benchmark |
| IFEval | arXiv: IFEval: Instruction Following Evaluation |
| ARC AGI | ARC AGI Benchmark |
3. 프롬프팅, ICL, Chain of Thought (Prompting, In-Context Learning, CoT)
프롬프팅과 In-Context Learning(ICL), 사고의 연쇄(CoT)는 LLM의 활용도를 극대화하는 핵심 기법입니다. 이 섹션에서는 프롬프트 설계, 보안 이슈, Chain-of-Thought 및 Tree of Thought와 같은 최신 연구, 자동 프롬프트 엔지니어링, 실무 가이드 등 실질적인 프롬프팅 전략을 다룹니다.
| 논문/자료명 | 공식 자료/논문 링크 |
|---|---|
| GPT-3와 ICL | arXiv: Language Models are Few-Shot Learners |
| Prompt Injection | Lilian Weng 블로그: Prompt Injection, Simon Willison 시리즈 |
| The Prompt Report | The Prompt Report |
| Chain-of-Thought | arXiv: Chain of Thought Prompting Elicits Reasoning in LLMs |
| Tree of Thought | arXiv: Tree of Thoughts |
| DSPy 프레임워크 | arXiv: DSPy: Programming Large Language Models |
| Anthropic 튜토리얼 | Anthropic Prompt Engineering Guide |
4. RAG (Retrieval-Augmented Generation)
RAG는 검색 기반의 외부 지식을 활용해 LLM의 한계를 극복하는 대표적 접근법입니다. 정보 검색 이론, 최신 RAG 논문, 임베딩 및 벡터 검색, 평가 프레임워크 등 RAG 시스템 구축과 성능 개선을 위한 필수 자료를 정리했습니다.
| 논문/자료명 | 공식 자료/논문 링크 |
|---|---|
| Introduction to IR | 책: Introduction to Information Retrieval |
| Meta RAG | arXiv: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks |
| HyDE | arXiv: Hypothetical Document Embeddings |
| Rerankers | Cohere 블로그: Rerankers |
| GraphRAG | Microsoft GraphRAG |
| RAGAS | arXiv: RAGAS: Retrieval Augmented Generation Assessment Suite |
| Nvidia FACTS | arXiv: FACTS: Faithful and Consistent Text Summarization |
5. 에이전트 (Agents)
에이전트는 LLM을 활용해 복잡한 작업을 자동화하고, 장기 메모리와 추론, 체이닝, 오케스트레이션 등 고급 기능을 구현합니다. SWE-Bench, ReAct, MemGPT, Voyager 등 대표 논문과 Anthropic, UC Berkeley 등에서 제시한 최신 설계 원칙을 포함합니다.
| 논문/자료명 | 공식 자료/논문 링크 |
|---|---|
| SWE-Bench | arXiv: SWE-bench: Can Language Models Resolve Real-World GitHub Issues? |
| ReAct | arXiv: ReAct: Synergizing Reasoning and Acting in Language Models |
| MemGPT | arXiv: MemGPT: Long-Term Memory for LLMs |
| Voyager | arXiv: Voyager: Continual LLM Agent |
| Agent Workflow Memory | arXiv: Agent Workflow Memory |
| Building Effective Agents | Anthropic 블로그: Building Effective Agents |
6. 코드 생성 (Code Generation)
AI 기반 코드 생성은 소프트웨어 개발의 혁신을 이끌고 있습니다. 대규모 코드 데이터셋, StarCoder, DeepSeek-Coder, CodeLlama 등 코드 특화 LLM, HumanEval/Codex 벤치마크, AlphaCode, CriticGPT 등 실전 적용 및 보안 관련 연구를 다룹니다.
| 논문/자료명 | 공식 자료/논문 링크 |
|---|---|
| The Stack | arXiv: The Stack: 3 TB of permissively licensed source code |
| StarCoder | arXiv: StarCoder: May the Source Be With You! |
| DeepSeek-Coder | arXiv: DeepSeek Coder |
| Qwen2.5-Coder | arXiv: Qwen2.5-Coder |
| CodeLlama | Meta AI: Code Llama |
| HumanEval/Codex | arXiv: Evaluating Large Language Models Trained on Code |
| AlphaCode | arXiv: Competition-Level Code Generation with AlphaCode |
| CriticGPT | arXiv: CriticGPT: Large Language Models Can Self-Critique Code |
7. 비전 (Vision)
비전 분야는 이미지·비디오·멀티모달 AI의 발전을 이끌고 있습니다. CLIP, Segment Anything, MMVP, GPT-4V 등 최신 비전 모델과 벤치마크, OpenAI 4o 등 텍스트-비전 융합 모델의 핵심 논문 및 실용 사례를 소개합니다.
| 논문/자료명 | 공식 자료/논문 링크 |
|---|---|
| CLIP | arXiv: Learning Transferable Visual Models From Natural Language Supervision |
| Segment Anything | arXiv: Segment Anything |
| SAM 2 | Latent Space Podcast: SAM 2 |
| MMVP | arXiv: MMVP Benchmark |
| GPT-4V | OpenAI GPT-4V System Card |
| OpenAI 4o | OpenAI Blog: GPT-4o |
8. 음성 (Voice)
음성 인식과 합성, 멀티모달 음성 AI는 인간-컴퓨터 상호작용을 혁신하고 있습니다. Whisper, AudioPaLM, NaturalSpeech 등 대표적 음성 모델, 최신 API, 산업 동향 및 융합 연구를 다룹니다.
| 논문/자료명 | 공식 자료/논문 링크 |
|---|---|
| Whisper | OpenAI Whisper 공식, Hugging Face Model Card |
| AudioPaLM | arXiv: AudioPaLM: A Large Language Model That Can Speak and Listen |
| NaturalSpeech v3 | arXiv: NaturalSpeech 3 |
| Kyutai Moshi | Kyutai Moshi 공식 |
| State of Voice AI 2024 | Latent Space: State of Voice AI |
9. 이미지/비디오 확산 (Diffusion)
이미지·비디오 생성 분야는 확산 모델(Diffusion Model)의 발전으로 급속히 성장하고 있습니다. Latent Diffusion, Stable Diffusion, DALL-E, Consistency Models, Sora 등 텍스트-이미지·비디오 생성의 최신 논문과 오픈소스 프로젝트를 정리했습니다.
| 논문/자료명 | 공식 자료/논문 링크 |
|---|---|
| Latent Diffusion | arXiv: High-Resolution Image Synthesis with Latent Diffusion Models |
| Stable Diffusion | Wikipedia: Stable Diffusion, Stable Diffusion 3 논문 |
| DALL-E 2 | arXiv: Hierarchical Text-Conditional Image Generation with CLIP Latents |
| DALL-E 3 | OpenAI Blog: DALL-E 3, 해설 |
| Consistency Models | arXiv: Consistency Models |
| Sora | OpenAI Sora 공식 |
| OpenSora | OpenSora GitHub |
10. 파인튜닝 (Finetuning)
파인튜닝은 LLM, 비전, 음성 등 다양한 모델을 특정 도메인이나 목적에 맞게 최적화하는 핵심 기법입니다. LoRA, QLoRA, DPO, PPO, ReFT, Orca 3 등 최신 파인튜닝 논문과 실무 가이드, 오픈소스 튜토리얼을 소개합니다.
AI 개발을 공부하시다 보면 어려운 순간도 많고 변화가 너무 빨라서 부담스러울 때도 있으실 거예요. 그래도 포기하지 않고 한 걸음씩 나아가다 보면 분명히 실력이 쌓이고 있다는 걸 느끼실 수 있습니다.
궁금한 점이 생기면 직접 실험해 보시고 혹시 실패하더라도 너무 걱정하지 마세요. 누구나 시행착오를 겪으면서 성장합니다.
그래픽 카드도 사보고.. 미니 서버도 구축해보고.. 간단한 챗봇도 만들어보고.. 간단하게 학습도 시켜보고.. 재능의 벽에 좌절도 해보고..
'개발자 정보' 카테고리의 다른 글
| 내가 쓰는 OS 이미지(.img, .iso)를 SD카드나 USB, SSD에 굽는 프로그램 (0) | 2025.10.28 |
|---|---|
| AI에서 VRAM이 미치는 영향 (0) | 2025.10.28 |
