Semantic Scholar는 대규모 언어모델의 과학 문헌 이해 능력을 평가하는 강력한 도구입니다. 최근 연구자들은 1,726개의 고온 초전도체 관련 과학 논문으로 구성된 데이터베이스를 구축하여 ChatGPT-4, Claude 3.5, Perplexity, Gemini Advanced Pro 1.5를 포함한 네 가지 LLM의 성능을 테스트했습니다. 또한, 생물학, 화학, 재료과학, 물리학 분야를 아우르는 시나리오 기반 벤치마크도 개발되었습니다. 이 글에서는 semantic scholar api와 semantic scholar python을 활용하여 semantic scholar corpus와 semantic scholar dataset을 기반으로 LLM 테스트 프레임워크를 구축하는 방법을 소개합니다. 특히 평가 메트릭 구현, 인용 정확도 측정, 그리고 주요 LLM 시스템 간 성능 비교 결과를 다룹니다.
Semantic Scholar를 활용한 LLM 테스트 프레임워크
Semantic Scholar API 기반 데이터 수집 방법
API를 통한 데이터 접근은 인증 없이도 가능하지만, 초당 1000건의 요청 제한이 모든 미인증 사용자에게 공유됩니다. API 키를 사용하면 더 높은 처리량을 확보할 수 있습니다. semantic scholar api는 Academic Graph, Recommendations, Datasets 세 가지 서비스로 구성되어 있으며, 현재 2억 1400만 개의 논문, 24억 9000만 개의 인용, 7900만 명의 저자 데이터에 접근할 수 있습니다.
데이터 수집 시 키워드 필터링이 핵심입니다. 예를 들어 “image generation”, “GAN”, “StyleGAN” 같은 키워드를 설정하고, 인용 횟수가 5회 이상인 논문만 선별하는 방식으로 품질을 관리합니다. semantic scholar python을 활용하면 DOI, ArXiv ID, S2 Paper ID 등 다양한 식별자 형식을 지원하여 논문 정보를 효율적으로 가져올 수 있습니다.
Semantic Scholar Corpus를 활용한 벤치마크 구축
LitSearch는 과학 문헌 검색을 위한 벤치마크로, 총 597개의 실제 문헌 검색 쿼리로 구성되어 있습니다. 이 데이터셋은 두 가지 방법론을 통해 구축되었습니다. 첫째, S2ORC(Semantic Scholar Open Research Corpus)에서 인라인 인용 언급을 무작위 샘플링한 후 GPT-4로 문헌 검색 질문을 생성합니다. 둘째, ACL 2023 및 ICLR 2024 논문 저자들이 직접 작성한 질문을 수집합니다.
생성된 질문은 대상 논문 제목과 높은 단어 중복이 없는 경우에만 남기고, 전문가가 수작업으로 검토하여 품질을 보장합니다. semantic scholar dataset을 활용한 이러한 접근법은 기계학습 및 자연어처리 분야의 최근 논문을 중심으로 실용적인 평가 환경을 제공합니다.
과학 문헌 데이터셋 큐레이션 프로세스
연구데이터의 품질 평가는 다섯 가지 유형으로 분류됩니다:
- 데이터세트 완결성: 누락된 파일이나 불완전한 데이터 구조
- 데이터 무결성: 손상되거나 일관성 없는 데이터
- 파일 형식: 호환되지 않거나 오래된 형식
- 데이터 문서화: 부적절한 메타데이터나 설명 부족
- 법적·윤리적 문제: 저작권이나 개인정보 관련 이슈
166건의 장기 미구축 데이터세트 분석 결과, 데이터세트 완결성과 법적·윤리적 문제가 가장 빈번하게 발생하면서도 리포지토리가 단독으로 해결하기 어려운 문제로 나타났습니다. 따라서 LLM 테스트용 데이터셋을 큐레이션할 때 이러한 품질 기준을 체계적으로 적용해야 합니다.
대규모 언어모델의 과학 문헌 이해 능력 평가
단일 논문 분석 작업에서의 정확도 측정
LLM이 단일 과학 논문을 분석할 때 나타나는 성능 패턴은 평가 기준에 따라 크게 달라집니다. GPT 언어모델을 활용한 자동 채점 연구에서 모델은 전문가 평가자보다 관대하게 점수를 부여하는 경향을 보였으며, Cohen’s kappa 계수는 0.12에서 0.34 사이로 일치도가 높지 않았습니다. 반면에 Pearson 상관계수는 0.41에서 0.67로 상관관계는 비교적 높게 나타났습니다.
문법성과 같은 객관적 기준에서는 LLM이 일정 수준의 신뢰성을 보였으나, 흥미성처럼 주관적 해석이 필요한 영역에서는 점수와 설명 간의 정합성이 낮게 측정되었습니다. 특히 일반 지식에 대한 피드백은 정확했지만, 특정 상황에 지식을 적용하는 과정에서 부정확한 피드백이 생성되는 문제가 발견되었습니다.
다중 논문 종합 작업의 성능 지표
CURIE 벤치마크는 재료과학, 응집물질물리학, 양자컴퓨팅, 지리공간분석, 생물다양성, 단백질 연구 등 6개 과학 분야에서 LLM의 장문맥 이해와 추론 능력을 평가합니다. 평가 작업은 정보 추출, 개념 추적, 집계, 대수적 조작, 다중모드 이해를 포함하며 모두 전문 논문 전체를 맥락으로 수행됩니다.
자유 형식 생성 평가의 어려움을 해결하기 위해 ROUGE-L, intersection-over-union, identity ratio 같은 프로그래밍 방식 메트릭과 함께 LMScore와 LLMSim이라는 모델 기반 평가 메트릭이 제안되었습니다. 평가 결과 모든 모델과 작업에서 상당한 개선 여지가 있었으며, 특히 다중 값 검색과 집계가 필요한 작업에서 성능이 저조했습니다.
인용 정확도와 환각 현상 분석
학술 서지 검색에 대한 다중모델 연구에서 생성된 참고문헌 중 26.5%만이 완전히 정확했고, 40%에 가까운 참고문헌이 오류이거나 조작된 것으로 나타났습니다. 신장학 분야 평가에서는 ChatGPT가 제안한 참고문헌 중 62%만 실제로 존재했으며, 약 31%가 조작되거나 불완전했습니다.
GPT-4o를 활용한 정신건강 문헌 리뷰 생성 연구에서는 176개 인용 중 19.9%가 조작된 것으로 확인되었습니다. 실제 인용 141건 중 45.4%가 오류를 포함했으며, 가장 흔한 오류는 부정확하거나 유효하지 않은 DOI였습니다. 조작률은 장애 유형에 따라 유의미한 차이를 보였는데, 주요우울장애는 6%인 반면 폭식장애와 신체이형장애는 각각 28%와 29%로 높게 나타났습니다.
전문가 평가와 자동 평가 방법론 비교
LLM-as-a-Judge 방식은 영어로 학습된 평가 능력이 한국어에서도 일정 수준 유지되는 것으로 확인되었습니다. 그러나 거짓 정보 탐지에서 두 모델 모두 어려움을 겪었으며, 특히 단어 수준의 작은 변경은 거의 감지하지 못했습니다. 질문 난이도가 증가할수록 평가 성능이 크게 저하되었고, 일부 Reward Model은 무작위 추측인 50%보다 낮은 성능을 기록했습니다.
Semantic Scholar Python을 이용한 실전 구현
검색 및 검색 파이프라인 설정
Python 환경에서 semantic scholar api와의 상호작용은 요청 전송과 응답 분석을 중심으로 이루어집니다. search_paper 메서드는 키워드 기반 검색의 핵심이며, query 매개변수에 평문 검색어를 입력합니다. 추가 필터링을 위해 year로 출판 연도 범위를 지정하고, min_citation_count로 최소 인용 횟수를 설정할 수 있습니다.
bulk 매개변수를 True로 설정하면 검색 관련성 없이 최대 1,000만 건의 결과를 검색할 수 있으며, 각 페이지당 1,000건씩 반환됩니다. 반면에 기본 검색 모드에서는 최대 1,000건까지 검색 관련성 순으로 결과를 제공합니다. 공개 API의 속도 제한은 5분당 100건의 요청으로 설정되어 있어, 대규모 데이터 수집 시 이를 고려해야 합니다.
평가 메트릭 구현 및 자동화
BLEU는 기계 번역 품질 평가에 사용되며, 생성된 문장의 n-gram 수 중 참조 문장에 포함된 n-gram 수로 나눈 값을 계산합니다. 예를 들어 생성 문장에서 3개의 n-gram이 정답과 일치하고 전체 n-gram이 5개라면 BLEU 점수는 0.6이 됩니다. ROUGE는 문서 요약 평가에 적합하며, 정답 문장 중 생성된 문장에 포함된 n-gram 수를 정답의 전체 n-gram 수로 나눕니다.
BERTScore는 BERT 임베딩을 활용하여 생성 텍스트의 각 토큰을 참조 텍스트 토큰과 비교하고 코사인 유사도를 계산합니다. G-Eval 프레임워크는 사고의 연쇄를 활용하여 평가 단계를 생성한 후 1~5점 척도로 점수를 부여합니다.
성능 측정 결과 분석
RAG 시스템 평가를 위해 Recall@k, MRR, NDCG@k 같은 메트릭이 활용됩니다. FAISS retriever와 BM25 retriever를 Recall@k와 MRR 값으로 비교한 결과, 순서를 고려하지 않는 Recall@k에서는 동일한 결과를 보였으나 순서를 고려하는 MRR에서는 BM25가 우수한 성능을 나타냈습니다.
테스트 결과 및 개선 방향
주요 LLM 시스템 간 성능 비교
2026년 현재 주요 벤치마크에서 모델별 성능 격차가 뚜렷하게 나타납니다. MMLU 기준으로 Gemini 3 Pro와 DeepSeek V3.2가 각각 85.0%를 기록하며 선두를 달리고 있습니다. GPQA Diamond 벤치마크에서는 Gemini 3 Pro가 91.9%로 1위를 차지했으며, GPT-5.2가 93.2%로 졸업 수준 질문에서 강세를 보였습니다. 코딩 영역에서는 Claude Opus 4.6이 SWE-bench Verified에서 80.9%를 달성하여 처음으로 80%를 돌파했습니다.
한편 Google의 Gemini 모델은 멀티모달 벤치마크와 과학적 추론에서 우위를 점했고, Anthropic의 Claude 라인은 코딩과 안전성에서 탁월했습니다. OpenAI의 GPT 모델은 약점 없이 대부분의 벤치마크에서 경쟁력을 유지했으며, Meta의 Llama 3.3 70B는 오픈소스 모델이 독점 모델과 대등하게 경쟁할 수 있음을 입증했습니다.
데이터 시각화 이해의 한계점
시각화 초보자가 차트 디자인 오류를 식별할 때 LLM 지원 여부에 따른 핵심 메시지 이해도는 크게 달라지지 않았습니다. 표 형식 데이터 처리에서도 셀 간 복잡한 관계를 다루는 데 어려움을 겪으며, 복잡한 집계와 통계 분석에서는 성능이 떨어집니다. 마찬가지로 미세 조정되지 않은 MLLM은 직접적인 값 추출에는 능력을 보였으나, 추론이 필요한 작업에서는 낮은 성능을 기록했습니다.
검색 증강 생성(RAG) 시스템의 효과
RAG 출력 품질은 검색된 문서의 관련성, 정보 밀도, 세부 정보 수준에 따라 결정됩니다. 한 연구에서 RAG는 학습 중 접한 지식과 완전히 새로운 지식 모두에서 미세 조정보다 우수한 성능을 보였습니다. 농업 데이터셋 비교에서도 RAG의 성능 향상이 미세 조정을 능가했으며, 특히 GPT-4에서 두드러졌습니다. 검색 인덱스 업데이트가 지속적 사전 학습보다 쉽고 저렴하다는 점도 실용적인 장점입니다.
향후 개발자를 위한 개선 과제
LLM을 특정 지식 영역에 맞춰 미세 조정하려면 일반적으로 비용과 리소스가 많이 드는 학습 과정이 필요합니다. 사람이 생성하고 엄선한 대규모 데이터 확보에 시간과 비용이 많이 소요되며, 보안과 개인정보 보호 우려도 존재합니다. 따라서 도메인별 특성을 충분히 활용할 수 있는 커스터마이징된 LLM이 필요하며, 소규모로 시작해서 비즈니스에 가치를 신속하고 지속적으로 제공하는 접근법이 이상적입니다.
결론
Semantic Scholar API와 Python을 활용한 LLM 테스트 프레임워크는 과학 문헌 이해 능력을 체계적으로 평가할 수 있는 실용적인 방법을 제시합니다. 결과적으로 주요 모델들은 단일 논문 분석에서 일정 수준의 성능을 보였으나, 다중 논문 종합과 인용 정확도에서는 상당한 개선 여지가 있었습니다. 특히 환각 현상과 데이터 시각화 이해는 여전히 해결해야 할 과제입니다. RAG 시스템이 미세 조정보다 우수한 성능을 보이면서, 도메인 특화 커스터마이징이 앞으로 나아갈 방향임을 확인했습니다.




