V
Velopers
모든 블로그
모든 태그
공지
로그인
필터
1
전체
프론트엔드
백엔드
데브옵스
AI
아키텍처
기타
필터 1
#evaluation
전체 해제
하이퍼커넥트
· 11월 28일
AI
왜 막상 배포하면 효과가 없지? 타겟 지표에 맞는 ML모델 train/eval 설계하기
#A/B test
#ML
33
0
0
데보션
· 10월 27일
AI
Eval for Agents와 Google Stax, QA가 주목해야 할 LLM 평가 도구 비교
#LLM
#OpenAI
30
0
0
인포그랩
· 9월 10일
AI
엔터프라이즈 AI 에이전트 성능 평가 가이드 \:\ 인포그랩 NEXA의 LLM-as-a-Judge 실전 적용 사례
#LLM
#performance
51
0
0
AWS
· 8월 22일
AI
Amazon Bedrock을 활용한 LG전자 소셜미디어 제품 트렌드 모니터링 시스템 구축 사례
#AWS
#LLM
67
0
0
데보션
· 6월 20일
AI
LLM이 문학 번역 성능을 평가할 수 있을까?
#LLM
#한국어
71
0
0
인포그랩
· 6월 11일
AI
LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API
#LLM
#Prometheus
46
0
0
데보션
· 6월 9일
AI
AI Agent의 시대, 벤치마크는 어떻게 진화할까: τ-bench
#NLP
#LLM
55
0
0
라인
· 11월 16일
AI
Harness를 이용해 LLM 애플리케이션 평가 자동화하기
#Python
#LLM
34
0
0
데보션
· 9월 11일
AI
LLM 모델이 LLM 성능을 평가한다. LLM-as-a-judge 알아보기
#LLM
#prompt
13
0
0
LLMOps를 위한 프롬프트 엔지니어링 도구 개발 경험기
네이버 D2
· 8월 13일
AI
LLMOps를 위한 프롬프트 엔지니어링 도구 개발 경험기
#Python
#LLM
25
0
0
라인
· 6월 19일
AI
오픈챗 해시태그 예측을 위한 다중 레이블 분류 모델 개발하기
#ML
#evaluation
11
0
0
끝