Velopers 홈

필터 1

왜 막상 배포하면 효과가 없지? 타겟 지표에 맞는 ML모델 train/eval 설계하기

하이퍼커넥트

왜 막상 배포하면 효과가 없지? 타겟 지표에 맞는 ML모델 train/eval 설계하기

Eval for Agents와 Google Stax, QA가 주목해야 할 LLM 평가 도구 비교

데보션

Eval for Agents와 Google Stax, QA가 주목해야 할 LLM 평가 도구 비교

$엔터프라이즈 AI 에이전트 성능 평가 가이드 \:\ 인포그랩 NEXA의 LLM-as-a-Judge 실전 적용 사례$

인포그랩

엔터프라이즈 AI 에이전트 성능 평가 가이드 \:\ 인포그랩 NEXA의 LLM-as-a-Judge 실전 적용 사례

#LLM#performance

Amazon Bedrock을 활용한 LG전자 소셜미디어 제품 트렌드 모니터링 시스템 구축 사례

AWS

Amazon Bedrock을 활용한 LG전자 소셜미디어 제품 트렌드 모니터링 시스템 구축 사례

LLM이 문학 번역 성능을 평가할 수 있을까?

데보션

LLM이 문학 번역 성능을 평가할 수 있을까?

$LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API$

인포그랩

LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API

#LLM#Prometheus

AI Agent의 시대, 벤치마크는 어떻게 진화할까: τ-bench

데보션

AI Agent의 시대, 벤치마크는 어떻게 진화할까: τ-bench

Harness를 이용해 LLM 애플리케이션 평가 자동화하기

Harness를 이용해 LLM 애플리케이션 평가 자동화하기

LLM 모델이 LLM 성능을 평가한다. LLM-as-a-judge 알아보기

데보션

LLM 모델이 LLM 성능을 평가한다. LLM-as-a-judge 알아보기

LLMOps를 위한 프롬프트 엔지니어링 도구 개발 경험기

네이버 D2

LLMOps를 위한 프롬프트 엔지니어링 도구 개발 경험기

오픈챗 해시태그 예측을 위한 다중 레이블 분류 모델 개발하기

오픈챗 해시태그 예측을 위한 다중 레이블 분류 모델 개발하기

끝