STT 부가기능
1. 화자 분리
소개
화자 분리 기능은 여러 화자가 대화하는 음성 파일에서 각 화자의 발화를 구분하여 텍스트로 변환합니다. 예를 들어, 회의 녹음에서 누가 무엇을 말했는지 명확히 구분할 수 있습니다. 이는 회의록 작성이나 인터뷰 분석에 유용합니다.
화자 분리 기능은 화자 수가 많을수록 정확도가 떨어질 수 있으며, 중첩되는 음성이나 음질이 낮거나 배경 소음이 심할 경우에도 한계가 있습니다.
사용 방법
- 긴 음성 변환의 파라미터 설정으로 요청해 사용할 수 있습니다.
- Endpoint
POST https://apis.daglo.ai/stt/v1/async/transcripts
- 요청 본문
{
"sttConfig": {
"speakerDiarization": {
"enable": true
}
}
}
결과물 예시
{
// ...
"sttResults": [
{
// ...
"words": [
{
"speaker": "1",
"word": "안녕 ",
"startTime": {
"nanos": 560000000,
"seconds": "0"
},
"endTime": {
"nanos": 950000000,
"seconds": "1"
},
"segmentId": "1"
},
{
"speaker": "2",
"word": "네 ",
"startTime": {
"nanos": 909999999,
"seconds": "1"
},
"endTime": {
"nanos": 229999999,
"seconds": "2"
},
"segmentId": "2"
}
]
}
]
}
2. 감정 분석
소개
감정 분석 기능은 텍스트에서 감정 상태를 분석하여 긍정, 부정, 중립 등의 감정을 분류합니다. 이는 고객 서비스 통화에서 고객의 감정을 파악하거나 상담 내용의 감정을 분석하는 데 유용합니다.
사용 방법
- 긴 음성 변환의 파라미터 설정으로 요청해 사용할 수 있습니다.
- Endpoint
POST https://apis.daglo.ai/stt/v1/async/transcripts
- 요청 본문
{
// ...
"nlpConfig": {
"sentimentAnalysis": {
"enable": true
}
}
}
결과물 예시
{
// ...
"sttResults": [
{
// ...
"sentiment": "Negative",
"sentimentScore": [
"neutral": 22.559999465942383,
"negative": 61.209999084472656,
"positive": 16.229999542236328
]
}
]
}
감정 분석 결과 응답 테이블
감정 | 설명 |
---|---|
positive | 긍정적인 감정을 나타내며, 발화자가 긍정적이거나 기뻐하는 내용을 포함합니다. |
negative | 부정적인 감정을 나타내며, 발화자가 불만족하거나 부정적인 내용을 포함합니다. |
neutral | 중립적인 감정을 나타내며, 발화자가 특정 감정을 강하게 드러내지 않는 중립적인 내용을 포함합니다. |
3. 키워드 추출
소개
키워드 추출 기능은 텍스트에서 중요한 키워드를 추출하여 제공합니다. 이는 회의록에서 중요한 키워드를 추출하거나 강의 내용을 요약하는 데 유용합니다.
사용 방법
- 긴 음성 변환의 파라미터 설정으로 요청해 사용할 수 있습니다.
- Endpoint
POST https://apis.daglo.ai/stt/v1/async/transcripts
- 요청 본문
{
// ...
"nlpConfig": {
"keywordExtraction": {
"enable": true
}
}
}
결과물 예시
{
// ...
"sttResults": [
{
// ...
"keywords": [
"선택",
"다글로",
"인생"
]
}
]
}
4. 키워드 부스팅
소개
키워드 부스팅은 특정 단어나 구가 음성 인식 시스템에서 더 정확하게 인식될 수 있도록 가중치를 부여하는 기술입니다. 이를 통해 중요한 키워드나 브랜드 이름, 기술 용어 등을 더 잘 인식할 수 있으며, 중요한 단어가 더 정확하게 인식되도록 하여 음성 인식 시스템의 효율성을 높일 수 있습니다.
키워드 부스팅 기능은 입력된 키워드가 오디오에서 실제로 등장하지 않을 경우 효과가 없거나 역효과가 발생할 수 있으며, 키워드가 자주 사용되지 않는 발음이거나 독특한 발음일 경우 인식률이 저하될 수 있습니다. 또한, 배경 소음이 심하거나 음질이 낮을 경우 키워드 부스팅의 효과가 제한될 수 있습니다.
사용 방법
- 긴 음성 변환, 30초 이하 짧은 음성 변환, 실시간 음성 변환의 파라미터 설정으로 요청해 사용할 수 있습니다.
- Endpoint:
POST https://apis.daglo.ai/stt/v1/async/transcripts
- 요청 본문
{
// ...
"sttConfig": {
"keywordBoost": {
"enable": true,
"keywords": ["다글로", "클라우드"]
}
}
}
결과물 예시
- 사용 전 : '이번 다그러 AI 크라운 프로젝트는 매우 성공적이었습니다.'
- 사용 후
{
// ...
"sttResults": [
{
// ...
"transcript": "이번 다글로 AI 클라우드 프로젝트는 매우 성공적이었습니다."
}
]
}
업데이트 이력
- 20240902 ver1.0 API 문서가 작성되었습니다.