Skip to content

STT 부가기능

1. 화자 분리

소개

화자 분리 기능은 여러 화자가 대화하는 음성 파일에서 각 화자의 발화를 구분하여 텍스트로 변환합니다. 예를 들어, 회의 녹음에서 누가 무엇을 말했는지 명확히 구분할 수 있습니다. 이는 회의록 작성이나 인터뷰 분석에 유용합니다.

화자 분리 기능은 화자 수가 많을수록 정확도가 떨어질 수 있으며, 중첩되는 음성이나 음질이 낮거나 배경 소음이 심할 경우에도 한계가 있습니다.

사용 방법

  • 긴 음성 변환의 파라미터 설정으로 요청해 사용할 수 있습니다.
  • Endpoint
shell
POST https://apis.daglo.ai/stt/v1/async/transcripts
  • 요청 본문
text
    {
        "sttConfig": {
            "speakerDiarization": {
                "enable": true
            }
        }
    }

결과물 예시

text
{
    // ...
    "sttResults": [
        {
            // ...
            "words": [
                {
                    "speaker": "1",
                    "word": "안녕 ",
                    "startTime": {
                        "nanos": 560000000,
                        "seconds": "0"
                    },
                    "endTime": {
                        "nanos": 950000000,
                        "seconds": "1"
                    },
                    "segmentId": "1"
                },
                {
                    "speaker": "2",
                    "word": "네 ",
                    "startTime": {
                        "nanos": 909999999,
                        "seconds": "1"
                    },
                    "endTime": {
                        "nanos": 229999999,
                        "seconds": "2"
                    },
                    "segmentId": "2"
                }
            ]
        }
    ]
}

2. 감정 분석

소개

감정 분석 기능은 텍스트에서 감정 상태를 분석하여 긍정, 부정, 중립 등의 감정을 분류합니다. 이는 고객 서비스 통화에서 고객의 감정을 파악하거나 상담 내용의 감정을 분석하는 데 유용합니다.

사용 방법

  • 긴 음성 변환의 파라미터 설정으로 요청해 사용할 수 있습니다.
  • Endpoint
shell
POST https://apis.daglo.ai/stt/v1/async/transcripts
  • 요청 본문
text
    {
        // ...
        "nlpConfig": {
            "sentimentAnalysis": {
                "enable": true
            }
        }
    }

결과물 예시

text
{
    // ...
    "sttResults": [
        {
            // ...
            "sentiment": "Negative",
            "sentimentScore": [
                "neutral": 22.559999465942383,
                "negative": 61.209999084472656,
                "positive": 16.229999542236328
            ]
        }
    ]
}

감정 분석 결과 응답 테이블

감정설명
positive긍정적인 감정을 나타내며, 발화자가 긍정적이거나 기뻐하는 내용을 포함합니다.
negative부정적인 감정을 나타내며, 발화자가 불만족하거나 부정적인 내용을 포함합니다.
neutral중립적인 감정을 나타내며, 발화자가 특정 감정을 강하게 드러내지 않는 중립적인 내용을 포함합니다.

3. 키워드 추출

소개

키워드 추출 기능은 텍스트에서 중요한 키워드를 추출하여 제공합니다. 이는 회의록에서 중요한 키워드를 추출하거나 강의 내용을 요약하는 데 유용합니다.

사용 방법

  • 긴 음성 변환의 파라미터 설정으로 요청해 사용할 수 있습니다.
  • Endpoint
shell
POST https://apis.daglo.ai/stt/v1/async/transcripts
  • 요청 본문
text
    {
        // ...
        "nlpConfig": {
            "keywordExtraction": {
                "enable": true
            }
        }
    }

결과물 예시

text
{
    // ...
    "sttResults": [
        {
            // ...
            "keywords": [
                "선택",
                "다글로",
                "인생"
            ]
        }
    ]
}

4. 키워드 부스팅

소개

키워드 부스팅은 특정 단어나 구가 음성 인식 시스템에서 더 정확하게 인식될 수 있도록 가중치를 부여하는 기술입니다. 이를 통해 중요한 키워드나 브랜드 이름, 기술 용어 등을 더 잘 인식할 수 있으며, 중요한 단어가 더 정확하게 인식되도록 하여 음성 인식 시스템의 효율성을 높일 수 있습니다.

키워드 부스팅 기능은 입력된 키워드가 오디오에서 실제로 등장하지 않을 경우 효과가 없거나 역효과가 발생할 수 있으며, 키워드가 자주 사용되지 않는 발음이거나 독특한 발음일 경우 인식률이 저하될 수 있습니다. 또한, 배경 소음이 심하거나 음질이 낮을 경우 키워드 부스팅의 효과가 제한될 수 있습니다.

사용 방법

shell
POST https://apis.daglo.ai/stt/v1/async/transcripts
  • 요청 본문
text
    {
        // ...
        "sttConfig": {
            "keywordBoost": {
                "enable": true,
                "keywords": ["다글로", "클라우드"]
            }
        }
    }

결과물 예시

  • 사용 전 : '이번 다그러 AI 크라운 프로젝트는 매우 성공적이었습니다.'
  • 사용 후
text
{
    // ...
    "sttResults": [
        {
            // ...
            "transcript": "이번 다글로 AI 클라우드 프로젝트는 매우 성공적이었습니다."
        }
    ]
}

업데이트 이력

  • 20240902 ver1.0 API 문서가 작성되었습니다.