Tìm hiểu 03 phương pháp tổng hợp giọng nói của công nghệ Text to Speech

Để tạo ra giọng nói tự nhiên và dễ nghe, hệ thống Text to Speech thường sử dụng ba phương pháp tổng hợp chính: tổng hợp ghép nối (Concatenative Synthesis), tổng hợp tham số (Parametric Synthesis) và tổng hợp theo mô hình End-To-End. Bài viết này sẽ phân tích chi tiết từng phương pháp, cách chúng hoạt động và các mô hình sử dụng để thực hiện việc tổng hợp giọng nói.

1. Phương pháp tổng hợp ghép nối (Concatenative Synthesis)

Đây là một trong những phương pháp tổng hợp giọng nói lâu đời và vẫn được dùng phổ biến trong các hệ thống chuyển văn bản thành giọng nói (TTS) nhờ khả năng tạo ra giọng nói có chất lượng cao. Phương pháp này sẽ ghép nối các đoạn âm thanh đã được ghi âm từ trước để tạo thành một lời nói hoàn chỉnh.

1.1 Dữ liệu đầu vào

1.1.1 Dữ liệu âm thanh

Đoạn âm thanh đã được ghi âm: Bao gồm những đoạn âm thanh như âm vị, âm tiết, từ hoặc cụm từ, ghi lại từ giọng nói tự nhiên của người dùng. Các đoạn âm thanh này phải đảm bảo chất lượng cao, rõ ràng và tự nhiên.
Thông tin chi tiết về âm thanh: Mỗi đoạn âm thanh phải đi kèm thông tin về các đặc điểm âm học (âm sắc, tần số), ngữ điệu và bối cảnh sử dụng. Những thông tin này giúp hệ thống chọn lựa và ghép nối các đoạn âm thanh một cách tự nhiên và phù hợp với ngữ cảnh.

1.1.2 Dữ liệu văn bản

Văn bản đầu vào: Đây là phần nội dung mà hệ thống sẽ chuyển văn bản thành giọng nói. Văn bản cần được phân tích để xác định các đơn vị âm thanh và ngữ điệu tương ứng.
Thông tin về ngữ điệu và bối cảnh: Thông tin về ngữ điệu và bối cảnh của văn bản là cần thiết để giọng nói tổng hợp vừa chính xác về mặt âm vị, vừa tự nhiên về cảm xúc và ý nghĩa.

Văn bản cần được phân tích để xác định các đơn vị âm thanh và ngữ điệu.

1.2 Mô hình

1.2.1 Mô hình Grapheme to Phoneme (G2P)

Mô hình này chuyển đổi văn bản thành các ký hiệu âm vị – đơn vị âm thanh cơ bản của ngôn ngữ. Dựa trên dữ liệu ngữ âm và văn bản đã chú thích, hệ thống TTS sẽ học cách phát âm từ ngữ chính xác dựa vào đầu vào văn bản.

1.2.2 Mô hình chọn đơn vị (Unit Selection Model)

Mô hình này chọn các đơn vị âm thanh từ kho dữ liệu lớn sao cho phù hợp với chuỗi phiên âm đầu vào. Đồng thời, nó đảm bảo sự liên kết giữa các đơn vị âm thanh mượt mà và tự nhiên, giảm thiểu sự ngắt quãng hoặc khác biệt về âm sắc khi ghép nối các đoạn âm thanh.

1.2.3 Mô hình điều chỉnh ngữ điệu (Prosody Matching Model)

Mô hình này tùy chỉnh ngữ điệu và âm sắc của giọng nói theo ngữ cảnh của câu văn, đảm bảo giọng nói không chỉ chuẩn xác về âm vị mà còn thể hiện được tính biểu cảm sinh động. Ngữ điệu và âm sắc được điều chỉnh phù hợp với ý nghĩa và cảm xúc của câu, giúp giọng nói trở nên tự nhiên và gần gũi hơn.

2. Phương pháp tổng hợp tham số (Parametric Synthesis)

Phương pháp tổng hợp tham số (Parametric Synthesis) tạo ra giọng nói bằng cách sử dụng các tham số thống kê để mô phỏng đặc điểm âm học của giọng nói. Thay vì ghép nối các đoạn âm thanh đã ghi âm như phương pháp ghép nối, phương pháp tổng hợp giọng nói này dựa vào các mô hình toán học dựa trên dữ liệu ngữ âm và ngữ điệu đã được phân tích.

Phương pháp tổng hợp dựa trên tham số thống kê (Parametric Synthesis)

2.1 Dữ liệu

Phương pháp tổng hợp tham số yêu cầu có dữ liệu âm thanh và văn bản được phân tích chi tiết để phục vụ quá trình tạo ra giọng nói tự nhiên.

2.1.1 Dữ liệu văn bản

Văn bản đầu vào: Đây là dữ liệu văn bản mà hệ thống chuyển đổi thành giọng nói. Sự phong phú của dữ liệu văn bản là yếu tố cần thiết để đảm bảo chất lượng và tính chính xác của giọng nói tổng hợp.
Thông tin về ngữ điệu và bối cảnh: Cần cung cấp thông tin ngữ điệu và bối cảnh của văn bản để mô hình có thể điều chỉnh giọng nói sao cho mượt mà và tự nhiên.

2.1.2 Dữ liệu âm thanh

Đoạn âm thanh đã ghi âm: Yêu cầu các đoạn âm thanh tự nhiên được ghi âm với chất lượng cao từ giọng người để đảm bảo độ chính xác và tự nhiên cho giọng nói tổng hợp.
Chú thích chi tiết: Các đoạn âm thanh cần được gắn nhãn với các ký hiệu âm vị (phonemes) và thông tin về ngữ điệu (prosody), bao gồm tần số cơ bản, biên độ và phổ âm. Những chú thích này giúp mô hình học được cách phát âm và điều chỉnh ngữ điệu tự nhiên trong các ngữ cảnh khác nhau.

Yêu cầu các đoạn âm thanh tự nhiên được ghi âm với chất lượng cao

2.2 Mô hình

Phương pháp tổng hợp tham số sử dụng hai mô hình chính trong quá trình tổng hợp giọng nói từ dữ liệu huấn luyện: Mạng học sâu (DNN) và Mô hình Hidden Markov (HMM).

2.2.1 Mạng học sâu Deep Neural Networks (DNN)

Mạng học sâu (DNN) học các đặc trưng âm học từ dữ liệu huấn luyện để tạo ra giọng nói tự nhiên và trôi chảy. DNN được huấn luyện dựa trên dữ liệu âm thanh đã ghi, học cách các đặc điểm âm học như tần số, biên độ, ngữ điệu và âm sắc thay đổi theo thời gian.

Khi nhận văn bản đầu vào, DNN sẽ dự đoán các tham số âm học cần thiết cho quá trình tổng hợp tiếng nói. Với khả năng nắm bắt mối quan hệ phức tạp giữa các yếu tố âm học, DNN giúp tạo ra giọng nói tự nhiên và có cảm xúc, đồng thời điều chỉnh ngữ điệu và trọng âm dựa trên ngữ cảnh của câu văn bản, mang lại giọng nói mượt mà và thích hợp.

2.2.2 Mô hình Hidden Markov (HMM)

Mô hình Hidden Markov (HMM) mô phỏng chuỗi âm thanh và học các tham số âm học để tạo ra giọng nói Text to Speech mượt mà và liên tục. HMM chia giọng nói thành các trạng thái âm học nhỏ, mỗi trạng thái đại diện cho một phần của âm thanh.

Mô hình được huấn luyện với dữ liệu âm thanh ghi âm để học các tham số âm học đặc trưng cho từng trạng thái, như phổ tần số và biên độ. Khi tổng hợp giọng nói, HMM sử dụng những tham số này để chuyển đổi liên tục giữa các trạng thái, tạo ra chuỗi âm thanh liền mạch và tự nhiên, nâng cao chất lượng của giọng nói tổng hợp mà không có sự ngắt quãng.

3. Phương pháp tổng hợp giọng nói tiên tiến End-To-End

Phương pháp tổng hợp giọng nói End-To-End đánh dấu một bước đột phá trong lĩnh vực tổng hợp tiếng nói, sử dụng các mô hình học sâu để chuyển đổi trực tiếp từ văn bản thành giọng nói, bỏ qua các bước trung gian của các phương pháp truyền thống. Điều này giúp cải thiện đáng kể về hiệu suất, độ chính xác và sự tự nhiên của giọng nói được tổng hợp.

3.1 Dữ liệu đầu vào

Cả phương pháp End-To-End và phương pháp tổng hợp tham số (Parametric Synthesis) đều sử dụng dữ liệu văn bản và âm thanh làm đầu vào, nhưng có sự khác biệt lớn về cách xử lý và yêu cầu về dữ liệu.

Phương pháp End-To-End có quy trình đơn giản hơn ở đầu vào, nhưng lại đòi hỏi khối lượng dữ liệu lớn để huấn luyện mô hình. Dữ liệu huấn luyện cần bao gồm các cặp văn bản và âm thanh đa dạng, chất lượng cao. Nếu dữ liệu phong phú và được chuẩn bị kỹ lưỡng, mô hình có thể học được các đặc điểm tự nhiên của giọng nói và tạo ra giọng nói chân thực. Việc đảm bảo dữ liệu huấn luyện không lỗi và đa dạng sẽ giúp mô hình tổng hợp tiếng nói với độ chính xác cao, linh hoạt, đáp ứng được nhiều yêu cầu khác nhau.

3.2 Mô hình

Các mô hình trong phương pháp End-to-End đã mang đến những bước tiến lớn về chất lượng và sự tự nhiên trong tổng hợp giọng nói. Một số mô hình tiêu biểu bao gồm: FastSpeech, FastSpeech2, FastPitch, Tacotron, Flowtron, LightSpeech, AdaSpeech, VITS,... với các mô hình Vocoder như HiFiGAN, WaveGlow, WaveNet, WaveRNN,... Dưới đây là một số mô hình nổi bật và cách chúng hoạt động:

3.2.1 FastSpeech2

FastSpeech2 là mô hình học sâu có khả năng chuyển đổi nhanh chóng và hiệu quả các đặc trưng âm thanh từ văn bản thành các đặc trưng phổ tần số (spectrogram). Mô hình này cải thiện đáng kể tốc độ tổng hợp so với các mô hình trước đây, đồng thời vẫn duy trì chất lượng âm thanh cao, phù hợp cho các ứng dụng thời gian thực.

3.2.2 HiFi-GAN

HiFi-GAN là mô hình GAN được thiết kế để tạo ra sóng âm thanh từ đặc trưng phổ tần số với chất lượng cao và độ tự nhiên vượt trội. HiFi-GAN chú trọng vào việc tái tạo các chi tiết và độ phức tạp của sóng âm, giúp giọng nói Text to Speech trở nên mượt mà và giống với giọng nói thật của con người.

3.2.3 Tacotron

Tacotron là một trong những mô hình đầu tiên giới thiệu phương pháp tiếp cận End-to-End cho tổng hợp giọng nói. Tacotron sử dụng mạng nơ-ron hồi tiếp (RNN) với cơ chế attention để chuyển đổi văn bản thành Mel-spectrogram, sau đó một mạng nơ-ron tích chập (CNN) chuyển đổi Mel-spectrogram thành dạng sóng âm.

Tacotron sử dụng mạng nơ-ron hồi tiếp (RNN) với cơ chế attention

3.2.4 WaveNet

WaveNet được phát triển bởi DeepMind, đây là một mô hình sinh dạng sóng âm dựa trên mạng nơ-ron tích chập (CNN). Nó có khả năng tạo ra âm thanh tự nhiên bằng cách học trực tiếp từ dữ liệu âm thanh thô. WaveNet thường được sử dụng làm bộ tổng hợp giọng nói trong các hệ thống TTS End-to-End, giống như Tacotron 2.

WaveNet là một mô hình sinh dạng sóng âm dựa trên mạng nơ-ron

3.2.5 Variational Inference Text-to-Speech (VITS)

VITS là mô hình sử dụng inference biến phân cùng với các mạng nơ-ron để tạo ra giọng nói tự nhiên và linh hoạt. VITS học các đặc trưng âm thanh từ văn bản và sử dụng các mẫu ngẫu nhiên để tạo ra các biến thể tự nhiên trong giọng nói.

Mô hình Variational Inference Text-to-Speech (VITS)

Công nghệ chuyển văn bản thành giọng nói (Text to Speech) đã trải qua nhiều giai đoạn phát triển, từ phương pháp ghép nối (Concatenative Synthesis) đến phương pháp tham số (Parametric Synthesis) và các mô hình học sâu hiện đại. Mỗi phương pháp tổng hợp giọng nói có những ưu, nhược điểm riêng, phù hợp với từng ứng dụng khác nhau. Với sự phát triển mạnh mẽ của trí tuệ nhân tạo và học sâu, tương lai của TTS hứa hẹn sẽ tiếp tục mang lại những cải tiến đáng kể, giúp giọng nói nhân tạo ngày càng tự nhiên và chân thực hơn.