Để tạo ra giọng nói tự nhiên và dễ nghe, hệ thống Text to Speech thường sử dụng ba phương pháp tổng hợp chính: tổng hợp ghép nối (Concatenative Synthesis), tổng hợp tham số (Parametric Synthesis) và tổng hợp theo mô hình End-To-End. Bài viết này sẽ phân tích chi tiết từng phương pháp, cách chúng hoạt động và các mô hình sử dụng để thực hiện việc tổng hợp giọng nói.
Đây là một trong những phương pháp tổng hợp giọng nói lâu đời và vẫn được dùng phổ biến trong các hệ thống chuyển văn bản thành giọng nói (TTS) nhờ khả năng tạo ra giọng nói có chất lượng cao. Phương pháp này sẽ ghép nối các đoạn âm thanh đã được ghi âm từ trước để tạo thành một lời nói hoàn chỉnh.
Mô hình này chuyển đổi văn bản thành các ký hiệu âm vị – đơn vị âm thanh cơ bản của ngôn ngữ. Dựa trên dữ liệu ngữ âm và văn bản đã chú thích, hệ thống TTS sẽ học cách phát âm từ ngữ chính xác dựa vào đầu vào văn bản.
Mô hình này chọn các đơn vị âm thanh từ kho dữ liệu lớn sao cho phù hợp với chuỗi phiên âm đầu vào. Đồng thời, nó đảm bảo sự liên kết giữa các đơn vị âm thanh mượt mà và tự nhiên, giảm thiểu sự ngắt quãng hoặc khác biệt về âm sắc khi ghép nối các đoạn âm thanh.
Mô hình này tùy chỉnh ngữ điệu và âm sắc của giọng nói theo ngữ cảnh của câu văn, đảm bảo giọng nói không chỉ chuẩn xác về âm vị mà còn thể hiện được tính biểu cảm sinh động. Ngữ điệu và âm sắc được điều chỉnh phù hợp với ý nghĩa và cảm xúc của câu, giúp giọng nói trở nên tự nhiên và gần gũi hơn.
Phương pháp tổng hợp tham số (Parametric Synthesis) tạo ra giọng nói bằng cách sử dụng các tham số thống kê để mô phỏng đặc điểm âm học của giọng nói. Thay vì ghép nối các đoạn âm thanh đã ghi âm như phương pháp ghép nối, phương pháp tổng hợp giọng nói này dựa vào các mô hình toán học dựa trên dữ liệu ngữ âm và ngữ điệu đã được phân tích.
Phương pháp tổng hợp tham số yêu cầu có dữ liệu âm thanh và văn bản được phân tích chi tiết để phục vụ quá trình tạo ra giọng nói tự nhiên.
Phương pháp tổng hợp tham số sử dụng hai mô hình chính trong quá trình tổng hợp giọng nói từ dữ liệu huấn luyện: Mạng học sâu (DNN) và Mô hình Hidden Markov (HMM).
Mạng học sâu (DNN) học các đặc trưng âm học từ dữ liệu huấn luyện để tạo ra giọng nói tự nhiên và trôi chảy. DNN được huấn luyện dựa trên dữ liệu âm thanh đã ghi, học cách các đặc điểm âm học như tần số, biên độ, ngữ điệu và âm sắc thay đổi theo thời gian.
Khi nhận văn bản đầu vào, DNN sẽ dự đoán các tham số âm học cần thiết cho quá trình tổng hợp tiếng nói. Với khả năng nắm bắt mối quan hệ phức tạp giữa các yếu tố âm học, DNN giúp tạo ra giọng nói tự nhiên và có cảm xúc, đồng thời điều chỉnh ngữ điệu và trọng âm dựa trên ngữ cảnh của câu văn bản, mang lại giọng nói mượt mà và thích hợp.
Mô hình Hidden Markov (HMM) mô phỏng chuỗi âm thanh và học các tham số âm học để tạo ra giọng nói Text to Speech mượt mà và liên tục. HMM chia giọng nói thành các trạng thái âm học nhỏ, mỗi trạng thái đại diện cho một phần của âm thanh.
Mô hình được huấn luyện với dữ liệu âm thanh ghi âm để học các tham số âm học đặc trưng cho từng trạng thái, như phổ tần số và biên độ. Khi tổng hợp giọng nói, HMM sử dụng những tham số này để chuyển đổi liên tục giữa các trạng thái, tạo ra chuỗi âm thanh liền mạch và tự nhiên, nâng cao chất lượng của giọng nói tổng hợp mà không có sự ngắt quãng.
Phương pháp tổng hợp giọng nói End-To-End đánh dấu một bước đột phá trong lĩnh vực tổng hợp tiếng nói, sử dụng các mô hình học sâu để chuyển đổi trực tiếp từ văn bản thành giọng nói, bỏ qua các bước trung gian của các phương pháp truyền thống. Điều này giúp cải thiện đáng kể về hiệu suất, độ chính xác và sự tự nhiên của giọng nói được tổng hợp.
Cả phương pháp End-To-End và phương pháp tổng hợp tham số (Parametric Synthesis) đều sử dụng dữ liệu văn bản và âm thanh làm đầu vào, nhưng có sự khác biệt lớn về cách xử lý và yêu cầu về dữ liệu.
Phương pháp End-To-End có quy trình đơn giản hơn ở đầu vào, nhưng lại đòi hỏi khối lượng dữ liệu lớn để huấn luyện mô hình. Dữ liệu huấn luyện cần bao gồm các cặp văn bản và âm thanh đa dạng, chất lượng cao. Nếu dữ liệu phong phú và được chuẩn bị kỹ lưỡng, mô hình có thể học được các đặc điểm tự nhiên của giọng nói và tạo ra giọng nói chân thực. Việc đảm bảo dữ liệu huấn luyện không lỗi và đa dạng sẽ giúp mô hình tổng hợp tiếng nói với độ chính xác cao, linh hoạt, đáp ứng được nhiều yêu cầu khác nhau.
Các mô hình trong phương pháp End-to-End đã mang đến những bước tiến lớn về chất lượng và sự tự nhiên trong tổng hợp giọng nói. Một số mô hình tiêu biểu bao gồm: FastSpeech, FastSpeech2, FastPitch, Tacotron, Flowtron, LightSpeech, AdaSpeech, VITS,... với các mô hình Vocoder như HiFiGAN, WaveGlow, WaveNet, WaveRNN,... Dưới đây là một số mô hình nổi bật và cách chúng hoạt động:
FastSpeech2 là mô hình học sâu có khả năng chuyển đổi nhanh chóng và hiệu quả các đặc trưng âm thanh từ văn bản thành các đặc trưng phổ tần số (spectrogram). Mô hình này cải thiện đáng kể tốc độ tổng hợp so với các mô hình trước đây, đồng thời vẫn duy trì chất lượng âm thanh cao, phù hợp cho các ứng dụng thời gian thực.
HiFi-GAN là mô hình GAN được thiết kế để tạo ra sóng âm thanh từ đặc trưng phổ tần số với chất lượng cao và độ tự nhiên vượt trội. HiFi-GAN chú trọng vào việc tái tạo các chi tiết và độ phức tạp của sóng âm, giúp giọng nói Text to Speech trở nên mượt mà và giống với giọng nói thật của con người.
Tacotron là một trong những mô hình đầu tiên giới thiệu phương pháp tiếp cận End-to-End cho tổng hợp giọng nói. Tacotron sử dụng mạng nơ-ron hồi tiếp (RNN) với cơ chế attention để chuyển đổi văn bản thành Mel-spectrogram, sau đó một mạng nơ-ron tích chập (CNN) chuyển đổi Mel-spectrogram thành dạng sóng âm.
WaveNet được phát triển bởi DeepMind, đây là một mô hình sinh dạng sóng âm dựa trên mạng nơ-ron tích chập (CNN). Nó có khả năng tạo ra âm thanh tự nhiên bằng cách học trực tiếp từ dữ liệu âm thanh thô. WaveNet thường được sử dụng làm bộ tổng hợp giọng nói trong các hệ thống TTS End-to-End, giống như Tacotron 2.
VITS là mô hình sử dụng inference biến phân cùng với các mạng nơ-ron để tạo ra giọng nói tự nhiên và linh hoạt. VITS học các đặc trưng âm thanh từ văn bản và sử dụng các mẫu ngẫu nhiên để tạo ra các biến thể tự nhiên trong giọng nói.
Công nghệ chuyển văn bản thành giọng nói (Text to Speech) đã trải qua nhiều giai đoạn phát triển, từ phương pháp ghép nối (Concatenative Synthesis) đến phương pháp tham số (Parametric Synthesis) và các mô hình học sâu hiện đại. Mỗi phương pháp tổng hợp giọng nói có những ưu, nhược điểm riêng, phù hợp với từng ứng dụng khác nhau. Với sự phát triển mạnh mẽ của trí tuệ nhân tạo và học sâu, tương lai của TTS hứa hẹn sẽ tiếp tục mang lại những cải tiến đáng kể, giúp giọng nói nhân tạo ngày càng tự nhiên và chân thực hơn.