
Các nhà nghiên cứu an ninh mạng đã tiết lộ hôm thứ Ba về cách trí tuệ nhân tạo có thể được sử dụng để sao chép giọng nói của một người trong thời gian thực để thực hiện các cuộc tấn công lừa đảo bằng giọng nói vào các tổ chức không nghi ngờ.
Các nhà nghiên cứu từ Tập đoàn NCC lưu ý trong một blog của công ty rằng họ đã phát động các cuộc tấn công bằng cách sử dụng nhân bản giọng nói thời gian thực chống lại các tổ chức thực và khôi phục thành công thông tin nhạy cảm và bí mật.
“Không chỉ vậy, mà chúng tôi còn cho thấy những kỹ thuật này có thể thuyết phục những người ở vị trí chịu trách nhiệm điều hành chính thực hiện các hành động thay mặt cho kẻ tấn công như thế nào, các nhà nghiên cứu Pablo Alobera, Pablo López và Víctor Lasa viết.
“Trong các đánh giá bảo mật mô phỏng các điều kiện tấn công trong thế giới thực, chúng tôi có thể thực hiện các hành động như thay đổi địa chỉ email, đặt lại mật khẩu, v.v.,” mà họ đã thêm vào.
Khi bắt đầu dự án của họ, các nhà nghiên cứu đã xác định một số thách thức để gắn kết các cuộc tấn công lừa đảo bằng giọng nói (vishing) với giọng nói nhân bản. Một là công nghệ. Các nhà nghiên cứu phát hiện ra rằng phần lớn các công nghệ và kiến trúc deepfake hiện đại đều tập trung vào các suy luận ngoại tuyến.
“Chúng có khả năng đạt được kết quả tốt khi sao chép đoạn trích được ghi sẵn của ai đó đang nói chuyện, nhưng chúng không thể thay đổi giọng nói của người dùng trong thời gian thực — một yêu cầu chính để đánh bại các cuộc tấn công, ” họ đã viết.
“Ngoài ra, nhiều người trong số họ còn phụ thuộc rất nhiều vào các mô hình TTS (chuyển văn bản thành giọng nói), họ đã thêm vào.
Nhân bản thời gian thực hoạt động như thế nào
Họ chỉ ra rằng với công nghệ đó, những kẻ tấn công chỉ còn lại hai lựa chọn thay thế. Họ có thể sử dụng một tập hợp các câu được ghi âm trước, điều này sẽ gây ra những vấn đề rõ ràng khi cố gắng trò chuyện theo thời gian thực hoặc họ có thể nhập câu vào mô hình TTS một cách nhanh chóng, điều này sẽ gây ra sự chậm trễ không tự nhiên trong các phản hồi được nhân bản.
Các nhà nghiên cứu đã có thể định tuyến tín hiệu từ micrô của kẻ tấn công đến bộ điều biến giọng nói thời gian thực sử dụng mô hình học máy (ML) của giọng nói của một người. Khi kẻ tấn công nói, những gì mục tiêu nghe được là giọng nói nhân bản từ mô hình ML.
Các nhà nghiên cứu cũng lưu ý rằng tín hiệu âm thanh có thể được định tuyến trực tiếp đến các ứng dụng như Microsoft Teams hoặc Google Meet, cho phép sử dụng giọng nói được nhân cách hóa AI trong các ứng dụng nhắn tin phổ biến trong cuộc gọi thoại trong thời gian thực.
“Trong bằng chứng khái niệm này,” họ nói thêm, “số điện thoại của cá nhân bị mạo danh đã bị giả mạo với sự đồng ý của họ. Giống như vishing truyền thống, giả mạo được sử dụng để khai thác niềm tin mà nạn nhân sẽ có khi họ được cung cấp ID người gọi quen thuộc trên thiết bị của họ.”
Mặc dù công nghệ này chưa đủ trưởng thành để hỗ trợ khả năng điều chỉnh giọng nói nhân bản theo thời gian thực cho đến gần đây nhưng điều đó không còn đúng nữa. Các nhà nghiên cứu viết: Thực tế ngày nay là các công cụ và cơ sở hạ tầng cần thiết cho việc nhân bản giọng nói theo thời gian thực có thể truy cập được đối với những người có phương tiện tài chính và kỹ thuật thậm chí còn hạn chế.
“Điều đáng nói là tất cả những điều này đều có thể thực hiện được bằng cách sử dụng phần cứng, nguồn âm thanh và phần mềm xử lý âm thanh đều ‘đủ tốt, thay vì đặc biệt, ’ mà họ lưu ý. “Nghĩa là, chi phí tài chính để đạt được kết quả của chúng tôi chắc chắn sẽ nằm trong tầm tay của nhiều cá nhân và chắc chắn là của một tổ chức nhỏ.”
Công nghệ phổ biến
Matthew Harris, giám đốc sản phẩm cấp cao về bảo vệ gian lận tại Xác thực cần cẩu, một công ty bảo vệ thương hiệu và bảo mật sản phẩm toàn cầu. “Nạn nhân dựa vào số, giọng nói và nội dung tin nhắn của người gọi —, tất cả đều có thể bị giả mạo hoặc nhân bản, ” ông nói với TechNewsWorld. “Nhân bản giọng nói theo thời gian thực làm cho trò lừa đảo trở nên đáng tin cậy hơn và tăng cơ hội thành công.”
“Những kẻ lừa đảo ban đầu phải vật lộn với chủ nghĩa hiện thực — giọng nói và hình ảnh thường có những sai sót trong nhận biết, ” anh ấy nói, “nhưng LLM nguồn mở đã giúp khắc phục những vấn đề này. Các mô hình AI giờ đây học hỏi từ những sai lầm trong quá khứ, khiến giọng nói và khuôn mặt tổng hợp ngày càng không thể phân biệt được với tiếng nói và khuôn mặt thật.”
Nhân bản giọng nói theo thời gian thực là sự khác biệt giữa việc đọc kịch bản và ứng biến với con người, Brandon Kovacs, một nhà tư vấn bảo mật cấp cao tại Giám mục Fox, một công ty an ninh mạng chuyên tư vấn và kiểm tra bảo mật tấn công, ở Phoenix.
“Chuyển đổi giọng nói theo thời gian thực cho phép kẻ tấn công xử lý các câu hỏi, điều chỉnh yêu cầu và tăng thẩm quyền, ” ông nói với TechNewsWorld. “Điều này càng trở nên mạnh mẽ hơn khi được ghép nối với video deepfake đồng thời trên Zoom hoặc Teams.”
“Nhân bản giọng nói theo thời gian thực là một hệ số nhân lực,” T. Frank Downs, giám đốc cấp cao về dịch vụ chủ động tại Màu xanhVoyant, một công ty an ninh mạng doanh nghiệp, ở thành phố New York. “Nó cho phép kẻ tấn công điều chỉnh giọng điệu, nhịp điệu và ngữ cảnh một cách nhanh chóng, điều này duy trì ảo giác về tính xác thực trong suốt cuộc gọi.”
“Khả năng phản hồi động này làm tăng đáng kể tỷ lệ thành công và khiến việc phát hiện trong quá trình tương tác gần như không thể thực hiện được, ông nói với TechNewsWorld.
Làm nhân bản giọng nói tốt trên một loạt các mục tiêu có thể là một thách thức, Roger Grimes, cố vấn CISO tại BiếtBe4, nhà cung cấp đào tạo nâng cao nhận thức về an ninh, ở Clearwater, Fla. “Ông nói với TechNewsWorld rằng một số mẫu nhân bản giọng nói rất dễ thực hiện trong khi những mẫu khác lấy mẫu tinh chỉnh. “Nó có thể là một kỹ năng để học như bất cứ điều gì khác. Nhưng mỗi tháng, các công cụ nhân bản giọng nói đang giúp bạn thực hiện dễ dàng hơn mà không cần có kỹ năng tuyệt vời.”
“That's bởi vì AI tổng quát ngày nay tốt hơn bất kỳ công cụ nào trước đây trong việc khớp mẫu xác suất, ” ông nói. “Khả năng khớp mẫu xác suất cho phép AI đạt được kết quả tốt hơn nhiều so với các công cụ nhân bản giọng nói trước đây. Vẫn còn một số giọng nói và ngôn ngữ mà nhân bản giọng nói AI không thể làm tốt và điều đó thường là do thiếu dữ liệu được nhập xung quanh kiểu giọng nói hoặc ngôn ngữ đó. Ví dụ: các công cụ nhân bản giọng nói không hoạt động tốt với giọng nói của người bản xứ châu Phi.”
Ông khẳng định rằng việc nhân bản giọng nói sẽ phổ biến trong giới kỹ sư xã hội. “Chúng tôi hy vọng việc nhân bản giọng nói theo thời gian thực sẽ giúp hầu hết các AI kỹ thuật xã hội dựa trên giọng nói được kích hoạt vào cuối năm 2026, ông dự đoán. “Vào cuối năm 2026, hầu hết kỹ thuật xã hội dựa trên giọng nói sẽ không liên quan đến giọng nói thực sự của con người. Hack qua kỹ thuật xã hội đang sẵn sàng thay đổi mãi mãi.”
Deepfake Vishing Các mối đe dọa đang gia tăng
Ngay cả khi không có AI, tương đối dễ dàng để tạo tin nhắn thoại mạo danh CEO. “Alex Quilici, Giám đốc điều hành của ” giải thích: Chỉ cần ghi lại chúng cùng với một công cụ như ElevenLabs để tạo ra một sản phẩm giả khá hấp dẫn YouMail, một công ty dịch vụ quản lý cuộc gọi, ở Irvine, California.
“Chúng tôi chưa thấy nhiều trong số này, mặc dù chúng tôi đang nghe nhiều câu chuyện hơn,” anh ấy nói với TechNewsWorld. “Chúng tôi hoàn toàn mong đợi chúng sẽ là vectơ tấn công lớn tiếp theo.”
Quilici nói thêm rằng ở cấp độ giai thoại, deepfake của các CEO đang trở nên phổ biến hơn. “Tuy nhiên, cho đến thời điểm này, chúng chắc chắn không phổ biến,” ông nói.
“Điều hiện đang phổ biến là các tin nhắn văn bản mạo danh các giám đốc điều hành và chúng tôi đã thấy những tin nhắn đó ở các khách hàng doanh nghiệp của mình, ” anh ấy tiếp tục. “Vụ lừa đảo về cơ bản là tung tin nhắn cho một số nhân viên khác nhau, mạo danh Giám đốc điều hành và cố gắng thuyết phục họ thực hiện một hành động cụ thể. Điều này là do văn bản dễ tạo và gửi nhất và dường như hoạt động.”
Marc Maiffret, CTO của Ngoài niềm tin, nhà sản xuất các giải pháp quản lý tài khoản đặc quyền và quản lý lỗ hổng, ở Carlsbad, Calif., đã cảnh báo rằng các cuộc tấn công mạo danh do AI điều khiển đang gia tăng, nhắm vào cả cá nhân và tổ chức. “Việc chống lại chúng đòi hỏi sự cảnh giác của con người và bảo mật danh tính mạnh mẽ, ông nói với TechNewsWorld. “Các tổ chức nên tiếp tục thực thi nguyên tắc đặc quyền tối thiểu, giám sát cơ sở hạ tầng nhận dạng và đảm bảo quyền truy cập vào các tài khoản nhạy cảm.”
“Giới hạn những gì kẻ tấn công có thể làm — ngay cả với thông tin xác thực bị đánh cắp,” ông nói. các cuộc tấn công kỹ thuật xã hội dựa trên “AI nêu bật lý do tại sao danh tính là một trong những lĩnh vực quan trọng nhất để doanh nghiệp bảo mật. Deepfakes đang và sẽ tiếp tục là một ví dụ tuyệt vời về sự cần thiết phải coi danh tính là chu vi mới.”
Trong khi đó, các nhà nghiên cứu của NCC đang chuyển sang các video deepfake. “Các cuộc điều tra sơ bộ cho đến nay chủ yếu chỉ thành công trong việc xác định những hạn chế và vấn đề mới trong lĩnh vực này, họ viết. “Ví dụ: có khó khăn trong việc đồng bộ hóa tín hiệu âm thanh và video đã sửa đổi.”
“Tuy nhiên,” họ lưu ý, “với tốc độ chưa từng có mà công nghệ này đang phát triển, người ta hy vọng rằng một giải pháp deepfake mô phỏng thực tế cả âm thanh và video là khả thi; đó chỉ là vấn đề thời gian.”