Sơ lược về lịch sử của ASR: Nhận dạng giọng nói tự động

Đây là bài đăng đầu tiên trong loạt bài về Tự động nhận dạng giọng nói, công nghệ nền tảng giúp mô tả có thể thực hiện được. Chúng tôi sẽ khám phá tình trạng hiện tại của ngành công nghiệp, nơi mà nhóm hướng tới - và, trong phần này, nơi mà nó đã ở.

Mô tả tự hào là một phần của thế hệ phần mềm sáng tạo mới được kích hoạt bởi những tiến bộ gần đây trong nhận dạng giọng nói tự động (ASR). Nó có một thời gian thú vị: công nghệ gần đây đã vượt qua một ngưỡng nhìn thấy nó giao dịch lời hứa từ lâu của nó cho tiện ích vượt trội, và nó chỉ trở nên tốt hơn.

Thời điểm này đã được một thời gian dài sắp tới. Công nghệ đằng sau nhận dạng giọng nói đã được phát triển trong hơn nửa thế kỷ, trải qua nhiều giai đoạn hứa hẹn mãnh liệt - và thất vọng. Vì vậy, những gì đã thay đổi để làm cho ASR khả thi trong các ứng dụng thương mại? Và chính xác những gì các hệ thống này có thể thực hiện được, rất lâu trước khi bất kỳ ai trong chúng ta nghe nói về Siri?

Câu chuyện về nhận dạng giọng nói cũng nhiều về việc áp dụng các phương pháp khác nhau như sự phát triển của công nghệ thô, mặc dù cả hai đều gắn bó chặt chẽ với nhau. Trong một khoảng thời gian nhiều thập kỷ, các nhà nghiên cứu sẽ hình dung ra vô số cách để phân tích ngôn ngữ: bằng âm thanh, theo cấu trúc - và bằng các số liệu thống kê.

Những ngày đầu

Sự quan tâm của con người trong việc nhận biết và tổng hợp bài phát biểu đã tồn tại hàng trăm năm (ít nhất là!) - nhưng đến giữa thế kỷ 20, các bậc tiền bối của chúng ta đã xây dựng một thứ có thể nhận ra là ASR.

1961 - IBM Shoebox

Trong số các dự án đầu tiên có một máy nhận dạng chữ số của người Hồi giáo có tên là Audrey, được tạo ra bởi các nhà nghiên cứu tại Phòng thí nghiệm Bell vào năm 1952. Audrey có thể nhận ra các chữ số được nói bằng cách tìm dấu vân tay âm thanh gọi là định dạng âm thanh - các tinh chất chưng cất của âm thanh.

Vào những năm 1960, IBM đã phát triển Shoebox - một hệ thống có thể nhận ra các chữ số và các lệnh số học như là cộng với và cộng tổng. Tốt hơn nữa, Shoebox có thể chuyển bài toán đến một máy tính thêm, tính toán và in câu trả lời².

Trong khi đó, các nhà nghiên cứu ở Nhật Bản đã xây dựng phần cứng có thể nhận ra các bộ phận cấu thành của lời nói như nguyên âm; các hệ thống khác có thể đánh giá cấu trúc của lời nói để tìm ra nơi một từ có thể kết thúc. Và một nhóm tại Đại học College ở Anh có thể nhận ra 4 nguyên âm và 9 phụ âm bằng cách phân tích âm vị, âm thanh riêng biệt của một ngôn ngữ¹.

Nhưng trong khi lĩnh vực đang tiến lên từng bước về phía trước, nó không nhất thiết phải rõ ràng nơi con đường đang đi. Và sau đó: thảm họa.

Tháng 10 năm 1969 - Tạp chí của Hiệp hội Âm học Hoa Kỳ

Một đóng băng

Bước ngoặt đến dưới dạng một bức thư được viết bởi John R. Pierce vào năm 1969.

Pierce từ lâu đã trở thành một kỹ sư nổi tiếng quốc tế; Trong số những thành tựu khác, ông đã tạo ra bóng bán dẫn từ (hiện có mặt khắp nơi trong kỹ thuật) và giúp khởi động Echo I, vệ tinh truyền thông đầu tiên. Đến năm 1969, ông là giám đốc điều hành tại Bell Labs, công ty đã đầu tư nhiều vào việc phát triển nhận dạng giọng nói.

Trong một bức thư ngỏ được xuất bản trên Tạp chí của Hiệp hội Âm học Hoa Kỳ, Pierce đã đặt ra mối quan tâm của mình. Trích dẫn một môi trường tài trợ lộng lẫy trên thế giới trong hậu quả của Thế chiến II và Sputnik, và sự thiếu trách nhiệm, Pierce đã cảnh báo lĩnh vực này vì sự thiếu nghiêm ngặt về khoa học, khẳng định rằng có quá nhiều thử nghiệm hoang dã đang diễn ra:

Tất cả chúng ta đều tin rằng một khoa học về lời nói là có thể, mặc dù sự khan hiếm trong lĩnh vực của những người hành xử giống như các nhà khoa học và kết quả trông giống như khoa học. - - J.R. Pierce, 1969

Pierce đã đặt cho ông chủ của mình một khoản tiền từ nơi mà miệng của anh ta: anh ta đã làm thất bại các chương trình ASR của Bell, mà sẽ không được phục hồi cho đến khi anh ta từ chức năm 1971.

Tiến trình tiếp tục

Rất may có sự lạc quan hơn ở nơi khác. Đầu những năm 1970, Bộ Quốc phòng Hoa Kỳ ARPA (cơ quan hiện được gọi là DARPA) đã tài trợ cho một chương trình năm năm có tên là Nghiên cứu Hiểu biết về Ngôn ngữ. Điều này dẫn đến việc tạo ra một số hệ thống ASR mới, thành công nhất trong số đó là Đại học Carnegie Mellon, ông Har Harpy, có thể nhận ra chỉ hơn 1000 từ vào năm 1976.

Trong khi đó, những nỗ lực từ Phòng thí nghiệm của IBM và AT & T, Bell đã thúc đẩy công nghệ hướng tới các ứng dụng thương mại khả thi. IBM ưu tiên sao chép giọng nói trong bối cảnh thư tín văn phòng và Bell quan tâm đến lệnh và điều khiển các kịch bản của Keith: tiền thân của quay số bằng giọng nói và cây điện thoại tự động mà chúng ta biết ngày nay¹.

Mặc dù tiến bộ này, vào cuối những năm 1970 ASR vẫn còn một chặng đường dài để có thể tồn tại đối với bất cứ điều gì ngoại trừ các trường hợp sử dụng đặc biệt cao.

Điều này cũng làm tổn thương đầu tôi.

Những năm 80: Markovs và hơn thế nữa

Một bước ngoặt quan trọng đến với việc phổ biến Mô hình Markov ẩn (HMM) vào giữa những năm 1980. Cách tiếp cận này đại diện cho một sự thay đổi đáng kể từ các phương pháp nhận dạng mẫu đơn giản, dựa trên các mẫu và thước đo khoảng cách quang phổ, đến một phương pháp thống kê để xử lý giọng nói

Một phần lớn của sự cải tiến trong các hệ thống nhận dạng giọng nói từ cuối những năm 1960 là do sức mạnh của phương pháp thống kê này, cùng với những tiến bộ trong công nghệ máy tính cần thiết để thực hiện HMM.

HMM đã đưa ngành công nghiệp vào cơn bão - nhưng họ đã không thành công qua đêm. Jim Baker lần đầu tiên áp dụng chúng để nhận dạng giọng nói vào đầu những năm 1970 tại CMU, và bản thân các mô hình đã được Leonard E. Baum mô tả vào những năm 60 .. Đó là vào năm 1980, khi Jack Ferguson đưa ra một loạt các bài giảng chiếu sáng tại Viện Phân tích Quốc phòng, rằng kỹ thuật này bắt đầu phổ biến rộng rãi hơn.

Thành công của HMM đã xác thực công việc của Frederick Jelinek tại Trung tâm nghiên cứu Watson của IBM, người từ đầu những năm 1970 đã ủng hộ việc sử dụng các mô hình thống kê để diễn giải lời nói, thay vì cố gắng để máy tính bắt chước cách con người tiêu hóa ngôn ngữ: thông qua ý nghĩa, cú pháp và ngữ pháp (một cách tiếp cận phổ biến tại thời điểm đó). Như Jelinek sau này đã nói: Máy bay của Don don vỗ cánh.

Những cách tiếp cận dựa trên dữ liệu này cũng tạo điều kiện cho sự tiến bộ có liên quan nhiều đến sự hợp tác và trách nhiệm trong ngành như những khoảnh khắc eureka riêng lẻ. Với sự phổ biến ngày càng tăng của các mô hình thống kê, trường ASR bắt đầu kết hợp xung quanh một bộ các bài kiểm tra sẽ cung cấp một tiêu chuẩn chuẩn để so sánh với. Điều này được khuyến khích hơn nữa bằng việc phát hành các bộ dữ liệu được chia sẻ: các khối dữ liệu lớn mà các nhà nghiên cứu có thể sử dụng để đào tạo và thử nghiệm các mô hình của họ.

Nói cách khác: cuối cùng, có một cách (không hoàn hảo) để đo lường và so sánh thành công.

Tháng 11 năm 1990, Infowworld

Sẵn có của người tiêu dùng - Những năm 90

Để tốt hơn và tồi tệ hơn, thập niên 90 đã giới thiệu cho người tiêu dùng nhận dạng giọng nói tự động theo hình thức mà chúng tôi nhận ra ngày nay. Dragon Dictate ra mắt năm 1990 với mức giá đáng kinh ngạc 9.000 đô la, chào hàng một từ điển 80.000 từ và các tính năng như xử lý ngôn ngữ tự nhiên (xem bài viết của Infoworld ở trên).

Các công cụ này rất tốn thời gian (bài báo khẳng định khác, nhưng Dragon trở nên nổi tiếng vì đã thúc giục người dùng ‘huấn luyện phần mềm đọc chính tả bằng giọng nói của chính họ). Và nó yêu cầu người dùng nói một cách nghiêm nghị: Dragon ban đầu chỉ có thể nhận ra 30 Lời40 một phút; mọi người thường nói chuyện nhanh hơn khoảng bốn lần.

Nhưng nó đã hoạt động đủ tốt để Dragon phát triển thành một doanh nghiệp với hàng trăm nhân viên và khách hàng trải dài trong lĩnh vực chăm sóc sức khỏe, luật pháp và hơn thế nữa. Đến năm 1997, công ty đã giới thiệu Dragon NataturalSpeaking, có thể thu thập các từ với tốc độ nhanh hơn - và, ở mức 150 đô la, mức giá thấp hơn nhiều.

Mặc dù vậy, có thể có nhiều tiếng càu nhàu như tiếng rít lên thích thú: ở mức độ có sự hoài nghi của người tiêu dùng xung quanh ASR ngày nay, một số tín dụng nên dành cho việc tiếp thị quá nhiệt tình các sản phẩm đầu tiên này. Nhưng không có nỗ lực của những người tiên phong trong ngành James và Janet Baker (người sáng lập Dragon Systems vào năm 1982), việc sản xuất ASR có thể mất nhiều thời gian hơn.

Tháng 11 năm 1993, Tạp chí Truyền thông IEEE

Lời nói của ai

25 năm sau khi bài báo của J.R. Pierce, được xuất bản, cuốn sách tiếp theo có tựa đề Whither Speech Recognition: 25 năm tiếp theo, được ủy quyền bởi hai nhân viên cao cấp của Phòng thí nghiệm Bell (cùng một tổ chức nơi Pierce làm việc).

Bài báo sau khảo sát tình trạng của ngành vào khoảng năm 1993, khi bài báo được xuất bản - và phục vụ như một loại phản bác cho sự bi quan của bản gốc. Trong số các bài học của nó:

  • Vấn đề chính với bức thư của Pierce, là giả định của ông rằng để nhận dạng giọng nói trở nên hữu ích, máy tính sẽ cần phải hiểu ý nghĩa của từ. Với công nghệ của thời đại, điều này là hoàn toàn không khả thi.
  • Theo một nghĩa nào đó, Pierce đã đúng: vào năm 1993, máy tính có hiểu biết ít ỏi về ngôn ngữ và năm 2018, họ vẫn nổi tiếng là xấu về ý nghĩa sáng suốt.
  • Sai lầm của Pierce Keith nằm ở chỗ anh ta không lường trước được vô số cách nhận dạng giọng nói có thể hữu ích, ngay cả khi máy tính không biết những từ này thực sự có nghĩa gì.

Phần tiếp theo sẽ kết thúc với một tiên lượng, dự báo ASR sẽ đi về đâu trong những năm sau năm 1993. Phần này nằm trong hàng rào táo tợn (Hồi Chúng tôi tự tin dự đoán rằng ít nhất một trong tám dự đoán này sẽ không chính xác) tất cả đều hấp dẫn như nhau. Trong số tám dự đoán của họ:

  • Vào năm 2000, nhiều người sẽ nhận được thông tin từ xa qua các hộp thoại bằng giọng nói hơn là gõ các lệnh trên bàn phím máy tính để truy cập cơ sở dữ liệu từ xa.
  • Người dân sẽ học cách sửa đổi thói quen nói của mình để sử dụng các thiết bị nhận dạng giọng nói, giống như họ đã thay đổi hành vi nói của mình để để lại tin nhắn trên máy trả lời. Mặc dù họ sẽ học cách sử dụng công nghệ này, mọi người sẽ luôn phàn nàn về nhận dạng giọng nói.

Ngựa đen

Trong phần sắp tới của loạt bài này, chúng tôi sẽ khám phá thêm những phát triển gần đây và tình trạng nhận dạng giọng nói tự động hiện nay. Spoiler alert: mạng lưới thần kinh đã đóng một vai trò chính.

Nhưng mạng lưới thần kinh thực sự lâu đời như hầu hết các phương pháp được mô tả ở đây - chúng được giới thiệu vào những năm 1950! Đó là cho đến khi sức mạnh tính toán của thời kỳ hiện đại (cùng với các tập dữ liệu lớn hơn nhiều) mà họ đã thay đổi cảnh quan.

Nhưng chúng tôi đã vượt lên chính mình. Hãy theo dõi bài đăng tiếp theo của chúng tôi về Nhận dạng giọng nói tự động bằng cách theo dõi Mô tả trên Trung bình, Twitter hoặc Facebook.

Dòng thời gian qua Juang & Rabiner¹

Lưu ý: Lịch sử của ASR chứa đầy những người đóng góp và đổi mới hơn chúng ta có thể chi tiết trong phần này; chúng tôi đã bao gồm một số mốc quan trọng và bao gồm các liên kết để đọc thêm bên dưới. Nếu chúng tôi đã bỏ lỡ điều gì đó quan trọng, hãy cho chúng tôi biết!

Đọc thêm

Dưới đây là các tài nguyên hữu ích khi viết tác phẩm này, một số trong đó đi sâu vào chi tiết hơn:

  1. Tự động nhận dạng giọng nói - Lịch sử phát triển công nghệ. B.H. Juang & Lawrence R. Rabiner. Nếu bạn quan tâm đến một lịch sử rộng lớn hơn về ASR, thì đây là một nguồn tài nguyên tuyệt vời.
  2. Shoebox - Triển lãm lịch sử IBM

3. Nhận dạng giọng nói của ai? - J.R.

4. Bàn tay đầu tiên: Mô hình Markov ẩn - Lawrence R. Rabiner

5. Nhận dạng giọng nói của ai: 25 năm tiếp theo - D.B. Roe & J.G. Wilpon

6. Dòng thời gian nhận dạng giọng nói và giọng nói - Wikipedia

7. Nhận dạng giọng nói - Wikipedia

8. Bài báo may mắn về Rồng nói tự nhiên, 1998 Emily Shaifali Puri

9. Frederick Jelinek, Ai đã tạo ra chìa khóa cho lời nói của con người, qua đời ở tuổi 77 - Steve Lohr

10. Năm mươi năm tiến bộ trong nhận dạng giọng nói và người nói - Sadaoki Furui

Cảm ơn Arlo Faria và Adam Janin của Remeeting đã cung cấp bối cảnh lịch sử có giá trị.