Học để nhớ: Một khuôn khổ thúc đẩy tính dẻo của synap cho việc học liên tục

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (Nghiên cứu ML)

Con người có một khả năng phi thường để học liên tục trong suốt cuộc đời của họ. Khả năng áp dụng kiến ​​thức đã học trước đây vào các tình huống, môi trường và nhiệm vụ mới tạo thành tính năng chính của trí tuệ con người. Ở cấp độ sinh học, điều này thường được quy cho khả năng lưu trữ có chọn lọc và chi phối các ký ức trong một khoảng thời gian đủ dài trong các kết nối thần kinh được gọi là khớp thần kinh. Không giống như bộ não sinh học, Mạng nơ ron nhân tạo thông thường (ANN) không có khả năng kiểm soát sức mạnh của các kết nối synap giữa các tế bào thần kinh. Điều này dẫn đến tuổi thọ bộ nhớ cực ngắn trong ANN - hiệu ứng được gọi là quên lãng thảm khốc.

Trong thập kỷ qua, hầu hết các nghiên cứu trong lĩnh vực Trí tuệ nhân tạo (AI) đều hướng đến việc vượt quá hiệu suất của con người đối với các nhiệm vụ bị cô lập, được xác định rõ ràng như chơi trò chơi trên máy tính, phân loại email spam, phân loại mèo từ chó và nhận dạng giọng nói, chỉ đến tên một vài. Do đó, hầu hết các AI xung quanh chúng ta trong cuộc sống hàng ngày của chúng ta có thể được gọi là Trí thông minh nhân tạo hẹp hoặc AI yếu. Ngược lại, AI mạnh mẽ đề cập đến AI giống con người có thể thực hiện bất kỳ nhiệm vụ thông minh nào, trong khi có thể học liên tục, quên chọn lọc, trong khi nhanh chóng thích nghi với các nhiệm vụ mới và sử dụng các trải nghiệm trước đó. Những tính chất này chỉ mới bắt đầu nhận được sự chú ý của các nhà nghiên cứu AI.

Tại sao phải học liên tục? Chìa khóa cho các kịch bản luôn thay đổi

Quên và thiếu kiến ​​thức chuyển giao tạo thành một trong những thách thức chính trên con đường từ AI yếu đến AI mạnh. Không giống như con người, những người quên một cách chọn lọc, máy móc quên một cách thảm khốc. Theo đó, trong khi một đứa trẻ dạy học bò, đi bộ và sau đó chạy LÊ (~ Dave Waters), AI sẽ hoàn toàn quên đi việc bò khi biết cách đi và nó sẽ quên đi khi biết cách chạy. Trước khi xem xét các giải pháp khả thi cho thách thức của việc học tập suốt đời, chúng ta hãy xem xét một ví dụ đơn giản về tìm kiếm danh mục quần áo dựa trên AI.

Một mô hình học máy được đào tạo trên bộ dữ liệu có chứa các mặt hàng quần áo từ mùa (A) sẽ hoạt động rất tốt khi tìm kiếm trong các sản phẩm của mùa này (A). Tuy nhiên, một khi mùa thay đổi, xu hướng thời trang cũng có thể thay đổi. Khi xu hướng thời trang thay đổi, các danh mục sản phẩm, mẫu mã và kiểu dáng mới có thể được thêm vào danh mục (ví dụ: giày cao gót thay vì giày thể thao, áo khoác dài thay vì áo khoác ngắn, v.v.). Mô hình được đào tạo về dữ liệu của phần đầu tiên (A) sẽ không hoạt động tốt khi tìm kiếm thông qua các mục đã được thêm vào trong phần mới. Trên thực tế, chỉ cần đào tạo mô hình của chúng tôi về dữ liệu từ mùa giải mới, sẽ dẫn đến việc quên đi một cách thảm khốc khả năng tìm kiếm trong số các mục của mùa trước.

Cách giải quyết phổ biến quên?

Một trong những kỹ thuật sớm nhất để giảm thiểu sự lãng quên thảm khốc trong ANNs được gọi là phát lại kinh nghiệm hoặc diễn tập Hồi giáo. Tiếp tục với ví dụ tìm kiếm danh mục của chúng tôi, để duy trì thông tin đã học được trong mùa đầu tiên, mô hình học máy chỉ đơn giản là được đào tạo lại từ đầu trên hỗn hợp dữ liệu từ cả hai mùa, tức là kiến ​​thức đã học trước đó được phát lại cho mô hình được đào tạo trên dữ liệu của mùa giải mới. Nói chung, đào tạo lại mô hình mỗi lần phân phối dữ liệu, dịch chuyển, sẽ giúp tạo ra chi phí lưu trữ dữ liệu và nỗ lực cần thiết để duy trì các hệ thống thông minh, chưa kể đến việc giảm khả năng mở rộng hệ thống. Cuối cùng, việc lưu trữ dữ liệu thô của các tác vụ trước có thể vi phạm phần lớn yêu cầu bảo mật dữ liệu của ứng dụng trong thế giới thực.

Trong bối cảnh này, nhiều nhà nghiên cứu đã tập trung vào việc mô phỏng độ dẻo thần kinh trong ANN và do đó giảm thiểu nhu cầu lưu trữ dữ liệu thô (1,2,3,4,5,6). Điều này thường được thực hiện trong cái gọi là thiết lập tăng dần nhiệm vụ, trong đó mỗi đoạn dữ liệu mới được thêm vào được coi là một nhiệm vụ riêng biệt và thông tin về nhãn tác vụ được giả sử là có sẵn tại thời điểm thử nghiệm. Quay trở lại ví dụ tìm kiếm danh mục, điều này sẽ yêu cầu thông tin về nhãn mùa (nhãn tác vụ) được đưa vào mỗi truy vấn; do đó phân loại một mặt hàng may mặc nhất định sẽ yêu cầu thông tin a-prori về mùa mà nó thuộc về (nhãn nhiệm vụ). Có một nhãn tác vụ trên như vậy, nhãn sẽ tự động giảm đầu ra của mô hình xuống các lớp thuộc về nhiệm vụ giả định. Vì vậy, trong ví dụ của chúng tôi ở trên, nó sẽ chỉ giới hạn mô hình cho mùa cụ thể. Những giả định này có thể hiếm khi được thực hiện trong các ứng dụng trong thế giới thực.

Một dòng công việc riêng biệt giải quyết một kịch bản giống như thế giới thực hơn. Trong kịch bản tăng dần của lớp này, đầu ra phân loại của mô hình được mở rộng liên tục khi các lớp mới được học. Trong bối cảnh này, một chiến lược phổ biến là giới thiệu cái gọi là thành phần bộ nhớ tổng quát (ví dụ: 7,8,9). Ở đây, thay vì lưu trữ dữ liệu thô, một mô hình tổng quát như GAN hoặc VAE (xem blogpost trước) được đào tạo để tạo kinh nghiệm được phát lại. Do đó, trong ví dụ danh mục, các mục (với lớp tương ứng) của phần đầu tiên sẽ được tạo và phát lại cho mô hình.

Các cách tiếp cận bộ nhớ thế hệ hiện tại chủ yếu dựa vào ý tưởng phát lại thế hệ sâu trong đó mô hình thế hệ được lặp đi lặp lại trên hỗn hợp dữ liệu thực hiện có (mùa mới) và các tập phát lại được tổng hợp bởi trình tạo trước đó (mùa trước). Tuy nhiên, ngoài việc không hiệu quả cao trong đào tạo, những cách tiếp cận này dễ bị ảnh hưởng nghiêm trọng như là trôi dạt ngữ nghĩa Hồi giáo. Sự trôi dạt của Semantic ngữ nghĩa là chất lượng hình ảnh được tạo ra ở mỗi lần phát lại bộ nhớ tùy thuộc vào hình ảnh được tạo trước đó, gây ra sự lan truyền lỗi và do đó làm giảm chất lượng và quên.

Giải pháp đề xuất - Học dẻo trong mạng bộ nhớ tổng quát

Cho đến nay, chúng ta đã học được rằng phát lại kinh nghiệm là một chiến lược đơn giản và hữu ích để khắc phục tình trạng quên trong ANN nói chung, và đặc biệt là trong tình huống thử thách tăng cấp của lớp. Tuy nhiên, chiến lược này chỉ được áp dụng khi các tập phát lại không được lưu dưới dạng dữ liệu thô mà ở dạng các mẫu bộ nhớ được lưu trữ có liên quan và hiệu quả.

Để giải quyết vấn đề này, trong nghiên cứu gần đây của chúng tôi, chúng tôi đã đề xuất một phương pháp gọi là Bộ nhớ tạo động (DGM) - một khung học tập liên tục có thể đào tạo từ đầu đến cuối mô phỏng độ dẻo của synap với mặt nạ chú ý cứng có thể học được áp dụng cho các tham số của mạng tổng quát (GAN) . Mặt nạ chú ý cứng xác định các phân đoạn mạng rất cần thiết để ghi nhớ thông tin hiện tại và ngăn chặn cập nhật của chúng trong quá trình học tập trong tương lai. Mạng được khuyến khích hơn nữa để sử dụng lại kiến ​​thức đã học trước đó, được lưu trữ trong các phân đoạn mạng được bảo lưu trực tuyến như vậy mang lại sự chuyển giao kiến ​​thức tích cực. Do đó, trong ví dụ về danh mục sản phẩm của chúng tôi, kiến ​​thức về các mục danh mục từ mùa trước có thể được sử dụng lại một cách hiệu quả khi tìm hiểu về các mục trong mùa mới. Nói chung, DGM có thể tìm hiểu về các nhiệm vụ mới mà không cần phải phát lại kiến ​​thức cũ, do đó cải thiện hiệu quả đào tạo và trở nên mạnh mẽ hơn khi đối mặt với sự lãng quên thảm khốc.

Do đó, DGM có thể tạo ra các mẫu thông tin và đa dạng về các danh mục đã học trước đó ở bất kỳ bước học tập liên tục nào như được hiển thị trong hình dưới đây. Việc trộn lại các mẫu này vào mô hình giải quyết nhiệm vụ (D) mang lại một mô hình có thể duy trì hiệu suất phân loại cao trên tất cả các lớp đã được nhìn thấy trong quá trình học tập liên tục.

Về khả năng mở rộng

Với kích thước mạng hạn chế, không thể tránh khỏi việc ngày càng có nhiều nhiệm vụ phải học, công suất mô hình bị cạn kiệt tại một số thời điểm. Vấn đề này trở nên trầm trọng hơn khi mô phỏng độ dẻo thần kinh với mặt nạ chú ý cứng cấp độ tham số. Để đảm bảo đủ dung lượng và sức mạnh biểu cảm không đổi của mạng bên dưới, DGM giữ cho số lượng tham số miễn phí (tức là có thể cập nhật hiệu quả) không đổi bằng cách mở rộng mạng với chính xác số lượng tham số được dành riêng cho trước đó bài tập, nhiệm vụ. Ý tưởng chính ở đây, là với sự chuyển giao kiến ​​thức tích cực nhất định (nghĩa là khả năng sử dụng lại tham số), số lượng đặt chỗ tham số cho các tác vụ mới sẽ giảm theo thời gian và tốc độ tăng trưởng của mạng sẽ bão hòa tại một điểm nhất định.

Để biết chi tiết kỹ thuật về phương pháp DGM, vui lòng tham khảo toàn bộ tài liệu về arXiv.

Mặc dù vẫn còn rất xa để giải quyết vấn đề quên hoàn toàn thảm họa, và mặc dù có một số hạn chế, DGM cho thấy sự phát triển mạng lưới hiệu quả và mạnh mẽ chống lại sự lãng quên thảm khốc trong một thiết lập gia tăng trên lớp đầy thách thức. Chúng tôi tin rằng nghiên cứu được trình bày có thể giúp chúng tôi nâng cao hiểu biết về học tập liên tục - một khả năng thiết yếu trên con đường đạt được AI mạnh mẽ, có thể học (và quên) một cách thích ứng và tiến bộ theo thời gian.

Công việc của chúng tôi về học tập suốt đời được trình bày tại CVPR 2019.

Về tác giả: Oleksiy Ostapenko, một Kỹ sư nghiên cứu liên kết của nhóm nghiên cứu máy học SAP, đang nghiên cứu những thách thức của việc học tập suốt đời được thảo luận trong bài viết này sẽ được trình bày tại CVPR năm nay.