Học tập liên kết riêng tư khác nhau: Một quan điểm cấp độ khách hàng

Robin Geyer, Tassilo Klein và Moin Nabi (Nghiên cứu ML Berlin)

Nói chung, phương pháp học máy tiêu chuẩn tạo ra nhu cầu lưu trữ dữ liệu đào tạo tại một điểm trung tâm. Tuy nhiên, với sự gia tăng gần đây của bảo vệ quyền riêng tư trong học máy, một lĩnh vực nghiên cứu mới, được gọi là học tập liên kết, đã gây ra sự quan tâm toàn cầu. Trong bài đăng trên blog này, chúng tôi trình bày kết quả đầu tiên của chúng tôi về học máy hợp tác bảo vệ quyền riêng tư, theo dõi bài đăng trên blog trước đây của chúng tôi giới thiệu ba cách tiếp cận khác nhau để giải quyết vấn đề riêng tư trong lĩnh vực này.

Tuy nhiên, trước khi đi sâu hơn vào cách tiếp cận được đề xuất của chúng tôi, hãy để Lừa lại khái niệm điểm chính của Ý. Ý tưởng của học tập liên kết là đào tạo các mô hình học máy mà không chia sẻ rõ ràng dữ liệu hoặc che giấu sự tham gia đào tạo. Kịch bản này có liên quan đến toàn ngành cũng như ở cấp độ cá nhân và trở nên đặc biệt quan trọng trong các tình huống mà khách hàng độc hại có thể muốn suy luận sự tham gia của khách hàng khác.

Như một ví dụ đơn giản, hãy xem xét sự hợp tác của nhiều bệnh viện và bảo hiểm đào tạo một mô hình phổ quát với dữ liệu cá nhân của bệnh nhân và khách hàng của họ để có cái nhìn tổng quan hơn về các bệnh hiện tại, chẩn đoán và chi phí y tế. Bây giờ hãy tưởng tượng rằng một trong những công ty bảo hiểm tham gia muốn tham gia sự hợp tác này với hy vọng tìm hiểu chi tiết cụ thể về các bệnh nhân thuộc bộ dữ liệu của một bệnh viện đóng góp. Nếu bệnh viện tiết lộ dữ liệu bí mật trong quá trình đào tạo máy học nói chung, quyền riêng tư của bệnh nhân sẽ bị vi phạm, trong khi bảo hiểm có thể sử dụng những căn cứ này để tính giá cho một số bệnh nhân nhất định.

Một tình huống khác có thể xảy ra khi khách hàng tìm cách hủy đăng ký dịch vụ mà họ đã đóng góp về đào tạo mô hình mà không để lại dấu vân tay dữ liệu quá cụ thể trên mô hình. Quay trở lại ví dụ về bệnh viện và bảo hiểm, nếu một bảo hiểm muốn ngừng đóng góp cho việc đào tạo mô hình, việc rút tiền sẽ tiết lộ một số thông tin khách hàng bí mật có thể được sử dụng để tạo lợi thế cho các bảo hiểm cạnh tranh khác trong mô hình.

Nói tóm lại, để bảo vệ quyền riêng tư trong bối cảnh học máy, chúng ta phải ngăn chặn khả năng truy tìm các khách hàng cá nhân đóng góp cho mô hình. Điều này trở nên đặc biệt quan trọng, khi số lượng các trường hợp đào tạo cho mô hình không quá lớn. Do đó, kết quả của chúng tôi là mối quan tâm đặc biệt đối với các tổ chức như bệnh viện hoặc bảo hiểm muốn hưởng lợi từ các mô hình dự đoán tổng quát nhưng trải qua biến động khách hàng cao và đồng thời bị ràng buộc bởi các yêu cầu riêng tư mạnh mẽ.

Học tập liên kết - một số chi tiết

Chúng tôi xem xét cài đặt học tập được liên kết, trong đó người quản lý đáng tin cậy thu thập các tham số được tối ưu hóa theo kiểu phi tập trung bởi nhiều khách hàng có dữ liệu thường không phải là iid, không cân bằng và phân phối ồ ạt. Mô hình kết quả sau đó được phân phối lại cho tất cả các máy khách, cuối cùng hội tụ thành mô hình đại diện chung mà không cần khách hàng phải chia sẻ dữ liệu một cách rõ ràng.

Đối với mỗi vòng giao tiếp mới và phân bổ một mô hình trung tâm mới, thông tin về khách hàng rò rỉ dữ liệu. Do đó, thông tin bị rò rỉ và do đó mất quyền riêng tư tích lũy trong quá trình đào tạo. Mặc dù khả năng này có thể vô cùng nhỏ, một mô hình học máy thường được đào tạo qua nhiều vòng, điều đó có nghĩa là rò rỉ quyền riêng tư như vậy có thể tăng lên đáng kể.

Trong cài đặt này, giao tiếp giữa người quản lý và khách hàng có thể bị hạn chế và / hoặc dễ bị chặn, đó là lý do tại sao việc học tập liên kết nhằm xác định một mô hình với chi phí thông tin tối thiểu giữa khách hàng và người quản lý. Tuy nhiên, mặc dù đạt được chi phí tối thiểu này, giao thức vẫn dễ bị tấn công khác biệt, có thể bắt nguồn từ bất kỳ bên nào đóng góp trong quá trình học tập liên kết. Trong một cuộc tấn công như vậy, sự đóng góp của khách hàng trong quá trình đào tạo cũng như thông tin về tập dữ liệu của họ có thể được tiết lộ thông qua việc phân tích các tham số phân tán.

Xem xét vấn đề này, chúng tôi đề xuất một thuật toán cho quyền riêng tư khác biệt phía khách hàng để duy trì việc học tập liên kết. Mục đích là để che giấu những đóng góp của khách hàng trong quá trình đào tạo, cân bằng sự đánh đổi giữa mất quyền riêng tư và hiệu suất mô hình. Kết quả của nghiên cứu khả thi đầu tiên của chúng tôi cho thấy rằng với số lượng khách hàng tham gia ngày càng tăng, quy trình đề xuất của chúng tôi có thể tối ưu hóa hơn nữa quyền riêng tư ở cấp độ khách hàng.

Cách tiếp cận của chúng ta

Điều làm cho các thuật toán học máy trở nên hấp dẫn là chúng lấy được mô hình dự đoán của chúng bằng cách suy ra các mẫu từ dữ liệu mà không được lập trình rõ ràng. Do đó, các thuật toán này phụ thuộc rất nhiều vào thông tin được mã hóa trong dữ liệu, điều này tạo ra nhu cầu gắn chúng với các thuộc tính nhất định để bảo vệ quyền riêng tư.

Đây là nơi định nghĩa của sự riêng tư khác biệt đi vào chơi. Nó có thể được coi là một thước đo độ nhạy đối với những thay đổi trong dữ liệu. Cụ thể, nó đảm bảo về các giới hạn của sự hiện diện hoặc vắng mặt của một mục dữ liệu riêng lẻ có thể có trên đầu ra cuối cùng của thuật toán. Theo trực giác, một phương pháp học máy riêng tư sẽ không thay đổi đáng kể hành vi dự đoán của nó trong trường hợp một mục bị xóa khỏi tập huấn luyện. Đề cập đến ví dụ trước, điều này có nghĩa là tất cả các bảo hiểm và bệnh viện đóng góp vẫn có thể tin tưởng vào hiệu suất cao và độ chính xác thông tin của mô hình phổ quát, mặc dù một trong các bệnh viện tránh cung cấp hoặc lấy thông tin về một bệnh nhân nào đó.

Trong phương pháp đề xuất, chúng tôi tìm cách đưa sự riêng tư khác biệt lên một cấp độ mới xem xét dữ liệu ngoài một mục dữ liệu duy nhất và do đó thắt chặt độ nhạy. Chúng tôi mong muốn đảm bảo rằng việc xóa một máy khách với tất cả các mục dữ liệu của nó không ảnh hưởng đáng kể đến kết quả của thuật toán. Trong ví dụ của chúng tôi, điều này có nghĩa là nếu một bệnh viện có số lượng lớn bệnh nhân quyết định ngừng đóng góp vào việc đào tạo mô hình trung tâm, thì nó đã giành được lợi hại cho công việc của các tổ chức tham gia khác.

Kết nối các dấu chấm - bảo mật riêng tư bảo tồn học tập liên kết

Để bảo vệ giao thức học tập được liên kết chống lại các cuộc tấn công khác biệt có thể xảy ra, một kế toán viên quyền riêng tư được theo dõi về mất quyền riêng tư phát sinh và ngừng đào tạo sau khi đạt đến ngưỡng xác định.

Trong bối cảnh này, chúng tôi đề xuất áp dụng một cơ chế ngẫu nhiên, bao gồm hai bước: Vào đầu mỗi vòng giao tiếp, một tập hợp con ngẫu nhiên của khách hàng được chọn để đóng góp. Chỉ những khách hàng này nhận được mô hình trung tâm và chia sẻ thông tin cập nhật của họ. Sau đó, một cơ chế Gaussian được sử dụng để làm biến dạng trung bình các bản cập nhật trước khi phân bổ mô hình trung tâm mới. Điều này được thực hiện để ẩn một đóng góp của khách hàng trong tập hợp và do đó trong toàn bộ quy trình học tập phi tập trung.

Hình 2 minh họa một vòng giao tiếp áp dụng phương pháp đề xuất. Trong cài đặt học tập được liên kết tối ưu hóa này, một khách hàng ngẫu nhiên ngừng đóng góp trong vòng giao tiếp trong khi các khách hàng khác tiếp tục cập nhật mô hình. Tuy nhiên, việc rút tiền của một người đóng góp không dẫn đến sự tiết lộ dữ liệu cũng như không gây hại cho hiệu suất của mô hình.

Các thiết lập thử nghiệm

Chúng tôi mô phỏng một thiết lập phi tập trung để kiểm tra thuật toán đề xuất của chúng tôi. Sự lựa chọn của chúng tôi để đào tạo một mô hình phân loại hình ảnh cho phép điểm chuẩn giao thức chống lại các kỹ thuật hiện đại trong học tập tập trung. Thiết lập không liên kết, đảm bảo rằng mỗi khách hàng chỉ nhận được một số lượng mẫu giới hạn, trong đó các mẫu của mỗi khách hàng chỉ liên kết với một phần của các lớp tổng thể. Trong thiết lập như vậy, một khách hàng sẽ không bao giờ có thể huấn luyện một mô hình nắm bắt tất cả các lớp được cung cấp dữ liệu riêng lẻ. Chúng tôi đặt ra hai yêu cầu cho quy trình học tập liên kết riêng tư khác nhau:

  • Cho phép khách hàng cùng tìm hiểu một mô hình đạt độ chính xác phân loại cao
  • Trong quá trình học, hãy ẩn dữ liệu mà khách hàng cá nhân đang giữ để bảo vệ quyền riêng tư

Sự tìm kiếm của chúng ta

Cuối cùng, công việc của chúng tôi đưa ra hai đóng góp. Đầu tiên, chúng tôi chứng minh rằng khi có đủ số lượng các bên tham gia, thuật toán của chúng tôi đạt được độ chính xác mô hình cao tương đương với các mô hình trong một thiết lập học tập tập trung. Đồng thời, mô hình đề xuất của chúng tôi vẫn riêng tư ở cấp độ khách hàng. Mặc dù các nghiên cứu khác cho thấy kết quả tương tự, thiết lập thử nghiệm của chúng tôi khác nhau do sự tích hợp riêng biệt của các biện pháp bảo mật cấp độ phần tử. Thứ hai, chúng tôi đề xuất một sự thích ứng năng động của cơ chế bảo toàn quyền riêng tư khác biệt trong quá trình học tập phi tập trung để tăng thêm hiệu suất mô hình. Mặc dù điều này sửa đổi các kết quả mới nhất áp dụng quyền riêng tư khác biệt trong cài đặt tập trung, chúng tôi lập luận rằng trong các cài đặt học tập liên kết, độ dốc hiển thị độ nhạy khác nhau đối với nhiễu và kích thước lô.

Nói chung, những phát hiện của chúng tôi có thể áp dụng cho các ngành công nghiệp đa dạng. Một ngày nào đó, cách tiếp cận nghiên cứu có thể cho phép các công ty cùng tìm hiểu các mô hình dự đoán hoặc, như trong ví dụ của chúng tôi, giúp nhiều bệnh viện đào tạo các mô hình chẩn đoán. Thuật toán đề xuất sẽ cho phép các tác nhân đa dạng này được hưởng lợi từ một mô hình phổ quát được học với dữ liệu từ nhiều người đóng góp ngang hàng mà không cần tập trung dữ liệu hoặc có nguy cơ lộ thông tin cá nhân.

Chúng tôi đã trình bày những tiến bộ của chúng tôi trong việc bảo vệ quyền riêng tư trong học tập phi tập trung tại hội thảo NIPS 2017: Học máy trên điện thoại và các thiết bị tiêu dùng khác. Dưới đây bạn có thể thấy poster của chúng tôi được trình bày tại NIPS. Thông tin chi tiết có thể được tìm thấy ở đây.

Để biết thêm chi tiết về công việc của chúng tôi, vui lòng tham khảo nghiên cứu ban đầu: https://arxiv.org/abs/1712.07557