Đánh giá giấy tờ Deep Learning - Universal Adversarial Patch

Trong bài viết này, ban đầu tôi sẽ thảo luận về việc tạo ra các hình ảnh đối nghịch và sau đó tôi sẽ dần dần điều khiển cuộc thảo luận về một bài báo thú vị được xuất bản bởi các nhà nghiên cứu tại Google Brain về Bản vá hình ảnh đối nghịch (https://arxiv.org/pdf/1712.09665 .pdf). Bài viết này trình bày một bản vá hình ảnh chung, khi được thêm vào hình ảnh sẽ khiến bất kỳ Mạng thần kinh nào phân loại sai chúng. Các tác giả của bài báo đã chứng minh điều này thông qua một video youtube:

Trước tiên, hãy tìm hiểu tại sao những đối thủ như vậy có thể được hình thành ngay từ đầu.

Điểm yếu của mạng lưới thần kinh

Mạng nơ-ron sâu chắc chắn đã tạo ra kết quả chính xác cao về độ chính xác cao cho việc nhận dạng đối tượng gần đây. Tuy nhiên, người ta có thể làm cho Mạng thần kinh phân loại sai một hình ảnh với nhiễu loạn tối thiểu. Hãy cùng xem các lý do có thể:

  • Deep Neural Nets được đào tạo trên một tập hợp dữ liệu cố định và do đó, các phép biến đổi thành các tín hiệu đầu vào như dịch hoặc xoay có thể khiến nó bị phân loại sai. Điều này cũng có nghĩa là, một lượng nhiễu nhỏ được thêm vào tín hiệu đầu vào có thể khiến nó bị phân loại sai. Ví dụ: thêm một lượng nhiễu nhỏ vào hình ảnh đầu vào có thể khiến Mạng thần kinh phân loại sai hình ảnh mặc dù mắt người sẽ không nhận thấy bất kỳ thay đổi nào trong hình ảnh. Hình ảnh này sẽ cho bạn một ý tưởng:

[Gần đây có một số công việc trên Capsule Networks của Geoff Hinton, bất biến đối với các phép biến đổi hình ảnh. Tuy nhiên, viên nang dễ bị tổn thương trước các loại tấn công nghịch cảnh khác. Và thậm chí Convnets có ít nhiều quy mô và biến đổi bất biến]

  • Ngoài ra, ngày nay các phân loại dựa trên nền tảng Deep Deep Learning cũng chủ yếu là tuyến tính. Ngay cả các chức năng kích hoạt phổ biến nhất như ReLu (và các biến thể của nó) là một phần tuyến tính. Các chức năng kích hoạt khác như Sigmoid và Tanh được loại trừ ở đây vì chúng gây ra các vấn đề như vấn đề Gradient Vanishing Gradient. Mặc dù Mạng nơ-ron là các phân loại phi tuyến tính của Hồi giáo, nhưng chúng đạt được điều này được gọi là phi tuyến thông qua nhiều vùng Tuyến tuyến

Những điểm yếu này của Mạng lưới thần kinh đã dẫn đến toàn bộ một lĩnh vực được gọi là Học tập sâu Adversarial Deep Learning (nói chung

Tạo hình ảnh nghịch cảnh

Việc tạo các hình ảnh đối nghịch để đánh lừa bộ phân loại Mạng thần kinh là một vấn đề mới. Đã có rất nhiều phương pháp được đề xuất trong quá khứ để tạo ra các ví dụ đối nghịch. Cách đơn giản nhất để làm điều này là thay đổi giá trị của từng pixel của hình ảnh cho đến khi xác suất của một lớp mới được tối đa hóa. Về mặt toán học,

Phương trình toán học đơn giản để xây dựng hình ảnh nghịch cảnh

(Hầu hết các nhà nghiên cứu thường thay thế thuật ngữ xác suất trên bằng xác suất đăng nhập)

Ngoài ra còn có các phương pháp lặp dựa trên độ dốc như, Phương pháp ký hiệu độ dốc nhanh (FGSM), phương pháp ký hiệu độ dốc lặp và Phương pháp lớp có khả năng lặp lại ít nhất để tạo ra các ví dụ đối nghịch. Các phương thức này chủ yếu sử dụng độ dốc của chi phí (J) của lớp đầu ra đối với hình ảnh đầu vào, để thay đổi lặp lại hình ảnh đầu vào dựa trên độ dốc. Chúng ta hãy xem xét phương trình toán học của FGSM:

FGSM

Tóm lại, FGSM lặp đi lặp lại tăng tín hiệu đầu vào thêm một lượng nhỏ theo hướng của độ dốc của chi phí so với đầu vào.

Ngoài các kỹ thuật trên, tất nhiên còn có các GAN phổ biến (Mạng đối thủ tạo) để tạo hình ảnh đối nghịch.

Mặc dù các phương pháp trên tạo ra các ví dụ đối nghịch thỏa đáng, nhưng chúng không đủ mạnh để làm việc trên các hình ảnh được chuyển đổi tương đương. Bài viết này có tiêu đề Cơ chế dựa trên Foveation làm giảm bớt các ví dụ bất lợi của Luo et. al, cho thấy các ví dụ đối nghịch ở trên thất bại khi chúng bị cắt dọc theo đối tượng quan tâm (Foveat). Điều này là do, Convnets rất mạnh đối với việc mở rộng và dịch. Nhưng, một quy tắc chuyển đổi như vậy không áp dụng cho nhiễu hoặc nhiễu loạn được thêm vào hình ảnh, tức là, nhiễu loạn đã đủ mạnh để đánh lừa Convnet ngay cả khi hình ảnh bị biến đổi. Một bài báo khác có tiêu đề là KHÔNG cần phải lo lắng về các ví dụ bất lợi trong phát hiện đối tượng trong xe tự hành, có ý định gần như tương tự.

Vì vậy, thậm chí có thể tạo ra một tập hợp các hình ảnh nghịch cảnh mạnh mẽ? Vâng, gần đây đã có một số bài báo thú vị thảo luận về việc tạo ra các ví dụ đối nghịch mạnh mẽ. Chúng tôi sẽ xem xét một số trong số họ:

  • Tổng hợp các ví dụ đối nghịch mạnh mẽ (thông qua Kỳ vọng chuyển đổi)
  • Miếng dán đối nghịch
  • Hướng tới các cuộc tấn công ví dụ bất khả xâm phạm và mạnh mẽ chống lại mạng lưới thần kinh

Chúng tôi chủ yếu nhìn vào 2 bài báo đầu tiên.

Kỳ vọng chuyển đổi (EOT)

Công việc từ bài báo đầu tiên (tức là, Tổng hợp các ví dụ đối nghịch mạnh mẽ), tạo ra các ví dụ đối nghịch đủ mạnh để đánh lừa một bộ phân loại Mạng thần kinh dưới hầu hết các biến đổi hình ảnh. Về cơ bản, điều xảy ra ở đây là, xác suất dự kiến ​​của một lớp được tối đa hóa, trên tất cả các hàm biến đổi có thể (t ~ T), với một ràng buộc về khoảng cách hiệu quả được mong đợi giữa ảnh gốc bị biến đổi và ảnh bị biến đổi. Hãy cố gắng để hiểu điều đó có nghĩa là gì.

Trong EOT, hình ảnh đã cho trước tiên được thực hiện bằng cách sử dụng một trong các phương pháp được đề cập ở trên. Bây giờ, chúng tôi xác định một không gian biến đổi ’T, nơi chứa các biến đổi như xoay, chia tỷ lệ, dịch thuật, v.v. Sau đó, chúng tôi tính toán kỳ vọng về xác suất đăng nhập của nhãn lớp mong muốn của chúng tôi. Đây là những gì nó trông giống như toán học:

Xác suất log dự kiến ​​của lớp mong muốn được đưa ra các phép biến đổi

Sau đó, chúng tôi cố gắng tối đa hóa xác suất dự kiến ​​này trong một ràng buộc rằng khoảng cách hiệu quả được mong đợi giữa ảnh gốc bị biến đổi và hình ảnh nhiễu được chuyển đổi nhỏ hơn một số giá trị ‘ε. Vì vậy, bằng cách xem xét xác suất dự kiến ​​(hoặc xác suất đăng nhập), chúng tôi sẽ tính toán cho tất cả các biến đổi có trong không gian Chuyển đổi. Và hạn chế là đảm bảo rằng các hình ảnh được tạo ra càng gần với chuyển đổi ban đầu. Đây là những gì phương trình cuối cùng trông giống như:

Miếng dán đối nghịch

Từ video trên, chúng tôi thấy rõ rằng chúng tôi đang tìm kiếm một bản vá hình ảnh Universal Universal, khi được thêm vào bất kỳ hình ảnh nào sẽ làm cho Mạng thần kinh phân loại sai hình ảnh. Đối với điều này, một toán tửA () được xác định đầu tiên. Toán tử A lấy một bản vá, một hình ảnh, phối hợp trong hình ảnh (để đặt bản vá) và các phép biến đổi như dịch, xoay và chia tỷ lệ sẽ được áp dụng trên bản vá.

Một trực giác đằng sau toán tử ‘A xông

Để tìm bản vá tối ưu, Kỳ vọng chuyển đổi được sử dụng cho một nhãn nhất định để tối đa hóa xác suất phân loại sai. Về mặt toán học, nó trông như thế này:

Bài báo gốc đã sử dụng Toaster Toaster là lớp đối thủ và bản vá cuối cùng trông như thế này:

Một hạn chế về bản vá nghịch cảnh này là, bạn có thể lừa các mô hình phát hiện đối tượng (các mô hình nhận dạng các đối tượng khác nhau trong một hình ảnh). Ví dụ: gần đây tôi đã cố gắng tải lên một hình ảnh với bản vá này lên Facebook (: P). Vì Facebook liệt kê tất cả các dự đoán về hình ảnh trong thuộc tính alt của thẻ img chứa nó, bạn có thể kiểm tra dự đoán của nó ngay khi bạn tải lên hình ảnh. Đây là những gì tôi đã thử:

Trái: Bài đăng trên facebook của tôi, Phải: Công cụ Chrome Dev

(: P)

[Bài viết thứ 3 trong danh sách trên, tức là, Hướng tới các cuộc tấn công ví dụ bất khả xâm phạm và mạnh mẽ chống lại mạng lưới thần kinh đối với mạng lưới thần kinh. Trong bài báo đó, họ đã tính đến hệ thống nhận thức của con người trong khi tạo ra các ví dụ đối nghịch]

Tóm lược

  • Tạo nội dung nghịch cảnh: Về cơ bản, chúng tôi tăng xác suất phân loại sai bằng cách thêm tiếng ồn. Một số kỹ thuật phổ biến như FGSM sử dụng dấu hiệu của độ dốc của chi phí để thêm tiếng ồn
  • Điểm yếu: Những phương thức đó không đủ mạnh để giúp đánh lừa mạng nơ-ron khi hình ảnh nhiễu loạn đầu vào được chuyển đổi (arxiv: 1511,06292 và arxiv: 1707.03501)
  • Kỳ vọng về chuyển đổi: Trước tiên chúng tôi tạo ra một hình ảnh đối nghịch bằng một trong các phương pháp trên. Sau đó, chúng tôi tối đa hóa xác suất nhật ký dự kiến ​​của một lớp, cho một chuyển đổi nhất định của hình ảnh nhiễu loạn. Kỳ vọng này vượt qua tất cả các biến đổi trong không gian biến đổi T
  • Adversarial patch: Xác định toán tử ’Một biểu tượng áp dụng một bản vá vào hình ảnh đã cho. Sau đó, Kỳ vọng chuyển đổi được sử dụng để tối đa hóa xác suất đăng nhập của một lớp mới, trong điều kiện ràng buộc là nó không lệch quá nhiều so với bản vá bắt đầu