Cách xây dựng đạo đức vào AI - Phần II

Các khuyến nghị dựa trên nghiên cứu để giữ nhân loại trong AI

iStock của Getty Images Tín dụng: AndreyPopov

Đây là phần hai của loạt bài hai phần về cách xây dựng đạo đức vào AI. Phần I tập trung vào việc trau dồi văn hóa đạo đức trong công ty và nhóm của bạn, cũng như minh bạch trong công ty của bạn và bên ngoài. Trong bài viết này, chúng tôi sẽ tập trung vào các cơ chế để loại trừ khỏi dữ liệu và thuật toán của bạn. Trong tất cả các can thiệp hoặc hành động chúng ta có thể thực hiện, các tiến bộ ở đây có tỷ lệ thay đổi cao nhất. Các cách tiếp cận mới để xác định và giải quyết sự thiên vị trong dữ liệu và thuật toán tiếp tục xuất hiện, điều đó có nghĩa là khách hàng phải bám sát công nghệ mới nổi này.

Xóa loại trừ

Có nhiều cách để thiên vị xâm nhập vào một hệ thống AI. Để sửa chúng, cần phải nhận ra chúng ngay từ đầu.

Hiểu các yếu tố liên quan

Xác định các yếu tố nổi bật và có thể thay đổi trong (các) thuật toán của bạn.

Các ứng dụng cho vay kỹ thuật số lấy hàng tấn dữ liệu thay thế từ một thiết bị di động, chẳng hạn như mẫu vị trí hàng ngày, hoạt động truyền thông xã hội, chấm câu của tin nhắn văn bản hoặc có bao nhiêu liên hệ của họ có họ để phê duyệt hoặc từ chối cho vay hoặc tính lãi suất cao hơn. Ví dụ, người hút thuốc và người dùng internet đêm rất tệ trong việc trả nợ. Dữ liệu này thường được thu thập mà không có nhận thức của người dùng vì quyền được chôn vùi trong các điều khoản dịch vụ (ĐKDV).

Cả kỹ sư và người dùng cuối đều không thoải mái với hộp đen của người dùng. Họ muốn hiểu các yếu tố đầu vào đã đưa ra các khuyến nghị. Tuy nhiên, có thể gần như không thể giải thích chính xác làm thế nào một AI đưa ra một khuyến nghị. Trong ví dụ cho vay ở trên, điều quan trọng cần nhớ là mối tương quan không có quan hệ nhân quả và suy nghĩ nghiêm túc về các kết nối được rút ra khi các quyết định quan trọng được đưa ra, ví dụ, phê duyệt cho vay mua nhà.

Các yếu tố mà khi bị thao túng sẽ làm thay đổi nghiêm trọng kết quả của khuyến nghị AI AI là gì? Bằng cách hiểu các yếu tố được sử dụng và bật / tắt chúng, người sáng tạo và người dùng có thể thấy mỗi yếu tố ảnh hưởng đến AI và dẫn đến quyết định sai lệch.

Hướng dẫn này của Christoph Molnar để làm cho các mô hình hộp đen có thể giải thích được là một nỗ lực đào sâu hơn. Một phương pháp khác đã được các nhà nghiên cứu của Google thể hiện vào năm 2015. Họ đã thiết kế một thuật toán nhận dạng hình ảnh dựa trên học tập sâu để thay vì phát hiện các đối tượng trong ảnh, nó sẽ tạo hoặc sửa đổi chúng để khám phá các tính năng mà chương trình sử dụng để nhận dạng chuông. hoặc đối tượng khác.

Nhóm thiết kế bao gồm Microsoft Idaho đã thêm vào các công cụ thiết kế của họ và xử lý một bộ hướng dẫn để nhận ra loại trừ trong AI. Các khuyến nghị còn lại trong phần này được lấy cảm hứng từ bài viết Trung bình của họ về năm loại sai lệch này.

Ngăn chặn dữ liệu thiên vị

Xác định ai hoặc những gì đang bị loại trừ hoặc thể hiện quá mức trong tập dữ liệu của bạn, tại sao họ bị loại trừ và làm thế nào để giảm thiểu nó.

Thực hiện tìm kiếm trên Google trên Thanh thiếu niên da trắng 3 tuổi và sau đó trên Thanh thiếu niên da đen 3 và bạn sẽ thấy hầu hết các bức ảnh dành cho thanh thiếu niên da trắng và chủ yếu là ảnh chụp cốc cho thanh thiếu niên da đen. Đây là kết quả của việc thiếu hình ảnh thiếu niên da đen trong bộ dữ liệu nhưng thật dễ dàng để thấy một hệ thống AI sẽ đưa ra kết luận thiên vị về khả năng một thiếu niên da đen và da trắng bị bắt nếu được đào tạo chỉ trong bộ dữ liệu này.

Sự sai lệch dữ liệu dẫn đến kết quả quá mức hoặc không đúng mức của một nhóm. Ví dụ: tập dữ liệu của bạn có thể có trọng số lớn đối với người dùng cao cấp nhất của bạn, dưới đại diện cho phần còn lại của dân số người dùng của bạn. Kết quả có thể là tạo ra một sản phẩm hoặc dịch vụ mà người dùng quyền lực của bạn yêu thích trong khi không bao giờ cho những người dùng còn lại của bạn cơ hội phát triển và phát triển. Vì vậy, cái này trông như thế nào và làm thế nào để bạn sửa nó?

  • Điều gì: Phần lớn tập dữ liệu của bạn được đại diện bởi một nhóm người dùng.
    Cách thực hiện: Sử dụng các phương pháp như học tập nhạy cảm với chi phí, thay đổi phương pháp lấy mẫu và phát hiện bất thường để đối phó với các lớp mất cân bằng trong học máy.
  • Điều gì: Các mẫu thống kê áp dụng cho đa số có thể không hợp lệ trong một nhóm thiểu số.
    Cách thực hiện: Tạo các thuật toán khác nhau cho các nhóm khác nhau thay vì một kích cỡ phù hợp với tất cả.
  • Điều gì: Danh mục hoặc nhãn quá mức các điểm dữ liệu và có thể sai đối với một số phần trăm dữ liệu.
    Cách thực hiện: Đánh giá bằng cách sử dụng tính công bằng đối với đường dẫn cụ thể. Đây là một hình thức ra quyết định cho các máy móc trong đó phán đoán về ai đó được xác định là công bằng nếu nó đưa ra phán quyết tương tự nếu người đó thuộc một nhóm nhân khẩu học khác dọc theo con đường không công bằng, (ví dụ: nếu phụ nữ là đàn ông, hoặc một người đàn ông da trắng có màu đen), như Parmy Olson giải thích.
  • Điều gì: Xác định ai đang bị loại trừ và ảnh hưởng đến người dùng cũng như điểm mấu chốt của bạn. Bối cảnh và văn hóa có vấn đề nhưng có thể không thể thấy được điều đó trong các dữ liệu.
    Làm thế nào: Xác định những ẩn số chưa biết, theo đề xuất của các nhà nghiên cứu tại Stanford và Microsoft Research.

Ngăn chặn hiệp hội

Xác định xem dữ liệu đào tạo hoặc nhãn của bạn đại diện cho các bản mẫu (ví dụ: giới tính, dân tộc) và chỉnh sửa chúng để tránh phóng đại chúng.

Trong một bộ dữ liệu ảnh được sử dụng để huấn luyện các hệ thống AI nhận dạng hình ảnh, các nhà nghiên cứu nhận thấy bộ dữ liệu có nhiều phụ nữ hơn nam giới trong các bức ảnh liên quan đến nấu ăn, mua sắm và giặt giũ trong khi các bức ảnh có lái xe, chụp và huấn luyện có nhiều nam hơn nữ.

Sự thiên vị của hiệp hội là khi dữ liệu được sử dụng để huấn luyện một mô hình duy trì và phóng to một khuôn mẫu, điều này không giới hạn đối với hình ảnh. Ví dụ: trong các ngôn ngữ trung tính về giới tính như tiếng Thổ Nhĩ Kỳ, Google Dịch thể hiện sự thiên vị về giới tính bằng cách ghép nối với anh ấy với những từ như chăm chỉ, bác sĩ, chuyên gia và người hâm mộ Người giữ trẻ và người giữ trẻ. Sự thiên vị tương tự cũng đã được tìm thấy trong tìm kiếm của Google News.

Thật không may, các ứng dụng học máy sử dụng các bộ dữ liệu thiên vị này sẽ khuếch đại những thành kiến ​​đó. Trong ví dụ về ảnh, bộ dữ liệu có phụ nữ nhiều hơn 33% so với nam giới trong các bức ảnh liên quan đến nấu ăn nhưng thuật toán đã khuếch đại độ lệch đó lên 68%! Đây là kết quả của việc sử dụng các mô hình phân biệt (trái ngược với các mô hình thế hệ), giúp tăng độ chính xác của thuật toán bằng cách khuếch đại tổng quát hóa (độ lệch) trong dữ liệu. Laura Douglas giải thích quá trình này rất hay nếu bạn muốn tìm hiểu thêm.

Kết quả của việc khuếch đại sai lệch có nghĩa là chỉ đơn giản là để các bộ dữ liệu như là vì nó đại diện cho thực tế trực tuyến (ví dụ, 91% y tá ở Mỹ là nữ) không phải là phương pháp phù hợp vì AI làm sai lệch quan điểm đã mất cân bằng. Điều này khiến mọi người khó nhận ra rằng ngày nay có rất nhiều y tá nam trong lực lượng lao động và họ có xu hướng kiếm được mức lương cao hơn so với phụ nữ.

Các nhà nghiên cứu đã tìm ra cách khắc phục cho sai lệch không công bằng trong khi vẫn duy trì độ chính xác bằng cách giảm khuếch đại sai lệch giới tính bằng cách sử dụng các ràng buộc ở cấp độ văn bản và nhúng từ. Nếu hệ thống AI của bạn học theo thời gian, bạn cần phải thường xuyên kiểm tra kết quả của hệ thống để đảm bảo rằng sự thiên vị không một lần nữa len lỏi vào tập dữ liệu của bạn. Giải quyết sai lệch không phải là sửa chữa một lần; nó đòi hỏi sự cảnh giác liên tục.

Kết quả của việc khuếch đại sai lệch có nghĩa là chỉ đơn giản là để các bộ dữ liệu như là vì nó đại diện cho thực tế của LÊNH không phải là cách tiếp cận đúng vì AI làm sai lệch quan điểm đã mất cân bằng.

Ngăn chặn xác nhận thiên vị

Xác định xem sự thiên vị trong hệ thống có tạo ra một lời tiên tri tự đầy đủ và ngăn chặn sự tự do lựa chọn hay không.

Hệ thống AI của Compas được một số hệ thống tòa án sử dụng để dự đoán nguy cơ tái phạm tội hình sự đã bị kết án đã cho thấy cơ bản mang tính hệ thống đối với những người da màu dẫn đến việc từ chối tạm tha hoặc phạt tù lâu hơn.

Sự xác nhận thiên vị củng cố các định kiến ​​về một nhóm hoặc cá nhân. Điều này dẫn đến một buồng phản hồi bằng cách trình bày thông tin hoặc các tùy chọn tương tự như những gì một cá nhân đã chọn bởi họ hoặc cho họ trước đó. Trong ví dụ trên, một bài báo của ProPublica đã chứng minh rằng thuật toán mà Compas AI sử dụng có nhiều khả năng phân loại không chính xác các bị cáo da đen có nguy cơ tái cấp vốn cao và nhiều khả năng phân loại không chính xác các bị cáo da trắng có nguy cơ thấp. Một nghiên cứu khác cho thấy các công nhân Amazon Mechanical Turk chưa được đào tạo chỉ sử dụng sáu yếu tố để dự đoán tái phạm cũng chính xác như Compas sử dụng 157 yếu tố (tương ứng chính xác 67% so với 65%).

Ngay cả khi chủng tộc không phải là một trong những yếu tố được sử dụng, cả hai có nhiều khả năng dự đoán không chính xác rằng các bị cáo da đen sẽ tái cung cấp và các bị cáo da trắng sẽ không. Đó là bởi vì các điểm dữ liệu nhất định (ví dụ: thời gian ngồi tù) là một ủy quyền cho cuộc đua tạo ra các vòng phản hồi chạy trốn gây ảnh hưởng không tương xứng đến những người đã bị thiệt thòi về mặt xã hội.

Hệ thống Compas chỉ là một ví dụ nhưng một bộ phận dân số phải đối mặt với sự thiên vị tương tự từ nhiều hệ thống được thảo luận ở đây bao gồm chính sách dự đoán, ứng dụng cho vay, dịch vụ thuê xe và trợ lý AI. Người ta chỉ có thể tưởng tượng mức độ áp đảo của việc đối mặt với sự thiên vị và loại trừ trên nhiều mặt trận mỗi ngày. Cũng như các loại sai lệch khác, bạn phải kiểm tra kết quả của mình để xem xu hướng xảy ra, xác định các yếu tố sai lệch và sau đó loại bỏ chúng để phá vỡ các vòng phản hồi chạy trốn này.

Ngăn chặn xu hướng tự động hóa

Xác định khi các giá trị của bạn ghi đè lên các giá trị của người dùng và cung cấp các cách để người dùng hoàn tác nó.

Một cuộc thi sắc đẹp AI dự kiến ​​sẽ không thiên vị trong các đánh giá về cái đẹp nhưng gần như tất cả người chiến thắng đều là người da trắng.

Xu hướng tự động hóa buộc các giá trị đa số trên cộng đồng thiểu số, gây hại cho sự đa dạng và tự do lựa chọn. Các giá trị của các nhà sáng tạo hệ thống AI sau đó được duy trì. Trong ví dụ trên, một cuộc thi sắc đẹp AI được dán nhãn chủ yếu là khuôn mặt trắng là đẹp nhất dựa trên dữ liệu đào tạo. Các tiêu chuẩn sắc đẹp của châu Âu làm ảnh hưởng đến chất lượng ảnh của những người không phải là người châu Âu ngày nay, dẫn đến những bức ảnh về những người da đen bước ra ngoài phơi sáng và các hệ thống AI gặp khó khăn khi nhận ra chúng. Điều này lần lượt dẫn đến việc xúc phạm các nhãn (ví dụ: sự cố gorilla của Google Photos, Google) và thông báo (ví dụ: các máy ảnh thông minh của Hồi giáo hỏi người châu Á nếu họ chớp mắt). Tồi tệ hơn, hệ thống nhận dạng khuôn mặt của cảnh sát ảnh hưởng không tương xứng đến người Mỹ gốc Phi.

Để bắt đầu giải quyết sự thiên vị này, người ta phải bắt đầu bằng cách kiểm tra kết quả về độ lệch dựa trên giá trị (ví dụ: dữ liệu đào tạo thiếu tính đa dạng để đại diện cho tất cả người dùng hoặc dân số rộng hơn, nhãn chủ quan đại diện cho các giá trị của người tạo).

Trong ví dụ trước đây về việc các ứng dụng cho vay đưa ra quyết định dựa trên việc ai đó có hút thuốc hay không, câu hỏi phải được đặt ra nếu điều này đại diện cho giá trị của người sáng tạo hoặc phần lớn dân số (ví dụ: hút thuốc là xấu do đó người hút thuốc là xấu). Quay trở lại phân tích hệ thống xã hội để nhận phản hồi từ người dùng của bạn để xác định xem giá trị hoặc cân nhắc văn hóa của họ có bị ghi đè không. Người dùng của bạn sẽ thực hiện các đánh giá hoặc đề xuất tương tự như AI? Nếu không, sửa đổi dữ liệu huấn luyện, nhãn và thuật toán để thể hiện sự đa dạng của các giá trị.

Giảm thiểu thiên vị tương tác

Hiểu cách hệ thống của bạn học hỏi từ các tương tác thời gian thực và đặt kiểm tra tại chỗ để giảm thiểu mục đích xấu.

Inspirobot sử dụng AI và nội dung mà nó bỏ ra từ trang web để tạo ra các trích dẫn cảm hứng trên truyền hình trực tuyến nhưng kết quả từ kỳ lạ đến tàn nhẫn và tàn nhẫn.

Xu hướng tương tác xảy ra khi con người tương tác hoặc cố tình gây ảnh hưởng đến các hệ thống AI và tạo ra kết quả thiên vị. Người tạo ra Inspirobot sườn báo cáo rằng các trích dẫn bot bot là sự phản ánh những gì nó tìm thấy trên web và những nỗ lực của anh ta để kiểm duyệt xu hướng hư vô bot bot chỉ làm cho chúng tồi tệ hơn.

Bạn có thể không tránh được việc mọi người cố tình làm hại hệ thống AI của bạn, nhưng bạn nên luôn luôn tiến hành một trò chơi trước khi chết để xác định những cách mà hệ thống AI của bạn có thể bị lạm dụng và gây hại. Khi bạn đã xác định được khả năng lạm dụng, bạn nên đặt kiểm tra tại chỗ để ngăn chặn nếu có thể và khắc phục khi bạn có thể. Thường xuyên xem xét dữ liệu mà hệ thống của bạn đang sử dụng để tìm hiểu và loại bỏ các điểm dữ liệu sai lệch.

Bạn có thể không tránh được việc mọi người cố tình làm hại hệ thống AI của bạn, nhưng bạn nên luôn luôn tiến hành một trò chơi trước khi chết để xác định những cách mà hệ thống AI của bạn có thể bị lạm dụng và gây hại.

Đi đâu từ đây

Xu hướng trong AI là sự phản ánh sự thiên vị trong xã hội rộng lớn hơn của chúng ta. Xây dựng đạo đức vào AI đang khắc phục các triệu chứng của một vấn đề lớn hơn nhiều. Chúng ta phải quyết định như một xã hội mà chúng ta coi trọng sự bình đẳng và công bằng cho tất cả mọi người và sau đó biến nó thành hiện thực trong cuộc sống thực, không chỉ trong các hệ thống AI của chúng ta. AI có tiềm năng trở thành Nhà dân chủ vĩ đại hoặc để phóng đại sự bất công xã hội và bạn phải quyết định phía nào của phổ đó mà bạn muốn (các) sản phẩm của mình được sử dụng.

Cảm ơn Justin Tauber, Liz Balsam, Molly Mahar, Ayori Selassie và Raymon Sutingjo-The cho tất cả các phản hồi của bạn!

Theo dõi chúng tôi tại @SalesforceUX.

Muốn làm việc với chúng tôi không? Liên hệ với uxcareers@salesforce.com