Nhà máy chưng cất AI (Phần 1): Một cái nhìn chim chim về nghiên cứu AI

Các ống kính khác nhau để xem qua AI; động lực và giới thiệu cho ứng dụng web của chúng tôi

Lưu ý: Nếu bạn muốn robot trong nhà của bạn và muốn thấy điều đó xảy ra sớm hơn là sau đó, thì vui lòng thực hiện khảo sát rất ngắn của chúng tôi. Phản hồi của bạn giúp hướng dẫn các dự án nghiên cứu môi trường và robot mô phỏng của chúng tôi

Dành 3 phút thời gian của bạn: https://forms.gle/hPiP1p3sJ734Hzk19
Cám ơn sự tử tế của anh!

Tại MTank, chúng tôi hướng tới hai mục tiêu. (1) Mô hình và chắt lọc kiến ​​thức trong AI. (2) Tiến bộ trong việc tạo ra các máy thực sự thông minh. Là một phần của những nỗ lực này, chúng tôi phát hành các phần về công việc của chúng tôi để mọi người thưởng thức và học hỏi. Nếu bạn thích công việc của chúng tôi, thì vui lòng thể hiện sự hỗ trợ của bạn bằng cách theo dõi, chia sẻ và vỗ mông của bạn. Cảm ơn trước!

  • Phần 1: Một cái nhìn chim chim về nghiên cứu AI
  • Phần 2: Chưng cất bằng cách nhúng

Đây là gì và tại sao bạn làm điều đó?

Chào mừng bạn đến với phần đầu tiên của chúng tôi về Dự án chưng cất AI, nơi nhóm MTank của chúng tôi, thất vọng vì khối lượng nghiên cứu AI trên toàn cầu, đã cố gắng hack một giải pháp cho đống giấy tờ chưa đọc của chúng tôi hàng ngày. Trong blog tầm nhìn trước đây của chúng tôi, chúng tôi tinh nghịch và chính xác, mô tả khối lượng các ấn phẩm nghiên cứu AI toàn cầu là một ngọn lửa - với khối lượng cực kỳ lớn, nhưng là một phương tiện ngăn chặn cơn khát của họ đúng cách. Vì vậy, chúng tôi đã quyết định thử sức mình với lực lượng thủy lực để làm mới những hiểu biết về AI và các lĩnh vực liên quan khác nhau.

Lý do tại sao bạn hỏi? Chà, trước tiên, chúng tôi nghĩ rằng đó là một vấn đề thú vị. Thứ hai, chúng tôi đã nghe (và khớp) những cơn đau khổ bị tra tấn của các nhà nghiên cứu quẫn trí vì không thể theo kịp tiến độ, ngay cả trong các trường con bí mật nhất của AI. Thông thường, một nhà nghiên cứu cần phân chia thời gian giữa đọc, viết mã, quản trị viên, giảng dạy, v.v. Và đôi khi, khi cần viết một bài báo trước hạn chót, các tác giả đã thừa nhận rằng họ không đọc bất kỳ bài báo mới nào trong nhiều tháng một thời gian trong khi họ chuẩn bị cho trình của họ.

Ở một mức độ lớn, kiến ​​thức khoa học được phổ biến theo một định dạng chính: bài báo khoa học. Gần đây, các kho lưu trữ trực tuyến công cộng cho phép trích dẫn, như ArXiv, đã trở thành một phương pháp được áp dụng rộng rãi để nhanh chóng xuất bản nội dung khoa học (xem tweet của Yann LeCun chanh). Các bài báo vẫn giữ tính ưu việt về cách chúng ta chuyển giao kiến ​​thức trong khoa học, một mô hình vẫn chưa thay đổi một cách có ý nghĩa. Những bài báo này được chấp nhận cho các tạp chí và hội nghị, hoặc chỉ được phổ biến từ phương tiện truyền thông xã hội một mình. Hiện tại, ArXiv là nơi phần lớn các bài báo lớn nhất trong AI xuất hiện trước khi đánh giá ngang hàng.
Trong một câu, mục tiêu của chúng tôi là:
Tự động mô hình hóa và chắt lọc kiến ​​thức trong AI

Mục tiêu này là lớn, mơ hồ và hoàn hảo cho loại công việc chúng tôi muốn hoàn thành trong vài năm tới. Tất nhiên, nó bao gồm các công việc chúng tôi đã thực hiện thủ công trong hai ấn phẩm khảo sát trước đây của chúng tôi: A Year in Computer Vision và Multi-Modal Phương thức. Các ấn phẩm, trong khi viết, khiến chúng tôi phải vật lộn để thử và thêm các bài báo hiện đại nhất và gần đây nhất (SOTA) trong các trường con này, cho đến khi chúng tôi nhận ra điều đó là vô ích.

Con quái vật lờ mờ về sự tiến bộ của AI không ngừng thúc đẩy khi chúng ta cố gắng tiêu hóa, định lượng và viết về những cuộc phiêu lưu của nó. Tuy nhiên, đối với Nhà máy chưng cất AI, mục đích là mở rộng cách tiếp cận của chúng tôi và giải quyết nghiên cứu từ một góc độ khác - chúng tôi sẽ đưa mắt của bạn vào từ một cách tự động.

Có lẽ đó là thời gian để ứng dụng AI vào AI, và tự động hóa việc sắp xếp và so sánh kiến ​​thức trong lĩnh vực này? Chúng tôi biết có rất nhiều tài nguyên tuyệt vời dành riêng cho nghiên cứu AI, ví dụ như distill.pub, nhưng quá trình biên dịch, chỉnh sửa và sáng tạo của các tài nguyên đó rất tốn thời gian. Có cách nào khác để tạo ra cái nhìn sâu sắc gần như thụ động?
Lĩnh vực Khoa học Mạng khá chuyên dụng để nghiên cứu và tìm kiếm các mối quan hệ trong các mạng trích dẫn lớn. Arxiv-sanity, một trong những nguồn cảm hứng lớn nhất của chúng tôi, giúp mọi người cuối cùng tìm kiếm các giấy tờ họ đang tìm kiếm hoặc giới thiệu các giấy tờ họ có thể thích. Đó là một kiểm tra cho khả năng tìm kiếm và tự động hóa.

Nhưng chúng tôi rất quan tâm đến trò chơi nghiên cứu meta - bản thân nghiên cứu của chúng tôi có thể nói gì về nghiên cứu AI? Trường hợp tất cả các trường đại học, khởi nghiệp và nhiệt tình ngành công nghiệp này đứng đầu? Những lĩnh vực nào đang hợp tác nhiều nhất? Cái gì nóng hổi ngay bây giờ, và cái gì sẽ sớm được nghiên cứu khôn ngoan?

Chúng tôi không biết, nhưng theo dõi và có thể chúng tôi sẽ cùng nhau tìm hiểu.

Vấn đề từ góc độ truy xuất thông tin (IR)

Các tình huống khác nhau đòi hỏi các phương pháp khác nhau để lấy thông tin. Tiến hành tìm kiếm khám phá là khó khăn trong các hệ thống IR tiêu chuẩn vì thuật ngữ có thể khác nhau ngay cả trong các lĩnh vực liên quan chặt chẽ (phân tích mạng so với mạng thần kinh đồ thị). Làm thế nào để tìm các cụm từ tương tự mà không biết bạn đang tìm kiếm cái gì? Làm thế nào để tìm các giấy tờ liên quan đến ý tưởng mới của bạn trong rừng các giấy tờ GAN?

Xử lý ngôn ngữ tự nhiên hiện đại đã mang lại các công cụ để tiến hành các loại tìm kiếm khám phá này, chúng ta chỉ cần áp dụng chúng cho dữ liệu từ các nguồn có giá trị, chẳng hạn như ArXiv. Do đó, chúng tôi mong muốn cung cấp thông tin có ý nghĩa nhất, nhanh nhất và chính xác nhất có thể. Bằng cách này, các nhà nghiên cứu và các học viên sẽ được giải tỏa khỏi kỹ thuật truy vấn rườm rà và tìm kiếm thông tin họ cần từ kho giấy tờ lớn.

Phác thảo một bộ dữ liệu

Số lượng giấy tờ được thêm vào ArXiv mỗi tháng kể từ năm 2014. Năm 2018, hơn 1000 giấy tờ đã được phát hành trên ArXiv mỗi tháng trong các lĩnh vực trên. Hàng tháng trừ tháng giêng. Hơn 2000 giấy tờ đã được phát hành vào tháng 11.

Để bắt đầu cho mục tiêu cao cả của chúng tôi, chúng tôi đã sử dụng cơ sở mã arxiv-sanity (được tạo bởi Andrej Karpathy) để thu thập ~ 50.000 giấy từ API ArXiv được phát hành từ năm 2014 trở đi và trong các lĩnh vực của cs. [CV | CL | LG | AI | NE] hoặc stat.ML. Kudos cho cả hai hệ thống này, vì các tài nguyên nguồn mở đáng kinh ngạc như vậy đưa chúng ta đến một điểm mà bất kỳ ai cũng có thể truy cập vào kiến ​​thức này. Tuy nhiên, ít nhất một ngoại lệ nhỏ đã phát sinh như là kết quả:

Làm thế nào để chúng ta tìm thấy những gì chúng ta cần nếu có quá nhiều giấy tờ [chết tiệt]?

Chà, có lẽ có một cách để hình dung các bài báo, cũ và mới, trong bối cảnh nghiên cứu xung quanh chúng. Đó là, không chỉ là chính trường con, mà là các tổ khác nhau mà nó sinh sống. Thăm dò trở nên dễ dàng hơn, khám phá và điều hướng được hỗ trợ, đáng kể một cách bất thường, bằng cách trước tiên biết nơi bạn ở trong không gian của giấy tờ và kiến ​​thức bạn đang ở và những gì xung quanh bạn.

Thanh lọc văn bản

~ 50000 giấy đã được chia nhỏ bằng pdf2text. Chúng tôi đã xóa các từ khóa (ví dụ: một số lượt, một số ít, một số ít, các mã thông báo xuất hiện ít hơn một ngưỡng thời gian (ví dụ: 5 hoặc 30 - khác nhau cho mỗi phương thức). Các bigrams phổ biến (Hồi deep_learningv) và trigram (khác convolutional_neural_networks tựa) là những gì chúng tôi muốn tìm hiểu về nhúng nhưng có một vấn đề do nổ liên hợp khi tạo n-gram.

Nói một cách đơn giản, chúng tôi muốn tránh học các nhúng cho bi-gram như Hồi và_the và và this this giấy tờ trong đó có hàng ngàn. Bởi vì, thậm chí đơn giản hơn, chúng không cung cấp giá trị trong bối cảnh nghiên cứu AI. Họ đại diện cho bản địa của giấy tờ nói chung.
Thay vào đó, chúng tôi đã xác định thủ công tập hợp các khái niệm quan trọng từ tập hợp lớn hơn của các mạng nơ-ron tái phát phổ biến nhất N-gram -, máy tính hỗ trợ vectơ, v.v. Như một cách tiếp cận đầu tiên, chúng tôi tìm thấy các khái niệm này trong văn bản và thay thế chúng với các mã thông báo khái niệm (convolutional_neural_networks, support_vector_machine).

AI Distillery: một ứng dụng web để khám phá nghiên cứu AI

Chúng tôi đã tạo một ứng dụng web, có sẵn thông qua ai-distillery.io, đây là nơi chúng tôi sẽ hiển thị phần lớn kết quả, công cụ, vật dụng, thông tin chi tiết, biểu đồ và hơn thế nữa. Sử dụng ứng dụng web, nó có thể khám phá một số mô hình được đào tạo của chúng tôi trên các bộ dữ liệu chúng tôi đã thu thập, cũng như cho phép mọi người khám phá các khái niệm liên quan, tìm các bài báo tương tự hoặc tìm hiểu tổng quan về từng xu hướng và theo dõi tiến trình của họ theo thời gian. Tổng cộng hiện có 6 trang có sẵn và chúng tôi dự định sẽ cập nhật điều này rất nhiều trong những tháng tới. Đó là:

Tìm kiếm trên giấy (Nhà máy chưng cất AI)

Tìm kiếm trên giấy: có chức năng tương tự như arxiv-sanity-preserver nhưng chúng tôi sử dụng thư viện tìm kiếm Whoosh để linh hoạt hơn và khả năng mở rộng. Ném một truy vấn và tìm các giấy tờ phù hợp nhất với truy vấn này.

Giấy lân cận (Nhà máy chưng cất AI)

Từ gần nhúng: tìm các từ tương tự về mặt ngữ nghĩa, ví dụ: Cấm CNNviết gần với mạng xã hội

Giấy nhúng gần: tìm các giấy tờ tương tự, ví dụ: Giấy Alex AlexNet có thể gần với giấy của GoogLeNet, hoặc nói chung, các giấy trong cùng một lĩnh vực sẽ có xu hướng gần hơn các giấy từ các trường riêng biệt.

Nhúng Visualisations (chưng cất AI)

Trực quan nhúng từ: Biểu đồ 2D T-SNE hiển thị các từ gần nhau trong không gian nhúng với các phương thức nhúng từ: Word2vec và fastText

Trực quan hóa nhúng giấy: Một biểu đồ T-SNE khác nhưng để trực quan hóa chính không gian nhúng giấy và với hai phương pháp nhúng được chọn của chúng tôi là LSA và doc2vec.

Biểu đồ và thông tin chi tiết bổ sung: Biểu đồ và thông tin chi tiết chúng tôi thấy thú vị và chúng tôi đã tạo ra trong suốt hành trình của mình, ví dụ: tác giả hàng đầu, giấy tờ hàng đầu, số lượng giấy phát hành mỗi tháng, vv
Một ví dụ về một số biểu đồ và thông tin chi tiết hệ thống của chúng tôi có thể tự động tạo ra từ một kho giấy ArXiv. Sự hiện diện của ‘GAN, trong các bài báo qua thời gian, chủ đề được xuất bản nhiều nhất, hầu hết các tác giả được trích dẫn, v.v.

Làm tròn

Chúng tôi sử dụng vũ khí tốt nhất của mình để chế ngự con thú tiến bộ AI, tức là với Flask, ReactJS, D3.js, ChartJS và Whoosh. Chúng tôi đã có một hành trình thú vị khi hoán đổi từ Heroku (quá ít RAM) sang Google Compute Engine (quá đắt cho quá ít RAM), trước khi cuối cùng lưu trữ phiên bản ứng dụng hiện tại với Hertzner.

Chúng tôi đã bắt đầu Nhà máy chưng cất AI với hai phương pháp nhúng giấy của YouTube, Phân tích ngữ nghĩa tiềm ẩn (LSA) và doc2vec - và hai thuật toán nhúng từ, word2vec và fastText. Trong phần tiếp theo của chúng tôi, chúng tôi sẽ hướng dẫn người đọc thông qua các phần nhúng này, cũng như từng trang mà chúng tôi tạo ra. Ngay bây giờ, hãy khám phá trang web (ai-distillery.io). Bạn có thể tìm thấy mã thử nghiệm của chúng tôi tại repo AI Distillery GitHub nơi chúng tôi đã sử dụng các khung như gensim, sklearn và spacy để thực hiện một số điều trên.

Như mọi khi, cảm ơn vì đã dành thời gian để đọc tác phẩm của chúng tôi. Và hãy thích, vỗ tay và chia sẻ công việc MTank với bất cứ ai bạn nghĩ có thể thích nó. Sự hỗ trợ của bạn giúp tất cả chúng ta có động lực để thử những điều mới và đóng góp hai xu của chúng tôi cho cộng đồng AI. Vì vậy, trong trường hợp này, don Patrick hãy vỗ tay nếu bạn thích những gì chúng tôi đang làm!

Nếu bạn muốn hợp tác với chúng tôi trong hành trình hoang dã của mình để làm cho tiến trình AI trở nên minh bạch hơn hoặc có bất kỳ nhận xét nào về bất kỳ phần nào trong nghiên cứu hoặc ứng dụng web của chúng tôi, chúng tôi sẵn sàng tiếp cận với các đề xuất để thoải mái tiếp cận trong phần bình luận hoặc qua email (info@themtank.com). Hãy để mắt đến Phần 2 của loạt bài này sắp ra mắt và phần đầu của loạt blog mới mà chúng tôi đã đề cập trong blog tầm nhìn của chúng tôi (Từ ly đến ý thức).