Bạn muốn hiểu về #AI Agent, cuốn sách (bài báo) này là một điều không thể tránh khỏi đối với mọi người. 'AGENT AI' của Li Fei-Fei, đây là cuốn sách mà tôi đã đọc trong năm nay có cảm giác hứng thú nhất và hướng tới tương lai, và việc hiểu toàn bộ nội dung không khó, không có thuật ngữ chuyên ngành sâu và logic thuật toán, xứng đáng với mọi người đọc, có liên kết đến toàn bộ nội dung ở cuối bài.
Tôi có thể chắc chắn nói với mọi người rằng: AI Agent là lĩnh vực đáng đầu tư nhất trong giai đoạn trung và cuối của trí tuệ nhân tạo (bất kể là trong thị trường chứng khoán Mỹ hay lĩnh vực Web3), đồng thời cũng là hướng tiếp cận gần gũi nhất với người tiêu dùng cuối cùng (To C), là lĩnh vực mà người dân thông thường có thể tiếp cận trực tiếp và sử dụng một cách quy mô lớn nhất.
Như mô tả trong bài báo mở đầu của nó: Tổng quan về hệ thống AI Agent, hệ thống này có thể nhận thức và hành động trong các lĩnh vực và ứng dụng khác nhau. AI Agent được coi là một phương pháp triển vọng dẫn tới Trí tuệ Nhân tạo Tổng quát (AGI). Đào tạo AI Agent đã chứng minh khả năng hiểu đa dạng trong thế giới vật lý. Nó cung cấp một khung cho việc đào tạo không liên quan đến thực tế, thông qua sự kết hợp giữa Trí tuệ Nhân tạo sinh học và nhiều nguồn dữ liệu độc lập. Chúng tôi đưa ra tổng quan chung của hệ thống trí tuệ nhân tạo đại diện có khả năng nhận thức và hành động trong nhiều lĩnh vực và ứng dụng khác nhau, như một mô hình đại diện dẫn tới AGI.
Trong bài viết, đã được đề cập đến tình trạng công nghệ, triển vọng ứng dụng và hướng phát triển tương lai của AI Agent trong giao互多模态 người-máy (HCI), và một số hướng công nghệ cốt lõi và đột phá được trưng bày từ đó, đáng để chúng ta suy nghĩ sâu hơn và khai thác, không chỉ để AI Agent dừng lại ở giao互 giọng nói, giao互 thị giác, phạm vi của nó còn rộng hơn:
Khái niệm và ý nghĩa cốt lõi của HCI đa chế độ
Giao diện người-máy đa cảm ứng thông qua việc tích hợp nhiều chế độ thông tin như giọng nói, văn bản, hình ảnh, cảm giác, vv., để thực hiện tương tác tự nhiên, linh hoạt và hiệu quả giữa con người và máy tính. Mục tiêu cốt lõi của công nghệ này là:
• Nâng cao tính tự nhiên và sự đắm chìm của tương tác.
• Mở rộng tính ứng dụng của cảnh tương tác giữa con người và máy móc.
• Thúc đẩy khả năng máy tính hiểu năng lực đa dạng của con người.
Hướng phát triển trong tương lai
Bài viết đã được tổ chức một cách hệ thống từ năm lĩnh vực nghiên cứu:
Giao tiếp trực quan hóa dữ liệu lớn
Khái niệm: Chuyển đổi dữ liệu phức tạp thành biểu đồ dễ hiểu, tăng cường trải nghiệm người dùng thông qua nhiều kênh cảm giác (tầm nhìn, cảm giác, thính giác, vv.).
Tiến triển:
• Khám phá dữ liệu trực quan dựa trên thực tế ảo (VR) và thực tế tăng cường (AR);
• Trong lĩnh vực y tế và nghiên cứu, sử dụng phản hồi về xúc giác (như phản hồi về lực và rung) để giúp người dùng hiểu rõ hơn về phân bố dữ liệu.
Ứng dụng:
• Giám sát thành phố thông minh: Hiển thị dữ liệu giao thông thành phố theo thời gian thực thông qua bản đồ nhiệt động.
• Phân tích dữ liệu y tế: Kết hợp phản hồi cảm giác để nghiên cứu dữ liệu đa chiều.
Tương tác dựa trên cảm nhận âm thanh
Khái niệm: Mảng micrô và thuật toán học máy được sử dụng để phân tích những thay đổi trong trường âm thanh trong môi trường để giúp cho phép tương tác giữa người và máy không trực quan.
Tiến triển:
• Cải thiện độ chính xác của công nghệ định vị nguồn âm thanh;
Công nghệ tương tác giọng nói chịu đựng tốt trong môi trường tiếng ồn.
Ứng dụng:
• Nhà thông minh: Điều khiển thiết bị bằng giọng nói, không cần tiếp xúc để hoàn thành nhiệm vụ.
• Công nghệ hỗ trợ người khuyết tật: cung cấp cách tương tác dựa trên âm thanh cho người dùng mắc các vấn đề về thị lực.
Tương tác vật lý thực tế hỗn hợp
Khái niệm: Sử dụng công nghệ thực tế kết hợp (MR) để kết hợp thông tin ảo với thế giới vật lý, người dùng có thể sử dụng các vật thể trong thực tế để tương tác với môi trường ảo.
Tiến triển:
• Tối ưu hóa tương tác vật thể ảo dựa trên cảm giác vật lý;
• Công nghệ ánh xạ đối tượng vật lý - ảo cao độ chính xác.
Ứng dụng:
• Đào tạo giáo dục: Đào tạo ngập tràn thực tế thông qua mô phỏng môi trường.
• Thiết kế công nghiệp: Sử dụng mô hình ảo để xác minh sản phẩm.
Tương tác có thể mặc được
Khái niệm:
Thiết bị có thể mặc như đồng hồ thông minh, thiết bị theo dõi sức khỏe, v.v., tương tác thông qua cử chỉ, chạm hoặc công nghệ điện tử da.
Tiến triển:
• Cải thiện độ nhạy và độ bền của cảm biến da;
• Thuật toán hợp nhất kênh nhiều tăng cường độ chính xác tương tác.
Ứng dụng:
• Giám sát sức khỏe: theo dõi nhịp tim, giấc ngủ và tình trạng vận động trong thời gian thực;
• Giải trí trò chơi: Điều khiển nhân vật ảo thông qua thiết bị đeo được.
Giao tiếp tương tác giữa con người và máy tính
Khái niệm:
Nghiên cứu các công nghệ nhận dạng giọng nói, nhận dạng cảm xúc, tổng hợp giọng nói, vv, để máy tính có thể hiểu và phản hồi tốt hơn với đầu vào ngôn ngữ của người dùng.
Tiến triển:
• Việc phổ biến mô hình ngôn ngữ lớn (như GPT) đã nâng cao đáng kể tính tự nhiên của hệ thống đối thoại;
• Độ chính xác của công nghệ nhận dạng cảm xúc giọng nói đã được cải thiện.
• Trợ lý thông minh: Phản hồi theo yêu cầu giọng nói cá nhân hóa.
Vì vậy, chúng tôi thấy rất nhiều dự án AI Agent, đặc biệt là trong lĩnh vực Web3, vẫn đa phần dừng lại ở mức trợ lý thông minh trong giao tiếp giữa con người và máy móc, như việc tweet suốt 24 giờ, trò chuyện bằng giọng nói AI đa dạng, hoặc trò chuyện cho người yêu. Nhưng gần đây, chúng tôi cũng quan sát thấy một số ứng dụng kết hợp AI trong lĩnh vực dữ liệu sức khỏe cơ thể, ví dụ như vòng cưới (cụ thể là công ty nào, tôi không nói, bạn có thể tự tìm kiếm, cũng như #Depin 项目+ #AI chuỗi công cộng hoặc ứng dụng, sẽ mang lại giá trị và sự thú vị hơn, và nhà đầu tư cũng sẽ thích hơn, cuối cùng thì chúng tôi đã đầu tư vào 2 công ty, cứng + mềm + AI, điều này sẽ là một hướng tiềm năng!
Lĩnh vực mà các doanh nghiệp công nghệ đang đầu tư mạnh
Mở rộng phương thức tương tác: Khám phá các phương pháp tương tác mới, chẳng hạn như nhận thức khứu giác và nhiệt độ, để nâng cao hơn nữa chiều kích của tích hợp đa phương thức.
Tối ưu hóa kết hợp đa mô đun: Thiết kế cách kết hợp đa mô đun hiệu quả, linh hoạt, giúp các chế độ khác nhau hoạt động cùng nhau một cách tự nhiên hơn.
Thu nhỏ thiết bị: Phát triển thiết bị nhẹ hơn, tiêu thụ ít năng lượng hơn để phù hợp với việc sử dụng hàng ngày.
Tương tác phân tán giữa các thiết bị: Nâng cao tính tương tác giữa các thiết bị, thực hiện tương tác đa thiết bị một cách liền mạch.
Nâng cao tính ổn định của thuật toán: Đặc biệt là trong môi trường mở, nâng cao tính ổn định và thời gian thực của thuật toán cảm nhận và hợp nhất đa dạng.
Các tình huống đáng đầu tư
• Y tế phục hồi: Giúp bệnh nhân tập luyện phục hồi và giải tỏa tâm lý thông qua phản hồi giọng nói, hình ảnh và xúc giác.
• Văn phòng giáo dục: cung cấp trợ lý văn phòng thông minh và nền tảng giáo dục cá nhân hóa, nâng cao hiệu suất và trải nghiệm.
• Mô phỏng quân sự: Kết hợp công nghệ thực tế ảo để mô phỏng chiến đấu và đào tạo chiến thuật.
• Giải trí và trò chơi: Xây dựng trải nghiệm trò chơi và giải trí sống động, tăng cường cảm giác tương tác giữa người dùng và môi trường ảo.
Tóm lại: Bài viết của Tiến sĩ Li, sử dụng các ứng dụng cảnh quan của AI Agent trong tương lai, tổ chức các công nghệ trung tâm của HCI đa chế độ một cách hệ thống và kết hợp với các ứng dụng thực tế và hướng nghiên cứu tương lai, để học AI, học AI không thể chậm trễ!
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Làm thế nào để sắp xếp tương lai tài chính thông qua AI Agent? Bài viết này sẽ đưa ra câu trả lời cho bạn
Tác giả gốc: Rocky
转载:Daisy,火星财经
Bạn muốn hiểu về #AI Agent, cuốn sách (bài báo) này là một điều không thể tránh khỏi đối với mọi người. 'AGENT AI' của Li Fei-Fei, đây là cuốn sách mà tôi đã đọc trong năm nay có cảm giác hứng thú nhất và hướng tới tương lai, và việc hiểu toàn bộ nội dung không khó, không có thuật ngữ chuyên ngành sâu và logic thuật toán, xứng đáng với mọi người đọc, có liên kết đến toàn bộ nội dung ở cuối bài.
Tôi có thể chắc chắn nói với mọi người rằng: AI Agent là lĩnh vực đáng đầu tư nhất trong giai đoạn trung và cuối của trí tuệ nhân tạo (bất kể là trong thị trường chứng khoán Mỹ hay lĩnh vực Web3), đồng thời cũng là hướng tiếp cận gần gũi nhất với người tiêu dùng cuối cùng (To C), là lĩnh vực mà người dân thông thường có thể tiếp cận trực tiếp và sử dụng một cách quy mô lớn nhất.
Như mô tả trong bài báo mở đầu của nó: Tổng quan về hệ thống AI Agent, hệ thống này có thể nhận thức và hành động trong các lĩnh vực và ứng dụng khác nhau. AI Agent được coi là một phương pháp triển vọng dẫn tới Trí tuệ Nhân tạo Tổng quát (AGI). Đào tạo AI Agent đã chứng minh khả năng hiểu đa dạng trong thế giới vật lý. Nó cung cấp một khung cho việc đào tạo không liên quan đến thực tế, thông qua sự kết hợp giữa Trí tuệ Nhân tạo sinh học và nhiều nguồn dữ liệu độc lập. Chúng tôi đưa ra tổng quan chung của hệ thống trí tuệ nhân tạo đại diện có khả năng nhận thức và hành động trong nhiều lĩnh vực và ứng dụng khác nhau, như một mô hình đại diện dẫn tới AGI.
Trong bài viết, đã được đề cập đến tình trạng công nghệ, triển vọng ứng dụng và hướng phát triển tương lai của AI Agent trong giao互多模态 người-máy (HCI), và một số hướng công nghệ cốt lõi và đột phá được trưng bày từ đó, đáng để chúng ta suy nghĩ sâu hơn và khai thác, không chỉ để AI Agent dừng lại ở giao互 giọng nói, giao互 thị giác, phạm vi của nó còn rộng hơn:
Giao diện người-máy đa cảm ứng thông qua việc tích hợp nhiều chế độ thông tin như giọng nói, văn bản, hình ảnh, cảm giác, vv., để thực hiện tương tác tự nhiên, linh hoạt và hiệu quả giữa con người và máy tính. Mục tiêu cốt lõi của công nghệ này là:
• Nâng cao tính tự nhiên và sự đắm chìm của tương tác.
• Mở rộng tính ứng dụng của cảnh tương tác giữa con người và máy móc.
• Thúc đẩy khả năng máy tính hiểu năng lực đa dạng của con người.
Bài viết đã được tổ chức một cách hệ thống từ năm lĩnh vực nghiên cứu:
Khái niệm: Chuyển đổi dữ liệu phức tạp thành biểu đồ dễ hiểu, tăng cường trải nghiệm người dùng thông qua nhiều kênh cảm giác (tầm nhìn, cảm giác, thính giác, vv.).
Tiến triển:
• Khám phá dữ liệu trực quan dựa trên thực tế ảo (VR) và thực tế tăng cường (AR);
• Trong lĩnh vực y tế và nghiên cứu, sử dụng phản hồi về xúc giác (như phản hồi về lực và rung) để giúp người dùng hiểu rõ hơn về phân bố dữ liệu.
Ứng dụng:
• Giám sát thành phố thông minh: Hiển thị dữ liệu giao thông thành phố theo thời gian thực thông qua bản đồ nhiệt động.
• Phân tích dữ liệu y tế: Kết hợp phản hồi cảm giác để nghiên cứu dữ liệu đa chiều.
Khái niệm: Mảng micrô và thuật toán học máy được sử dụng để phân tích những thay đổi trong trường âm thanh trong môi trường để giúp cho phép tương tác giữa người và máy không trực quan.
Tiến triển:
• Cải thiện độ chính xác của công nghệ định vị nguồn âm thanh;
Công nghệ tương tác giọng nói chịu đựng tốt trong môi trường tiếng ồn.
Ứng dụng:
• Nhà thông minh: Điều khiển thiết bị bằng giọng nói, không cần tiếp xúc để hoàn thành nhiệm vụ.
• Công nghệ hỗ trợ người khuyết tật: cung cấp cách tương tác dựa trên âm thanh cho người dùng mắc các vấn đề về thị lực.
Khái niệm: Sử dụng công nghệ thực tế kết hợp (MR) để kết hợp thông tin ảo với thế giới vật lý, người dùng có thể sử dụng các vật thể trong thực tế để tương tác với môi trường ảo.
Tiến triển:
• Tối ưu hóa tương tác vật thể ảo dựa trên cảm giác vật lý;
• Công nghệ ánh xạ đối tượng vật lý - ảo cao độ chính xác.
Ứng dụng:
• Đào tạo giáo dục: Đào tạo ngập tràn thực tế thông qua mô phỏng môi trường.
• Thiết kế công nghiệp: Sử dụng mô hình ảo để xác minh sản phẩm.
Khái niệm:
Thiết bị có thể mặc như đồng hồ thông minh, thiết bị theo dõi sức khỏe, v.v., tương tác thông qua cử chỉ, chạm hoặc công nghệ điện tử da.
Tiến triển:
• Cải thiện độ nhạy và độ bền của cảm biến da;
• Thuật toán hợp nhất kênh nhiều tăng cường độ chính xác tương tác.
Ứng dụng:
• Giám sát sức khỏe: theo dõi nhịp tim, giấc ngủ và tình trạng vận động trong thời gian thực;
• Giải trí trò chơi: Điều khiển nhân vật ảo thông qua thiết bị đeo được.
Khái niệm:
Nghiên cứu các công nghệ nhận dạng giọng nói, nhận dạng cảm xúc, tổng hợp giọng nói, vv, để máy tính có thể hiểu và phản hồi tốt hơn với đầu vào ngôn ngữ của người dùng.
Tiến triển:
• Việc phổ biến mô hình ngôn ngữ lớn (như GPT) đã nâng cao đáng kể tính tự nhiên của hệ thống đối thoại;
• Độ chính xác của công nghệ nhận dạng cảm xúc giọng nói đã được cải thiện.
Ứng dụng:
• Chatbot: hỗ trợ giao tiếp giọng nói đa ngôn ngữ.
• Trợ lý thông minh: Phản hồi theo yêu cầu giọng nói cá nhân hóa.
Vì vậy, chúng tôi thấy rất nhiều dự án AI Agent, đặc biệt là trong lĩnh vực Web3, vẫn đa phần dừng lại ở mức trợ lý thông minh trong giao tiếp giữa con người và máy móc, như việc tweet suốt 24 giờ, trò chuyện bằng giọng nói AI đa dạng, hoặc trò chuyện cho người yêu. Nhưng gần đây, chúng tôi cũng quan sát thấy một số ứng dụng kết hợp AI trong lĩnh vực dữ liệu sức khỏe cơ thể, ví dụ như vòng cưới (cụ thể là công ty nào, tôi không nói, bạn có thể tự tìm kiếm, cũng như #Depin 项目+ #AI chuỗi công cộng hoặc ứng dụng, sẽ mang lại giá trị và sự thú vị hơn, và nhà đầu tư cũng sẽ thích hơn, cuối cùng thì chúng tôi đã đầu tư vào 2 công ty, cứng + mềm + AI, điều này sẽ là một hướng tiềm năng!
Lĩnh vực mà các doanh nghiệp công nghệ đang đầu tư mạnh
Mở rộng phương thức tương tác: Khám phá các phương pháp tương tác mới, chẳng hạn như nhận thức khứu giác và nhiệt độ, để nâng cao hơn nữa chiều kích của tích hợp đa phương thức.
Tối ưu hóa kết hợp đa mô đun: Thiết kế cách kết hợp đa mô đun hiệu quả, linh hoạt, giúp các chế độ khác nhau hoạt động cùng nhau một cách tự nhiên hơn.
Thu nhỏ thiết bị: Phát triển thiết bị nhẹ hơn, tiêu thụ ít năng lượng hơn để phù hợp với việc sử dụng hàng ngày.
Tương tác phân tán giữa các thiết bị: Nâng cao tính tương tác giữa các thiết bị, thực hiện tương tác đa thiết bị một cách liền mạch.
Nâng cao tính ổn định của thuật toán: Đặc biệt là trong môi trường mở, nâng cao tính ổn định và thời gian thực của thuật toán cảm nhận và hợp nhất đa dạng.
Các tình huống đáng đầu tư
• Y tế phục hồi: Giúp bệnh nhân tập luyện phục hồi và giải tỏa tâm lý thông qua phản hồi giọng nói, hình ảnh và xúc giác.
• Văn phòng giáo dục: cung cấp trợ lý văn phòng thông minh và nền tảng giáo dục cá nhân hóa, nâng cao hiệu suất và trải nghiệm.
• Mô phỏng quân sự: Kết hợp công nghệ thực tế ảo để mô phỏng chiến đấu và đào tạo chiến thuật.
• Giải trí và trò chơi: Xây dựng trải nghiệm trò chơi và giải trí sống động, tăng cường cảm giác tương tác giữa người dùng và môi trường ảo.
Tóm lại: Bài viết của Tiến sĩ Li, sử dụng các ứng dụng cảnh quan của AI Agent trong tương lai, tổ chức các công nghệ trung tâm của HCI đa chế độ một cách hệ thống và kết hợp với các ứng dụng thực tế và hướng nghiên cứu tương lai, để học AI, học AI không thể chậm trễ!