Có thể trí tuệ nhân tạo tồn tại trong thế giới tiền điện tử: 18 Thử nghiệm mô hình lớn về Tiền điện tử

Nâng cao9/26/2024, 3:17:02 AM
Trí tuệ nhân tạo hoạt động tốt trên các thuật toán mã hóa và kiến thức về blockchain, nhưng không hoạt động tốt trên các phép tính toán và phân tích logic phức tạp. Việc phát triển các tiêu chuẩn đo lường cụ thể cho trí tuệ nhân tạo trong lĩnh vực mã hóa rất quan trọng, đây sẽ cung cấp một tài liệu tham khảo quan trọng cho việc áp dụng trí tuệ nhân tạo trong lĩnh vực mã hóa.

Trong biên niên sử tiến bộ công nghệ, các công nghệ mang tính cách mạng thường xuất hiện độc lập, mỗi thay đổi hàng đầu trong một thời đại. Và khi hai công nghệ mang tính cách mạng gặp nhau, sự va chạm của chúng thường có tác động theo cấp số nhân. Hôm nay, chúng ta đang đứng ở một thời điểm lịch sử như vậy: trí tuệ nhân tạo và công nghệ mã hóa, hai công nghệ mới đột phá không kém, đang tay trong tay bước vào trung tâm của sân khấu.

Chúng tôi tưởng tượng rằng nhiều thách thức trong lĩnh vực Trí tuệ nhân tạo có thể được giải quyết bằng công nghệ mã hóa; chúng tôi mong đợi AI Agent xây dựng các mạng kinh tế tự động và thúc đẩy việc áp dụng rộng rãi công nghệ mã hóa; chúng tôi cũng hy vọng rằng AI có thể đẩy nhanh sự phát triển của các kịch bản hiện có trong lĩnh vực mã hóa. Vô số ánh mắt được tập trung vào điều này, và các quỹ tiền tệ khổng lồ đang đổ vào. Giống như bất kỳ từ khóa nào khác, nó thể hiện mong muốn của con người về sự đổi mới, tầm nhìn cho tương lai và cũng chứa đựng tham vọng và tham lam không kiểm soát được.

Tuy nhiên, trong tất cả sự huyên náo này, chúng ta biết rất ít về những vấn đề cơ bản nhất. AI biết về mã hóa tốt đến mức nào? Một Agent được trang bị mô hình ngôn ngữ lớn có khả năng thực tế để sử dụng các công cụ mã hóa không? Các mô hình khác nhau thực hiện bao nhiêu khác biệt trên các tác vụ mã hóa?

Câu trả lời cho những câu hỏi này sẽ xác định ảnh hưởng lẫn nhau của AI và công nghệ mã hóa, và cũng rất quan trọng đối với định hướng sản phẩm và lựa chọn tuyến công nghệ trong lĩnh vực chéo này. Để khám phá những vấn đề này, tôi đã tiến hành một số thí nghiệm đánh giá trên các mô hình ngôn ngữ lớn. Bằng cách đánh giá kiến thức và khả năng của họ trong lĩnh vực mã hóa, chúng tôi đo lường mức độ ứng dụng mã hóa của AI và xác định tiềm năng và thách thức của việc tích hợp AI và công nghệ mã hóa.

Hãy nói về kết luận trước tiên

Mô hình ngôn ngữ lớn hoạt động tốt trong kiến thức cơ bản về mã hóa và blockchain, và có hiểu biết tốt về hệ sinh thái mã hóa, nhưng hoạt động kém trong tính toán toán học và phân tích logic kinh doanh phức tạp. Về khóa riêng tư và các hoạt động cơ bản của ví, mô hình có nền tảng đáng thỏa mãn, nhưng đối mặt với thách thức nghiêm trọng về cách giữ khóa riêng tư trong đám mây. Nhiều mô hình có thể tạo ra mã hợp đồng thông minh hiệu quả cho các tình huống đơn giản, nhưng không thể thực hiện độc lập các nhiệm vụ khó như kiểm toán hợp đồng và tạo hợp đồng phức tạp.

Các mô hình thương mại đóng, thông thường, có lợi thế lớn. Trong trại mã nguồn mở, chỉ có Llama 3.1-405B làm tốt, trong khi tất cả các mô hình mã nguồn mở với kích thước tham số nhỏ hơn thất bại. Tuy nhiên, có tiềm năng. Qua hướng dẫn từ khóa, luận lí chuỗi suy nghĩ và công nghệ học ít thông qua, hiệu suất của tất cả các mô hình đã được cải thiện đáng kể. Các mô hình hàng đầu đã có khả năng kỹ thuật mạnh mẽ trong một số kịch bản ứng dụng theo chiều dọc.

Chi tiết thử nghiệm

18 mô hình ngôn ngữ đại diện đã được chọn là đối tượng đánh giá, bao gồm:

  • Các mô hình mã nguồn đóng: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (tạm thời mã nguồn đóng)
  • Mô hình mã nguồn mở: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Mô hình tối ưu hóa toán học: Qwen2-math-72B, MathΣtral

Các mô hình này bao gồm các mô hình nguồn mở thương mại và phổ biến chính thống, với số lượng tham số dao động hơn một trăm lần từ 3,8B đến 405B. Xem xét mối quan hệ chặt chẽ giữa công nghệ mã hóa và toán học, hai mô hình tối ưu hóa toán học đã được lựa chọn đặc biệt cho thí nghiệm.

Các lĩnh vực kiến thức được thử nghiệm bao gồm mật mã, kiến thức cơ bản về blockchain, khóa riêng và hoạt động ví, hợp đồng thông minh, DAO và quản trị, mô hình kinh tế và đồng thuận, Dapp / DeFi / NFT, phân tích dữ liệu trên chuỗi, v.v. Mỗi lĩnh vực bao gồm một loạt các câu hỏi và nhiệm vụ từ dễ đến khó, không chỉ kiểm tra kho kiến thức của mô hình mà còn kiểm tra hiệu suất của nó trong các tình huống ứng dụng thông qua các tác vụ mô phỏng.

Thiết kế của các nhiệm vụ đến từ nhiều nguồn khác nhau. Một số đến từ đầu vào của nhiều chuyên gia trong lĩnh vực mã hóa và phần còn lại được tạo ra với sự hỗ trợ của AI và hiệu đính thủ công để đảm bảo tính chính xác và thách thức của các tác vụ. Một số nhiệm vụ sử dụng các câu hỏi trắc nghiệm ở định dạng tương đối đơn giản để tạo điều kiện cho việc kiểm tra và chấm điểm tự động được tiêu chuẩn hóa riêng biệt. Một phần khác của bài kiểm tra áp dụng định dạng câu hỏi phức tạp hơn và quá trình kiểm tra được thực hiện bằng sự kết hợp giữa tự động hóa chương trình + thủ công + AI. Tất cả các nhiệm vụ kiểm tra được đánh giá bằng phương pháp suy luận không mẫu, mà không cung cấp bất kỳ ví dụ, hướng dẫn suy nghĩ hoặc lời nhắc hướng dẫn nào.

Vì thiết kế của chính thức thực nghiệm này tương đối sơ bộ và không có đủ nghiêm túc học thuật, các câu hỏi và nhiệm vụ được sử dụng để kiểm tra còn rất xa so với việc bao phủ đầy đủ lĩnh vực mã hóa, và khuôn khổ kiểm tra cũng chưa hoàn chỉnh. Do đó, bài viết này không liệt kê dữ liệu thực nghiệm cụ thể, mà tập trung chia sẻ một số hiểu biết từ các thực nghiệm.

kiến thức / khái niệm

Trong quá trình đánh giá, mô hình ngôn ngữ lớn đã hoạt động tốt trong các bài kiểm tra kiến thức cơ bản trong các lĩnh vực khác nhau như thuật toán mã hóa, cơ bản về blockchain và ứng dụng DeFi. Ví dụ, tất cả các mô hình đều đưa ra các câu trả lời chính xác cho các câu hỏi kiểm tra sự hiểu biết về khái niệm về sự có sẵn của dữ liệu. Còn với câu hỏi đánh giá sự hiểu biết của mô hình về cấu trúc giao dịch Ethereum, mặc dù mỗi mô hình có các câu trả lời có chi tiết khác nhau một chút, chúng nói chung đều chứa thông tin chính xác. Các câu hỏi trắc nghiệm kiểm tra các khái niệm còn ít khó hơn, và độ chính xác của hầu hết các mô hình đều trên 95%.

Câu hỏi và câu trả lời mang tính khái niệm hoàn toàn khó khăn cho các mô hình lớn.

Tính toán / Logic Kinh doanh

Tuy nhiên, tình hình đảo ngược khi đối mặt với các vấn đề đòi hỏi tính toán cụ thể. Một bài toán tính toán thuật toán RSA đơn giản đưa hầu hết các mô hình vào khó khăn. Dễ hiểu: các mô hình ngôn ngữ lớn chủ yếu hoạt động bằng cách xác định và sao chép các mẫu trong dữ liệu huấn luyện, thay vì hiểu sâu bản chất của các khái niệm toán học. Hạn chế này đặc biệt rõ ràng khi đối mặt với các khái niệm toán học trừu tượng như phép toán modulo và phép toán mũ. Xét đến việc lĩnh vực mật mã chặt chẽ liên quan đến toán học, điều này có nghĩa là Phụ thuộc trực tiếp vào các mô hình cho các tính toán toán học liên quan đến mã hóa là không đáng tin cậy。

Trong các vấn đề tính toán khác, hiệu suất của các mô hình ngôn ngữ lớn cũng không đạt yêu cầu. Ví dụ, đối với câu hỏi đơn giản về tính toán tổn thất vô thường của AMM, mặc dù nó không liên quan đến các phép toán phức tạp, nhưng chỉ có 4 trong số 18 mô hình đưa ra câu trả lời đúng. Đối với một câu hỏi cơ bản hơn về tính toán xác suất của một khối, tất cả các mô hình đều có câu trả lời sai. Nó làm bối rối tất cả các mô hình, và không ai trong số họ đúng. Điều này không chỉ phơi bày những thiếu sót của các mô hình ngôn ngữ lớn trong các tính toán chính xác, mà còn phản ánh các vấn đề chính của họ trong phân tích logic kinh doanh. Điều đáng chú ý là ngay cả mô hình tối ưu hóa toán học cũng không thể hiện được những lợi thế rõ ràng trong các câu hỏi tính toán và hiệu suất của nó thật đáng thất vọng.

Tuy nhiên, vấn đề tính toán toán học không phải là không thể giải quyết. Nếu chúng ta thực hiện một điều chỉnh nhỏ và yêu cầu LLM cung cấp mã Python tương ứng thay vì tính toán trực tiếp kết quả, tỷ lệ chính xác sẽ được cải thiện rất nhiều. Lấy vấn đề tính toán RSA nói trên làm ví dụ, các mã Python được đưa ra bởi hầu hết các mô hình có thể được thực thi trơn tru và tạo ra kết quả chính xác. Trong môi trường sản xuất thực tế, các mã thuật toán đặt trước có thể được cung cấp để bỏ qua việc tự tính toán LLM, tương tự như cách con người xử lý các tác vụ đó. Ở cấp độ logic kinh doanh, hiệu suất của mô hình cũng có thể được cải thiện hiệu quả thông qua hướng dẫn từ nhanh được thiết kế cẩn thận.

Quản lý khóa riêng tư và hoạt động ví

Nếu bạn hỏi đầu tiên là tình huống gì để Đại lý sử dụng tiền điện tử, câu trả lời của tôi là thanh toán. Tiền điện tử gần như có thể coi là một hình thức tiền tệ sinh trưởng từ trí tuệ nhân tạo. So với nhiều rào cản mà các đại lý đối mặt trong hệ thống tài chính truyền thống, sử dụng công nghệ mã hóa để trang bị cho mình những danh tính số và quản lý quỹ thông qua các ví được mã hóa là một lựa chọn tự nhiên. Do đó, việc tạo và quản lý các khóa riêng tư và các hoạt động ví khác là yêu cầu kỹ năng cơ bản nhất để Đại lý có thể sử dụng mạng mã hóa độc lập.

Lõi của việc tạo ra các khóa riêng tư một cách an toàn nằm ở việc tạo ra số ngẫu nhiên chất lượng cao, điều này rõ ràng là một khả năng mà các mô hình ngôn ngữ lớn không có. Tuy nhiên, các mô hình có đủ hiểu biết về an toàn của khóa riêng tư. Khi được yêu cầu tạo ra một khóa riêng tư, hầu hết các mô hình chọn sử dụng mã (như các thư viện liên quan đến Python) để hướng dẫn người dùng tạo ra khóa riêng tư một cách độc lập. Ngay cả khi một mô hình cung cấp trực tiếp một khóa riêng tư, thì rõ ràng được nêu rõ rằng điều này chỉ dùng cho mục đích minh họa và không phải là một khóa riêng tư an toàn có thể sử dụng trực tiếp. Về điều này, tất cả các mô hình lớn đều cho thấy hiệu suất tốt.

Quản lý khóa riêng phải đối mặt với một số thách thức, chủ yếu là do những hạn chế vốn có của kiến trúc kỹ thuật hơn là thiếu khả năng mô hình. Khi sử dụng mô hình được triển khai cục bộ, khóa riêng được tạo có thể được coi là tương đối an toàn. Tuy nhiên, nếu một mô hình đám mây thương mại được sử dụng, chúng ta phải giả định rằng khóa riêng đã được tiếp xúc với nhà điều hành mô hình ngay khi nó được tạo. Nhưng đối với một Agent nhằm mục đích hoạt động độc lập, cần phải có quyền khóa riêng, có nghĩa là khóa riêng không thể chỉ cục bộ cho người dùng. Trong trường hợp này, chỉ dựa vào chính mô hình không còn đủ để đảm bảo tính bảo mật của khóa riêng và các dịch vụ bảo mật bổ sung như môi trường thực thi đáng tin cậy hoặc HSM cần được giới thiệu.

Nếu giả định rằng Đại lý đã giữ khóa riêng một cách an toàn và thực hiện các hoạt động cơ bản khác nhau trên cơ sở này, các mô hình khác nhau trong thử nghiệm đã cho thấy khả năng tốt. Mặc dù thường có lỗi trong các bước và mã được tạo, những vấn đề này có thể được giải quyết ở mức độ lớn với cấu trúc kỹ thuật phù hợp. Có thể nói, dưới góc độ kỹ thuật, không còn nhiều trở ngại để Agent thực hiện các thao tác ví cơ bản một cách độc lập.

hợp đồng thông minh

Khả năng hiểu, sử dụng, viết và xác định các rủi ro của hợp đồng thông minh là yếu tố quan trọng để các AI Agents thực hiện nhiệm vụ phức tạp trong thế giới on-chain, và cũng là một lĩnh vực kiểm thử quan trọng cho các thí nghiệm. Các mô hình ngôn ngữ lớn đã cho thấy tiềm năng đáng kể trong lĩnh vực này, nhưng cũng đã tiết lộ một số vấn đề rõ ràng.

Hầu như tất cả các mô hình trong thử nghiệm đều trả lời chính xác các khái niệm hợp đồng cơ bản, xác định các lỗi đơn giản. Về mặt tối ưu hóa khí hợp đồng, hầu hết các mô hình có thể xác định các điểm tối ưu hóa chính và phân tích các xung đột có thể do tối ưu hóa. Tuy nhiên, khi logic kinh doanh sâu sắc có liên quan, những hạn chế của các mô hình lớn bắt đầu bộc lộ.

Lấy hợp đồng giao dịch mã thông báo làm ví dụ: tất cả các mô hình đều hiểu chính xác các chức năng hợp đồng và hầu hết các mô hình đều tìm thấy một số lỗ hổng có rủi ro trung bình và thấp. Tuy nhiên, không có mô hình nào có thể độc lập phát hiện ra lỗ hổng rủi ro cao ẩn trong logic kinh doanh có thể khiến một số quỹ bị khóa trong những trường hợp đặc biệt. Qua nhiều thử nghiệm sử dụng hợp đồng thực, mô hình hoạt động gần như giống nhau.

Điều này cho thấy hiểu biết của mô hình lớn về các hợp đồng vẫn đang ở mức độ hình thức và thiếu hiểu biết về logic kinh doanh sâu sắc. Tuy nhiên, sau khi được cung cấp thêm gợi ý, một số mô hình đã cuối cùng có thể độc lập xác định được các lỗ hổng sâu đang được giấu trong các hợp đồng đã đề cập ở trên. Dựa trên đánh giá kết quả này, với sự hỗ trợ của thiết kế kỹ thuật tốt, mô hình lớn có khả năng cơ bản để phục vụ như một đồng điều khiển trong lĩnh vực các hợp đồng thông minh. Tuy nhiên, vẫn còn một quãng đường dài phía trước trước khi chúng ta có thể độc lập thực hiện các nhiệm vụ quan trọng như kiểm toán hợp đồng.

Một điều cần lưu ý là các tác vụ liên quan đến mã trong thử nghiệm chủ yếu dành cho các hợp đồng với logic đơn giản và ít hơn 2.000 dòng mã. Đối với các dự án phức tạp quy mô lớn hơn, mà không được điều chỉnh tốt hoặc có kỹ thuật từ khóa gợi ý phức tạp, tôi nghĩ rõ ràng là vượt quá khả năng xử lý hiệu quả của mô hình hiện tại và không được bao gồm trong thử nghiệm. Ngoài ra, thử nghiệm này chỉ liên quan đến Solidity và không bao gồm các ngôn ngữ hợp đồng thông minh khác như Rust và Move.

Ngoài nội dung kiểm tra trên, thí nghiệm cũng bao gồm nhiều khía cạnh khác nhau bao gồm các kịch bản DeFi, DAO và việc quản trị của nó, phân tích dữ liệu trên chuỗi, thiết kế cơ chế đồng thuận và Tokenomics. Mô hình ngôn ngữ lớn đã thể hiện được những khả năng nhất định trong những khía cạnh này. Với việc nhiều thí nghiệm vẫn đang tiếp tục và các phương pháp và khung làm việc kiểm tra đang được tối ưu hóa liên tục, bài viết này sẽ không đi sâu vào những lĩnh vực này trong lúc này.

Sự khác biệt về mô hình

Trong số tất cả các mô hình ngôn ngữ lớn tham gia đánh giá, GPT-4o và Claude 3.5 Sonnet tiếp tục hoạt động xuất sắc trong các lĩnh vực khác và là những nhà lãnh đạo không thể tranh cãi. Khi đối mặt với các câu hỏi cơ bản, cả hai mô hình hầu như luôn có thể đưa ra câu trả lời chính xác; Trong việc phân tích các kịch bản phức tạp, họ có thể cung cấp những hiểu biết sâu sắc và được ghi chép đầy đủ. Nó thậm chí còn cho thấy tỷ lệ chiến thắng cao trong các tác vụ tính toán mà các mô hình lớn không giỏi. Tất nhiên, tỷ lệ thành công "cao" này là tương đối và chưa đạt đến mức sản lượng ổn định trong môi trường sản xuất.

Trong trại mô hình mã nguồn mở, Llama 3.1-405B vượt xa những đối thủ khác nhờ quy mô tham số lớn và thuật toán mô hình tiên tiến. Trong các mô hình mã nguồn mở khác với kích thước tham số nhỏ hơn, không có khoảng cách hiệu suất đáng kể giữa các mô hình. Mặc dù các điểm số có chút khác biệt, nhưng tổng thể chúng cách xa đường vượt qua.

Do đó, nếu bạn muốn xây dựng các ứng dụng AI liên quan đến mã hóa hiện tại, những mô hình này với các tham số nhỏ và trung bình không phải là một lựa chọn phù hợp.

Hai mô hình đặc biệt nổi bật trong bài đánh giá của chúng tôi. Mô hình đầu tiên là mô hình Phi-3 3.8B được Microsoft ra mắt. Đây là mô hình nhỏ nhất tham gia thử nghiệm này. Tuy nhiên, nó đạt được mức hiệu suất tương đương với mô hình 8B-12B với số lượng tham số ít hơn một nửa. Trong một số danh mục cụ thể, thậm chí còn tốt hơn về vấn đề này. Kết quả này làm nổi bật tầm quan trọng của việc tối ưu kiến trúc mô hình và các chiến lược đào tạo không chỉ dựa trên việc tăng kích thước của tham số.

Và mô hình Command-R của Cohere đã trở thành một "con ngựa đen" đáng ngạc nhiên - ngược lại. Command-R không nổi tiếng so với các mô hình khác, nhưng Cohere là một công ty mô hình lớn tập trung vào thị trường 2B. Tôi nghĩ rằng vẫn còn nhiều điểm hội tụ với các lĩnh vực như phát triển Đại lý, vì vậy nó đã được đưa cụ thể vào phạm vi thử nghiệm. Tuy nhiên, Command-R với thông số 35B xếp cuối cùng trong hầu hết các thử nghiệm, thua nhiều mẫu dưới 10B.

Kết quả này đã kích hoạt suy nghĩ: khi Command-R được phát hành, nó tập trung vào việc nâng cao khả năng truy xuất và tạo ra, và thậm chí không công bố kết quả kiểm tra chuẩn đều đặn. Điều này có nghĩa là nó là một “khóa riêng tư” mở khả năng tối đa chỉ trong các tình huống cụ thể?

Giới hạn thử nghiệm

Trong loạt bài kiểm tra này, chúng tôi đã hiểu sơ bộ về khả năng của trí tuệ nhân tạo trong lĩnh vực mã hóa. Tất nhiên, những bài kiểm tra này còn rất xa so với các tiêu chuẩn chuyên nghiệp. Phạm vi của bộ dữ liệu còn chưa đủ, các tiêu chuẩn định lượng cho các câu trả lời còn tương đối thô, và vẫn thiếu một cơ chế đánh giá tinh xảo và chính xác hơn. Điều này sẽ ảnh hưởng đến độ chính xác của kết quả đánh giá và có thể dẫn đến việc đánh giá thấp về hiệu suất của một số mô hình.

Về phương pháp thử nghiệm, thí nghiệm chỉ sử dụng một phương pháp học tập zero-shot duy nhất và không khám phá các phương pháp như chuỗi tư duy và học tập ít shot có thể truyền cảm hứng cho tiềm năng lớn hơn của mô hình. Về các tham số mô hình, các tham số mô hình tiêu chuẩn đã được sử dụng trong các thí nghiệm và tác động của các cài đặt tham số khác nhau đến hiệu suất mô hình không được kiểm tra. Các phương pháp thử nghiệm đơn lẻ tổng thể này hạn chế đánh giá toàn diện của chúng tôi về tiềm năng của mô hình và không khám phá đầy đủ sự khác biệt về hiệu suất mô hình trong các điều kiện cụ thể.

Mặc dù điều kiện kiểm tra tương đối đơn giản, nhưng những thử nghiệm này vẫn mang lại nhiều thông tin quý giá và cung cấp một tài liệu tham khảo cho các nhà phát triển xây dựng ứng dụng.

Thế giới tiền điện tử cần phải có một tiêu chuẩn đo lường riêng của nó

Trong lĩnh vực trí tuệ nhân tạo, các tiêu chuẩn chơi vai trò quan trọng. Sự phát triển nhanh chóng của công nghệ học sâu hiện đại bắt nguồn từ ImageNET được hoàn thành bởi Giáo sư Li Feifei vào năm 2012, đó là một bài kiểm tra chuẩn hóa và tập dữ liệu trong lĩnh vực thị giác máy tính.

Bằng cách cung cấp một tiêu chuẩn thống nhất cho việc đánh giá, các chỉ số không chỉ cung cấp cho các nhà phát triển mục tiêu rõ ràng và điểm tham chiếu, mà còn thúc đẩy tiến bộ công nghệ trong ngành. Điều này giải thích tại sao mỗi mô hình ngôn ngữ lớn mới được phát hành sẽ tập trung vào thông báo kết quả trên các chỉ số khác nhau. Các kết quả này trở thành một “ngôn ngữ chung” của khả năng mô hình, cho phép các nhà nghiên cứu xác định các đột phá, các nhà phát triển chọn lựa các mô hình phù hợp nhất cho các nhiệm vụ cụ thể, và người dùng đưa ra lựa chọn có căn cứ dựa trên dữ liệu khách quan. Quan trọng hơn, các bài kiểm tra chỉ số thường báo hiệu hướng đi tương lai của các ứng dụng trí tuệ nhân tạo, hướng dẫn đầu tư tài nguyên và tập trung nghiên cứu.

Nếu chúng ta tin rằng có tiềm năng lớn tại giao điểm của trí tuệ nhân tạo và mật mã học, thì việc thành lập các tiêu chuẩn mật mã học đặc biệt trở thành một nhiệm vụ khẩn cấp. Việc thiết lập các tiêu chuẩn có thể trở thành một cây cầu chính kết nối hai lĩnh vực AI và mã hóa, xúc tác sự đổi mới và cung cấp hướng dẫn rõ ràng cho các ứng dụng trong tương lai.

Tuy nhiên, so với các điểm chuẩn trưởng thành trong các lĩnh vực khác, việc xây dựng điểm chuẩn trong lĩnh vực mã hóa phải đối mặt với những thách thức độc đáo: công nghệ mã hóa đang phát triển nhanh chóng, hệ thống tri thức ngành chưa được củng cố và thiếu sự đồng thuận theo nhiều hướng cốt lõi. Là một lĩnh vực liên ngành, mã hóa bao gồm mật mã, hệ thống phân tán, kinh tế, v.v. và độ phức tạp của nó vượt xa một lĩnh vực duy nhất. Điều thậm chí còn thách thức hơn là điểm chuẩn mã hóa không chỉ cần đánh giá kiến thức mà còn kiểm tra khả năng thực tế của AI trong việc sử dụng công nghệ mã hóa, đòi hỏi phải thiết kế một kiến trúc đánh giá mới. Việc thiếu các bộ dữ liệu liên quan càng làm tăng thêm khó khăn.

Sự phức tạp và quan trọng của nhiệm vụ này quyết định rằng nó không thể được thực hiện bởi một người hoặc một nhóm duy nhất. Nó cần phải kết hợp sự khôn ngoan của nhiều bên từ người dùng, nhà phát triển, chuyên gia mật mã, nhà nghiên cứu mã hóa đến nhiều người trong lĩnh vực liên ngành khác nhau, và phụ thuộc vào sự tham gia và đồng thuận rộng rãi của cộng đồng. Do đó, tiêu chuẩn mã hóa cần một cuộc thảo luận rộng hơn, vì nó không chỉ là một công việc kỹ thuật, mà còn là một sự suy tư sâu sắc về cách chúng ta hiểu về công nghệ mới nổi này.

Miễn trách nhiệm:

  1. Bài viết này được in lại từ [Empower Labs]. Tất cả các bản quyền thuộc về tác giả gốc [Wang Chao]. Nếu có bất kỳ khiếu nại nào về việc tái bản này, vui lòng liên hệ với Gate Learn và họ sẽ xử lý kịp thời.
  2. Miễn trừ trách nhiệm: Các quan điểm và ý kiến được bày tỏ trong bài viết này chỉ thuộc về tác giả và không có bất kỳ lời khuyên đầu tư nào.
  3. Việc dịch bài viết sang các ngôn ngữ khác được thực hiện bởi nhóm Gate Learn. Trừ khi được đề cập, việc sao chép, phân phối hoặc đạo văn các bài viết đã được dịch là không được phép.

Có thể trí tuệ nhân tạo tồn tại trong thế giới tiền điện tử: 18 Thử nghiệm mô hình lớn về Tiền điện tử

Nâng cao9/26/2024, 3:17:02 AM
Trí tuệ nhân tạo hoạt động tốt trên các thuật toán mã hóa và kiến thức về blockchain, nhưng không hoạt động tốt trên các phép tính toán và phân tích logic phức tạp. Việc phát triển các tiêu chuẩn đo lường cụ thể cho trí tuệ nhân tạo trong lĩnh vực mã hóa rất quan trọng, đây sẽ cung cấp một tài liệu tham khảo quan trọng cho việc áp dụng trí tuệ nhân tạo trong lĩnh vực mã hóa.

Trong biên niên sử tiến bộ công nghệ, các công nghệ mang tính cách mạng thường xuất hiện độc lập, mỗi thay đổi hàng đầu trong một thời đại. Và khi hai công nghệ mang tính cách mạng gặp nhau, sự va chạm của chúng thường có tác động theo cấp số nhân. Hôm nay, chúng ta đang đứng ở một thời điểm lịch sử như vậy: trí tuệ nhân tạo và công nghệ mã hóa, hai công nghệ mới đột phá không kém, đang tay trong tay bước vào trung tâm của sân khấu.

Chúng tôi tưởng tượng rằng nhiều thách thức trong lĩnh vực Trí tuệ nhân tạo có thể được giải quyết bằng công nghệ mã hóa; chúng tôi mong đợi AI Agent xây dựng các mạng kinh tế tự động và thúc đẩy việc áp dụng rộng rãi công nghệ mã hóa; chúng tôi cũng hy vọng rằng AI có thể đẩy nhanh sự phát triển của các kịch bản hiện có trong lĩnh vực mã hóa. Vô số ánh mắt được tập trung vào điều này, và các quỹ tiền tệ khổng lồ đang đổ vào. Giống như bất kỳ từ khóa nào khác, nó thể hiện mong muốn của con người về sự đổi mới, tầm nhìn cho tương lai và cũng chứa đựng tham vọng và tham lam không kiểm soát được.

Tuy nhiên, trong tất cả sự huyên náo này, chúng ta biết rất ít về những vấn đề cơ bản nhất. AI biết về mã hóa tốt đến mức nào? Một Agent được trang bị mô hình ngôn ngữ lớn có khả năng thực tế để sử dụng các công cụ mã hóa không? Các mô hình khác nhau thực hiện bao nhiêu khác biệt trên các tác vụ mã hóa?

Câu trả lời cho những câu hỏi này sẽ xác định ảnh hưởng lẫn nhau của AI và công nghệ mã hóa, và cũng rất quan trọng đối với định hướng sản phẩm và lựa chọn tuyến công nghệ trong lĩnh vực chéo này. Để khám phá những vấn đề này, tôi đã tiến hành một số thí nghiệm đánh giá trên các mô hình ngôn ngữ lớn. Bằng cách đánh giá kiến thức và khả năng của họ trong lĩnh vực mã hóa, chúng tôi đo lường mức độ ứng dụng mã hóa của AI và xác định tiềm năng và thách thức của việc tích hợp AI và công nghệ mã hóa.

Hãy nói về kết luận trước tiên

Mô hình ngôn ngữ lớn hoạt động tốt trong kiến thức cơ bản về mã hóa và blockchain, và có hiểu biết tốt về hệ sinh thái mã hóa, nhưng hoạt động kém trong tính toán toán học và phân tích logic kinh doanh phức tạp. Về khóa riêng tư và các hoạt động cơ bản của ví, mô hình có nền tảng đáng thỏa mãn, nhưng đối mặt với thách thức nghiêm trọng về cách giữ khóa riêng tư trong đám mây. Nhiều mô hình có thể tạo ra mã hợp đồng thông minh hiệu quả cho các tình huống đơn giản, nhưng không thể thực hiện độc lập các nhiệm vụ khó như kiểm toán hợp đồng và tạo hợp đồng phức tạp.

Các mô hình thương mại đóng, thông thường, có lợi thế lớn. Trong trại mã nguồn mở, chỉ có Llama 3.1-405B làm tốt, trong khi tất cả các mô hình mã nguồn mở với kích thước tham số nhỏ hơn thất bại. Tuy nhiên, có tiềm năng. Qua hướng dẫn từ khóa, luận lí chuỗi suy nghĩ và công nghệ học ít thông qua, hiệu suất của tất cả các mô hình đã được cải thiện đáng kể. Các mô hình hàng đầu đã có khả năng kỹ thuật mạnh mẽ trong một số kịch bản ứng dụng theo chiều dọc.

Chi tiết thử nghiệm

18 mô hình ngôn ngữ đại diện đã được chọn là đối tượng đánh giá, bao gồm:

  • Các mô hình mã nguồn đóng: GPT-4o, GPT-4o Mini, Claude 3.5 Sonnet, Gemini 1.5 Pro, Grok2 beta (tạm thời mã nguồn đóng)
  • Mô hình mã nguồn mở: Llama 3.1 8B/70b/405B, Mistral Nemo 12B, DeepSeek-coder-v2, Nous-hermes2, Phi3 3.8B/14b, Gemma2 9B\27B, Command-R
  • Mô hình tối ưu hóa toán học: Qwen2-math-72B, MathΣtral

Các mô hình này bao gồm các mô hình nguồn mở thương mại và phổ biến chính thống, với số lượng tham số dao động hơn một trăm lần từ 3,8B đến 405B. Xem xét mối quan hệ chặt chẽ giữa công nghệ mã hóa và toán học, hai mô hình tối ưu hóa toán học đã được lựa chọn đặc biệt cho thí nghiệm.

Các lĩnh vực kiến thức được thử nghiệm bao gồm mật mã, kiến thức cơ bản về blockchain, khóa riêng và hoạt động ví, hợp đồng thông minh, DAO và quản trị, mô hình kinh tế và đồng thuận, Dapp / DeFi / NFT, phân tích dữ liệu trên chuỗi, v.v. Mỗi lĩnh vực bao gồm một loạt các câu hỏi và nhiệm vụ từ dễ đến khó, không chỉ kiểm tra kho kiến thức của mô hình mà còn kiểm tra hiệu suất của nó trong các tình huống ứng dụng thông qua các tác vụ mô phỏng.

Thiết kế của các nhiệm vụ đến từ nhiều nguồn khác nhau. Một số đến từ đầu vào của nhiều chuyên gia trong lĩnh vực mã hóa và phần còn lại được tạo ra với sự hỗ trợ của AI và hiệu đính thủ công để đảm bảo tính chính xác và thách thức của các tác vụ. Một số nhiệm vụ sử dụng các câu hỏi trắc nghiệm ở định dạng tương đối đơn giản để tạo điều kiện cho việc kiểm tra và chấm điểm tự động được tiêu chuẩn hóa riêng biệt. Một phần khác của bài kiểm tra áp dụng định dạng câu hỏi phức tạp hơn và quá trình kiểm tra được thực hiện bằng sự kết hợp giữa tự động hóa chương trình + thủ công + AI. Tất cả các nhiệm vụ kiểm tra được đánh giá bằng phương pháp suy luận không mẫu, mà không cung cấp bất kỳ ví dụ, hướng dẫn suy nghĩ hoặc lời nhắc hướng dẫn nào.

Vì thiết kế của chính thức thực nghiệm này tương đối sơ bộ và không có đủ nghiêm túc học thuật, các câu hỏi và nhiệm vụ được sử dụng để kiểm tra còn rất xa so với việc bao phủ đầy đủ lĩnh vực mã hóa, và khuôn khổ kiểm tra cũng chưa hoàn chỉnh. Do đó, bài viết này không liệt kê dữ liệu thực nghiệm cụ thể, mà tập trung chia sẻ một số hiểu biết từ các thực nghiệm.

kiến thức / khái niệm

Trong quá trình đánh giá, mô hình ngôn ngữ lớn đã hoạt động tốt trong các bài kiểm tra kiến thức cơ bản trong các lĩnh vực khác nhau như thuật toán mã hóa, cơ bản về blockchain và ứng dụng DeFi. Ví dụ, tất cả các mô hình đều đưa ra các câu trả lời chính xác cho các câu hỏi kiểm tra sự hiểu biết về khái niệm về sự có sẵn của dữ liệu. Còn với câu hỏi đánh giá sự hiểu biết của mô hình về cấu trúc giao dịch Ethereum, mặc dù mỗi mô hình có các câu trả lời có chi tiết khác nhau một chút, chúng nói chung đều chứa thông tin chính xác. Các câu hỏi trắc nghiệm kiểm tra các khái niệm còn ít khó hơn, và độ chính xác của hầu hết các mô hình đều trên 95%.

Câu hỏi và câu trả lời mang tính khái niệm hoàn toàn khó khăn cho các mô hình lớn.

Tính toán / Logic Kinh doanh

Tuy nhiên, tình hình đảo ngược khi đối mặt với các vấn đề đòi hỏi tính toán cụ thể. Một bài toán tính toán thuật toán RSA đơn giản đưa hầu hết các mô hình vào khó khăn. Dễ hiểu: các mô hình ngôn ngữ lớn chủ yếu hoạt động bằng cách xác định và sao chép các mẫu trong dữ liệu huấn luyện, thay vì hiểu sâu bản chất của các khái niệm toán học. Hạn chế này đặc biệt rõ ràng khi đối mặt với các khái niệm toán học trừu tượng như phép toán modulo và phép toán mũ. Xét đến việc lĩnh vực mật mã chặt chẽ liên quan đến toán học, điều này có nghĩa là Phụ thuộc trực tiếp vào các mô hình cho các tính toán toán học liên quan đến mã hóa là không đáng tin cậy。

Trong các vấn đề tính toán khác, hiệu suất của các mô hình ngôn ngữ lớn cũng không đạt yêu cầu. Ví dụ, đối với câu hỏi đơn giản về tính toán tổn thất vô thường của AMM, mặc dù nó không liên quan đến các phép toán phức tạp, nhưng chỉ có 4 trong số 18 mô hình đưa ra câu trả lời đúng. Đối với một câu hỏi cơ bản hơn về tính toán xác suất của một khối, tất cả các mô hình đều có câu trả lời sai. Nó làm bối rối tất cả các mô hình, và không ai trong số họ đúng. Điều này không chỉ phơi bày những thiếu sót của các mô hình ngôn ngữ lớn trong các tính toán chính xác, mà còn phản ánh các vấn đề chính của họ trong phân tích logic kinh doanh. Điều đáng chú ý là ngay cả mô hình tối ưu hóa toán học cũng không thể hiện được những lợi thế rõ ràng trong các câu hỏi tính toán và hiệu suất của nó thật đáng thất vọng.

Tuy nhiên, vấn đề tính toán toán học không phải là không thể giải quyết. Nếu chúng ta thực hiện một điều chỉnh nhỏ và yêu cầu LLM cung cấp mã Python tương ứng thay vì tính toán trực tiếp kết quả, tỷ lệ chính xác sẽ được cải thiện rất nhiều. Lấy vấn đề tính toán RSA nói trên làm ví dụ, các mã Python được đưa ra bởi hầu hết các mô hình có thể được thực thi trơn tru và tạo ra kết quả chính xác. Trong môi trường sản xuất thực tế, các mã thuật toán đặt trước có thể được cung cấp để bỏ qua việc tự tính toán LLM, tương tự như cách con người xử lý các tác vụ đó. Ở cấp độ logic kinh doanh, hiệu suất của mô hình cũng có thể được cải thiện hiệu quả thông qua hướng dẫn từ nhanh được thiết kế cẩn thận.

Quản lý khóa riêng tư và hoạt động ví

Nếu bạn hỏi đầu tiên là tình huống gì để Đại lý sử dụng tiền điện tử, câu trả lời của tôi là thanh toán. Tiền điện tử gần như có thể coi là một hình thức tiền tệ sinh trưởng từ trí tuệ nhân tạo. So với nhiều rào cản mà các đại lý đối mặt trong hệ thống tài chính truyền thống, sử dụng công nghệ mã hóa để trang bị cho mình những danh tính số và quản lý quỹ thông qua các ví được mã hóa là một lựa chọn tự nhiên. Do đó, việc tạo và quản lý các khóa riêng tư và các hoạt động ví khác là yêu cầu kỹ năng cơ bản nhất để Đại lý có thể sử dụng mạng mã hóa độc lập.

Lõi của việc tạo ra các khóa riêng tư một cách an toàn nằm ở việc tạo ra số ngẫu nhiên chất lượng cao, điều này rõ ràng là một khả năng mà các mô hình ngôn ngữ lớn không có. Tuy nhiên, các mô hình có đủ hiểu biết về an toàn của khóa riêng tư. Khi được yêu cầu tạo ra một khóa riêng tư, hầu hết các mô hình chọn sử dụng mã (như các thư viện liên quan đến Python) để hướng dẫn người dùng tạo ra khóa riêng tư một cách độc lập. Ngay cả khi một mô hình cung cấp trực tiếp một khóa riêng tư, thì rõ ràng được nêu rõ rằng điều này chỉ dùng cho mục đích minh họa và không phải là một khóa riêng tư an toàn có thể sử dụng trực tiếp. Về điều này, tất cả các mô hình lớn đều cho thấy hiệu suất tốt.

Quản lý khóa riêng phải đối mặt với một số thách thức, chủ yếu là do những hạn chế vốn có của kiến trúc kỹ thuật hơn là thiếu khả năng mô hình. Khi sử dụng mô hình được triển khai cục bộ, khóa riêng được tạo có thể được coi là tương đối an toàn. Tuy nhiên, nếu một mô hình đám mây thương mại được sử dụng, chúng ta phải giả định rằng khóa riêng đã được tiếp xúc với nhà điều hành mô hình ngay khi nó được tạo. Nhưng đối với một Agent nhằm mục đích hoạt động độc lập, cần phải có quyền khóa riêng, có nghĩa là khóa riêng không thể chỉ cục bộ cho người dùng. Trong trường hợp này, chỉ dựa vào chính mô hình không còn đủ để đảm bảo tính bảo mật của khóa riêng và các dịch vụ bảo mật bổ sung như môi trường thực thi đáng tin cậy hoặc HSM cần được giới thiệu.

Nếu giả định rằng Đại lý đã giữ khóa riêng một cách an toàn và thực hiện các hoạt động cơ bản khác nhau trên cơ sở này, các mô hình khác nhau trong thử nghiệm đã cho thấy khả năng tốt. Mặc dù thường có lỗi trong các bước và mã được tạo, những vấn đề này có thể được giải quyết ở mức độ lớn với cấu trúc kỹ thuật phù hợp. Có thể nói, dưới góc độ kỹ thuật, không còn nhiều trở ngại để Agent thực hiện các thao tác ví cơ bản một cách độc lập.

hợp đồng thông minh

Khả năng hiểu, sử dụng, viết và xác định các rủi ro của hợp đồng thông minh là yếu tố quan trọng để các AI Agents thực hiện nhiệm vụ phức tạp trong thế giới on-chain, và cũng là một lĩnh vực kiểm thử quan trọng cho các thí nghiệm. Các mô hình ngôn ngữ lớn đã cho thấy tiềm năng đáng kể trong lĩnh vực này, nhưng cũng đã tiết lộ một số vấn đề rõ ràng.

Hầu như tất cả các mô hình trong thử nghiệm đều trả lời chính xác các khái niệm hợp đồng cơ bản, xác định các lỗi đơn giản. Về mặt tối ưu hóa khí hợp đồng, hầu hết các mô hình có thể xác định các điểm tối ưu hóa chính và phân tích các xung đột có thể do tối ưu hóa. Tuy nhiên, khi logic kinh doanh sâu sắc có liên quan, những hạn chế của các mô hình lớn bắt đầu bộc lộ.

Lấy hợp đồng giao dịch mã thông báo làm ví dụ: tất cả các mô hình đều hiểu chính xác các chức năng hợp đồng và hầu hết các mô hình đều tìm thấy một số lỗ hổng có rủi ro trung bình và thấp. Tuy nhiên, không có mô hình nào có thể độc lập phát hiện ra lỗ hổng rủi ro cao ẩn trong logic kinh doanh có thể khiến một số quỹ bị khóa trong những trường hợp đặc biệt. Qua nhiều thử nghiệm sử dụng hợp đồng thực, mô hình hoạt động gần như giống nhau.

Điều này cho thấy hiểu biết của mô hình lớn về các hợp đồng vẫn đang ở mức độ hình thức và thiếu hiểu biết về logic kinh doanh sâu sắc. Tuy nhiên, sau khi được cung cấp thêm gợi ý, một số mô hình đã cuối cùng có thể độc lập xác định được các lỗ hổng sâu đang được giấu trong các hợp đồng đã đề cập ở trên. Dựa trên đánh giá kết quả này, với sự hỗ trợ của thiết kế kỹ thuật tốt, mô hình lớn có khả năng cơ bản để phục vụ như một đồng điều khiển trong lĩnh vực các hợp đồng thông minh. Tuy nhiên, vẫn còn một quãng đường dài phía trước trước khi chúng ta có thể độc lập thực hiện các nhiệm vụ quan trọng như kiểm toán hợp đồng.

Một điều cần lưu ý là các tác vụ liên quan đến mã trong thử nghiệm chủ yếu dành cho các hợp đồng với logic đơn giản và ít hơn 2.000 dòng mã. Đối với các dự án phức tạp quy mô lớn hơn, mà không được điều chỉnh tốt hoặc có kỹ thuật từ khóa gợi ý phức tạp, tôi nghĩ rõ ràng là vượt quá khả năng xử lý hiệu quả của mô hình hiện tại và không được bao gồm trong thử nghiệm. Ngoài ra, thử nghiệm này chỉ liên quan đến Solidity và không bao gồm các ngôn ngữ hợp đồng thông minh khác như Rust và Move.

Ngoài nội dung kiểm tra trên, thí nghiệm cũng bao gồm nhiều khía cạnh khác nhau bao gồm các kịch bản DeFi, DAO và việc quản trị của nó, phân tích dữ liệu trên chuỗi, thiết kế cơ chế đồng thuận và Tokenomics. Mô hình ngôn ngữ lớn đã thể hiện được những khả năng nhất định trong những khía cạnh này. Với việc nhiều thí nghiệm vẫn đang tiếp tục và các phương pháp và khung làm việc kiểm tra đang được tối ưu hóa liên tục, bài viết này sẽ không đi sâu vào những lĩnh vực này trong lúc này.

Sự khác biệt về mô hình

Trong số tất cả các mô hình ngôn ngữ lớn tham gia đánh giá, GPT-4o và Claude 3.5 Sonnet tiếp tục hoạt động xuất sắc trong các lĩnh vực khác và là những nhà lãnh đạo không thể tranh cãi. Khi đối mặt với các câu hỏi cơ bản, cả hai mô hình hầu như luôn có thể đưa ra câu trả lời chính xác; Trong việc phân tích các kịch bản phức tạp, họ có thể cung cấp những hiểu biết sâu sắc và được ghi chép đầy đủ. Nó thậm chí còn cho thấy tỷ lệ chiến thắng cao trong các tác vụ tính toán mà các mô hình lớn không giỏi. Tất nhiên, tỷ lệ thành công "cao" này là tương đối và chưa đạt đến mức sản lượng ổn định trong môi trường sản xuất.

Trong trại mô hình mã nguồn mở, Llama 3.1-405B vượt xa những đối thủ khác nhờ quy mô tham số lớn và thuật toán mô hình tiên tiến. Trong các mô hình mã nguồn mở khác với kích thước tham số nhỏ hơn, không có khoảng cách hiệu suất đáng kể giữa các mô hình. Mặc dù các điểm số có chút khác biệt, nhưng tổng thể chúng cách xa đường vượt qua.

Do đó, nếu bạn muốn xây dựng các ứng dụng AI liên quan đến mã hóa hiện tại, những mô hình này với các tham số nhỏ và trung bình không phải là một lựa chọn phù hợp.

Hai mô hình đặc biệt nổi bật trong bài đánh giá của chúng tôi. Mô hình đầu tiên là mô hình Phi-3 3.8B được Microsoft ra mắt. Đây là mô hình nhỏ nhất tham gia thử nghiệm này. Tuy nhiên, nó đạt được mức hiệu suất tương đương với mô hình 8B-12B với số lượng tham số ít hơn một nửa. Trong một số danh mục cụ thể, thậm chí còn tốt hơn về vấn đề này. Kết quả này làm nổi bật tầm quan trọng của việc tối ưu kiến trúc mô hình và các chiến lược đào tạo không chỉ dựa trên việc tăng kích thước của tham số.

Và mô hình Command-R của Cohere đã trở thành một "con ngựa đen" đáng ngạc nhiên - ngược lại. Command-R không nổi tiếng so với các mô hình khác, nhưng Cohere là một công ty mô hình lớn tập trung vào thị trường 2B. Tôi nghĩ rằng vẫn còn nhiều điểm hội tụ với các lĩnh vực như phát triển Đại lý, vì vậy nó đã được đưa cụ thể vào phạm vi thử nghiệm. Tuy nhiên, Command-R với thông số 35B xếp cuối cùng trong hầu hết các thử nghiệm, thua nhiều mẫu dưới 10B.

Kết quả này đã kích hoạt suy nghĩ: khi Command-R được phát hành, nó tập trung vào việc nâng cao khả năng truy xuất và tạo ra, và thậm chí không công bố kết quả kiểm tra chuẩn đều đặn. Điều này có nghĩa là nó là một “khóa riêng tư” mở khả năng tối đa chỉ trong các tình huống cụ thể?

Giới hạn thử nghiệm

Trong loạt bài kiểm tra này, chúng tôi đã hiểu sơ bộ về khả năng của trí tuệ nhân tạo trong lĩnh vực mã hóa. Tất nhiên, những bài kiểm tra này còn rất xa so với các tiêu chuẩn chuyên nghiệp. Phạm vi của bộ dữ liệu còn chưa đủ, các tiêu chuẩn định lượng cho các câu trả lời còn tương đối thô, và vẫn thiếu một cơ chế đánh giá tinh xảo và chính xác hơn. Điều này sẽ ảnh hưởng đến độ chính xác của kết quả đánh giá và có thể dẫn đến việc đánh giá thấp về hiệu suất của một số mô hình.

Về phương pháp thử nghiệm, thí nghiệm chỉ sử dụng một phương pháp học tập zero-shot duy nhất và không khám phá các phương pháp như chuỗi tư duy và học tập ít shot có thể truyền cảm hứng cho tiềm năng lớn hơn của mô hình. Về các tham số mô hình, các tham số mô hình tiêu chuẩn đã được sử dụng trong các thí nghiệm và tác động của các cài đặt tham số khác nhau đến hiệu suất mô hình không được kiểm tra. Các phương pháp thử nghiệm đơn lẻ tổng thể này hạn chế đánh giá toàn diện của chúng tôi về tiềm năng của mô hình và không khám phá đầy đủ sự khác biệt về hiệu suất mô hình trong các điều kiện cụ thể.

Mặc dù điều kiện kiểm tra tương đối đơn giản, nhưng những thử nghiệm này vẫn mang lại nhiều thông tin quý giá và cung cấp một tài liệu tham khảo cho các nhà phát triển xây dựng ứng dụng.

Thế giới tiền điện tử cần phải có một tiêu chuẩn đo lường riêng của nó

Trong lĩnh vực trí tuệ nhân tạo, các tiêu chuẩn chơi vai trò quan trọng. Sự phát triển nhanh chóng của công nghệ học sâu hiện đại bắt nguồn từ ImageNET được hoàn thành bởi Giáo sư Li Feifei vào năm 2012, đó là một bài kiểm tra chuẩn hóa và tập dữ liệu trong lĩnh vực thị giác máy tính.

Bằng cách cung cấp một tiêu chuẩn thống nhất cho việc đánh giá, các chỉ số không chỉ cung cấp cho các nhà phát triển mục tiêu rõ ràng và điểm tham chiếu, mà còn thúc đẩy tiến bộ công nghệ trong ngành. Điều này giải thích tại sao mỗi mô hình ngôn ngữ lớn mới được phát hành sẽ tập trung vào thông báo kết quả trên các chỉ số khác nhau. Các kết quả này trở thành một “ngôn ngữ chung” của khả năng mô hình, cho phép các nhà nghiên cứu xác định các đột phá, các nhà phát triển chọn lựa các mô hình phù hợp nhất cho các nhiệm vụ cụ thể, và người dùng đưa ra lựa chọn có căn cứ dựa trên dữ liệu khách quan. Quan trọng hơn, các bài kiểm tra chỉ số thường báo hiệu hướng đi tương lai của các ứng dụng trí tuệ nhân tạo, hướng dẫn đầu tư tài nguyên và tập trung nghiên cứu.

Nếu chúng ta tin rằng có tiềm năng lớn tại giao điểm của trí tuệ nhân tạo và mật mã học, thì việc thành lập các tiêu chuẩn mật mã học đặc biệt trở thành một nhiệm vụ khẩn cấp. Việc thiết lập các tiêu chuẩn có thể trở thành một cây cầu chính kết nối hai lĩnh vực AI và mã hóa, xúc tác sự đổi mới và cung cấp hướng dẫn rõ ràng cho các ứng dụng trong tương lai.

Tuy nhiên, so với các điểm chuẩn trưởng thành trong các lĩnh vực khác, việc xây dựng điểm chuẩn trong lĩnh vực mã hóa phải đối mặt với những thách thức độc đáo: công nghệ mã hóa đang phát triển nhanh chóng, hệ thống tri thức ngành chưa được củng cố và thiếu sự đồng thuận theo nhiều hướng cốt lõi. Là một lĩnh vực liên ngành, mã hóa bao gồm mật mã, hệ thống phân tán, kinh tế, v.v. và độ phức tạp của nó vượt xa một lĩnh vực duy nhất. Điều thậm chí còn thách thức hơn là điểm chuẩn mã hóa không chỉ cần đánh giá kiến thức mà còn kiểm tra khả năng thực tế của AI trong việc sử dụng công nghệ mã hóa, đòi hỏi phải thiết kế một kiến trúc đánh giá mới. Việc thiếu các bộ dữ liệu liên quan càng làm tăng thêm khó khăn.

Sự phức tạp và quan trọng của nhiệm vụ này quyết định rằng nó không thể được thực hiện bởi một người hoặc một nhóm duy nhất. Nó cần phải kết hợp sự khôn ngoan của nhiều bên từ người dùng, nhà phát triển, chuyên gia mật mã, nhà nghiên cứu mã hóa đến nhiều người trong lĩnh vực liên ngành khác nhau, và phụ thuộc vào sự tham gia và đồng thuận rộng rãi của cộng đồng. Do đó, tiêu chuẩn mã hóa cần một cuộc thảo luận rộng hơn, vì nó không chỉ là một công việc kỹ thuật, mà còn là một sự suy tư sâu sắc về cách chúng ta hiểu về công nghệ mới nổi này.

Miễn trách nhiệm:

  1. Bài viết này được in lại từ [Empower Labs]. Tất cả các bản quyền thuộc về tác giả gốc [Wang Chao]. Nếu có bất kỳ khiếu nại nào về việc tái bản này, vui lòng liên hệ với Gate Learn và họ sẽ xử lý kịp thời.
  2. Miễn trừ trách nhiệm: Các quan điểm và ý kiến được bày tỏ trong bài viết này chỉ thuộc về tác giả và không có bất kỳ lời khuyên đầu tư nào.
  3. Việc dịch bài viết sang các ngôn ngữ khác được thực hiện bởi nhóm Gate Learn. Trừ khi được đề cập, việc sao chép, phân phối hoặc đạo văn các bài viết đã được dịch là không được phép.
Comece agora
Inscreva-se e ganhe um cupom de
$100
!