# 2: Những điều bạn cần biết về thuật toán học máy và lý do bạn nên quan tâm

Đây là phần 2 của hướng dẫn 6 phần, Hướng dẫn từng bước để xây dựng các sản phẩm dựa trên máy học.

Trước đây chúng tôi đã thảo luận về loại tác động kinh doanh ML có thể có. Bây giờ, hãy xem xét tất cả các thuật ngữ kỹ thuật bạn cần biết để làm việc hiệu quả với nhóm khoa học dữ liệu và giúp họ tạo ra tác động lớn nhất cho doanh nghiệp của bạn (hoặc ít nhất là âm thanh như bạn biết họ đang nói về điều gì).

Thuật toán, mô hình và dữ liệu

Ở cấp độ khái niệm, chúng tôi đang xây dựng một cỗ máy đưa ra một bộ đầu vào nhất định sẽ tạo ra một đầu ra mong muốn nhất định bằng cách tìm các mẫu trong dữ liệu và học hỏi từ nó.

Một trường hợp rất phổ biến là cho một máy bắt đầu bằng cách xem xét một bộ đầu vào nhất định và một bộ đầu ra tương ứng với các đầu vào đó. Nó xác định các mẫu giữa chúng và tạo ra một tập hợp các quy tắc phức tạp mà sau đó nó có thể áp dụng cho các đầu vào mới mà nó chưa từng thấy trước đây và tạo ra đầu ra mong muốn. Ví dụ: với các cảnh quay vuông, địa chỉ và số lượng phòng (đầu vào) chúng tôi đang tìm kiếm để dự đoán giá bán của một ngôi nhà (đầu ra). Giả sử chúng ta có dữ liệu về cảnh quay vuông, địa chỉ và số lượng phòng của 10.000 ngôi nhà, cũng như giá bán của chúng. Máy sẽ tự đào tạo dữ liệu trên dữ liệu - tức là xác định các mẫu xác định mức độ vuông, địa chỉ và số phòng ảnh hưởng đến giá nhà, do đó, nếu chúng tôi cung cấp cho 3 đầu vào đó cho một ngôi nhà mà nó chưa từng thấy trước đó, thì nó có thể dự đoán giá của ngôi nhà đó.

Vai trò của nhà khoa học dữ liệu là tìm ra máy tối ưu để sử dụng với các đầu vào và đầu ra dự kiến. Cô ấy có nhiều mẫu - được gọi là thuật toán - cho máy móc. Các máy cô sản xuất từ ​​các mẫu đó để giải quyết một vấn đề cụ thể được gọi là mô hình. Các mẫu có các tùy chọn và cài đặt khác nhau mà cô ấy có thể điều chỉnh để tạo các mô hình khác nhau từ cùng một mẫu. Cô ấy có thể sử dụng các mẫu khác nhau và / hoặc điều chỉnh các cài đặt cho cùng một mẫu để tạo ra nhiều mô hình mà cô ấy có thể kiểm tra để xem kết quả nào cho kết quả tốt nhất.

Lưu ý rằng đầu ra mô hình là chính xác / hữu ích cho việc ra quyết định ở một mức độ xác suất nào đó. Các mô hình không chính xác 100%, nhưng đúng hơn là những dự đoán tốt nhất của Google, đưa ra lượng dữ liệu mà mô hình đã nhìn thấy. Mô hình càng nhìn thấy nhiều dữ liệu, càng có nhiều khả năng cung cấp đầu ra hữu ích.

Tập hợp các đầu vào và đầu ra đã biết mà nhà khoa học dữ liệu sử dụng để đào tạo máy của máy - tức là để mô hình xác định các mẫu trong dữ liệu và tạo quy tắc - là tập huấn luyện của Tập điều chỉnh. Dữ liệu này được sử dụng để cùng với một hoặc nhiều mẫu của Cameron, để tạo một hoặc nhiều mô hình mà các nhà khoa học dữ liệu nghĩ rằng có thể làm việc để giải quyết vấn đề. Hãy nhớ rằng ngay cả khi cô ấy chỉ sử dụng một mẫu thuật toán (thuật toán), thì cô ấy có thể điều chỉnh một số tùy chọn để tạo nhiều mô hình từ cùng một mẫu, với các cài đặt khác nhau, do đó cô ấy có thể kết thúc với một số mô hình.

Sau khi cô ấy có một vài trong số những người mẫu được đào tạo về mối quan hệ này, cô ấy phải kiểm tra xem chúng hoạt động tốt như thế nào và cái nào hoạt động tốt nhất. Cô ấy thực hiện điều đó bằng cách sử dụng một bộ dữ liệu mới gọi là bộ xác thực của bộ dữ liệu. Cô chạy các mô hình trên các đầu vào của bộ xác thực để xem cái nào cho kết quả gần nhất với đầu ra của bộ xác thực. Trong ví dụ của chúng tôi - mô hình nào sẽ dự đoán giá nhà gần nhất với giá thực tế mà căn nhà được bán. Cô ấy cần một bộ dữ liệu mới ở giai đoạn này bởi vì các mô hình được tạo ra dựa trên hiệu suất của chúng với tập huấn luyện, vì vậy chúng được thiên vị để hoạt động tốt trên tập đó và sẽ không đọc đúng.

Khi cô ấy xác nhận mô hình nào hoạt động tốt nhất và chọn người chiến thắng, nhà khoa học dữ liệu của chúng tôi cần xác định hiệu suất thực tế của mô hình đó, tức là mô hình tốt nhất mà cô ấy có thể tạo ra thực sự tốt như thế nào để giải quyết vấn đề. Một lần nữa, cô ấy cần một bộ dữ liệu mới bởi vì mô hình rõ ràng thực hiện tốt các bộ đào tạo và xác nhận - đó là cách nó được chọn! Tập dữ liệu cuối cùng được gọi là tập kiểm tra trên thang máy. Trong ví dụ của chúng tôi, cô ấy sẽ kiểm tra xem giá nhà dự đoán cho các đầu vào của bộ thử nghiệm gần với giá thử nghiệm thực tế như thế nào. Chúng tôi sẽ thảo luận về hiệu suất đo chi tiết hơn sau.

Các loại hình học tập trực tuyến

Loại thuật toán bạn có thể áp dụng để giải quyết vấn đề máy học rất nhiều phụ thuộc vào dữ liệu bạn có. Một phân loại chính của các thuật toán học tập dựa trên dữ liệu cần thiết để xây dựng các mô hình sử dụng chúng: Liệu dữ liệu cần bao gồm cả đầu vào và đầu ra hay chỉ đầu vào, cần bao nhiêu điểm dữ liệu và khi dữ liệu được thu thập. Nó bao gồm 4 loại chính: học tập có giám sát, học tập không giám sát, học bán giám sát và học tập củng cố.

Học có giám sát

Trường hợp chúng tôi đã thảo luận chi tiết trong phần trước đã mô tả những gì chúng tôi gọi là học có giám sát của ED. Đây là một kiểu học tập trong đó một thuật toán cần phải xem rất nhiều ví dụ dữ liệu được gắn nhãn - dữ liệu bao gồm cả đầu vào và đầu ra tương ứng, để hoạt động. Phần được gắn nhãn của Phần cứng đề cập đến việc gắn thẻ các đầu vào với kết quả mà mô hình đang cố gắng dự đoán, trong ví dụ về giá nhà của chúng tôi.

Các thuật toán học tập được giám sát sẽ xem dữ liệu được gắn nhãn (còn gọi là dữ liệu về sự thật của nền tảng), tìm hiểu từ nó và đưa ra dự đoán dựa trên các ví dụ đó. Chúng đòi hỏi rất nhiều dữ liệu được dán nhãn trả trước: Mặc dù số lượng phụ thuộc vào trường hợp sử dụng, hàng trăm điểm dữ liệu là mức tối thiểu để có được bất cứ thứ gì hữu ích từ xa.

Hai vấn đề kinh điển được giải quyết thông qua học tập có giám sát là:

  • Hồi quy. Suy ra giá trị của một biến không xác định dựa trên các phần dữ liệu khác mà nó đứng trước lý do sẽ có ảnh hưởng đến biến đó. Hai cách sử dụng phổ biến là dự đoán theo thời gian - ví dụ: ví dụ trước đây của chúng tôi về dự đoán giá trị của căn nhà dựa trên các biến như vị trí và cảnh vuông và dự báo giá trị tương lai - ví dụ: dự báo giá trị nhà một năm kể từ bây giờ dựa trên giá trị nhà hiện tại và lịch sử dữ liệu. Hồi quy là một phương pháp thống kê xác định mối quan hệ giữa các biến độc lập (dữ liệu bạn đã có) và biến phụ thuộc có giá trị mà bạn đang dự đoán).
  • Phân loại. Xác định danh mục nào thuộc về một thực thể thuộc một nhóm các danh mục nhất định. Đây có thể là phân loại nhị phân - ví dụ: xác định xem một bài đăng có lan truyền hay không (có / không) và phân loại đa nhãn - ví dụ: dán nhãn ảnh sản phẩm với danh mục phù hợp mà sản phẩm thuộc về (trong số hàng trăm danh mục).

Học tập không giám sát

Trong học tập không giám sát, thuật toán cố gắng xác định các mẫu trong dữ liệu mà không cần gắn thẻ tập dữ liệu với kết quả mong muốn. Dữ liệu là không có nhãn mác - nó chỉ có tên là hung, không có bất kỳ nhãn có ý nghĩa nào được đính kèm. Một vài vấn đề kinh điển được giải quyết thông qua các phương pháp học tập không giám sát là:

  • Phân cụm. Đưa ra một tiêu chí tương đồng nhất định, tìm những mặt hàng nào giống với nhau hơn. Một lĩnh vực sử dụng phân cụm là văn bản - xem xét kết quả tìm kiếm trả về nhiều tài liệu rất giống nhau. Phân cụm có thể được sử dụng để nhóm chúng lại với nhau và giúp người dùng dễ dàng xác định các tài liệu khác biệt nhất.
  • Hội. Phân loại các đối tượng thành các thùng dựa trên một số mối quan hệ, sao cho sự hiện diện của một đối tượng trong một nhóm dự đoán sự hiện diện của đối tượng khác. Ví dụ, những người mua hàng trên thế giới cũng đã mua vấn đề khuyến nghị (một khi phân tích một số lượng lớn giỏ hàng cho thấy rằng sự hiện diện của sản phẩm X trong giỏ hàng có khả năng cho thấy sản phẩm Y cũng sẽ nằm trong giỏ hàng, bạn có thể ngay lập tức giới thiệu sản phẩm Y cho bất kỳ ai đặt sản phẩm X vào giỏ hàng của họ.
  • Phát hiện bất thường. Xác định các mẫu không mong muốn trong dữ liệu cần được gắn cờ và xử lý. Các ứng dụng tiêu chuẩn là phát hiện gian lận và theo dõi sức khỏe cho các hệ thống phức tạp. (Lưu ý: Có các kỹ thuật phát hiện dị thường được giám sát, nhưng việc sử dụng các kỹ thuật không giám sát là phổ biến vì theo định nghĩa, rất khó để có được dữ liệu được dán nhãn cho dị thường và đó là điều kiện tiên quyết để sử dụng các kỹ thuật được giám sát.)

Học bán giám sát

Đây là sự kết hợp giữa học tập có giám sát và không giám sát, trong đó thuật toán yêu cầu một số dữ liệu đào tạo, nhưng ít hơn nhiều so với trường hợp học có giám sát (có thể là một thứ tự cường độ nhỏ hơn). Các thuật toán có thể là phần mở rộng của các phương thức được sử dụng trong học tập có giám sát và không giám sát - phân loại, hồi quy, phân cụm, phát hiện bất thường, v.v.

Học tăng cường

Ở đây thuật toán bắt đầu với một tập hợp dữ liệu hạn chế và học hỏi vì nó nhận được nhiều phản hồi hơn về các dự đoán của nó theo thời gian.

Như bạn có thể thấy, ngoài loại vấn đề bạn đang cố gắng giải quyết, lượng dữ liệu bạn có sẽ ảnh hưởng đến các loại phương pháp học tập bạn có thể sử dụng. Điều này cũng áp dụng theo cách khác - phương pháp học tập bạn cần sử dụng có thể yêu cầu bạn có được nhiều dữ liệu hơn bạn có để giải quyết vấn đề của bạn một cách hiệu quả. Chúng ta sẽ thảo luận về điều đó sau.

Thông tin khác Buzz Buzz Buzz khác đáng để biết

Có một vài điều khoản khác bạn sẽ thường gặp khi bạn làm việc nhiều hơn trong không gian. Điều quan trọng là phải hiểu mối quan hệ của họ (hoặc thiếu nó) với các loại chúng tôi đã thảo luận.

Học sâu là trực giao với các định nghĩa trên. Nó chỉ đơn giản là việc áp dụng một loại hệ thống cụ thể để giải quyết các vấn đề học tập - giải pháp có thể được giám sát, không được giám sát, v.v.

Mạng nơ-ron nhân tạo (ANN) là một hệ thống học tập cố gắng mô phỏng cách thức hoạt động của bộ não của chúng ta - thông qua một mạng lưới các nơ-ron thần kinh được tổ chức theo lớp. Một mạng nơ-ron có tối thiểu một lớp đầu vào - tập hợp các nơ-ron thông qua dữ liệu được đưa vào mạng, một lớp đầu ra - các nơ-ron thông qua đó kết quả được truyền ra, và một hoặc nhiều lớp ở giữa, được gọi là các lớp ẩn , đó là các lớp làm công việc tính toán. Học sâu chỉ đơn giản là việc sử dụng các mạng lưới thần kinh với nhiều hơn một lớp ẩn để hoàn thành một nhiệm vụ học tập. Nếu bạn đã từng sử dụng các mạng như vậy - xin chúc mừng, bạn cũng có thể sử dụng từ thông dụng một cách hợp pháp!

Phương pháp tập hợp hoặc học tập đồng bộ là việc sử dụng nhiều mô hình để có được kết quả tốt hơn so với những gì mỗi mô hình có thể đạt được. Các mô hình có thể dựa trên các thuật toán khác nhau hoặc trên cùng một thuật toán với các tham số khác nhau. Ý tưởng là thay vì có một mô hình lấy đầu vào và tạo đầu ra - giả sử một loại dự đoán nào đó, bạn có một bộ mô hình mà mỗi mô hình tạo ra một dự đoán và một số quy trình để cân nhắc các kết quả khác nhau và quyết định đầu ra của nhóm kết hợp nên được. Các phương pháp của bộ đồng phục thường được sử dụng trong học tập có giám sát (chúng rất hữu ích trong các vấn đề dự đoán) nhưng cũng có thể áp dụng trong học tập không giám sát. Nhóm khoa học dữ liệu của bạn có thể sẽ kiểm tra các phương pháp đó và áp dụng chúng khi thích hợp.

Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực khoa học máy tính xử lý việc hiểu ngôn ngữ bằng máy móc. Không phải tất cả các loại NLP đều sử dụng máy học. Ví dụ: nếu chúng ta tạo ra một thẻ đám mây trên mạng - một biểu diễn trực quan về số lần một từ xuất hiện trong văn bản - không có việc học liên quan. Phân tích và hiểu biết phức tạp hơn về ngôn ngữ và văn bản thường yêu cầu ML. Vài ví dụ:

  • Tạo từ khóa. Hiểu chủ đề của nội dung văn bản và tự động tạo từ khóa cho nó
  • Định hướng ngôn ngữ. Xác định nghĩa liên quan trong số nhiều cách hiểu có thể có của một từ hoặc một câu (đây là một lời giải thích tuyệt vời với các ví dụ)
  • Phân tích tình cảm. Hiểu được ở đâu trên thang điểm tiêu cực đến tích cực, tình cảm được thể hiện trong một văn bản nằm
  • Đặt tên thực thể khai thác. Xác định các công ty, con người, địa điểm, thương hiệu, vv trong một văn bản; Điều này đặc biệt khó khăn khi các tên không có gì đặc biệt (ví dụ: công ty của Microsoft Microsoft Microsoft dễ nhận dạng hơn so với công ty của Target Target, cũng là một từ trong tiếng Anh)

NLP không chỉ được sử dụng cho các ứng dụng định hướng ngôn ngữ của ML như chatbot. Nó cũng được sử dụng rộng rãi để chuẩn bị và xử lý trước dữ liệu trước khi nó có thể là một đầu vào hữu ích vào nhiều mô hình ML. Thêm về điều đó sau.

Xin lưu ý: Các định nghĩa ở trên có nghĩa là truyền đạt các ý chính và thực tế; để có một định nghĩa khoa học chi tiết xin vui lòng tham khảo các nguồn khác.

Vấn đề ảnh hưởng đến giải pháp như thế nào (và một số khái niệm ML quan trọng khác)

Mục tiêu chiến lược mà bạn đang cố gắng đạt được với ML sẽ đưa ra nhiều quyết định hạ nguồn. Điều quan trọng là phải hiểu một số khái niệm ML cơ bản và tác động của chúng đối với các mục tiêu kinh doanh của bạn để đảm bảo nhóm khoa học dữ liệu của bạn có thể tạo ra giải pháp phù hợp cho doanh nghiệp của bạn.

Lựa chọn thuật toán

Một thay đổi nhỏ trong định nghĩa vấn đề có thể có nghĩa là cần phải có một thuật toán hoàn toàn khác để giải quyết nó hoặc tối thiểu một mô hình khác sẽ được xây dựng với các đầu vào dữ liệu khác nhau. Trang web hẹn hò đang tìm cách xác định các loại ảnh hoạt động tốt cho người dùng có thể sử dụng các kỹ thuật học tập không giám sát như phân cụm để xác định các chủ đề phổ biến hoạt động, trong khi vấn đề là đề xuất ngày tiềm năng cho một người cụ thể mà trang web có thể sử dụng học có giám sát dựa trên đầu vào cụ thể cho từng người dùng, chẳng hạn như ảnh họ đã xem.

Lựa chọn tính năng

Mô hình ML xác định các mẫu trong dữ liệu. Dữ liệu bạn cung cấp cho các mô hình được sắp xếp thành các tính năng (còn được gọi là biến hoặc thuộc tính): Đây là những phần dữ liệu độc lập, phần lớn độc lập mô tả một số khía cạnh của hiện tượng bạn đang cố gắng dự đoán hoặc xác định.

Lấy ví dụ trước đây về một công ty đang tìm cách ưu tiên tiếp cận với những người xin vay tiền. Nếu chúng tôi xác định vấn đề là ưu tiên khách hàng dựa trên khả năng chuyển đổi của họ, chúng tôi sẽ bao gồm các tính năng như tỷ lệ phản hồi của các khách hàng tương tự với các loại tiếp cận khác nhau của công ty. Nếu chúng tôi xác định vấn đề là ưu tiên khách hàng có khả năng trả các khoản vay của họ, thì chúng tôi có thể không bao gồm các tính năng đó vì chúng không liên quan đến việc đánh giá khả năng thanh toán của khách hàng.

Lựa chọn chức năng khách quan

Hàm mục tiêu là mục tiêu bạn tối ưu hóa hoặc kết quả mà mô hình đang cố gắng dự đoán. Ví dụ: nếu bạn đang cố gắng đề xuất sản phẩm mà người dùng có thể quan tâm, đầu ra của một mô hình có thể là xác suất mà người dùng sẽ nhấp vào sản phẩm nếu họ nhìn thấy sản phẩm đó. Nó cũng có thể là xác suất mà người dùng sẽ mua sản phẩm. Việc lựa chọn chức năng mục tiêu phụ thuộc chủ yếu vào mục tiêu kinh doanh của bạn - trong ví dụ này, bạn có quan tâm nhiều hơn đến sự tham gia của người dùng, trong trường hợp đó, chức năng mục tiêu của bạn có thể là nhấp chuột hoặc thời gian dừng hoặc trong doanh thu trực tiếp, trong trường hợp đó, chức năng mục tiêu của bạn sẽ mua hàng? Điểm cân nhắc quan trọng khác là tính khả dụng của dữ liệu: Để tìm hiểu thuật toán, bạn sẽ phải cung cấp cho nó nhiều điểm dữ liệu được gắn nhãn là tích cực (sản phẩm mà người dùng nhìn thấy và nhấp vào) hoặc âm tính (sản phẩm mà người dùng đã thấy và không nhấp vào). Bạn có thể có một số lượng lớn điểm dữ liệu của các sản phẩm được nhấp (hoặc không nhấp) vào so với các sản phẩm được mua.

Giải thích và giải thích

Đầu ra của các mô hình ML thường là một con số - một xác suất, một dự đoán về khả năng điều gì đó sẽ xảy ra hoặc là đúng. Trong ví dụ về đề xuất sản phẩm, các sản phẩm trên trang web có thể được chỉ định xác suất người dùng cá nhân sẽ nhấp vào chúng và các sản phẩm có xác suất cao nhất sẽ được hiển thị cho người dùng. Nhưng làm thế nào để bạn biết nó hoạt động? Trong trường hợp này, việc xác minh thuật toán hoạt động tương đối dễ dàng - bạn có thể chạy thử nghiệm ngắn và xem. Nhưng điều gì sẽ xảy ra nếu các thực thể bạn xếp hạng là nhân viên tiềm năng và mô hình của bạn kiểm tra khả năng họ trở thành ứng viên tốt cho công ty? Một người dùng (giả sử, một người quản lý tuyển dụng) sẽ chỉ nhận lời của bạn cho nó, hoặc họ sẽ phải hiểu tại sao thuật toán xếp hạng người A trước người B?

Trong nhiều trường hợp, bạn sẽ có một số giải thích để làm. Tuy nhiên, nhiều thuật toán ML là một hộp đen: Bạn nhập nhiều tính năng và có được một mô hình khó giải thích. Các mẫu mà máy tìm thấy trong dữ liệu thường rất phức tạp đến nỗi con người sẽ không thể nắm bắt được chúng ngay cả khi chúng dễ dàng được đưa vào từ ngữ.

Trong các phần tiếp theo, chúng ta sẽ thấy rằng nhu cầu về khả năng giải thích - người dùng cuối cần ở mức độ nào để có thể hiểu kết quả đạt được và mức độ dễ hiểu - đến mức độ nào mà người dùng cần để đưa ra kết luận nhất định dựa trên kết quả, là một xem xét quan trọng trong cách tiếp cận của bạn để mô hình hóa, lựa chọn các tính năng và trình bày kết quả.

Mô hình và đo lường hiệu suất Cạm bẫy PMs nên coi chừng

Các nhà khoa học dữ liệu của bạn sẽ giải quyết một số vấn đề phổ biến về xử lý và mô hình hóa dữ liệu, nhưng để có những cuộc trò chuyện hữu ích với họ, thật hữu ích cho các PM để hiểu một vài cạm bẫy phổ biến. Đây không phải là một danh sách đầy đủ, nhưng bao gồm một số vấn đề phổ biến hơn xuất hiện.

Quá mức

Một mô hình được cho là đã được trang bị quá mức khi nó theo dõi dữ liệu chặt chẽ đến mức cuối cùng mô tả quá nhiều tiếng ồn thay vì mối quan hệ cơ bản thực sự trong dữ liệu (xem hình minh họa). Nói rộng hơn, nếu độ chính xác của mô hình trên dữ liệu bạn huấn luyện với nó (dữ liệu mà mô hình mà học được từ Trực tiếp) tốt hơn đáng kể so với độ chính xác của nó đối với dữ liệu mà bạn xác thực và kiểm tra nó, bạn có thể gặp trường hợp thừa. .

Minh họa quá mức

Chính xác, thu hồi và đánh đổi giữa họ

Có hai thuật ngữ rất khó hiểu khi lần đầu tiên bạn nghe chúng, nhưng điều quan trọng là phải hiểu đầy đủ vì chúng có ý nghĩa kinh doanh rõ ràng.

Độ chính xác của phân loại (và các kỹ thuật ML thường được sử dụng khác như truy xuất tài liệu), thường được đo bằng hai số liệu chính: Độ chính xác và thu hồi. Độ chính xác đo lường sự chia sẻ của các dự đoán tích cực thực sự trong số tất cả các dự đoán tích cực mà thuật toán tạo ra, tức là% dự đoán tích cực là chính xác. Nếu độ chính xác là X%, X% dự đoán dương của thuật toán là dương thực sự và (100-X)% là dương tính giả. Nói cách khác, độ chính xác càng cao thì càng ít dương tính giả.

Nhớ lại là phần chia sẻ dự đoán tích cực trong số tất cả các thông tin tích cực thực sự trong dữ liệu - tức là bao nhiêu% tích cực thực sự trong dữ liệu mà thuật toán của bạn quản lý để xác định là tích cực. Nếu thu hồi là X%, X% số dương thực sự trong dữ liệu được thuật toán xác định là dương, trong khi (100-X)% được xác định là âm (sai). Nói cách khác, thu hồi càng cao thì càng ít âm tính giả.

Luôn có sự đánh đổi giữa độ chính xác và thu hồi. Nếu bạn không muốn bất kỳ kết quả dương tính giả nào - tức là bạn cần độ chính xác cao hơn, thuật toán sẽ có nhiều âm tính giả hơn, tức là thu hồi thấp hơn, bởi vì nó sẽ thích dùng nhãn để phủ định một cái gì đó là phủ định hơn là gắn nhãn sai thành dương tính và ngược lại. Sự đánh đổi này là một quyết định kinh doanh. Lấy ví dụ về đơn xin vay tiền: Bạn có muốn chơi nó an toàn không và chỉ chấp nhận người nộp đơn mà bạn rất chắc chắn xứng đáng được chấp nhận, do đó làm tăng cơ hội từ chối một số khách hàng tốt (độ chính xác cao hơn, thu hồi thấp hơn = ít sai hơn, âm tính giả hơn) , hoặc chấp nhận nhiều ứng viên cho vay nên bị từ chối nhưng không có nguy cơ bỏ lỡ khách hàng tốt (thu hồi cao hơn nhưng độ chính xác thấp hơn = ít phủ định sai hơn, tích cực sai hơn)? Mặc dù bạn có thể nói một cách đơn giản rằng đây là một vấn đề tối ưu hóa, nhưng thường có những yếu tố cần xem xét là không dễ định lượng như tâm lý khách hàng (ví dụ như khách hàng bị từ chối một cách bất công sẽ tức giận và lên tiếng), rủi ro thương hiệu (ví dụ như danh tiếng của bạn là người bảo lãnh tỷ lệ mặc định cho vay thấp), nghĩa vụ pháp lý, vv, làm cho điều này rất nhiều là một doanh nghiệp, không phải là một khoa học dữ liệu, quyết định.

Số liệu chính xác của mô hình thường gây hiểu lầm

Độ chính xác của mô hình không phải là một biện pháp tốt cho bất kỳ mô hình nào. Hãy tưởng tượng một căn bệnh có tỷ lệ mắc 0,1% trong dân số. Một mô hình cho biết không có bệnh nhân nào mắc bệnh bất kể đầu vào là chính xác 99,9%, nhưng hoàn toàn vô dụng. Điều quan trọng là luôn luôn xem xét cả độ chính xác và thu hồi và cân bằng chúng theo nhu cầu kinh doanh. Độ chính xác là một thước đo tốt khi phân phối kết quả có thể khá đồng đều và tầm quan trọng của dương tính giả và âm tính giả cũng tương đương nhau, điều này hiếm khi xảy ra.

Trung bình số liệu và dữ liệu đào tạo mất cân bằng

Khi bạn đang xử lý nhiều phân khúc mà một mô hình phải giải quyết, bạn cần xem xét các số liệu hiệu suất cho từng phân khúc (hoặc tối thiểu là các phân đoạn quan trọng) một cách riêng biệt. Lấy ví dụ một mô hình phân loại phân loại ảnh thành một trong các nhóm danh mục theo loại động vật trong ảnh. Các số chính xác / thu hồi tổng thể của mô hình có thể không phản ánh tình huống trong đó một số loại có độ chính xác cao, trong khi các loại khác có độ chính xác rất thấp. Điều này thường xảy ra khi bạn có sự mất cân bằng trong dữ liệu huấn luyện của mình - giả sử bạn có 1.000 ảnh mèo và chó được dán nhãn và chỉ có 10 ảnh về gấu. Độ chính xác tổng thể của bạn có thể rất cao vì hầu hết các bức ảnh chó mèo sẽ được phân loại chính xác, trong khi tất cả các con gấu đều bị xác định sai bởi vì mô hình có rất ít dữ liệu liên quan đến chúng. Nếu những danh mục ít thường xuyên hơn quan trọng đối với doanh nghiệp của bạn, bạn có thể cần nỗ lực phối hợp để có được dữ liệu đào tạo cho họ để làm cho mô hình của bạn hoạt động tốt trên bảng.

Ok - đó là khá dài, nhưng hy vọng bây giờ bạn đã hiểu rõ về tất cả các điều cơ bản kỹ thuật. Tiếp theo, chúng ta sẽ trải qua quá trình từng bước chi tiết để phát triển một mô hình từ ý tưởng đến ra mắt trong sản xuất.

Nếu bạn thấy bài đăng này thú vị, bạn vui lòng nhấp vào trái tim màu xanh lá cây bên dưới để cho tôi biết hoặc chia sẻ với người khác có thể thấy nó hữu ích? Điều đó sẽ hoàn toàn làm cho ngày của tôi!