Có gì khác giữa Data Science và Business Intelligence

Posted by

Gần đây lĩnh vực Data đang ngày càng được nhiều bạn trẻ quan tâm và mong muốn theo đuổi trên con đường sự nghiệp. Tuy nhiên, có nhiều mảng nhỏ liên quan đến Data có thể dễ  gây hoang mang, tiêu biểu trong đó có Data Science và Business Intelligence. Trước đây, công việc của các vị trí Data Science và Business Intelligence gần như là tương đồng, nhưng gần đây khi lĩnh vực Data ngày càng phổ biến và phát triển, hai mảng này cũng dần tách biệt rõ ràng hơn. Bài viết hôm nay của Careerly được dịch từ những chia sẻ cá nhân của Matt Przybyla – một Senior Data Scientist, về những điểm giống và khác của hai vị trí này, hi vọng có thể giúp bạn đọc có hình dung cụ thể về đặc điểm của riêng từng vị trí cũng như so sánh tương quan từng vị trí để lựa chọn được công việc phù hợp với mình. 

Data Science

Từ kinh nghiệm làm việc của tôi cũng như đi phỏng vấn ở những công ty khác và xem nhiều Job descriptions (mô tả công việc), tôi có thể tóm tắt được mô tả tổng quát về công việc Data Science và công việc này khác với BI (Business Intelligence) ra sao. 

Khái niệm chính, kỹ năng và yêu cầu công việc trong ngành Data Science, có đi kèm một vài tool (công cụ) ví dụ, (lưu ý đây không bao gồm tất cả): 

  • Cùng thảo luận với các bên liên quan để giải quyết, phát triển một use case hoặc một vấn đề.
  • Thu thập dữ liệu thô từ nhiều nguồn khác nhau.
  • Tạo dataset bằng SQL và Python.
  • Xử lý, phân tích dữ liệu (thường bằng Pandas) và feature engineering (giai đoạn xử lý dữ liệu thô ban đầu thành các dữ liệu thuộc tính)
  • Thăm dò (exploration) và so sánh các mô hình học máy (scikit-learn, TensorFlow, Keras)
  • Hoàn thành mô hình/các mô hình
  • Triển khai mô hình
  • Thảo luận về kết quả và ảnh hưởng. 

Danh sách công việc trên đây không bao gồm toàn bộ những gì một Data Scientist sẽ làm nhưng nó đại diện cho một quy trình tiêu biểu mà bất cứ một Data Scientist nào cũng thực hiện. Thực ra trong chuỗi quy trình này, ở phần việc đầu và cuối, hai đầu việc này cũng chính là đầu việc mở đầu và kết thúc chuỗi quy trình làm việc của một BI. Thậm chí, đầu việc thứ 2, 3 và một chút đầu việc thứ 4 cũng sẽ là đầu việc một BI analysts có thể làm hằng ngày. 

Điểm khác biệt chính ở đây chính là việc tập trung vào thăm dò, so sánh, triển khai mô hình, đây cũng chính là một phần của quá trình làm data science tập trung vào các thuật toán và phép toán trong machine learning (học máy). Đây có lẽ chính là điểm khác biệt lớn nhất giữa Data Science và Business Intelligence, dù một số Business Intelligence Analysts cũng thực hiện phân tích hồi quy (regression analysis), dự đoán (prediction) và dự báo (forecasting). 

Một điểm khác biệt khác có thể là việc tập trung vào Python/R hoặc ngôn ngữ lập trình khác với những khái niệm hướng đối tượng (object-oriented) được ứng dụng vào Data Science. 

Ví dụ một quy trình làm một dự án cụ thể mà cá nhân tôi áp dụng khi làm việc ở vị trí Data Scientist: 

  • Phát triển một use case: “những sản phẩm này thì có thể phân loại được tốt hơn và nhanh hơn với một thuật toán machine learning.” 
  • Chúng ta sẽ cần data từ nhiều nguồn ví dụ như catalog sản phẩm để tạo thuật toán này. 
  • Giờ chúng ta có thể dùng SQL để truy vấn data, từ đó chúng ta sẽ có data cần thiết để chuyển sang nhập vào Pandas với Python.
  • Giờ đã có data, chúng ta có thể tìm ra những dữ liệu bị thiếu, các điểm ngoại lệ (outlier), thống kê mô tả (descriptive statistics), trung bình/min/max, cũng như áp dụng các hàm đơn giản mà lại hữu dụng khác như df.describe(), df.head(), df.tail(), và df.column_name.value_counts() để bin các nhóm data theo số lần chúng xuất hiện ở mỗi bin. 
  • Bỏ một số tính năng không cần thiết, và tạo một số tính năng mới chỉ bằng cách chia hai cột đồng thời. Ví dụ một tính năng tốt trong use case này là mô tả sản phẩm, như với những đặc điểm một chiếc áo màu kẻ ngang màu đen và cam, size XL, thì mô hình sẽ có thể suy ra được đây là sản phẩm “Áo Halloween cho người lớn”. 
  • Dùng thư viện scikit-learn để ứng dụng thuật toán Rừng ngẫu nhiên (Random Forest) để tạo một mô hình phân loại. 
  • Sử dụng Amazon SageMaker làm nền tảng triển khai để triển khai mô hình. 
  • Tạo dashboard về kết quả của mô hình phân loại của bạn, bao gồm độ chính xác của mô hình. 

Như bạn có thể thấy, Data Analysis liên quan khá nhiều đến Machine Learning. Vì vậy, tôi gợi ý vị trí Data Scientist cho những ai thích lập trình hướng đến đối tượng cũng như các phép toán machine learning. Vị trí này có thể đem đến cho công ty giá trị lớn khi biến những quy trình tự động nhưng không chính xác trở thành những quy trình tự động, chính xác và nhanh hơn. 

Tiếp theo, hãy cùng tìm hiểu về Business Intelligence, cũng như điểm giống và khác nhau của nó so với Data Science. 

Business Intelligence

Business Intelligence có nhiều điểm chung giống với Data Science, trong đó điểm giống nhau nhất giữa hai lĩnh vực này là mục đích của cả hai vị trí. Cả hai lĩnh vực hay vị trí này đều cố gắng phát triển một use case và phân tích kết quả. Tuy nhiên, các phương pháp để lấy kết quả có thể khác nhau. Ví dụ, Business Intelligence Analysts thường tập trung sử dụng các công cụ như Excel, Google Sheets, Tableau, SQL. 

Khái niệm chính, kỹ năng và yêu cầu công việc trong ngành Business Intelligence, có đi kèm một vài tool (công cụ) ví dụ (lưu ý đây không bao gồm tất cả): 

  • Cùng thảo luận với các bên liên quan để phát triển một use case. 
  • Sử dụng Excel với các hàm như VLOOKUPs, SUMIFs để thực hiện phân tích data. 
  • Dùng SQL để thu thập dữ liệu. 
  • Phân tích dữ liệu với SQL/các hàm truy vấn phức tạp hơn khác. 
  • (Trong một vài trường hợp) – sử dụng Excel hoặc công cụ khác để dự đoán hoặc dự báo. 
  • Trình bày kết quả với công cụ visualization (trực quan hóa) như Tableau hoặc Looker. 
  • Thảo luận kết quả với các bên liên quan hoặc lãnh đạo. 

Có một số công cụ được cả hai vị trí sử dụng, từ các điểm tóm tắt ở trên chúng ta có thể thấy khái niệm chính của hai ngành này khác nhau ở chỗ Business Intelligence không bao gồm thuật toán hay triển khai machine learning. Hai vị trí này cũng có thể yêu cầu bằng đại học / thạc sĩ ở các ngành khác nhau. 

Các bạn có thể tham khảo job description của vị trí Data Scientist/Analyst và vị trí Business Intelligence Analyst cũng như nhiều vị trí làm công nghệ khác tại Việt Nam ở đây: https://blog.careerly.vn/job-post/

Ví dụ quy trình làm một dự án cụ thể mà cá nhân tôi áp dụng khi làm việc ở vị trí Business Intelligence Analyst: 

  • Nhận thấy số lượng người dùng bất thường vào lúc 11 giờ đêm của một công ty làm app gọi taxi. 
  • Thu thập dữ liệu người dùng và dữ liệu thời gian để tạo một dataset cho việc phân tích. 
  • Tập hợp data lại bằng Excel và/ hoặc SQL. 
  • Dùng “group by” trong SQL để tìm xem người dùng lúc 11 giờ đêm có đặc điểm nhân khẩu chung nhất định nào không. 
  • Dùng phân tích hồi quy để dự đoán và kiểm tra xem tình trạng này có diễn ra với một tần suất nhất định nào không. 
  • Tìm ra được nhóm người này cùng có một dữ liệu sự kiện chung là có một buổi fanmeeting của một nghệ sĩ kết thúc vào buổi đêm hôm ấy. 
  • Tạo một chiến dịch marketing và giảm giá cho những nghệ sĩ mời những nghệ sĩ khác gọi taxi. 
  • Trình bày kết quả chiến dịch ảnh hưởng đến nhóm khách hàng này thế nào bằng Tableau. 

Như bạn có thể thấy, vị trí này tập trung nhiều vào tìm hiểu business và thường dùng SQL nhiều. Tôi gợi ý vị trí này cho những người muốn ứng dụng tổng hợp kỹ năng SQL, visualization và làm việc với những bên không liên quan đến technical. Bạn cũng có thể ứng tuyển những vị trí này nhanh hơn bằng cách bỏ qua những kỹ thuật lập trình phức tạp và cần nhiều thời gian để học như Python. Những vị trí này sẽ làm những dự án mang lại giá trị nhanh hơn, trong khi các dự án trong Data Science thường sẽ kéo dài lâu hơn khoảng 1 tháng so với dự án Business Intelligence thường khoảng 1 tuần. Tuy vậy, Business Intelligence Analyst vẫn có thể đem đến nhiều giá trị cho công ty như những phân tích hay insights có thể giúp giảm chi phí, cũng như làm việc chung với Data Scientist để họ có thể tạo các mô hình machine learning từ kết quả phân tích của bạn. 

Tổng kết

Khi mới nghe đến hai vị trí này, bạn có thể thấy chúng rất giống hoặc rất khác nhau, tuy nhiên việc xác định rõ điểm giống và điểm khác giữa hai vị trí này, cũng như yêu cầu công việc thường ngày ở mỗi lĩnh vực là rất quan trọng. Điểm chung nhất có lẽ là mục đích của hai vị trí đều là thu thập và thảo luận data, phân tích và kết quả với các bên liên quan. Điểm khác biệt nằm ở phương pháp áp dụng, trong khi Business Intelligence tập trung vào kỹ năng SQL hơn thì Data Scientist tập trung vào Python/R hơn, ngoài ra thì Data Science đặc biệt tập trung vào machine learning ở mọi mặt. 

Để tổng kết thì dưới đây là một số yêu cầu chính của mỗi vị trí: 

  • Data Science: Thu thập dữ liệu, Python, thuật toán và triển khai machine learning. 
  • Business Intelligence: Excel hoặc Google Sheets, SQL, phân tích dữ liệu, dự báo. 

Hi vọng với nội dung bài viết hôm nay, các bạn đã có thể hình dung rõ hơn một chút về hai công việc này, từ đó có định hướng phù hợp cũng như chuẩn bị và rèn luyện những kỹ năng cần thiết cho định hướng ấy. 

Bài viết được dịch từ: https://towardsdatascience.com/data-science-vs-business-intelligence-heres-the-difference-a805b99710ca

Để lại bình luận