Data Scientist Là Ngành Gì

Data Scientist Là Ngành Gì

Vào năm 2018, Harvard Business Review đã bầu chọn nghề Data Scientist – Nhà khoa học dữ liệu công việc “hot” nhất thế kỷ 21 để nhấn mạnh sự thành công và sức ảnh hưởng của Dữ liệu đến thị trường thế giới. Tuy nhiên, lĩnh vực này chưa hoàn toàn lớn mạnh như kỳ vọng, cũng như còn nhiều hiểu lầm – hiểu sai về công việc data scientist là gì. Nó xuất hiện với nhiều người như một thứ “kỹ thuật mờ”, có thể có khả năng triển khai sản phẩm hoặc dịch vụ của họ.

Vào năm 2018, Harvard Business Review đã bầu chọn nghề Data Scientist – Nhà khoa học dữ liệu công việc “hot” nhất thế kỷ 21 để nhấn mạnh sự thành công và sức ảnh hưởng của Dữ liệu đến thị trường thế giới. Tuy nhiên, lĩnh vực này chưa hoàn toàn lớn mạnh như kỳ vọng, cũng như còn nhiều hiểu lầm – hiểu sai về công việc data scientist là gì. Nó xuất hiện với nhiều người như một thứ “kỹ thuật mờ”, có thể có khả năng triển khai sản phẩm hoặc dịch vụ của họ.

Soft Skill: Suy nghĩ như một Data Scientist

Việc tự trau dồi và rèn luyện tư duy của một Data Scientist là một trong những kỹ năng quan trọng để phân biệt giữa một Scientist giỏi và một Scientist vừa đủ. Một số gợi ý cho bạn để tự rèn luyện cho mình:

Hãy luôn đặt câu hỏi “Vi sao?”, tìm liên kết và những thông tin mới với những vấn đề trong cuộc sống hằng ngày. Trong công việc, các nhà khoa học dữ liệu cho ra insight từ dữ liệu và thông tin từ dataset và đưa ra các quyết định quan trọng theo đó. Việc phân tích hoàn hảo sẽ không hữu ích nếu nó không giải quyết được vấn đề cơ bản. Đôi khi bạn cần quay lại, thử một cách tiếp cận mới và điều chỉnh lại câu hỏi bạn đang cố gắng trả lời. Hãy luôn đặt câu hỏi.

Các nhà khoa học dữ liệu sử dụng rất nhiều công cụ để quản lý quy trình công việc, dữ liệu, chú thích và mã của họ. Điều quan trọng là phải làm việc khoa học, quan sát, thử nghiệm và ghi chép lại mọi lúc, để bạn có thể xem lại và suy nghĩ. Ngoài ra cần phải lưu lại tất cả các nghiên cứu, thông tin bạn phát hiện được không chỉ ở hiện tại – trong quá khứ nữa.

Nghe thì có vẻ mâu thuẫn, nhưng khoa học dữ liệu cần được tiếp cận ở nhiều cách thức – phương diện và góc nhìn khác nhau. Bạn không nhất thiết phải có background kĩ thuật, nhưng bạn cần phải có tư duy sáng tạo. Thông thường, suy nghĩ thay thế (alternative thinking) là chìa khóa cho cách bạn giải quyết một vấn đề mới. Nó sễ đi song song của tư duy logic để giúp bạn thành công trong nghiên cứu và giải mã insight.

Bạn không nhất thiết phải là chuyên gia lập trình, hay tài chính hay bắt buộc từ chuyên môn nào cả. Rất nhiều Data Scientist trên thế giới đến từ ngành luật hoặc kinh tế hoặc khoa học hoặc cả bác sĩ. Tất cả nằm ở chính mình và nỗ lực mà thôi.

Nếu có thể linh hoạt và làm việc có hệ thống, bạn hoàn toàn có thể quen với các tool, frameworks và datasets, cũng như nhanh chóng phát triển sự thấu hiểu về về ngành và vấn đề của doanh nghiệp.

SO SÁNH DATA ANALYST .VS. DATA SCIENTIST

Data Analyst làm việc dựa trên các dữ liệu hiện có và các thuật toán đã được xây dựng sẵn. Các Data Analyst có thể dành nhiều thời gian hơn cho việc phân tích thông thường, cung cấp các báo cáo thường xuyên để giải quyết các vấn đề kinh doanh hữu hình.

​Data Scientist quan tâm hơn đến những gì sẽ hoặc có thể xảy ra bằng hướng đi theo những cách mới (mô hình, thuật toán) để thu thập và phân tích dữ liệu, sau đó đưa ra dự đoán về tương lai.

Data Analyst giải quyết các câu hỏi do doanh nghiệp đưa ra về một vấn đề hiện hữu.

​Data Scientist sẽ tạo ra các câu hỏi mà trong đó giải pháp của họ có khả năng mang lại lợi ích cho doanh nghiệp.

Data Analyst sử dụng các kỹ thuật phân tích và trình bày phát hiện qua báo cáo.

​Data Scientist xử lý các khuôn khổ dữ liệu nhằm mục đích tự động hóa các nhiệm vụ để giải quyết các vấn đề phức tạp.

Data Analyst & Data Scientist có 3 sự khác nhau cơ bản

Về vai trò công việc, cả 2 vị trí Data Analyst & Data Scientist đều làm việc với Data với các tiến trình quan trọng như: xử lý dữ liệu thô, thống kê, phân tích... Bên cạnh đó, chúng vẫn có điểm khác biệt như sau:

- Các Data Analyst sàng lọc thông tin qua dữ liệu và tìm cách xác định xu hướng. Họ có thể tập trung thể hiện dữ liệu thông qua các báo cáo và trực quan hóa (biểu đồ, đồ thị). Các Data Analyst chịu trách nhiệm phân tích thống kê, giải thích dữ liệu, đảm bảo việc thu thập và bảo trì dữ liệu. Từ đó, tối ưu hóa hiệu quả, chất lượng thống kê.

- Về Data Scientist, họ cũng có thể đảm nhận những phần việc đó, nhưng tập trung hơn trong việc tích hợp dữ liệu, thực hiện phân tích đặc biệt, chịu trách nhiệm phát triển các mô hình hoạt động và tham gia vào việc lập kế hoạch chiến lược cho phân tích dữ liệu.

Có thể nói, Data Analyst thiên về mô tả, phân tích các dữ liệu hiện tại. Trong khi Data Scientist có thể dự báo các xu hướng và hành vi trong tương lai. Cả 2 vị trí đều phối hợp chặt chẽ với nhóm lập trình cho công tác quản lý dữ liệu.

( Trong một vài trường hợp, vị trí Data Analyst và Data Scientist có thể cùng một người đảm nhận đặc biệt khi quy mô công ty còn nhỏ và lượng dữ liệu còn ít. )

Lộ trình trở thành Data Scientist trong năm 2022

Tin vui cho tất cả những người đang bước vào ngành Data Science: Đường learning curve của ngành này không còn quá dốc nữa – đường vào nghề ở thời điểm hiện tại đơn giản hơn ngày xưa rất nhiều. Từ bất kì background nào bạn cũng có thể vào lĩnh vực này, đương nhiên phải kiên trì học nhiều – hiểu nhiều – cày nhiều, nhưng có thể đi chậm và chắc từ những cái căn bản.

Python mãi xứng đáng có một vị trí cao ổn định trong bộ toolkit của một Data Scientist. Nhiều chuyên gia chọn ngôn ngữ này vì hệ sinh thái được thiết kế đặc biệt cho khoa học dữ liệu. Python có cộng đồng phân tích dữ liệu lớn nhất, sẽ dễ dàng tìm thấy các ví dụ về phân tích trong Kaggle, tìm các ví dụ mã trong Stackoverflow (trang web hỏi đáp với hầu hết người mới bắt đầu và thường nâng cao câu hỏi là tốt) và cơ hội việc làm vì nó là ngôn ngữ phổ biến nhất trên thị trường.

Việc “nói cùng ngôn ngữ với database” là điều cần thiết cho các nhà khoa học dữ liệu. Bạn sẽ cần phải thành thạo SQL (xem thêm SQL là gì?) để có thể lấy thông tin từ cơ sở dữ liệu bằng cách sử dụng các hướng dẫn truy vấn mà không cần phải nối mã tùy chỉnh.

Với nhiều tính năng đặc biệt, R là ngôn ngữ được “làm thủ công” dành riêng cho data science và là khởi đầu cần thiết cho các Data Scientist năm 2020. Mọi thông tin và vấn đề số liệu sẽ được xử lý bằng R.

Mặc dù kiến thức về công cụ này là không bắt buộc, nhưng Hadoop làm tăng giá trị và khả năng chuyên môn của một nhà khoa học dữ liệu, đặc biệt nếu họ có kinh nghiệm với Hive hoặc Pig. Các công cụ đám mây như Amazon S3 cũng có thể giúp ích rất nhiều.

Không có cách nào để trốn được Machine Learning (xem thêm Machine Learning là gì?) đâu, bạn chắc chắn phải hiểu hết những điều cơ bản của ML. Điều này cung cấp cho bạn một kiến thức khổng lồ để hiểu cách các mô hình khác nhau hoạt động bên trong và thậm chí nghĩ về mô hình tốt hơn cho từng vấn đề.

Có nhiều kỹ thuật phổ biến cho hầu hết mọi mô hình và bạn nên học các kỹ thuật này trước và chỉ sau đó tập trung vào tìm hiểu sự khác biệt toán học và chi tiết triển khai của chúng.

Phần tốt nhất, quan trọng nhất và không may là khó nhất để cuối cùng – Thống kê. Chính kỹ năng này sẽ phân biệt là Data scientist và Machine Learning Engineer. Không có đường tắt ở đây. Bạn nên bắt đầu với thống kê mô tả, biết cách thực hiện phân tích dữ liệu khám phá tốt (EDA) hoặc tối thiểu là các khái niệm cơ bản về xác suất và suy luận, hiểu rõ các khái niệm về sai lệch lựa chọn, Nghịch lý Simpson, liên kết các biến (cụ thể là phương pháp phân tách phương sai ), những điều cơ bản của suy luận thống kê (và thử nghiệm A / B nổi tiếng như suy luận được biết đến trên thị trường), và một ý tưởng cho thiết kế thử nghiệm.