Thống kê là gì?
Thống kê là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích, giải thích, trình bày và tổ chức dữ liệu. Khi áp dụng thống trong khoa học, công nghiệp hoặc các vấn đề xã hội, thông lệ là bắt đầu với tổng thể thống kê hoặc một quá trình mô hình thống kê sẽ được nghiên cứu. Tổng thế có thể gồm nhiều loại khác nhau như “tất cả mọi người đang sống trong một đất nước” hay “tập hợp các phân tử của tinh thể”. Nó đề cập tới tất cả các khía cạnh của dữ liệu bao gồm việc lập kế hoạch, thu thập dữ liệu mẫu cho các cuộc khảo sát và thí nghiệm.
Khi không thể thu thập được dữ liệu điều tra dân số, các nhà thống kê thu thập dữ liệu bằng cách phát triển các mẫu thí nghiệm và mẫu khảo sát cụ thể. Quá trình lấy mẫu đại diện đảm bảo rằng những suy luận và kết luận có thể được áp dụng từ mẫu cho đến tổng thể. Một nghiên cứu thực nghiệm bao gồm việc đo lường hệ thống được nghiên cứu, thao tác trên hệ thống và sau đó đo lường thêm, sử dụng cùng thủ tục mẫu để xác định xem các thao tác có thay đổi giá trị đo lường hay không Ngược lại, một quan sát nghiên cứu không liên quan đến thao tác thực nghiệm.
Hai phương pháp thống kê chính được sử dụng trong phân tích dữ liệu: thống kê mô tả, đây là phương pháp tóm tắt dữ liệu từ một mẫu sử dụng các chỉ số như là giá trị trung bình hoặc độ lệch chuẩn, và thống kê suy luận, rút ra kết luận từ dữ liệu biến thiên ngẫu nhiên (ví dụ: các sai số quan sát, mẫu của tổng thể). Thống kê mô tả được sử dụng thường xuyên nhất với hai thuộc tính phân phối (mẫu hoặc tổng thể): chiều hướng trung tâm (hoặc vị trí) tìm cách để mô tả giá trị trung bình hoặc giá trị đặc trưng của phân phối, trong khi phân tán (hoặc thay đổi) mức độ đặc trưng mà các thuộc tính của phân phối đi trệch so với nghiên cứu. Suy luận về thống kê toán học được thực hiện trong khuôn khổ của lý thuyết xác suất, trong đó đề cập tới việc phân tích các hiện tượng ngẫu nhiên. Để thực hiện một suy luận khi chưa biết số lượng, hoặc nhiều ước lượng được đánh giá bằng cách sử dụng mẫu.
Thủ tục thống kê tiêu chuẩn liên quan đến sự phát triển của một giả thuyết vô nghĩa ban đầu là không có mối quan hệ nào giữa hai đại lượng. Loại bỏ hoặc bác bỏ giả thuyết này là một nhiệm vụ quan trọng trong việc giải thích những quan điểm mới của khoa học thống kê, đưa ra một ý nghĩa chính xác trong đó một giả thuyết được chứng minh là sai. Những gì thống kê gọi là một giả thuyết khác chỉ đơn giản là một giả thuyết trái với giả thuyết vô nghĩa. Phân tích từ một giả thuyết hai hình thức cơ bản của lỗi này được ghi nhận: sai số loại I (giả thuyết vô nghĩa sai bị bác bỏ cho một tính chất xác thực không đúng) và sai số loại II (giả thuyết không được bác bỏ và sự khác biệt thật sự giữa các tổng thể được bỏ qua cho một phủ định sai). Một việc quan trọng là tập hợp các giá trị của các ước lượng dẫn đến bác bỏ giả thuyết vô nghĩa. Do đó sai số của xác suất loại I là xác suất các ước lượng thuộc các miền quan trọng cho rằng giả thuyết đúng (có ý nghĩa thống kê) và sai số của xác suất loại II là xác suất mà các ước lượng không phụ thuộc các lớp quan trọng được đưa ra rằng giả thuyết thay thế là đúng. Các chính sách thống kê của một bài đánh giá xác suất đúng khi bác bỏ giả thuyết vô nghĩa khi giả thuyết là sai. Nhiều vấn đề đã được liên kết với khôn khổ: từ việc có được một cỡ mẫu đủ để xác định một giả thuyết vô nghĩa thích hợp.
Quy trình đo lường để tạo ra các dữ liệu thống kê cũng có thể bị lỗi. Phần nhiều trong số các lỗi này được chia làm hai loại: ngẫu nhiên (noise - dữ liệu vô nghĩa) hoặc có hệ thống (bias – độ chệch), nhưng các loại sai lệch khác (ví dụ, sai lệch khi người phân tích báo cáo sai các đơn vị đo lường) cũng rất quan trọng. Sự xuất hiện của dữ liệu bị thiếu hoặc sự kiểm duyệt có thể dẫn đến các ước tính bị chệch và những kỹ thuật cụ thể đã được phát triển để giải quyết những vấn đề này.
Thống kê có thể được cho là đã bắt đầu trong nền văn minh cổ xưa, ít nhất là từ cuối thế kỷ thứ 5 TCN, nhưng cho đến thế kỷ 18 thì nó mới chịu ảnh hưởng nhiều hơn từ số học và lý thuyết thống kê.
Khi ứng dụng thống kê cho một vấn đề khoa học, ngành công nghiệp, hoặc một vấn đề xã hội...rất cần thiết để bắt đầu với việc thống kê tổng thể hoặc tiến trình nghiên cứu. Nghiên cứu về tổng thể có thể có nhiều chủ đề như “tất cả những người đang sống trong một nước” hay “mỗi nguyên tử tạo nên tinh thể”.
Các nhà thống kê tổng hợp dữ liệu về toàn bộ tổng thể (hoạt động điều tra mẫu tổng thể). Điều này có thể được thống kê bởi Viện thống kê chính phủ. Thống kê mô tả có thể được sử dụng để tổng hợp các số liệu tổng thể. Mô tả bằng các con số bao gồm để lệch trung bình và độ lệch chuẩn cho các dữ liệu liên tục (như thu nhập), trong khi tần số và tỷ lệ phần trăm hiệu quả hơn về mô tả các loại dữ liệu.
Khi một cuộc điều tra mẫu tổng thể không thể thực hiện được, ta lựa chọn một tập hợp con của dân số, đó được gọi là một mẫu nghiên cứu. Khi mẫu đó là đại diện của mẫu tổng thể được xác định, dữ liệu được tập hợp cho các biến trong mẫu quan sát hoặc mẫu thực tế. Một lần nữa thống kê mô tả có thể được sử dụng để tổng hợp các dữ liệu mẫu. Tuy nhiên, các bản thiết kế mẫu đã bị tác động bởi một yếu tố ngẫu nhiên, do đó việc thành lập số mẫu mô tả cũng không được chắc chắn. Để rút ra kết luận có ý nghĩa về toàn bộ tổng thể, thống kê suy luận là rất cần thiết. Nó sử dụng mẫu trong dữ liệu mẫu để suy luận về tổng thể, mô tả ngẫu nhiên. Những suy luận có thể mang hình thức trả lời có hoặc không các câu hỏi về dữ liệu (kiểm định giả thuyết), ước tính số lượng dữ liệu (ước tính), mô tả các liên kết của dữ liệu (tương quan) và các mối quan hệ của các mẫu trong dữ liệu (ví dụ sử dụng phân tích hồi quy). Suy luận có thể mở rộng để dự báo, tiên đoán và ước tính giá trị không được chú ý đến hoặc sự liên kết với tổng thể được nghiên cứu. Nó có thể bao gồm các biến ngoại suy hoặc biến nội suy của chuỗi thời gian hoặc dữ liệu không gian, và khai thác dữ liệu.
» Tin mới nhất:
» Các tin khác: