-
簡介:條件概率表由底行得PB09/9000,P89991/9000總計列得PA1/9000,P8999/9000由A行得PB|A09/1,P|A01/1,0,09,9000,8999,8999,89991,,,,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數(shù): 42
大?。?1(MB)
子文件數(shù):
-
簡介:1,本章教學目標了解回歸分析在經(jīng)濟與管理中的廣泛應用;掌握回歸分析的基本概念、基本原理及其分析應用的基本步驟;熟練掌握使用軟件求解回歸方程及其運行輸出結(jié)果的分析與使用;能應用回歸分析方法解決實際問題(分析各種變量間的關(guān)系,進行預測和控制),第12章多元線性回歸,2,本章主要內(nèi)容,§121多元線性回歸的數(shù)學模型§122參數(shù)Β的最小二乘估計§123多元回歸模型的顯著性檢驗§124預測與控制本章內(nèi)容重點回歸方程和回歸系數(shù)的顯著性檢驗;多元線性回歸及其預測和控制;軟件的求解分析。,3,在許多實際問題中,對某一變量Y有重要影響的解釋變量不止一個,此時就需要研究一個隨機變量Y與多個普通變量X1,X2,,XP之間的回歸關(guān)系,這就是多元回歸問題。多元線性回歸分析的原理與一元線性回歸是類似的。,§121多元線性回歸的數(shù)學模型,4,設被解釋變量Y與P個解釋變量X1,X2,,XP之間,存在線性相關(guān)關(guān)系。,則Y與X1,X2,,XP之間的多元,線性回歸模型為,Y?0?1X1?2X2?PXP?1241,設第I次試驗數(shù)據(jù)為XI1,XI2,,XIP,YI,,則多元線性,回歸有如下數(shù)據(jù)結(jié)構(gòu),YI?0?1XI1?2XI2?PXIP?I1242,?I~N0,?2,且相互獨立,I1,2,,N,一多元線性回歸的數(shù)學模型,5,設,在多元線性回歸中,同樣使用最小二乘法進行參數(shù)估計。,則多元線性回歸方程為,為參數(shù)?0,?1,,?P的最小二乘估計,,同樣稱,為回歸方程的回歸系數(shù)。,,二參數(shù)?的最小二乘估計,6,如果變量Y與X1,X2,,XP之間并無線性關(guān)系,,則,模型1241式中各一次項系數(shù)應全為零。,因此要檢驗,的原假設為,H0?1?2?P0,為構(gòu)造檢驗H0的統(tǒng)計量,,同樣需要對總的偏差平,方和ST作如下分解,SESR,同樣稱SR為回歸平方和,,SE為剩余平方和。,三.回歸方程的顯著性檢驗,7,檢驗H0的統(tǒng)計量,可以證明,當H0為真時,統(tǒng)計量,~FP,NP1,檢驗過程同樣可以列成一張方差分析表。,多元回,歸方差分析表的格式與一元回歸完全相同。,,8,在多元回歸中,,回歸方程顯著的結(jié)論僅表明模型中,各?J不全為零,,但并不說明它們?nèi)粸榱恪?也即并不,能保證每個解釋變量都對Y有重要影響。,如果模型中含有對Y無顯著影響的變量,,就會降低,回歸方程的預測精度和穩(wěn)定性。,因此,,需要從回歸方程中剔除對Y無顯著影響的變,量,,重新建立更為簡單的回歸方程。,如果某個變量XK對Y的作用不顯著,,則模型中?K,就可以為零。,故要檢驗的原假設為,H0K?K0,K1,2,,P,四回歸系數(shù)的顯著性檢驗,9,記TK為檢驗H0K的統(tǒng)計量,則當H0K為真時,統(tǒng)計量TK~TNP1,K1,2,,P因此,在給定水平?下,若TKT?NP1就拒絕H0K,說明XK的作用顯著。反之,則說明XK的作用不顯著。,10,2存在不顯著變量后的處理,若經(jīng)檢驗,,XK的作用不顯著,,則應從模型中剔除,XK,,并重新求解Y對余下的P1個變量的回歸方程。,若檢驗中同時存在多個不顯著的變量,,則每次只能,剔除一個顯著性水平最低的變量,,重新求解新的回歸,方程。,再對新的回歸系數(shù)進行檢驗,,直至所有變量都,顯著為止。,當模型中解釋變量很多時,,通常會存在較多的不顯,著變量,,以上步驟就非常繁瑣。,更為有效的方法是采,用“逐步回歸”來求解多元線性回歸方程。,,11,逐步回歸的基本思想是采用一定的評價標準,將解釋變量一個一個地逐步引入回歸方程。每引進一個新變量后,都對方程中的所有變量進行顯著性檢驗,并剔除不顯著的變量,被剔除的變量以后就不再進入回歸方程。采用逐步回歸方法最終所得到的回歸方程與前述方法的結(jié)果是一樣的,但計算量要少得多。在SPSS軟件的線性回歸功能中就提供了逐步回歸的可選項。,逐步回歸方法簡介,12,家電商品的需求量Y與其價格X1及居民家庭平均收入X2有關(guān)。下表給出了某市10年中某家電商品需求量與價格和家庭年平均收入水平間的數(shù)據(jù)。,求該商品年需求量Y關(guān)于價格X1和家庭年平均收入X2的回歸方程。,【案例3】需求量與價格及收入間的關(guān)系,13,由方差分析表,SIGNIFICANCEF00001,因而回歸方程極高度顯著。對回歸系數(shù)的顯著性檢驗結(jié)果為X1的PVALUE00268,X2的PVALUE00262都是一般顯著。此外還得到回歸方程的標準誤差,用EXCEL求解案例3,可得回歸方程如下,該值在求預測區(qū)間和控制范圍時要用到。,案例3分析,14,⑴預計下一年度該商品的價格水平為1800元,家庭年平均收入為30000元,希望預測該商品下一年的需求量。⑵假定下一年度居民家庭年平均收入估計在3000031000元之間。若要以90的概率使該商品的年需求量不低于12萬臺,則應將價格控制在什么范圍內(nèi),案例3需要進一步分析的問題,15,1預測在給定解釋變量的一組取值X01,X02,,X0P,由回歸方程可得回歸值,它是Y0?0?1X01?2X02?PX0P?0的一個點估計??梢宰C明,Y0的置信度為1?的預測區(qū)間為,五預測和控制,,16,預計下一年度該商品的價格水平為1800元,家庭年平均收入為30000元,求該商品年需求量的置信度為90的預測區(qū)間。解由所得回歸方程,可求得,∴該商品在該市下一年的年需求量的置信度為90的預測區(qū)間為,案例3的預測分析,T005708618,163,1120萬臺,1446萬臺,17,2控制,在多元回歸情況下,,由于解釋變量有多個,,若控制,問題的提法是,當要求以1?的概率將Y控制在某一,給定范圍內(nèi),,問應將各解釋變量控制在什么范圍內(nèi),顯然此問題可以有無窮多個解。,因此多元回歸控制問題的一般提法是,若要將Y控,制在某給定范圍內(nèi),,在給定其中P1個解釋變量的取,值范圍時,,應將另一個解釋變量控制在什么范圍之內(nèi),多元回歸的控制分析方法與一元回歸是完全類似的。,18,假定下一年度居民家庭的年平均收入估計在3000031000元之間,若要以90%概率使該商品在的年需求量不低于12萬臺,問應將價格控制在什么范圍內(nèi)。解此問題仍是單測控制問題,即要控制X1的取值范圍,使,其中,案例3的控制要求分析,T01708618,12194,19,可解得X112111671903X101695311219412,案例3的控制要求分析續(xù),20,根據(jù)我國自1975年到1986年12年間上述各項經(jīng)濟指標數(shù)據(jù),建立計劃經(jīng)濟時期影響我國鋼材產(chǎn)量最合適的回歸模型。,【案例4】宏觀經(jīng)濟模型,在計劃經(jīng)濟時期,,我國鋼材產(chǎn)量Y主要與以,下因素有關(guān),原油產(chǎn)量X1,,生鐵產(chǎn)量X2,,原煤產(chǎn)量X3,,電力產(chǎn)量X4,,固定資產(chǎn)投資X5,,國民收入消費額X6,,鐵路運輸能力X7。,21,即在計劃經(jīng)濟時期,我國鋼材產(chǎn)量主要受原油產(chǎn)量X1,生鐵產(chǎn)量X2,電力產(chǎn)量X4的影響。其中原油產(chǎn)量與鋼材產(chǎn)量之間是負相關(guān)的,這主要是因當時資金有限的原故。如果使用SPSS軟件中的“逐步回歸”求解,可直接得到上述結(jié)果。,用EXCEL求解本案例的分析步驟,第一次回歸的結(jié)果是回歸方程極高度顯著,但回歸系數(shù)的檢驗結(jié)果中除X4電力產(chǎn)量外,其他變量都不顯著。經(jīng)過4輪逐個剔除T統(tǒng)計量最小的變量后,得到最優(yōu)回歸方程如下,35145301275X1037914X2087506X4,
下載積分: 6 賞幣
上傳時間:2024-01-07
頁數(shù): 21
大?。?0.41(MB)
子文件數(shù):
-
簡介:,主講教師何松華教授聯(lián)系電話0731)8268771813973132618電子信箱13973132618139COM,,應用統(tǒng)計學與隨機過程通信專業(yè)APPLIEDSTATISTICSANDRANDOMPROCESS,,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,1概述兼概率論復習6學時,,11,,不確定性事件,12,,通信與電子系統(tǒng)中的不確定性,13,,含噪信號的最優(yōu)處理問題,14,,隨機變量及其數(shù)字特征,15,,隨機變量函數(shù)的概率密度分布,16,,隨機變量的特征函數(shù),不確定性事件,11,客觀世界中的兩大類規(guī)律1確定性事件中蘊涵的確定性規(guī)律2不確定性事件中蘊涵的統(tǒng)計性規(guī)律,確定性事件及確定性規(guī)律1因果律確定的原因產(chǎn)生確定的\可預知的結(jié)果“如果蘋果從樹上掉下B,則肯定往下掉到地上A”IFBTHENAPROB{A|B}100,PROB{ā|B}0,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,2排中律事物歸屬關(guān)系的確定性,“非此即彼”“我X現(xiàn)在是湖南大學的教師A”I論域(被討論的對象的全體范圍)A∩B?(空集),A∪BIIFX?ATHENUAX100,X?B,UBX0IFX?BTHENUBX100,X?A,UAX0,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,3恒等律事物A,B,C,之間相互約束關(guān)系的確定性“三角形的三個內(nèi)角之和為180度”R(A,B,C,)CONSTANT,,,4守恒律事物A,B,C,A,B,C,之間轉(zhuǎn)換或交換過程中的確定性“物質(zhì)不滅,能量守恒”R1(A,B,C,)R2A,B,C,,5周期律事物在有限域內(nèi)變化的重復性“物極必返”IF‖A‖N,M≧N,XI∈AI1,2,,MTHEN存在I1≠I2,1?I1,I2?M,XI1XI2毛澤東打破周期率;習近平建立舉國創(chuàng)新體制,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,,不確定性事件及不確定性1隨機性,因果律的一種破缺隨機試驗可以在相同條件下重復進行,每次試驗的結(jié)果是事先不可預測的,所有可能的結(jié)果不止一個,但每次試驗的結(jié)果是唯一的,這樣的試驗稱為隨機試驗。隨機事件在隨機試驗中,對于1次試驗可能發(fā)生也可能不發(fā)生、但在大量重復的試驗中按一定規(guī)律發(fā)生的某種事情,稱為隨機事件?;臼录陔S機試驗中,最簡單、不可再分、互不相容的事件稱為基本事件。,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,例如不同的人通過測量蘋果落地的時間獲得樹的高度,,“隨機試驗”舉例袋中有編號為0到5的6個乒乓球,從里面隨機地拿出一個,以拿出的球的編號為試驗結(jié)果;觀察結(jié)果后再放回;反復進行試驗。6種基本事件1拿到編號為0的球;2拿到編號為1的球;3拿到編號為2的球;4拿到編號為3的球;5拿到編號為4的球;6拿到編號為5的球?!半S機事件”舉例拿到編號大于等于4的球在一次試驗中可能發(fā)生也可能不發(fā)生;在大量重復的試驗中發(fā)生的比例約為1/3;無窮次試驗中發(fā)生的比例為1/3“基本事件”是隨機事件的特例。所有基本事件的組合稱為隨機試驗的“樣本空間”。,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,,不確定性事件及不確定性2模糊性,排中律的一種破缺事物之間歸屬關(guān)系的不確定性,不能確定某個對象肯定屬于某個集合或肯定不屬于某個集合,但能夠確定或定義對象屬于某個集合的程度。模糊性舉例論域I{各種不同年齡X的人}模糊集合?{年輕人}1(0?X?24)U?X{1(X25)/52}1(25?X)年齡X越大,則歸屬于年輕人?的隸屬度U?X就越小。,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,,通信與電子系統(tǒng)中的不確定性隨機性,12,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,由于信道噪聲的存在電子的布朗運動,確定的傳輸系統(tǒng)對確定的傳輸信號并不產(chǎn)生確定的響應。,傳輸系統(tǒng)HT,,傳輸信號XT,,響應YT,,信道噪聲?T,YTXT?HT?T卷積)?T的取值是隨機的、不可預測的,則YT也是隨機的、不確定的。,,通信電子系統(tǒng)中的不確定性所帶來的問題通信與電子系統(tǒng)工程師要解決的問題舉例1信號的檢測問題在數(shù)字通信中,0,1編碼用不同的兩種波形X0T、X1T進行傳輸接收端信號為YTH0(傳輸0編碼信號)YTX0T?HT?0TH1(傳輸1編碼信號)YTX1T?HT?1T怎樣從接收信號YT中判斷出發(fā)送端傳輸?shù)男盘柺荴0T還是X1T如何將假設檢驗理論應用于信號的假設檢驗,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,,2信號及系統(tǒng)參數(shù)的估計問題,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,系統(tǒng)HT,?2,AT,??T,AT,?1,,,YTA(T,?1?HT,?2?T?1信號的未知參數(shù)矢量K個參數(shù)?2系統(tǒng)的未知參數(shù)矢量M個參數(shù)問題YT、?T是不可預知的隨機過程,怎樣從接收信號YT的有限個采樣值Y0、YT、YN1T求得?1、?1的最佳估計呢簡單的方程KM個聯(lián)立為什么不能求得統(tǒng)計意義上的最佳估計,3最優(yōu)濾波器的設計問題,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,問題YT、?T是不可預知的隨機過程,采用什么樣的濾波器H1T,使得含噪失真信號YT通過該濾波器后,其輸出信號與XT最逼近MINIMUME{YT?H1TXT2}H1T,傳輸系統(tǒng)HT,,傳輸信號XT,,響應YT,,信道噪聲?T,濾波器H1T,,含噪失真信號YT,,恢復信號ZT,如果沒有信道噪聲如何求解,4系統(tǒng)的性能評估以及信號波形參數(shù)的設計問題自學,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,已知信道噪聲?T的統(tǒng)計特性平均值、方差、相關(guān)函數(shù)、概率分布等,要求在給定接收端檢測性能的情況下對傳輸信號的波形進行設計。舉例軍用雷達目標檢測H0(無目標)YT?TH1(有目標)YTKA?S?T2R/C?TS?T寬度為?的正弦脈沖,R目標距離,C光速,K信號傳輸衰減系數(shù)要求虛警概率PFP(H1┃H0)107,已知?T服從N0,?2,如何對發(fā)射信號的幅度A、脈沖寬度?進行設計,5噪聲背景中的最優(yōu)預測問題自學,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,舉例軍用雷達機動目標狀態(tài)距離、速度預測測量方程YNAN?NN?0,N1YNN時刻目標距離的測量值已知ANN時刻實際的目標距離值未知?N測量誤差隨機過程,概率分布密度函數(shù)及相關(guān)特性已知目標運動狀態(tài)方程AN1ANT?VN1/2T2?WNVN1VNT?WNVN目標第N個時刻的速度未知T時間采樣間隔WN目標的加速度擾動隨機過程,概率密度、相關(guān)性已知,假設為帶有加速度擾動的勻速運動,如何根據(jù)目標當前狀態(tài)預測目標未來狀態(tài)AN1,VN1,,社會及國民經(jīng)濟領(lǐng)域中的統(tǒng)計問題舉例119世紀末中華民族無人能解的一個難問題,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,加拿大山貓年捕獲量數(shù)據(jù)18211878,269,321,585,871,1475,2821,3928,5943,4950,2577,523,98,184,279,409,2285,2685,3409,1824,409,151,45,68,213,546,1033,2129,2536,957,361,377,225,360,731,1638,2725,2871,2119,684,299,236,245,552,1623,3311,6721,4254,687,255,473,358,784,1594,1676,2251,1426,756,299,假設今年為1878年,請根據(jù)歷史數(shù)據(jù)建立預測模型,得到明年及1880,1881,1882,1883五年內(nèi)的山貓捕獲量的預測,有限次差分后平穩(wěn),2現(xiàn)在一個很容易解決的問題,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,舉例某城市居民季度用煤消耗量單位噸,請預測1997年度每個季度的用煤消耗量,非平穩(wěn)隨機過程1趨勢項2季節(jié)周期項,含噪信號的最優(yōu)處理問題,13,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,信號處理的主要研究內(nèi)容從噪聲背景中檢測感興趣的信號、提取信息或?qū)π盘柕膮?shù)進行估計圖像處理、語音信號處理、數(shù)據(jù)處理,最優(yōu)信號處理方法信號處理的方法不僅與信號本身的特性有關(guān),還與噪聲背景的統(tǒng)計特性概率密度分布、功率譜等密切相關(guān);從事通信與電子系統(tǒng)領(lǐng)域研究的人員除了掌握確定性的信號與系統(tǒng)分析方法外,必須了解噪聲等隨機過程的特性,掌握各種統(tǒng)計方法在信號處理中的應用,信號處理方法舉例1最優(yōu)預測,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,設XNN1,2,為離散時間隨機信號,N為采樣時刻;該隨機信號的相關(guān)函數(shù)及功率譜定義為,數(shù)學期望,如果該隨機信號的功率譜密度函數(shù)為,則最優(yōu)的因果IIR3步預測方程為,根據(jù)XN,XN1,XN3,預測XN3N為當前時刻,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,其中,逆Z變換,如果該隨機信號的功率譜密度函數(shù)為,則最優(yōu)的因果IIR3步預測濾波器應修正為,隨機信號的最優(yōu)預測方法與其統(tǒng)計特性有關(guān),信號處理方法舉例2最優(yōu)估計,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,利用氣壓計對某棟高樓的高度進行測量,根據(jù)甲班各個學生的測量結(jié)果,該樓高度的測量值的平均值為H0,變化的范圍方差為?02,測量值分布接近高斯分布。,現(xiàn)由乙班對該樓高度H進行測量,N個學生中第N個學生的測量值XN,第N個學生的測量儀器的精度誤差的方差為?N2誤差服從正態(tài)分布,各觀測相互獨立。1不參考甲班的測量結(jié)果,且假設乙班不同儀器的測量精度相同,?12?22?N2,則高度的最優(yōu)估計值為,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,簡單平均,2不參考甲班的測量結(jié)果,但乙班每個學生的測量儀器的精度不同,則高度的最優(yōu)估計值為,加權(quán)平均,精度越高,方差越小,加權(quán)系數(shù)越大,3參考甲班的測量結(jié)果,則高度的最優(yōu)估計值為,信號處理方法舉例3正弦信號的參數(shù)估計,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,?已知,假設觀測噪聲?N服從零均值正態(tài)分布,各觀測值之間相互獨立,求A、B的最優(yōu)估計值,頻率已知、幅相未知的正弦信號的參數(shù)估計。假設獲得了正弦信號在N個不同時刻的觀測值,為什么不能解方程,僅僅兩個參數(shù)而已,信號處理方法舉例4數(shù)據(jù)的最優(yōu)平滑維納濾波器,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,XN測量數(shù)據(jù)已知;SN需要恢復的信號數(shù)據(jù)未知?N測量誤差未知且隨機。如何恢復SN,濾波器HN,,含噪數(shù)據(jù)XN,,恢復的數(shù)據(jù)S1N,求解如下的最優(yōu)化問題,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,其中,信號相關(guān)函數(shù)的傅立葉變換,信號功率譜,噪聲相關(guān)函數(shù)的傅立葉變換,噪聲功率譜,濾波器的單位脈沖響應,社會與經(jīng)濟領(lǐng)域中數(shù)據(jù)的統(tǒng)計處理方法1統(tǒng)計描述方法對所收集的數(shù)據(jù)進行加工處理,計算綜合性的統(tǒng)計指標,描述所研究的隨機現(xiàn)象的總體數(shù)量特征和數(shù)量關(guān)系2統(tǒng)計推斷方法在對已獲取的數(shù)據(jù)進行統(tǒng)計描述的基礎上,建立預測模型,對未知的或未來的數(shù)據(jù)進行推斷。統(tǒng)計研究的作用1提供決策咨詢服務;2提供監(jiān)督服務;3提供其他形式的信息服務,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,社會與經(jīng)濟領(lǐng)域中的應用統(tǒng)計舉例移動通信公司之客戶保持已知歷史客戶包括離網(wǎng)客戶、忠誠客戶的基本屬性,例如性別、年齡、職業(yè)類型、在網(wǎng)時長、發(fā)展渠道、繳費方式、繳費途徑、平均每次繳費金額、平均每月話費、所選套餐類型、1如何確定影響客戶是否離網(wǎng)的最主要屬性因素2如何根據(jù)歷史客戶數(shù)據(jù)建立預測模型,預測目前在網(wǎng)客戶的離網(wǎng)可能性3對離網(wǎng)可能性比較大的目前在網(wǎng)客戶,如何進行合理的分類,應采取何種針對性的營銷或客戶保持措施,以最低的活動成本實現(xiàn)客戶保持,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量及其數(shù)字特征,14,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量事件?變量,物理描述?數(shù)學問題設隨機試驗E的樣本空間S={E},如果對于每一個E∈S,有一個實數(shù)XE和它對應,這樣就得到一個定義在S上的單值實函數(shù)XE,稱XE為隨機變量,一般簡記為X。,舉例1拋擲硬幣隨機試驗E樣本空間S={正面朝上,反面朝上}定義如果正面朝上,則X0;反面朝上,則X1則X為隨機變量,且取值為離散的,稱為離散隨機變量,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,舉例1續(xù)PX005X取值為0的概率PX105,舉例2用標尺測量長度,最小刻度單位1MM樣本空間S{長度測量誤差的分布范圍}設X為測量值與實際值之間的誤差,則X為隨機變量,且取值范圍為連續(xù)區(qū)間05MM,05MM,稱為連續(xù)隨機變量。對于本例,P{X≤XY}MIN{Y,05}MAX{X,05}隨機變量X取值落在區(qū)間X,Y內(nèi)的概率,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,古典概率模型,若某一隨機事件可以分解為某些基本事件的組合,則該事件發(fā)生的概率為這些基本事件發(fā)生概率的和。舉例設離散隨機變量X有只有3種可能的取值0,1,2各種取值出現(xiàn)的概率為02,05,03求X15這一事件的發(fā)生概率。,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,幾何概率模型,若向有界區(qū)域G內(nèi)投擲質(zhì)點,所有質(zhì)點落在G中任何一點是等可能的均勻分布,若G是G中一部分,則質(zhì)點落在G中的概率PG的區(qū)域?qū)挾?G的區(qū)域?qū)挾取Ee例設連續(xù)隨機變量X在3,1區(qū)間內(nèi)均勻分布求X02這一事件的發(fā)生概率。,聯(lián)系前面的舉例2,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,全概率公式與貝葉斯公式舉例,設S為隨機試驗E例如從N個車間的產(chǎn)品中隨機地抽取1個進行檢驗的樣本空間例如{抽到車間1的正品,抽到車間1的劣品,抽到車間2的正品,抽到車間2的劣品,,抽到車間N的正品,抽到車間N的劣品}2N個基本事件,設A1、A2、、AN為S的一個劃分例如事件AI“抽到車間I的產(chǎn)品”,即,空集,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,設B為任意的隨機事件例如抽到劣品},則B發(fā)生的概率為,PA1、PA2、、PAN稱為先驗概率例如PAI為車間I的產(chǎn)品占總產(chǎn)品的比例,PB|AI為似然概率條件概率例如車間I的產(chǎn)品是劣品的概率,全概率公式,假如B已經(jīng)發(fā)生例如抽到劣品,則該事件在多大的可能性上應由AI負責例如“抽到的劣品是車間I的產(chǎn)品的概率”與“車間I的產(chǎn)品是劣品的概率”并不等價,如何計算PAI|B,貝葉斯公式,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,PAI|B)稱為后驗概率事件發(fā)生后對事件各種起因的可能性的概率性推斷,PAI,B)稱為聯(lián)合概率例如既是劣品又是車間I的產(chǎn)品的概率,貝葉斯公式,顯然,B肯定來源于劃分中的其中某一個例如劣品肯定來自某個車間,劣品來自于各車間的概率和為1,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,例題已知某地區(qū)銷售的計算機主板有20來自供應商1,50來自供應商2,30%來自供應商3。假定這三個供應商所生產(chǎn)的主板的不合格率已知,分別為001、0004和0008,請計算每個供應商應承擔的責任主板返修費用比例。市場上的主扳S由3家供應商的產(chǎn)品A1,A2,A3組成,隨機抽取一件為不合格產(chǎn)品事件B的概率,與商1比,雖然不合格比例較低,但產(chǎn)品量較大,承擔責任不一定少,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量的概率分布函數(shù)與概率密度分布函數(shù),X的單調(diào)非減函數(shù),概率分布函數(shù),概率密度分布函數(shù),關(guān)系,根據(jù)幾何概型,為什么是X,非負函數(shù),可能存在不連續(xù)點,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,概率分布函數(shù)與概率密度分布函數(shù)舉例1,設離散隨機變量X有3種可能的取值0,1,2各種取值出現(xiàn)的概率為02,05,03求其概率分布函數(shù)及概率密度分布函數(shù),解根據(jù)古典概型,注意定義及開閉區(qū)間,單位階躍函數(shù),湖南大學教學課件應用統(tǒng)計學與隨機過程概述,單位階躍函數(shù)詳見信號與系統(tǒng),在X0處不連續(xù),U01,U00,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,其中,?為單位沖激函數(shù),滿足,在信號與系統(tǒng)理論中,采用單位沖激函數(shù)解決不可微問題,其他任何位置的導數(shù)為零,X0,1,2三處的導數(shù)為無窮大不同的無窮大,對無窮大的約束,沖激強度為1,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,單位沖激函數(shù)與單位階躍函數(shù)的關(guān)系,,,UX,X,0,,1,,,兩個1的區(qū)別,偶函數(shù),湖南大學教學課件應用統(tǒng)計學與隨機過程概述,舉例利用沖激函數(shù)的積分性質(zhì)求概率分布函數(shù),1,2,在,內(nèi)的X0處有一個沖激,其他位置處的積分和為零,號可省去,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,沖激強度分別為02,05,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,推廣到離散隨機變量的更一般情況,設離散隨機變量X有I種可能的取值X1,X2,,XI其中第II1,2,,I種取值出現(xiàn)的概率為PI則其概率分布函數(shù)及概率密度分布函數(shù)分別為,參見前面FXX圖,根據(jù)古典概型,附錄沖激函數(shù)積分性質(zhì)設GX在X0處連續(xù),則,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,概率分布函數(shù)與概率密度分布函數(shù)舉例2,設連續(xù)隨機變量在區(qū)間A,B上服從均勻分布求其概率分布函數(shù)及概率密度分布函數(shù),解根據(jù)幾何概型,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,多維隨機變量的聯(lián)合概率分布函數(shù)與聯(lián)合概率密度分布函數(shù),設X1、X2、XN為不同的隨機變量,則其聯(lián)合概率分布函數(shù)以及概率密度分布函數(shù)定義為,多個隨機事件同時發(fā)生的概率,一般省去“”,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,多維連續(xù)隨機變量分布函數(shù)的性質(zhì),練習根據(jù)幾何概型證明其為所有變量的單調(diào)非減函數(shù),事件,等價于事件,下面考察如何由高維的聯(lián)合分布得到低維的聯(lián)合分布。,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,邊緣分布,上式兩邊對X1,X2,,XN1求偏導,再作積分變量置換,采用遞推方法不難得到,根據(jù)概率分布函數(shù)定義,思考N個隨機變量中的任意K個變量的情況,思考N個隨機變量中的任意K個變量的情況,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量之間相互獨立的定義,如果,或,則這N個隨機變量相互獨立,離散隨機變量相互獨立,要求對所有可能取值組合X1,X2,,XN,對于離散型隨機變量,聯(lián)合概率分布或分布律定義為,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量的數(shù)字特征,1均值數(shù)學期望,連續(xù)隨機變量,有I種取值的離散隨機變量,2方差,連續(xù),離散,或,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,3K階原點矩,連續(xù)隨機變量,離散隨機變量,4K階中心矩,連續(xù)隨機變量,離散隨機變量,1階原點矩即為均值,二階中心矩即為方差;二階原點矩稱為均方值,滿足,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,5隨機變量函數(shù)的數(shù)學期望,連續(xù)隨機變量,離散隨機變量,6兩個隨機變量之間的相關(guān)函數(shù),連續(xù)隨機變量,離散隨機變量,附錄證,思考為什么乘積的數(shù)學期望可以表示相關(guān)性,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,離散隨機變量,9多維隨機變量函數(shù)的數(shù)學期望,8兩個隨機變量之間的相關(guān)系數(shù)或標準協(xié)方差,連續(xù)隨機變量,7兩個隨機變量之間的協(xié)方差函數(shù),對于零均值變量,協(xié)方差函數(shù)與相關(guān)函數(shù)等價,顯然,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量之間不相關(guān)及正交的定義,若,則稱兩個隨機變量X、Y互不相關(guān),若,則稱兩個隨機變量X、Y相互正交,在零均值情況下,正交與不相關(guān)等價,或,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量數(shù)字特征的性質(zhì),以C為變量的拋物線在C軸上方的充要條件,A,根據(jù)同理可得,B對稱性,附錄,證根據(jù)定義以及乘法的交換率練習,為什么,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,數(shù)學期望\方差\協(xié)方差函數(shù)的運算性質(zhì),A,B,C,常數(shù)B只影響均值,不影響方差,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,概率密度函數(shù)的全積分為1,附錄,邊緣分布,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,利用隨機變量和的數(shù)學期望性質(zhì),利用隨機變量和的數(shù)學期望性質(zhì)將整個函數(shù)作為新的隨機變量,當各隨機變量不相關(guān)時,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,10多維隨機矢量的均值矢量,定義由N個隨機變量構(gòu)成的矢量,則其均值矢量定義為,各隨機變量的均值所構(gòu)成的矢量,10多維隨機變量的協(xié)方差矩陣N行N列對稱矩陣,協(xié)方差矩陣的第I行第J列元素值為,矩陣對稱性CIJCJI,列矢量,行矢量,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,附錄證明若兩個變量相互獨立,則必然不相關(guān)反之不一定,證設X、Y兩個隨機變量相互獨立,即,則,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,正態(tài)分布以及多維聯(lián)合正態(tài)分布的定義,設X為隨機變量,如果其概率密度函數(shù)為,則稱X服從均值為U,方差為?2的正態(tài)分布或高斯分布,容易證明參見后面附錄,概率密度函數(shù)的積分性質(zhì),湖南大學教學課件應用統(tǒng)計學與隨機過程概述,當U0,?21時,此時的正態(tài)分布稱為標準正態(tài)分布,,X,0,,FXX,,MXU,,U,,,XU?,,XU?,最大值點均值U處、最大值、兩個拐點、對稱性、漸近線\平移參數(shù)U,形狀參數(shù)?方差的性質(zhì),,X,U,,FXX,?1,?15,?3,,,,,,,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,附錄,直角坐標系內(nèi)的積分轉(zhuǎn)化為極坐標系內(nèi)的積分,練習在此式的基礎上運用常規(guī)的積分方法證明前面的3個式子全積分,均值,方差,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,如果這N個隨機變量的多維聯(lián)合概率密度分布函數(shù)滿足,下面介紹多維聯(lián)合正態(tài)分布。定義N維隨機矢量,定義隨機變量取值所構(gòu)成的矢量,CN?N的正定對稱方陣、對角線元素值大于0;||行列式值,N維常數(shù)列矢量,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,則稱這N個隨機變量服從聯(lián)合正態(tài)分布,且均值矢量以及協(xié)方差矩陣滿足,容易證明見第4章PPT附錄,對除XI外的所有變量積分N1重積分,矩陣的數(shù)學期望的概念,,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,結(jié)論1若多個隨機變量服從聯(lián)合正態(tài)分布,則其中的任意變量服從正態(tài)分布反之則不一定,進一步,若C為對角矩陣,即各個變量之間不相關(guān),對稱矩陣,于是可得到如下結(jié)論,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,結(jié)論2若多個隨機變量服從聯(lián)合正態(tài)分布,且各變量互不相關(guān),則這些變量相互獨立,其他分布不一定滿足此性質(zhì),則多維聯(lián)合概率密度分布函數(shù)為,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,結(jié)論2的推論若多個隨機變量各自服從正態(tài)分布,且相互獨立充分條件,并非必要條件,則其聯(lián)合分布為聯(lián)合正態(tài)分布。二維情況的充分必要條件為,容易證明若隨機變量X、Y分別服從均值、方差分別為MX,?X2、MY,?Y2的正態(tài)分布,且在XX的情況下,Y的條件概率密度分布為如下的正態(tài)分布,則X、Y服從聯(lián)合正態(tài)分布,且R為兩變量的相關(guān)系數(shù),即,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,相關(guān)系數(shù),練習,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量函數(shù)的概率密度分布,15,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,1單調(diào)單變量函數(shù)的概率密度分布設隨機變量X和Y存在單調(diào)函數(shù)關(guān)系YGX,存在唯一反函數(shù)XHY。如果Y在任意小區(qū)間Y,YDY內(nèi)變化時,X在HY,HYDY區(qū)間內(nèi)變化,這兩個事件的概率相等,即,DY、DX可能為負,但區(qū)間的長度是正的,取絕對值,得到,,,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,證附錄設,性質(zhì)若X服從正態(tài)分布,Y是X的線性函數(shù),則Y也服從正態(tài)分布,則有,正態(tài)均值方差,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,附錄實際應用中,可利用上述性質(zhì)以及概率論中數(shù)學期望與方差的性質(zhì),直接寫出Y的概率密度分布函數(shù),則有,數(shù)學期望的性質(zhì),方差的性質(zhì),湖南大學教學課件應用統(tǒng)計學與隨機過程概述,2多值單變量函數(shù)的概率密度分布設隨機變量X和Y存在函數(shù)關(guān)系YGX,除個別的Y值外,存在多個反函數(shù)以2個為例XH1Y、XH2Y。如果Y在任意小區(qū)間Y,YDY內(nèi)變化時,則X可以在兩個區(qū)間H1Y,H1YDY、H2Y,H2YDY區(qū)間內(nèi)變化,這兩個事件的概率相等,即,得到,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,隨機變量Y和X間的關(guān)系為YSINX,X在區(qū)間??X??內(nèi)服從均勻分布。求隨機變量Y的概率密度,多值函數(shù)概率密度分布函數(shù)舉例,解1≤Y≤1,對于任意一個Y值0除外,有兩個X值與之對應,有,值域范圍,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,附錄,當?/2X1?/2時,COSX1非負,湖南大學教學課件應用統(tǒng)計學與隨機過程概述,3多變量函數(shù)的概率密度分布,如果存在唯一的反函數(shù),對于多維隨機變量的函數(shù),湖南大學教學課件應用統(tǒng)計學與隨機過程概述,其中表示矩陣J的行列式值的絕對值,J為如下的矩陣雅可比矩陣,“超體積”放大系數(shù),根據(jù)高等數(shù)學積
下載積分: 6 賞幣
上傳時間:2024-01-07
頁數(shù): 113
大?。?1.95(MB)
子文件數(shù):
-
簡介:BEO225APPLIEDSTATISTICSFORBUSINESS,WEEKFIVE–NONPARAMETRICTESTSFORINDEPENDENTDEALWITHRANKEDDATAANALYSETHERELATIVELOCATIONOFTHEPOPULATIONSSTUDIEDMEDIANSINTESTINGTHELOCATIONSWEWILLNOTREFERTOANYPARAMETER,THUSTHEPROCEDURE’SNAME,NONPARAMETRICMETHODSCANREPLACETHEPARAMETRICMETHODSUSEDFORNUMERICALDATAWHENTHEPOPULATIONISNOTNORMALINNONPARAMETRICTESTSWEHYPOTHESISEONTHEPOPULATIONLOCATIONSNOTNECESSARILYTHEIRMEANS,,,,,,TWOPOPULATIONS–SAMELOCATION,TWOPOPULATIONS–DIFFERENTLOCATIONS,,,,,WILCOXONRANKSUMTESTFORINDEPENDENTSAMPLES,THEPROBLEMCHARACTERISTICSTHISTESTISDEALINGWITHARETHEPROBLEMOBJECTIVEISTOCOMPARETWOPOPULATIONSTHEDATAAREEITHERRANKEDORNUMERICAL,BUTNOTNORMALTHESAMPLESAREINDEPENDENTRANKINGTESTSDEALWITH“LOCATIONS”RATHERTHANMEANVALUESIFTWOPOPULATIONSSHARETHESAMELOCATIONTHEYARE,INEFFECT,ASINGLEPOPULATIONANOTHERWAYOFSAYINGITISTHATWEARECOMPARINGTWODISTRIBUTIONSOFDATANULLHYPOTHESISTHENULLHYPOTHESISISTHATTWODISTRIBUTIONSAREIDENTICAL,SPSS兩獨立樣本非參數(shù)檢驗,一目的由獨立樣本數(shù)據(jù)推斷兩總體的分布是否存在顯著差異或兩樣本是否來自同一總體。二基本假設H0兩總體分布無顯著差異兩樣本來自同一總體三數(shù)據(jù)要求樣本數(shù)據(jù)和分組標志,SPSS兩獨立樣本非參數(shù)檢驗,四基本方法1曼惠特尼U檢驗MANNWHITNEYU平均秩檢驗將兩樣本數(shù)據(jù)混合并按升序排序求出其秩對兩樣本的秩分別求平均如果兩樣本的平均秩大致相同,則認為兩總體分布無顯著差異,EXAMPLE1,WILCOXONRANKSUMTEST,CONSIDERTHESALESOFASAMPLEOF10MALEAND10FEMALESALESEXECUTIVESNULLHYPOTHESISTHEDISTRIBUTIONSOFSALESINTHERELEVANTTARGETPOPULATIONARETHESAMEFORMALESANDFEMALESHOWDOESTHETESTWORKUNDERTHENULLHYPOTHESIS,WHETHERASALESEXECUTIVEISMALEORFEMALEISIRRELEVANTIETHEREISONLYONEPOPULATIONPROCEDUREWERANKTHESALESDATA1LOWESTUPTO20HIGHESTWEADDTHERANKSFOREACHGROUPTOFINDTMANDTF,SUMOFRANKS,EXAMPLE1,WILCOXONRANKSUMTEST,RATIONALEIFSALESFORMALESANDFEMALESBELONGTOTHESAMEDISTRIBUTION,THESAMPLEOFMALESSHOULDHAVEABOUTASMANYHIGHRANKSASTHESAMPLEOFFEMALES,ANDASMANYLOWRANKSIFTHESAMPLESARETHESAMESIZENMNF,UNDERTHENULLHYPOTHESIS,TM?TFTMTFORTM10EXPECTEDORAVERAGEVALUEOFTSTANDARDDEVIATION,,THEZTESTSTATISTICTHENTHESAMEASATTEST,EXAMPLE1,WILCOXONRANKSUMTEST,SAMPLESIZE“SMALL”SAMPLESCRITICALVALUESFORNANB10,ONA2SIDEDTESTAT?005,THECRITICALVALUESARETL78ANDTU132RESULTTM7450,THASANORMALDISTRIBUTIONSOPROCEEDASFORATTEST,EXAMPLE2,THEFOLLOWINGTABLESHOWSEXPORTSFIGURESOFAPRODUCTTOCOUNTRYXBEFOREANDAFTERABILATERALTRADEAGREEMENTISSIGNED,ESTIMATETHEDIFFERENCEB/WSALESFIGURESASSIGNRANKSIGNORINGTHEORSIGN,NOWESTIMATETHETOTALOFPOSITIVENEGATIVERANKST,DECISIONCRITERIAOBTAINCRITICALVALUESFROMTABLEE9,BERENSONETAL2013APPENDICESP756ONA2SIDEDTESTWITH?005ANDN10,CRITICALVALUESARE847RULEISTHATREJECTHOIFTBEFORE,B,AFTERBEFORE,C,,,,,,,,,,WILCOXONSIGNEDRANKSTEST,NUMBEROFNEGATIVEDIFFERENCES,NUMBEROFPOSITIVEDIFFERENCES,TESTSTATISTIC,SMALLEROFTHERANKTOTALS,TESTSTATISTICS,B,,1071,A,,0284,,Z,,ASYMPSIG2TAILED,,,BASEDONNEGATIVERANKS,A,,,WILCOXONSIGNEDRANKSTEST,B,,,,,BEFOREAFTER,,,,,CANNOTREJECTTHENULLTHATTHEREISNODIFFERENCEINTHEDISTRIBUTIONSOFBEFOREANDAFTERRESULTSBECAUSESIG005,HYPOTHESES,HOTHEDISTRIBUTIONOFDIFFERENCESAFTERBEFOREISSYMMETRICAROUND0NODIFFERENCEHATHEDISTRIBUTIONOFDIFFERENCESAFTERBEFOREISNOTSYMMETRICAROUND0DIFFERENCE,ADVISERETESTSUSINGSPSS,MOSTLY,SPSSPRODUCESSIGVALUESFORTWOSIDEDTESTSNOTETHATFORCHISQUAREANDF,THEREISNOSUCHTHINGASATWOSIDEDTESTTHEREFORE,USETHESIGVALUEGIVENINSPSSANDCOMPAREAGAINST??005DECISIONRULEINALLTESTS,REJECTTHENULLIFSIG005ORSOMEOTHERLEVELOFSIGNIFICANCE,
下載積分: 6 賞幣
上傳時間:2024-01-07
頁數(shù): 42
大?。?0.96(MB)
子文件數(shù):
-
簡介:第三章參數(shù)估計第一節(jié)參數(shù)的點估計一參數(shù)點估計的一般提法點估計又稱定值估計,是一種對未知的總體參數(shù)進行估計的統(tǒng)計方法,其估計結(jié)果是一個具體的數(shù)值。,,,,,點估計問題的數(shù)學表述,樣本,估計量,,,待估參數(shù),估計值,是X的一個樣本,是一個樣本觀察值,,,,,設總體為X,分布函數(shù)F(X;),統(tǒng)計量,觀察值,二參數(shù)點估計的求法矩估計法矩估計法就是通過下面兩個估計式來實現(xiàn)的。(1)用樣本的一階原點矩(樣本均值)作為的估計,即,,,,,(2)用樣本的二階中心矩(樣本方差)作為的估計,即,,,,矩估計,用樣本原點矩來估計總體參數(shù)所得到的估計量稱為矩估計量,記為若總體X分布中有M個待估參數(shù),一般可考慮前M階原點矩。通過計算期望值得到估計。,對于未知參數(shù)作點估計有許多不同的方法,也可以得到許多不同的點估計量。要從中選取“好”的估計量,就需要有評價點估計的優(yōu)良標準。衡量點估計量好壞的標準是●無偏性●有效性●一致性,三、點估計量的評價標準,(一)無偏性,,無偏性是指所選用的估計量的數(shù)學期望與總體待估參數(shù)的真值相等。,則稱是的無偏估計量。,若,無偏性抽樣分布的期望值等于總體參數(shù),,,,,,,(二)有效性,設與都是的無偏估計量,,,,,若有D()<D()即的方差小于的方差,則稱作為的估計比有效。,一個好的估計量不僅要求它能圍繞待估參數(shù)的真值擺動,而且希望擺動幅度越小越好。,,,,,,,,,,,有效性,三一致性一個好的估計量應該隨著樣本容量的增大,與被估參數(shù)真值的偏差越來越小一致估計的直觀意義是隨著N的不斷增大,估計值逐漸穩(wěn)定于真值,,,,,,,,一致性隨樣本容量N的增大樣本均值與總體均值的差異縮小,第二節(jié)參數(shù)的區(qū)間估計一參數(shù)區(qū)間估計的一般提法區(qū)間估計給出了未知參數(shù)?的一個估計范圍,這樣的范圍通常以區(qū)間的形式給出,即置信區(qū)間。區(qū)間估計還可以給出置信區(qū)間包含參數(shù)?真值的可信程度。,區(qū)間估計基本概念設總體的分布函數(shù)含有一個未知參數(shù),對于給定值(0<<1),區(qū)間估計仍從樣本出發(fā),尋找兩個樣本函數(shù),即兩個統(tǒng)計量和,,,,,,,使得由此產(chǎn)生的隨機區(qū)間能以足夠大的概率(1)包含未知參數(shù),即有,,,,,則稱隨機區(qū)間是的置信度為1的置信區(qū)間,和,,分別稱為置信度為1的置信下限和置信上限,1稱為置信度,稱為顯著性水平。(其中(0<<1)為事先給定的小概率)。顯然,置信區(qū)間表達了估計的精確性,,置信度反映的是估計的可靠程度。用一個置信區(qū)間去估計參數(shù)的方法,稱為區(qū)間估計。,,,,,,,,,區(qū)間估計示意圖,二、單側(cè)置信區(qū)間對于某些實際問題,例如設備、元件的壽命來說,一般只關(guān)心它們平均壽命的“下限”;而對于產(chǎn)品的廢品率P來說,一般只關(guān)心P的“上限”。這就是討論單側(cè)置信區(qū)間的原因。,對于給定的值(0<<1),若由樣本確定的統(tǒng)計量,滿足稱隨機區(qū)間(,∞)是的置信度為1的單側(cè)置信區(qū)間,稱為置信度為1的單側(cè)置信下限。,若統(tǒng)計量滿足稱隨機區(qū)(∞,)是的置信度為1的單側(cè)置信區(qū)間,稱為置信度為1的單側(cè)置信上限。,三關(guān)于一個正態(tài)總體均值和方差的區(qū)間估計1總體均值的區(qū)間估計(1)方差已知的情形估計用的隨機變量,則的一個置信度為1-的置信區(qū)間,,,【31】,【31】,【例】從一批釘子中隨機抽取16枚,測得其長度(單位CM)為214,210,213,215,213,212,213,210,215,212,214,210,213,211,214,211。假設釘子的長度X服從正態(tài)分布,已知=001,求總體均值的置信度為90%的置信區(qū)間。,,,,解由觀察值可得=2125,已知=001,1=090,=005,N=16①選取隨機變量,,,,,,②由=01,查標準正態(tài)分布表得,,③計算,,由此可得,置信度為90%的置信區(qū)間為2121,2129。,,【例】某保險公司自投保人中隨機抽取36人,計算出此36人的平均年齡為395歲,已知投保人年齡分布近似服從標準差為72歲的正態(tài)分布,求所有投保人平均年齡99的置信區(qū)間。,(2)方差未知的情形,隨機變量,,的一個置信度為1的置信區(qū)間,,【32】,【例】同上例數(shù)據(jù)相同,同樣假設釘子的長度X服從正態(tài)分布,但是總體方差未知,求總體均值的置信度90%的置信區(qū)間。,,解①由于未知,因此用隨機變量,②,查T分布表得,,,③計算置信下限為,,計算置信上限為,,故所求的的置信度為90%的區(qū)間為2117,2133,【例】某保險公司自投保人中隨機抽取36人,計算出此36人的平均年齡為395歲,標準差為72歲。已知投保人年齡分布近似服從正態(tài)分布,求所有投保人平均年齡99的置信區(qū)間。,抽樣中的正態(tài)分布和T分布問題,,,,,,,抽樣中的正態(tài)分布和T分布問題,【例】某金融機構(gòu)共有8042張應收賬款單,根據(jù)過去的記錄,所有應收賬款的標準差為30334元,現(xiàn)隨機抽查了250張應收賬款單,計算平均應收賬款為3319元。求所有應收款平均應收賬款98的置信區(qū)間。,2總體方差的區(qū)間估計(1)均值已知的情形,估計用的隨機變量,,為已知時,方差的一個置信度為的置信區(qū)間,,,其中,,可通過查分布表得到。,,,,(2)均值未知的情形,,為未知時,方差的一個置信度為的置信區(qū)間,,【例】某食品商加工一批咖啡罐頭,擔心罐頭的重量差異太大,隨機抽出15個罐頭稱其重量,得樣本方差S2為1652。假設罐頭重量服從正態(tài)分布,求罐頭重量方差90的置信區(qū)間。,四關(guān)于兩個正態(tài)總體的均值差的區(qū)間估計1,均為已知的情況,【例】某廠某原料來自甲、乙兩個廠家,為了估計這兩個廠家該原料的差異,從甲廠家隨機抽取了25個樣品,從乙廠家抽取了16個樣品,測試結(jié)果甲廠家原料的平均重量為22千克,乙廠家原料的平均重量為20千克,根據(jù)過去的記錄,甲乙廠家原料重量均服從方差為10的正態(tài)分布,求甲乙廠家該原料重量差的95的置信區(qū)間。,2,均為未知的情況,【例】為調(diào)查某市遠郊和近郊地區(qū)農(nóng)民的年末手存現(xiàn)金之間的差異,從近郊和遠郊地區(qū)各自獨立隨機抽取了樣本容量都是50的兩個樣本,計算得到近、遠郊地區(qū)農(nóng)民平均每戶手存現(xiàn)金分別為650元、480元,標準差分別為120元、106元。求兩地區(qū)農(nóng)民平均手存現(xiàn)金差異的95的置信區(qū)間。,3,但未知,【例】某廠某原料來自甲、乙兩個廠家,為了估計這兩個廠家該原料的差異,從甲廠家隨機抽取了25個樣品,從乙廠家抽取了16個樣品,測試結(jié)果甲廠家原料的平均重量為22千克,樣本方差為9,乙廠家原料的平均重量為20千克,樣本方差為10,根據(jù)過去的記錄,甲乙廠家原料重量均服從正態(tài)分布且方差相等,求甲乙廠家該原料重量差的95的置信區(qū)間。,五、關(guān)于比率P(總體成數(shù))的區(qū)間估計1對單個總體比率的區(qū)間估計,【33】,【例】某電視臺希望了解每日“晚間新聞”欄目的收視率,隨機抽取了400人進行調(diào)查,結(jié)果表明有712的人觀看此節(jié)目,求該欄目收視率具有90可靠性的置信區(qū)間。,2對兩個總體比率差的區(qū)間估計,【例】為調(diào)查城市居民與近郊居民對某項政策的態(tài)度之間的差別,從城市隨機選出5000人,其中有2400人贊成,從近郊隨機選出2000人,其中有1200人贊成,求城市與近郊居民贊成該項政策人數(shù)比例之差的90可靠性的置信區(qū)間。,3關(guān)于總體比率估計中樣本容量的確定,由【33】,估計的區(qū)間長度為,因此得到的樣本容量N與區(qū)間長度之間的關(guān)系為,【34】,【36】,對于任意實數(shù),由【34】得,【35】,
下載積分: 6 賞幣
上傳時間:2024-01-07
頁數(shù): 98
大?。?0.66(MB)
子文件數(shù):
-
簡介:第5章參數(shù)估計,51參數(shù)估計的一般問題52一個總體參數(shù)的區(qū)間估計53兩個總體參數(shù)的區(qū)間估計54樣本容量的確定55抽樣設計,學習目標,抽樣調(diào)查的概念估計量與估計值的概念點估計與區(qū)間估計的區(qū)別評價估計量優(yōu)良性的標準一個總體參數(shù)的區(qū)間估計方法兩個總體參數(shù)的區(qū)間估計方法樣本容量的確定方法抽樣組織設計,參數(shù)估計在統(tǒng)計方法中的地位,51參數(shù)估計的一般問題,511抽樣調(diào)查的概念512抽樣中涉及的幾個基本概念513評價估計量的優(yōu)良標準,511抽樣調(diào)查的概念,抽樣調(diào)查按隨機原則從總體中抽取一部分單位進行調(diào)查,用調(diào)查所得的數(shù)值對總體數(shù)量特征作出推斷的一種統(tǒng)計調(diào)查方法。特點(1)遵循隨機原則(2)以部分推斷總體(3)抽樣誤差可以事先計算并加以控制。,511抽樣調(diào)查的概念,作用(1)某些現(xiàn)象不可能采用全面調(diào)查時,可以通過抽樣調(diào)查作出推斷(2)當某些現(xiàn)象沒有必要采用全面調(diào)查時,也可通過抽樣調(diào)查來作出推斷(3)抽樣調(diào)查和全面調(diào)查相結(jié)合,可以相互補充,也可以對全面調(diào)查資料起到檢驗核對的作用(4)對某些總體的假設需要依靠抽樣調(diào)查進行檢驗(5)抽樣調(diào)查方法可以用于工業(yè)生產(chǎn)過程中的質(zhì)量控制。,512抽樣中涉及的幾個基本概念,總體與樣本總體參數(shù)和樣本統(tǒng)計量重復抽樣與不重復抽樣估計量與估計值點估計與區(qū)間估計,總體與樣本,總體是根據(jù)研究目的確定的所要研究的事物的全體,是由客觀存在的、具有同一性質(zhì)的大量個別事物構(gòu)成的集合。對于特定的問題來說,總體是唯一的確定的。組成總體的個別事物稱為總體單位,總體所包含的總體單位的個數(shù)稱為總體容量,通常用大寫的字母N表示。樣本是按隨機原則從總體中抽取出來的那部分單位組成的集合。樣本中所包含的單位個數(shù)稱為樣本容量,一般用小寫的字母N表示。通常將樣本容量小于30的樣本稱為小樣本,而將樣本容量大于30的樣本稱為大樣本。與總體是唯一確定的不同,樣本不是唯一的,從一個總體中可以抽取很多個樣本,全部樣本的可能數(shù)目與樣本容量及隨機抽樣的方法有關(guān)。,總體參數(shù)是根據(jù)總體各單位的標志值或標志表現(xiàn)計算的反映總體數(shù)量特征的綜合指標,是抽樣推斷的對象。由于總體是唯一確定的,根據(jù)總體計算的總體參數(shù)也是唯一確定的,只不過通常是未知的。一個總體可以有多個參數(shù),從不同方面反映總體的綜合數(shù)量特征。常用的總體參數(shù)有總體平均數(shù)總體比例總體方差總體標準差等。,總體參數(shù)與樣本統(tǒng)計量,樣本統(tǒng)計量是根據(jù)樣本中各單位標志值或標志表現(xiàn)計算的樣本指標,是樣本變量的函數(shù),是用來估計總體參數(shù)的。其計算方法是確定的,但它的取值隨著樣本的不同而發(fā)生變化,因此統(tǒng)計量是隨機變量。與總體參數(shù)相對應,樣本統(tǒng)計量有樣本平均數(shù)樣本比例樣本方差樣本標準差等。,總體參數(shù)與樣本統(tǒng)計量,,,,,常用的總體參數(shù),,,,總體均值,總體方差,總體比例,,,,,常用的樣本統(tǒng)計量(一),,,,樣本均值,樣本方差,樣本比例,,,,,常用的樣本統(tǒng)計量二),,,,Z統(tǒng)計量,T統(tǒng)計量,Χ2統(tǒng)計量,重復抽樣與不重復抽樣,重復抽樣,也稱放回抽樣,是指按隨機原則從總體中抽取一個單位登記后,又放回總體參加下一次抽選的方法,同一單位有重復抽中的可能。在重復抽樣的情況下,每次抽取的樣本單位都是在完全相同的條件下進行的,總體容量N保持不變,每個單位被抽中的機會均等。其樣本可能的數(shù)目是不重復抽樣,也稱不放回抽樣,是指從總體中隨機抽取一個單位登記后,不再放回總體參加下一次抽選的方法,每個單位最多只能被抽中一次。每抽一個,總體單位數(shù)就減少一個,因此各次樣本單位被抽中的機會發(fā)生變化,第一個樣本單位被抽中的機會是,第二個樣本單位被抽中的機會是,依此類推。不重復抽樣相當于一次從總體中抽出N個單位。在不重復抽樣條件下,樣本可能的數(shù)目為。,,,,,估計量與估計值,1估計量用于估計總體參數(shù)的隨機變量如樣本均值,樣本比例、樣本方差等例如樣本均值就是總體均值?的一個估計量2參數(shù)用?表示,估計量用表示3估計值估計參數(shù)時計算出來的統(tǒng)計量的具體值如果樣本均值?X80,則80就是?的估計值,點估計與區(qū)間估計,點估計POINTESTIMATE,1用樣本的估計量的某個取值直接作為總體參數(shù)的估計值例如用樣本均值直接作為總體均值的估計;用兩個樣本均值之差直接作為總體均值之差的估計2無法給出估計值接近總體參數(shù)程度的信息雖然在重復抽樣條件下,點估計的均值可望等于總體真值,但由于樣本是隨機的,抽出一個具體的樣本得到的估計值很可能不同于總體真值一個點估計量的可靠性是由它的抽樣標準誤差來衡量的,這表明一個具體的點估計值無法給出估計的可靠性的度量,區(qū)間估計INTERVALESTIMATE,1在點估計的基礎上,給出總體參數(shù)估計的一個區(qū)間范圍,該區(qū)間由樣本統(tǒng)計量加減估計誤差而得到2根據(jù)樣本統(tǒng)計量的抽樣分布能夠?qū)颖窘y(tǒng)計量與總體參數(shù)的接近程度給出一個概率度量比如,某班級平均分數(shù)在75~85之間,置信水平是95,,區(qū)間估計的圖示,,?,,,將構(gòu)造置信區(qū)間的步驟重復很多次,置信區(qū)間包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平表示為1?????為是總體參數(shù)未在區(qū)間內(nèi)的比例?常用的置信水平值有99,95,90相應的?為001,005,010,置信水平CONFIDENCELEVEL,由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間統(tǒng)計學家在某種程度上確信這個區(qū)間會包含真正的總體參數(shù),所以給它取名為置信區(qū)間用一個具體的樣本所構(gòu)造的區(qū)間是一個特定的區(qū)間,我們無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值我們只能是希望這個區(qū)間是大量包含總體參數(shù)真值的區(qū)間中的一個,但它也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個總體參數(shù)以一定的概率落在這一區(qū)間的表述是錯誤的,置信區(qū)間CONFIDENCEINTERVAL,,置信區(qū)間95的置信區(qū)間,,重復構(gòu)造出?的20個置信區(qū)間,?,點估計值,,,,,,,,,,,,,,,,,,,,,,,置信區(qū)間與置信水平,影響區(qū)間寬度的因素,1總體數(shù)據(jù)的離散程度,用?來測度2樣本容量N3置信水平1?,影響Z的大小,513評價估計量的優(yōu)良標準,無偏性有效性一致性,,無偏性UNBIASEDNESS,無偏性估計量抽樣分布的數(shù)學期望等于被估計的總體參數(shù),,有效性EFFICIENCY,有效性對同一總體參數(shù)的兩個無偏點估計量,有更小標準差的估計量更有效,,一致性CONSISTENCY,一致性隨著樣本容量的增大,估計量的值越來越接近被估計的總體參數(shù),52一個總體參數(shù)的區(qū)間估計,521總體均值的區(qū)間估計522總體比例的區(qū)間估計523總體方差的區(qū)間估計,,一個總體參數(shù)的區(qū)間估計,總體均值的區(qū)間估計正態(tài)總體、?2已知,或非正態(tài)總體、大樣本,總體均值的區(qū)間估計大樣本,假定條件總體服從正態(tài)分布,且方差?2已知如果不是正態(tài)分布,可由正態(tài)分布來近似N?30使用正態(tài)分布統(tǒng)計量Z,總體均值?在1?置信水平下的置信區(qū)間為,總體均值的區(qū)間估計例題分析,,【例】一家食品生產(chǎn)企業(yè)以生產(chǎn)袋裝食品為主,為對產(chǎn)量質(zhì)量進行監(jiān)測,企業(yè)質(zhì)檢部門經(jīng)常要進行抽檢,以分析每袋重量是否符合要求?,F(xiàn)從某天生產(chǎn)的一批食品中隨機抽取了25袋,測得每袋重量(單位G)如下表所示。已知產(chǎn)品重量的分布服從正態(tài)分布,且總體標準差為10G。試估計該批產(chǎn)品平均重量的置信區(qū)間,置信水平為95,總體均值的區(qū)間估計例題分析,解已知XN?,102,N25,1?95,Z?/2196。根據(jù)樣本數(shù)據(jù)計算得。由于是正態(tài)總體,且方差已知??傮w均值?在1?置信水平下的置信區(qū)間為,,該食品平均重量的置信區(qū)間為10144G10928G,總體均值的區(qū)間估計例題分析,,【例】一家保險公司收集到由36投保個人組成的隨機樣本,得到每個投保人的年齡單位周歲數(shù)據(jù)如下表。試建立投保人年齡90的置信區(qū)間,總體均值的區(qū)間估計例題分析,解已知N36,1?90,Z?/21645。根據(jù)樣本數(shù)據(jù)計算得,總體均值?在1?置信水平下的置信區(qū)間為,,投保人平均年齡的置信區(qū)間為3737歲4163歲,總體均值的區(qū)間估計正態(tài)總體、?2未知、小樣本,總體均值的區(qū)間估計小樣本,1假定條件總體服從正態(tài)分布,但方差?2未知小樣本N302使用T分布統(tǒng)計量,總體均值?在1?置信水平下的置信區(qū)間為,,T分布,?T分布是類似正態(tài)分布的一種對稱分布,它通常要比正態(tài)分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布,T分布用EXCEL生成T分布的臨界值表,將分布自由度N的值輸入到工作表的A列將右尾概率?的取值輸入到第1行在B2單元格輸入公式“TINVB1A2”,然后將其向下、向右復制即可得,T分布用EXCEL繪制T分布圖,第1步在工作表的第1列A2A62輸入一個等差數(shù)列,初始值為“3”,步長為“01”,終值為“3”第2步在單元格C1輸入T分布的自由度如“20”第3步在單元格B2輸入公式“TDISTA2,C1,1”,并將其復制到B3B32區(qū)域,在B33輸入公式“TDISTA33,C1,1”并將其復制到B34B62區(qū)域第4步在單元格C3輸入公“B3B210”,并將其復制到C4C31區(qū)域,在單元格C32輸入公式“B32B3310”并將其復制到C33C61區(qū)域第5步將A2A62作為橫坐標,C2C62作為縱坐標,根據(jù)“圖表向?qū)А崩L制折線圖,,T分布用EXCEL繪制T分布圖,總體均值的區(qū)間估計例題分析,,【例】已知某種燈泡的壽命服從正態(tài)分布,現(xiàn)從一批燈泡中隨機抽取16只,測得其使用壽命單位H如下。建立該批燈泡平均使用壽命95的置信區(qū)間,總體均值的區(qū)間估計例題分析,解已知XN?,?2,N16,1?95,T?/22131根據(jù)樣本數(shù)據(jù)計算得,總體均值?在1?置信水平下的置信區(qū)間為,,該種燈泡平均使用壽命的置信區(qū)間為14768H~15032H,總體比例的區(qū)間估計,總體比例的區(qū)間估計,1假定條件總體服從二項分布可以由正態(tài)分布來近似使用正態(tài)分布統(tǒng)計量Z,3總體比例?在1?置信水平下的置信區(qū)間為,總體比例的區(qū)間估計例題分析,,【例】某城市想要估計下崗職工中女性所占的比例,隨機地抽取了100名下崗職工,其中65人為女性職工。試以95的置信水平估計該城市下崗職工中女性比例的置信區(qū)間,解已知N100,P=65,1?95,Z?/2196,該城市下崗職工中女性比例的置信區(qū)間為55657435,總體方差的區(qū)間估計,總體方差的區(qū)間估計,1估計一個總體的方差或標準差2假設總體服從正態(tài)分布總體方差?2的點估計量為S2,且,4總體方差在1?置信水平下的置信區(qū)間為,,總體方差的區(qū)間估計圖示,總體方差的區(qū)間估計例題分析,,【例】一家食品生產(chǎn)企業(yè)以生產(chǎn)袋裝食品為主,現(xiàn)從某天生產(chǎn)的一批食品中隨機抽取了25袋,測得每袋重量如下表所示。已知產(chǎn)品重量的分布服從正態(tài)分布。以95的置信水平建立該種食品重量方差的置信區(qū)間,總體方差的區(qū)間估計例題分析,解已知N=25,1?=95,根據(jù)樣本數(shù)據(jù)計算得S29321?2置信度為95的置信區(qū)間為,該企業(yè)生產(chǎn)的食品總體重量標準差的的置信區(qū)間為754G1343G,,一個總體參數(shù)的區(qū)間估計小結(jié),53兩個總體參數(shù)的區(qū)間估計,531兩個總體均值之差的區(qū)間估計532兩個總體比例之差的區(qū)間估計533兩個總體方差比的區(qū)間估計,,兩個總體參數(shù)的區(qū)間估計,兩個總體均值之差的區(qū)間估計獨立大樣本,兩個總體均值之差的估計大樣本,1假定條件兩個總體都服從正態(tài)分布,?12,?22已知若不是正態(tài)分布,可以用正態(tài)分布來近似N1?30和N2?30兩個樣本是獨立的隨機樣本2使用正態(tài)分布統(tǒng)計量Z,兩個總體均值之差的估計大樣本,1?12,?22已知時,兩個總體均值之差?1?2在1?置信水平下的置信區(qū)間為,?12,?22未知時,兩個總體均值之差?1?2在1?置信水平下的置信區(qū)間為,兩個總體均值之差的估計例題分析,【例】某地區(qū)教育管理部門想估計兩所中學的學生高考時的英語平均分數(shù)之差,為此在兩所中學獨立抽取兩個隨機樣本,有關(guān)數(shù)據(jù)如右表所示。建立兩所中學高考英語平均分數(shù)之差95的置信區(qū)間,兩個總體均值之差的估計例題分析,解兩個總體均值之差在1?置信水平下的置信區(qū)間為,兩所中學高考英語平均分數(shù)之差的置信區(qū)間為503分1097分,兩個總體均值之差的區(qū)間估計獨立小樣本,兩個總體均值之差的估計小樣本?12?22,1假定條件兩個總體都服從正態(tài)分布兩個總體方差未知但相等?12?22兩個獨立的小樣本N130和N2302總體方差的合并估計量,3估計量?X1?X2的抽樣標準差,兩個總體均值之差的估計小樣本?12?22,兩個樣本均值之差的標準化,兩個總體均值之差?1?2在1?置信水平下的置信區(qū)間為,兩個總體均值之差的估計例題分析,【例】為估計兩種方法組裝產(chǎn)品所需時間的差異,分別對兩種不同的組裝方法各隨機安排12名工人,每個工人組裝一件產(chǎn)品所需的時間單位MIN如下表。假定兩種方法組裝產(chǎn)品的時間服從正態(tài)分布,且方差相等。試以95的置信水平建立兩種方法組裝產(chǎn)品所需平均時間差值的置信區(qū)間,兩個總體均值之差的估計例題分析,解根據(jù)樣本數(shù)據(jù)計算得合并估計量為,兩種方法組裝產(chǎn)品所需平均時間之差的置信區(qū)間為014MIN726MIN,兩個總體均值之差的估計小樣本?12??22,1假定條件兩個總體都服從正態(tài)分布兩個總體方差未知且不相等?12??22兩個獨立的小樣本N130和N2302使用統(tǒng)計量,兩個總體均值之差的估計小樣本?12??22,?兩個總體均值之差?1?2在1?置信水平下的置信區(qū)間為,兩個總體均值之差的估計例題分析,【例】沿用前例。假定第一種方法隨機安排12名工人,第二種方法隨機安排8名工人,即N112,N28,所得的有關(guān)數(shù)據(jù)如表。假定兩種方法組裝產(chǎn)品的時間服從正態(tài)分布,且方差不相等。以95的置信水平建立兩種方法組裝產(chǎn)品所需平均時間差值的置信區(qū)間,兩個總體均值之差的估計例題分析,解根據(jù)樣本數(shù)據(jù)計算得自由度為,兩種方法組裝產(chǎn)品所需平均時間之差的置信區(qū)間為0192MIN9058MIN,兩個總體均值之差的區(qū)間估計匹配樣本,兩個總體均值之差的估計匹配大樣本,假定條件兩個匹配的大樣本N1?30和N2?30兩個總體各觀察值的配對差服從正態(tài)分布兩個總體均值之差?D?1?2在1?置信水平下的置信區(qū)間為,兩個總體均值之差的估計匹配小樣本,假定條件兩個匹配的小樣本N130和N230兩個總體各觀察值的配對差服從正態(tài)分布兩個總體均值之差?D?1?2在1?置信水平下的置信區(qū)間為,兩個總體均值之差的估計例題分析,,【例】由10名學生組成一個隨機樣本,讓他們分別采用A和B兩套試卷進行測試,結(jié)果如右表。試建立兩種試卷分數(shù)之差?D?1?295的置信區(qū)間,兩個總體均值之差的估計例題分析,解根據(jù)樣本數(shù)據(jù)計算得,兩種試卷所產(chǎn)生的分數(shù)之差的置信區(qū)間為633分1567分,兩個總體比例之差區(qū)間的估計,1假定條件兩個總體服從二項分布可以用正態(tài)分布來近似兩個樣本是獨立的2兩個總體比例之差?1?2在1?置信水平下的置信區(qū)間為,兩個總體比例之差的區(qū)間估計,兩個總體比例之差的估計例題分析,【例】在某個電視節(jié)目的收視率調(diào)查中,農(nóng)村隨機調(diào)查了400人,有32的人收看了該節(jié)目;城市隨機調(diào)查了500人,有45的人收看了該節(jié)目。試以90的置信水平估計城市與農(nóng)村收視率差別的置信區(qū)間,兩個總體比例之差的估計例題分析,解已知N1500,N2400,P145,P232,1?95,Z?/2196?1?2置信度為95的置信區(qū)間為,城市與農(nóng)村收視率差值的置信區(qū)間為6681932,兩個總體方差比的區(qū)間估計,兩個總體方差比的區(qū)間估計,1比較兩個總體的方差比用兩個樣本的方差比來判斷如果S12/S22接近于1,說明兩個總體方差很接近如果S12/S22遠離1,說明兩個總體方差之間存在差異總體方差比在1?置信水平下的置信區(qū)間為,,,兩個總體方差比的區(qū)間估計圖示,兩個總體方差比的區(qū)間估計例題分析,【例】為了研究男女學生在生活費支出單位元上的差異,在某大學各隨機抽取25名男學生和25名女學生,得到下面的結(jié)果男學生女學生試以90置信水平估計男女學生生活費支出方差比的置信區(qū)間,兩個總體方差比的區(qū)間估計例題分析,解根據(jù)自由度N125124,N225124,查得F?/224198,F(xiàn)1?/2241/1980505?12/?22置信度為90的置信區(qū)間為,男女學生生活費支出方差比的置信區(qū)間為047184,,兩個總體參數(shù)的區(qū)間估計小結(jié),54樣本容量的確定,541估計總體均值時樣本容量的確定542估計總體比例時樣本容量的確定543估計兩個總體均值之差時樣本容量的確定544估計兩個總體比例之差時樣本容量的確定,估計總體均值時樣本容量的確定,估計總體均值時樣本容量N為樣本容量N與總體方差?2、邊際誤差E、可靠性系數(shù)Z或T之間的關(guān)系為與總體方差成正比與邊際誤差的平方成反比與可靠性系數(shù)成正比樣本容量的圓整法則當計算出的樣本容量不是整數(shù)時,將小數(shù)點后面的數(shù)值一律進位成整數(shù),如2468取25,2432也取25等等,估計總體均值時樣本容量的確定,其中,估計總體均值時樣本容量的確定例題分析,【例】擁有工商管理學士學位的大學畢業(yè)生年薪的標準差大約為2000元,假定想要估計年薪95的置信區(qū)間,希望邊際誤差為400元,應抽取多大的樣本容量,估計總體均值時樣本容量的確定例題分析,解已知?2000,E400,1?95,Z?/2196應抽取的樣本容量為,即應抽取97人作為樣本,估計總體比例時樣本容量的確定,1根據(jù)比例區(qū)間估計公式可得樣本容量N為,估計總體比例時樣本容量的確定,2E的取值一般小于013?未知時,可取使方差最大值05,其中,估計總體比例時樣本容量的確定例題分析,【例】根據(jù)以往的生產(chǎn)統(tǒng)計,某種產(chǎn)品的合格率約為90,現(xiàn)要求邊際誤差為5,在求95的置信區(qū)間時,應抽取多少個產(chǎn)品作為樣本,解已知?90,?005,Z?/2196,E5,應抽取的樣本容量為,應抽取139個產(chǎn)品作為樣本,估計兩個總體均值之差時樣本容量的確定,設N1和N2為來自兩個總體的樣本,并假定N1N2根據(jù)均值之差的區(qū)間估計公式可得兩個樣本的容量N為,估計兩個總體均值之差時樣本容量的確定,其中,估計兩個總體均值之差時樣本容量的確定例題分析,【例】一所中學的教務處想要估計試驗班和普通班考試成績平均分數(shù)差值的置信區(qū)間。要求置信水平為95,預先估計兩個班考試分數(shù)的方差分別為試驗班?1290,普通班?22120。如果要求估計的誤差范圍邊際誤差不超過5分,在兩個班應分別抽取多少名學生進行調(diào)查,ENGLISH,估計兩個總體均值之差時樣本容量的確定例題分析,解已知?1290,?22120,E5,1?95,Z?/2196,即應抽取33人作為樣本,估計兩個總體比例之差時樣本容量的確定,設N1和N2為來自兩個總體的樣本,并假定N1N2根據(jù)比例之差的區(qū)間估計公式可得兩個樣本的容量N為,估計兩個總體比例之差時樣本容量的確定,其中,估計兩個總體比例之差時樣本容量的確定例題分析,【例】一家瓶裝飲料制造商想要估計顧客對一種新型飲料認知的廣告效果。他在廣告前和廣告后分別從市場營銷區(qū)各抽選一個消費者隨機樣本,并詢問這些消費者是否聽說過這種新型飲料。這位制造商想以10的誤差范圍和95的置信水平估計廣告前后知道該新型飲料消費者的比例之差,他抽取的兩個樣本分別應包括多少人假定兩個樣本容量相等,估計兩個總體比例之差時樣本容量的確定例題分析,解E10,1?95,Z?/2196,由于沒有?的信息,用05代替,即應抽取193位消費者作為樣本,55抽樣設計,551抽樣設計的基本原則552抽樣組織設計,抽樣設計的基本原則,保證抽樣隨機原則的實現(xiàn)隨機取樣是抽樣推斷的前提,失去這個前提,推斷的理論和方法也就失去存在的意義。從理論上說,隨機原則就是要保證總體每一單位都有同等的中選機會,或樣本的抽選的概率是已知的。保證實現(xiàn)最大的抽樣效果原則在一定的誤差要求下選擇費用最少的方案;或在一定的費用開支條件下,選擇誤差最小的方案。,抽樣組織設計,簡單隨機抽樣類型抽樣等距抽樣整群抽樣階段抽樣非概率抽樣,簡單隨機抽樣,簡單隨機抽樣也稱為純隨機抽樣是從總體包含的N個單位中任意抽取N個單位作為樣本總體中每個單位可能被抽中的概率相等它是一種最基本的抽樣方法它是其他抽樣方法的基礎,類型抽樣,類型抽樣又稱為分類抽樣或分層抽樣首先將總體按某種特征或原則劃分成若干層然后在每層內(nèi)獨立地、隨機地抽取子樣本最后將子樣本合起來構(gòu)成總體樣本劃分層時應使層內(nèi)各單位的差異盡可能小而使層間各單位的差異盡可能大,等距抽樣,等距抽樣首先將總體中的所有單位按某一標志排序然后在規(guī)定的范圍內(nèi)抽取一個單位作為初始單元最后按事先定好的間隔K確定其他樣本單位計算公式N為總體單位數(shù),N為樣本容量,整群抽樣,整群抽樣首先將總體劃分成若干群然后以群為抽樣單元抽取樣本最后對抽中的各個群內(nèi)的所有單位進行調(diào)查劃分群時應使群內(nèi)各單位的差異盡可能大而使群間各單位的差異盡可能小,階段抽樣,階段抽樣是指在抽樣時先抽總體中某種更大范圍的單位,再從中選大單位中抽較小范圍的單位,逐次類推,最后從更小范圍單位中抽選樣本的基本單位,分階段來完成抽樣的組織工作。當總體很大時,抽樣調(diào)查要直接抽選總體的基本單位在技術(shù)上有很大困難,一般都要采用多階段抽樣方法。兩階段抽樣在組織技術(shù)上可以看為是整群抽樣和類型抽樣的結(jié)合。即整群抽樣第一階段從總體的全部組(群)中,隨機抽取部分的組(群),和類型抽樣第二階段從中選組中抽選部分單位兩上程序的結(jié)合。兩階段抽樣的平均誤差是由兩部分構(gòu)成的,第一部分是第一階段從總體全部組抽部分組所引起的組間誤差,第二部分是由第二階段在中選組中抽部分單位所引起的組內(nèi)平均誤差。,非概率抽樣,方便抽樣是一種非概率抽樣技術(shù),顧名思義,樣本的確定主要是基于簡便。樣本中所包括的元素不是事先確定或按照已知概率選取的。方便抽樣具有相對易于樣本選擇和搜集數(shù)據(jù)的優(yōu)點。判斷抽樣在這種抽樣方法中,由對所研究總體非常了解的人選擇總體中他認為最具總體代表性的元素。通常,這是一個相對容易選擇樣本的方法。,海寧公眾科學素養(yǎng)調(diào)查是怎樣的抽樣組織設計大學教學情況調(diào)查是怎樣的抽樣組織設計,本章小結(jié),參數(shù)估計的一般問題一個總體參數(shù)的區(qū)間估計兩個總體參數(shù)的區(qū)間估計樣本容量的確定抽樣組織設計,ENDOFCHAPTER5,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數(shù): 111
大小: 1.95(MB)
子文件數(shù):
-
簡介:第三章用表格法和圖形法描述統(tǒng)計數(shù)據(jù),第三章用表格法和圖形法描述統(tǒng)計數(shù)據(jù),第一節(jié)數(shù)據(jù)的預處理第二節(jié)品質(zhì)數(shù)據(jù)的整理和描述第三節(jié)數(shù)值型數(shù)據(jù)的整理和描述第四節(jié)統(tǒng)計表,學習目標,了解數(shù)據(jù)預處理的內(nèi)容和目的掌握品質(zhì)數(shù)據(jù)整理和描述的方法掌握數(shù)量數(shù)據(jù)整理和描述的方法用EXCEL作頻數(shù)分布表和分布圖合理使用統(tǒng)計表,統(tǒng)計數(shù)據(jù)為什么要用圖表描述,1、原始數(shù)據(jù)反映個體特征,龐大而雜亂,單從原始數(shù)據(jù)中無法得到總體特征和數(shù)量規(guī)律,2、圖表描述的結(jié)果能反映樣本分布特征,3、圖表描述的結(jié)果可用于研究變量之間的關(guān)系,,,用圖表法描述數(shù)據(jù)的一般過程,本章內(nèi)容,第一節(jié)數(shù)據(jù)的預處理,第二節(jié)用圖表法描述品質(zhì)數(shù)據(jù),第三節(jié)用圖表法描述數(shù)量數(shù)據(jù),第一節(jié)數(shù)據(jù)的預處理,,,,一、數(shù)據(jù)的審核,二、數(shù)據(jù)的篩選,三、數(shù)據(jù)的排序,,一、數(shù)據(jù)的審核,原始數(shù)據(jù),,確認是否有必要做進一步的加工整理,第二手數(shù)據(jù),一、數(shù)據(jù)的審核,計算檢查主要用于對數(shù)量數(shù)據(jù)的審核,檢查調(diào)查表中的各項數(shù)據(jù)在計算結(jié)果和計算方法上有無錯誤,,SOMETHINGWRONG,審核數(shù)據(jù)準確性的方法,審核數(shù)據(jù)準確性的方法,邏輯檢查主要用于對品質(zhì)數(shù)據(jù)的審核,從定性角度,審核數(shù)據(jù)是否符合邏輯,內(nèi)容是否合理,各項目或數(shù)字之間有無相互矛盾的現(xiàn)象,他們住在同一區(qū),不,他們住在三個區(qū),二、數(shù)據(jù)的篩選處理數(shù)據(jù)中的錯誤,數(shù)據(jù)錯誤,能,按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù)在某些場合,排序本身就是分析的目的之一排序可借助于計算機完成,三、數(shù)據(jù)的排序發(fā)現(xiàn)數(shù)據(jù)的基本特征,83157246,12345678,一、數(shù)據(jù)的整理,要弄清所面對的數(shù)據(jù)類型,因為不同類型的數(shù)據(jù),所采取的處理方式和方法是不同的對品質(zhì)數(shù)據(jù)主要是做分類整理對數(shù)量數(shù)據(jù)主要是做分組整理適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù),第二節(jié)用圖表法描述品質(zhì)數(shù)據(jù),一、品質(zhì)數(shù)據(jù)的整理,二、品質(zhì)數(shù)據(jù)的展示,品質(zhì)數(shù)據(jù)的整理,確定分類標志,整理過程,數(shù)據(jù)整理中計算的指標,定類數(shù)據(jù),定序數(shù)據(jù),頻數(shù),頻率,累計頻數(shù),累計頻率,落在各類別中數(shù)據(jù)的個數(shù),,,,,將對比的基數(shù)作為100而計算的比值,將各類別的頻數(shù)逐級累加,將各類別的頻率(百分比)逐級累加,實例1定類數(shù)據(jù)的頻數(shù)分布表,【例31】某市移動公司為研究移動數(shù)據(jù)業(yè)務集團客戶的行業(yè)分布狀況,搜集了該城市90個集團客戶的客戶資料。將其所屬行業(yè)分為下列類別1.金融(銀行證券保險)2.政府,工商、稅務3.制造業(yè)4.教育科研5.交通運輸6.批發(fā)零售7.公用事業(yè)8.旅游酒店,實例2定序數(shù)據(jù)的頻數(shù)分布表,【例32】在一項關(guān)于用戶移動業(yè)務支出情況的調(diào)查中,研究人員在某城市抽樣調(diào)查了330名移動用戶,對其中的一個問題“手機話費一個月多少錢”設了七個選項1、100元以內(nèi)2、101-200元3、201-300元4、301-500元5、501600元6、6011200元7、1501元以上,二、數(shù)據(jù)的展示,3TO5YEARS,數(shù)據(jù)類型與圖示,,品質(zhì)數(shù)據(jù)的圖示─條形圖(BARGRAPH),在表示品質(zhì)數(shù)據(jù)的分布時,條形圖是用條形圖的高度或長短來表示各類別數(shù)據(jù)的頻數(shù)或頻率繪制時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖條形圖和柱形圖有單式、復式等形式,3TO5YEARS,用EXCEL制作的條形圖,柱形圖的應用FIXEDREVENUEEVOLUTION,2007年上半年中國移動增值業(yè)務占運營總收入的25.2%,中國電信非話業(yè)務收入占比345%,品質(zhì)數(shù)據(jù)的圖示─圓形圖(PIEGRAPH),圓形圖也稱餅圖,主要用于表示總體中各組成部分所占的比例,對于研究結(jié)構(gòu)性問題十分有用用圓及圓內(nèi)扇形的面積來表示數(shù)值大小的圖形這些扇形的中心角度,是按各部分百分比占3600的相應比例確定的,品質(zhì)數(shù)據(jù)的圖示─環(huán)形圖(DOUGHNUTPIE),環(huán)形圖可用于進行比較研究環(huán)形圖有若干個圓環(huán),總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示環(huán)形圖與圓形圖類似,但又有區(qū)別圓形圖只能顯示一個總體各部分所占的比例環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列,每一個總體的數(shù)據(jù)系列為一個環(huán),第三節(jié)用圖表法描述數(shù)量數(shù)據(jù),一頻數(shù)分布表的編制,二、數(shù)量數(shù)據(jù)的展示,三、頻數(shù)分布的類型,頻數(shù)分布表的編制,頻數(shù)分布表反映數(shù)量數(shù)據(jù)分布特征,417822324529539507617430522725708431425517522533626422518808610618523526633634527323518612712734627423519513520523527435337414520528624415439628724721,編制頻數(shù)分布表的步驟,確定組數(shù),確定組距,計算頻數(shù),編制表格,,,,頻數(shù)分布表的編制(實例),例某移動公司有50名大客戶。他們月使用移動業(yè)務支出見右側(cè)數(shù)據(jù)(單位元)。試編制頻數(shù)分布表。,417822324529539507617430522725708431425517522533626422518808610618523526633634527323518612712734627423519513520523527435337414520528624415439628724721,分組方法,分組方法,單變量值分組(要點),1將一個變量值作為一組2適合于離散變量3適合于變量值較少的情況,單變量值分組表(實例),組距分組(要點),將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況必須遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組,組距分組(步驟),確定組數(shù)組數(shù)的確定應以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的。在實際分組時,可以按STURGES提出的經(jīng)驗公式來確定組數(shù)K,確定各組的組距組距CLASSWIDTH是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即組距=最大值最小值)÷組數(shù),根據(jù)分組整理成頻數(shù)分布表,組距分組(幾個概念),1下限一個組的最小值2上限一個組的最大值3組距上限與下限之差4組中值下限與上限之間的中點值,等距分組表(上下組限重疊),等距分組表(上下組限間斷),等距分組表(使用開口組),等距分組與不等距分組(在表現(xiàn)頻數(shù)分布上的差異),等距分組各組頻數(shù)的分布不受組距大小的影響可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律不等距分組各組頻數(shù)的分布受組距大小不同的影響各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況需要用頻數(shù)密度(頻數(shù)密度=頻數(shù)/組距)反映頻數(shù)分布的實際狀況,數(shù)據(jù)類型與圖示,,分組數(shù)據(jù)直方圖(直方圖的制作),用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布在平面直角坐標中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應的頻數(shù)就形成了一個矩形,即直方圖直方圖下的總面積等于1,分組數(shù)據(jù)直方圖(直方圖的繪制),直觀發(fā)現(xiàn)多數(shù)大客戶月使用移動服務大約在五、六百元,分組數(shù)據(jù)直方圖(直方圖與條形圖的區(qū)別),條形圖是用條形的長度橫置時表示各類別頻數(shù)的多少,其寬度表示類別則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列,分組數(shù)據(jù)折線圖(折線圖的制作),折線圖也稱頻數(shù)多邊形圖FREQUENCYPOLYGON是在直方圖的基礎上,把直方圖頂部的中點組中值用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的,分組數(shù)據(jù)折線圖(折線圖的繪制),月移動業(yè)務支出元,,,,頻數(shù)人,,,,,,15,12,9,6,3,,300,400,,500,,600,,700,,800,,900,,,,,,,,數(shù)據(jù)類型與圖示,,未分組數(shù)據(jù)莖葉圖(莖葉圖的制作),用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉對于N20≤N≤300個數(shù)據(jù),莖葉圖最大行數(shù)不超過L10LOG10N5莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可大體上看出一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息,未分組數(shù)據(jù)莖葉圖(莖葉圖的制作),樹莖,樹葉,,242337,17303125222335141539,29390722172233182326271819132023272028,17261018333412272428,,300,400,500,600,,數(shù)據(jù)個數(shù),3,250812342421,2208,700,800,未分組數(shù)據(jù)箱線圖(箱線圖的制作),用于顯示未分組的原始數(shù)據(jù)或分組數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成其繪制方法是首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)ME和兩個四分位數(shù)下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分(位)數(shù)畫出箱子,再將兩個極值點與箱子相連接,未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖(箱線圖的構(gòu)成),未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖(實例),,最小值323,最大值822,中位數(shù)5245,下四分位數(shù)438,上四分位數(shù)62625,,,,,,,分布的形狀與箱線圖,,圖311不同分布的箱線圖,,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖(實例),【例34】從某大學經(jīng)濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調(diào)查,所得結(jié)果如表38。試繪制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖,圖3128門課程考試成績的箱線圖,圖31311名學生8門課程考試成績的箱線圖,,,,,MINMAX,,2575,,MEDIANVALUE,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,45,55,65,75,85,95,105,,,,,,,,,,,,,,,學生1,學生2,學生3,學生4,學生5,學生6,學生7,學生8,學生9,學生10,學生11,未分組數(shù)據(jù)箱線圖,數(shù)據(jù)類型與圖示,,時間序列數(shù)據(jù)線圖(線圖的制作),?繪制線圖時應注意以下幾點時間一般繪在橫軸,指標數(shù)據(jù)繪在縱軸圖形的長寬比例要適當,其長寬比例大致為107一般情況下,縱軸數(shù)據(jù)下端應從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷,雷達圖(RADARCHART)是顯示多個變量的常用圖示方法在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用假定各變量的取值具有相同的正負號,總的絕對值與圖形所圍成的區(qū)域成正比可用于研究多個樣本之間的相似程度,多變量數(shù)據(jù)雷達圖(要點),?設有N組樣本S1,S2,SN,每個樣本測得P個變量X1,X2,XP,要繪制這P個變量的雷達圖,其具體做法是,多變量數(shù)據(jù)雷達圖(雷達圖的制作),先做一個圓,然后將圓P等分,得到P個點,令這P個點分別對應P個變量,在將這P個點與圓心連線,得到P個幅射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示再將同一樣本的值在P個坐標上的點連線。這樣,N個樣本形成的N個多邊形就是一個雷達圖,,,,,,,,多變量數(shù)據(jù)雷達圖(實例),多變量數(shù)據(jù)雷達圖(由EXCEL繪制的雷達圖),,數(shù)據(jù)類型及圖示(小結(jié)),使用EXCEL用表格法和圖形法描述統(tǒng)計數(shù)據(jù),頻數(shù)分布的類型,頻數(shù)分布的類型,圖317幾種常見的頻數(shù)分布,第四節(jié)統(tǒng)計表,一統(tǒng)計表的構(gòu)成二統(tǒng)計表的設計,統(tǒng)計表的結(jié)構(gòu),,行標題,表頭,列標題,數(shù)字資料,附加,,,,,要合理安排統(tǒng)計表的結(jié)構(gòu)總標題內(nèi)容應滿足3W要求數(shù)據(jù)計量單位相同時,可放在表的右上角標明,不同時應放在每個指標后或單列出一列標明表中的上下兩條橫線一般用粗線,其他線用細線通常情況下,統(tǒng)計表的左右兩邊不封口表中的數(shù)據(jù)一般是右對齊,有小數(shù)點時應以小數(shù)點對齊,而且小數(shù)點的位數(shù)應統(tǒng)一對于沒有數(shù)字的表格單元,一般用“”表示必要時可在表的下方加上注釋,統(tǒng)計表的設計,本章小結(jié),數(shù)據(jù)預處理的內(nèi)容和目的品質(zhì)數(shù)據(jù)整理與顯示方法數(shù)量數(shù)據(jù)整理與顯示方法合理使用統(tǒng)計表用EXCEL作頻數(shù)分布表和圖形,結(jié)束,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數(shù): 72
大?。?1.41(MB)
子文件數(shù):
-
簡介:1,第8章相關(guān)分析和回歸分析,2,相關(guān)分析(掌握)線性回歸分析(掌握)回歸模型的統(tǒng)計檢驗和預測(掌握)非線性回歸模型(了解),主要內(nèi)容和學習目標,3,811相關(guān)關(guān)系的概念和種類8111相關(guān)關(guān)系的概念在社會經(jīng)濟發(fā)展變化中,客觀現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象(變量)之間的數(shù)量依存關(guān)系可分為兩種類型確定性關(guān)系和相關(guān)關(guān)系。相關(guān)關(guān)系是指現(xiàn)象之間客觀存在的非確定性的數(shù)量依存關(guān)系。,81相關(guān)分析,4,如商品的消費量(Y)與居民收入(X)之間的關(guān)系,變量間關(guān)系是不能用函數(shù)關(guān)系精確表達的,一個變量的取值不能由另一個變量唯一確定。當變量X取某個值時,變量Y的取值可能有幾個。,各觀測點分布在直線周圍。,5,8112相關(guān)關(guān)系的種類,按相關(guān)的方向可以分為正相關(guān)和負相關(guān)。按相關(guān)的程度可分為完全相關(guān)、不完全相關(guān)和不相關(guān)。按涉及的變量或因素的個數(shù)可以分為單相關(guān)與復相關(guān)。按相關(guān)的表現(xiàn)形式可分為線性相關(guān)與非線性相關(guān)。,6,曲線相關(guān),,相關(guān)關(guān)系,線性相關(guān),,,,,正相關(guān),負相關(guān),,,,,,單相關(guān),復相關(guān),,,多元線性相關(guān),多元非線性相關(guān),,,,,7,8113相關(guān)圖表,相關(guān)表和相關(guān)圖可直觀地表達變量之間的相關(guān)關(guān)系的程度。相關(guān)表是將具有相關(guān)關(guān)系的原始數(shù)據(jù),按某一順序平行排列在一張表上,以觀察它們之間的相互關(guān)系。,8,表81高校人數(shù)和周邊飯店季營業(yè)額,9,相關(guān)圖也稱為分布圖或散點圖,它是在平面直角坐標中把相關(guān)關(guān)系的原始數(shù)據(jù)用點描繪出來,通常以直角坐標的橫軸代表自變量X,縱軸代表因變量Y。相關(guān)圖所反映的變量之間的相關(guān)關(guān)系的方向和程序比相關(guān)表更為清晰,也更為直觀。,10,圖81學生人數(shù)和季營業(yè)額相關(guān)圖,,11,,,12,8114相關(guān)分析的意義,1、相關(guān)分析可以確定變量之間相關(guān)關(guān)系的方向和程度2、相關(guān)分析可以衡量回歸估計的精確程度,13,812簡單線性相關(guān),8121相關(guān)系數(shù)相關(guān)系數(shù)是描述相關(guān)的兩個變量之間相關(guān)關(guān)系密切程度的數(shù)量指標。早在1890年,英國著名統(tǒng)計學家KARLPEARSON便提出了一個測定兩個變量線性相關(guān)的計算方法,通常稱為積差相關(guān)系數(shù)或簡單相關(guān)系數(shù)。,14,總體相關(guān)系數(shù),,式中,是變量X和Y的協(xié)方差,是變量X的標準差,是變量Y的標準差,樣本相關(guān)系數(shù),,,15,計算學生人數(shù)和季營業(yè)額的相關(guān)系數(shù),,16,8122相關(guān)系數(shù)的性質(zhì),1、2、若,表示變量X與變量Y為線性正相關(guān)關(guān)系;若,表示變量X與變量Y為線性負相關(guān)關(guān)系。3、若,表示兩變量完全線性相關(guān),即變量X與變量Y之間存在確定的函數(shù)關(guān)系。若,表示兩變量完全線性正相關(guān);若,表示兩變量完全線性負相關(guān)。4、若,表示兩變量不存在線性相關(guān)。,,,,,,,,17,5、當時,表示兩變量存在不同程度的線性相關(guān)。的數(shù)值越接近于1,表示兩變量之間線性相關(guān)程度越高;反之的數(shù)值越接近于0,表示兩變量之間線性相關(guān)程度越低。通常認為微弱相關(guān);低度相關(guān)顯著相關(guān);高度相關(guān)6、相關(guān)系數(shù)不受變量值水平和計量單位的影響。,,,,,,,,18,根據(jù)給定的顯著性水平和自由度N2,查找T分布中的相應臨界值。如果,就否定原假設,認為R在統(tǒng)計上是顯著的,即總體相關(guān)系數(shù)不為零,總體變量間存在線性相關(guān)關(guān)系。,8123相關(guān)系數(shù)的顯著性檢驗,提出假設,計算T檢驗統(tǒng)計量,,19,檢驗高校學生人數(shù)與周邊飯店季營業(yè)額之間的相關(guān)系數(shù)是否顯著,顯著性水平?005。第一步提出假設第二步構(gòu)造并計算檢驗統(tǒng)計量,,,20,第三步確定臨界值。根據(jù)給定的顯著性水平?005和自由度1028,查找T分布表或利用EXCEL計算,得到臨界值。第四步?jīng)Q策。由于所以拒絕原假設,說明高校學生人數(shù)與周邊飯店季營業(yè)額之間存在著顯著的正線性相關(guān)關(guān)系。,,,21,821回歸分析回歸分析是根據(jù)已知變量估計未知變量的一種統(tǒng)計方法,它是以對未知變量因變量同其他變量自變量相互關(guān)系的觀察為基礎,在某種精確度下,預測未知變量的數(shù)值。,82線性回歸分析,22,回歸分析的內(nèi)容和步驟,①選擇適當?shù)幕貧w模型。②進行參數(shù)估計。③進行模型的檢驗。④進行預測。即根據(jù)回歸方程進行適當?shù)慕?jīng)濟預測,這是回歸分析的最終目的。,23,8211總體回歸方程與樣本回歸方程,例研究家庭消費支出與家庭收入之間的關(guān)系,一個總體由50戶家庭組成,并按人均月收入水平劃分成組內(nèi)收入水平大致相同的10個組。,24,圖84不同收入水平的家庭消費支出散點分布圖,總體回歸線PRL,隨機試驗所有可能結(jié)果的集合稱為總體或樣本空間,第一節(jié)古典回歸模型,由圖中看出總體回歸直線是線性的,用函數(shù)的形式來表示1這是直線的數(shù)學表達式,在式1中,EY|XI表示給定X值相應的或條件的Y的均值,稱為Y的條件期望或條件均值下標I代表第I個子總體。如,X2時,Y的條件均值為即收入水平為2000元的4個家庭的平均消費支出為1500元。,第一節(jié)古典回歸模型,注意,EY|XI是XI的函數(shù)在此例中是線性函數(shù)。這意味著Y依賴于XI,一般稱之為Y對X的回歸?;貧w可簡單地定義為在給定X值的條件下Y值分布的均值。換句話說,總體回歸直線經(jīng)過Y的條件期望值。式1是總體回歸函數(shù)POPULATIONREGRESSIONFUNCTION,PRF的數(shù)學形式。在本例中,總體回歸函數(shù)是線性函數(shù)。,第一節(jié)古典回歸模型,為參數(shù)PARAMETERS,也稱回歸系數(shù)REGRESSIONCOEFFICIENTS。又稱為截距INTERCEPT,是當X為0時Y的均值又稱為斜率SLOPE,斜率度量了X每變動一單位,Y的均值的變化率。例,如果斜率為05,那么,當收入X每增加1單位(千元),Y的期望均值將增加05個單位(千元);即,平均而言,消費支出將增加05千元。,第一節(jié)古典回歸模型,模型的隨機設定,從圖中可看出單個家庭的消費支出與平均消費支出之間存在著一定的離差,即2其中,表示隨機誤差項STOCHASTIC,RANDOMERRORTERM或簡稱為誤差項。,29,表84從表83的總體中抽取一個隨機樣本,,30,圖85總體回歸線與樣本回歸線,第一節(jié)古典回歸模型,得到一條很好地“擬合”了樣本數(shù)據(jù)的直線,稱之為樣本回歸線SAMPLEREGRESSIONLINES,SRL。可能從K個不同的樣本中得到K條不同的樣本回歸直線,所有的這些樣本回歸線不可能都相同。每一條直線也最多是對真實總體回歸線的近似。,第一節(jié)古典回歸模型,用樣本回歸函數(shù)SAMPLEREGRESSIONFUNCTION,SRF來表示樣本回歸線。3表示總體條件均值,EY|XI的估計量;表示的估計量;表示的估計量;,,,第一節(jié)古典回歸模型,建立隨機的樣本回歸函數(shù)4其中EI為殘差項RESIDUALTERM,或簡稱為殘差RESIDUAL。,,第一節(jié)古典回歸模型,回歸分析的主要目的是根據(jù)樣本回歸函數(shù)來估計總體回歸函數(shù),,35,8212相關(guān)分析與回歸分析的聯(lián)系與區(qū)別,1、相關(guān)分析與回歸分析的聯(lián)系①相關(guān)分析和回歸分析具有共同的研究對象②相關(guān)分析和回歸分析需要相互補充③相關(guān)分析是回歸分析的前提④回歸分析是相關(guān)分析的拓展,36,2、相關(guān)分析與回歸分析的區(qū)別,①變量的地位不同②變量的性質(zhì)不同③研究的目的不同④研究的方法不同⑤所起的作用不同,37,822一元線性回歸模型,8221回歸模型的基本假定回歸模型是描述因變量如何依賴自變量和隨機誤差項的方程。一元線性回歸模型只涉及一個自變量,可表述為,第一節(jié)古典回歸模型,隨機誤差項是服從正態(tài)分布的實隨機變量。零均值假定。即,同方差假定,即對于自變量所有觀察值,隨機誤差項?的方差都相同。非自相關(guān)假定,即與自變量不同觀察值對應的隨機誤差項之間是互不相關(guān)、互不影響的自變量變量與隨機誤差項不相關(guān)假定。無多重共線性假定。,回歸模型的基本假定,第二節(jié)回歸模型的參數(shù)的估計,8222最小二乘估計OLS,殘差是YI的真實值與估計值之差,即普通最小二乘法ORDINARYLEASTSQUARES,OLS,即選擇參數(shù)和,使得全部觀察值的殘差平方和最小。用數(shù)學形式表示為最小二乘原理就是所選樣本回歸函數(shù)使得所有Y的估計值與真實值差的平方和最小。,第二節(jié)回歸模型的參數(shù)的估計,求解聯(lián)立方程解得,41,參數(shù)估計誤差和置信區(qū)間,1、估計誤差估計值和真值的偏差。的估計誤差為的估計誤差為,42,2、置信區(qū)間,對于給定的置信度1?,參數(shù)的置信區(qū)間為即以1001?的概率回歸系數(shù)屬于該區(qū)間內(nèi)。同理,參數(shù)的置信區(qū)間為,43,823多元線性回歸模型,8231多元線性回歸模型的參數(shù)估計利用最小二乘法估計模型的參數(shù),44,參數(shù)估計值應該是下列方程組的解,45,定義矩陣方程組可以用矩陣表示成參數(shù)的最小二乘估計為,46,8232參數(shù)的估計誤差和置信區(qū)間,參數(shù)估計值的標準差為為矩陣對角線上的第I個元素對于給定的置信度1?,參數(shù)的1001?置信區(qū)間為,47,8233多元回歸模型中的相關(guān)分析,多元回歸分析中,由于變量總數(shù)不止兩個,因變量與多個自變量的組合產(chǎn)生一定的依存關(guān)系;同時任何兩個變量之間的相關(guān)關(guān)系都可能受到其余變量的影響。為此需要對已建立的多元回歸模型進行相關(guān)分析,包括復相關(guān)和偏相關(guān)。,48,1、復相關(guān),在多變量情況下,復相關(guān)系數(shù)是用來測定因變量與一組自變量之間相關(guān)程度的指標。其計算公式為,,,,復相關(guān)系數(shù)的值域在0到1之間,它的值為1,表明與之間存在嚴密的線性關(guān)系;它的值為0,則表明與之間不存在任何線性相關(guān)關(guān)系;它的取值在0和1之間時,表明變量之間存在一定的線性相關(guān)關(guān)系。,49,2、偏相關(guān),在多變量情況下,偏相關(guān)系數(shù)是用來測定當其他變量保持不變的情況下,任意兩個變量之間相關(guān)程度的指標。它主要考察兩個變量之間的凈相關(guān)關(guān)系,從而反映現(xiàn)象之間的真實聯(lián)系。以兩個自變量的情形為例,,,X1和Y偏相關(guān)系數(shù),,X2和Y偏相關(guān)系數(shù),50,回歸分析是要通過樣本所估計的參數(shù)來代替總體的真實參數(shù)。在一次抽樣中,參數(shù)的估計值與真值的差異有多大,是否顯著,這就需要進一步進行統(tǒng)計檢驗。主要包括擬合優(yōu)度檢驗、模型的顯著性檢驗和變量的顯著性檢驗,以及預測。,83回歸模型的統(tǒng)計檢驗和預測,51,831擬合優(yōu)度檢驗,擬合優(yōu)度檢驗對樣本回歸直線與樣本觀測值之間擬合程度的檢驗。度量擬合優(yōu)度的指標判定系數(shù)(可決系數(shù))R2,問題采用普通最小二乘估計方法,已經(jīng)保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度,52,如果YI?I即實際觀測值落在樣本回歸“線”上,則擬合最好。可認為,“離差”全部來自回歸線,而與“殘差”無關(guān)。,53,對于所有樣本點,則需考慮這些點與樣本均值離差的平方和,可以證明,,記,總體平方和,回歸平方和,殘差平方和,54,TSSRSSESS,Y的觀測值圍繞其均值的總離差TOTALVARIATION可分解為兩部分一部分來自回歸線RSS,另一部分則來自隨機勢力ESS。,在給定樣本中,TSS不變,如果實際觀測點離樣本回歸線越近,則RSS在TSS中占的比重越大,因此擬合優(yōu)度回歸平方和RSS/Y的總離差TSS,55,可決系數(shù)R2統(tǒng)計量,稱R2為(樣本)可決系數(shù)或判定系數(shù),可決系數(shù)的取值范圍0,1R2越接近1,說明實際觀測點離樣本線越近,擬合優(yōu)度越高。,56,832模型的顯著性檢驗,模型的顯著性檢驗,就是檢驗模型對總體的近似程度,即檢驗因變量Y和模型中所以自變量的線性關(guān)系是否顯著。通常構(gòu)造F統(tǒng)計量進行檢驗,稱為F檢驗。對多元線性回歸模型,57,基本步驟如下,1、提出假設,2、計算檢驗統(tǒng)計量,3、對給定的顯著水平?確定臨界值,4、得出檢驗結(jié)論,如果,則否定原假設,表明回歸模型是顯著的;反之,就不能否定原假設。,58,833解釋變量的顯著性檢驗,變量的顯著性檢驗是判斷解釋變量X是否對被解釋變量Y具有顯著的線性性影響,主要是針對變量的參數(shù)真值是否為零來進行顯著性檢驗的。多元線性回歸模型,檢驗某個自變量X對Y是否有顯著影響,進行解釋變量的顯著性檢驗。,59,檢驗步驟,1、對總體參數(shù)提出假設,4、比較,判斷若|T|T?/2NK1,則拒絕H0,接受H1;若|T|?T?/2NK1,則拒絕H1,接受H0;,2、構(gòu)造檢驗統(tǒng)計量,3、對給定的顯著水平?確定臨界值T?/2NK1,60,注意,在一元線性回歸分析中,回歸系數(shù)的顯著性檢驗與回歸模型的顯著性檢驗是等價的,因此T檢驗和F檢驗的結(jié)論是一致的。但在多元回歸分析中,它們是不等價的,T檢驗只檢驗方程中各個系數(shù)的顯著性,而F檢驗則檢驗的是整個方程的顯著性。,61,一點預測對于一元線性回歸模型,給定樣本以外的解釋變量的觀測值XF,可以得到被解釋變量的預測值?F,可以此作為其條件均值EY|XXF或個別值YF的一個近似估計。,注意嚴格地說,這只是被解釋變量的預測值的估計值,而不是預測值。原因(1)參數(shù)估計量不確定;(2)隨機項的影響,834預測,62,(二)區(qū)間預測1、Y的期望值的置信區(qū)間估計在1?的置信水平下的置信區(qū)間可表示為(一元模型)(多元模型),63,2、Y的個別值的預測區(qū)間估計真實值的置信水平為1?的預測區(qū)間為,64,1適配曲線問題選配曲線通常可以分為下列兩個步驟確定變量間的依存關(guān)系,根據(jù)實際資料做散點圖,按照圖形的分布形狀選擇合適的模型。確定回歸模型中的未知參數(shù)。2常見的函數(shù)雙曲線、冪函數(shù)、二次曲線和對數(shù)函數(shù)等,84非線性回歸,65,ENDOFCHAPTER8,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數(shù): 65
大?。?1.38(MB)
子文件數(shù):
-
簡介:1,第9章時間序列分析,2,主要內(nèi)容和學習目標,時間序列的編制(掌握)時間序列的構(gòu)成分析(掌握)長期趨勢分析(掌握)季節(jié)變動和循環(huán)變動分析(掌握)時間序列的對比分析(掌握)時間序列的預測方法(掌握),3,911時間序列的基本概念和意義時間序列是社會經(jīng)濟指標按時間順序排列而成的一種數(shù)列。它反映社會經(jīng)濟現(xiàn)象發(fā)展變化的過程和特點,是研究現(xiàn)象發(fā)展變化趨勢、規(guī)律和對未來狀態(tài)進行預測的重要依據(jù)。時間序列的兩個基本要素統(tǒng)計指標所屬的時間要素計指標在特定時間的觀察值要素,91時間序列的編制,4,912時間序列的種類,1、絕對數(shù)時間序列時期序列如表91國內(nèi)生產(chǎn)總值時點序列如表91年底人口數(shù)2、相對數(shù)時間序列如表91人均國內(nèi)生產(chǎn)總值3、平均數(shù)時間序列如表91職工平均工資,5,913時間序列編制原則,時期長短應該相等總體范圍應該一致計量方式應該一致經(jīng)濟內(nèi)涵應該一致,6,921時間序列的構(gòu)成要素1、長期趨勢因素(T)反映了經(jīng)濟現(xiàn)象在一個較長時間內(nèi)的發(fā)展方向,可以在一個相當長的時間內(nèi)表現(xiàn)為一種近似直線的持續(xù)向上或持續(xù)向下或平穩(wěn)的趨勢;在某種情況下,它也可以表現(xiàn)為某種類似指數(shù)或者其他曲線的形式。經(jīng)濟現(xiàn)象的長期趨勢一旦形成,總能延續(xù)一段相當長的時期。,92時間序列的構(gòu)成與分解,7,2、季節(jié)變動因素(S)是經(jīng)濟現(xiàn)象受季節(jié)變動影響所形成的一種長度和幅度固定的周期波動。季節(jié)變動因素既包括受自然季節(jié)影響所形成的波動,也包括受工作時間規(guī)律如每周5天工作制度所形成的波動。,8,3、循環(huán)變動因素(C)也稱周期變動因素,它是受各種經(jīng)濟因素影響形成的上下起伏不定的波動。季節(jié)變動和循環(huán)變動的區(qū)別在于季節(jié)變動的波動長度固定,而循環(huán)變動的長度則一般是不一樣的。循環(huán)變動的周期至少在一年以上。,9,4、不規(guī)則變動(I)又稱隨機變動,它是受各種偶然或突發(fā)性的因素影響所形成的不規(guī)則變動。,10,922時間序列的分解模型,可以認為時間序列是Y是這四個因素的函數(shù),時間序列分解的方法有很多,較常用的模型有加法模型和乘法模型。加法模型為乘法模型為,,,,11,931時距擴大法932移動平均法933最小平方法,93長期趨勢分析,12,931時距擴大法,時距擴大法是將原來時間長度較短的時間序列的時期擴大,將幾個時期的資料加以合并,求出時間長度較長的新的時間序列,以便消除較短時期的偶然因素、季節(jié)因素影響所引起的波動,反映社會經(jīng)濟現(xiàn)象發(fā)展的總趨勢。如將表92企業(yè)各月總產(chǎn)值數(shù)據(jù)合并為季度資料,見表93。,13,注意,①只能用于時期數(shù)列②擴大后的各個時期的時距應該相等,這樣才能相互比較,看出現(xiàn)象的變動趨勢③時距的大小要始終,14,932移動平均法,移動平均法是將時間數(shù)列的時距擴大,將時間序列的各項數(shù)值從第一項數(shù)值開始,依次逐項移動,重疊求其規(guī)定期數(shù)的系列序時平均數(shù),從而形成一個由序時平均數(shù)構(gòu)成的新的派生數(shù)列,以清除原時間序列中的不規(guī)則變動,反映現(xiàn)象發(fā)展趨勢。,15,移動平均法的具體步驟,第一步,選擇一定的用于平均的時距項數(shù)K;第二步,對原序列計算K項移動平均數(shù),其計算公式為第三步,若K為奇數(shù),則K項移動平均數(shù)即為長期趨勢值;若K為偶數(shù),則將K項移動平均數(shù)再做一次2項移動平均即可得到長期趨勢值。例,表94居民消費價格指數(shù),,16,圖92消費價格指數(shù)移動平均趨勢,,17,注意,①移動平均后的趨勢值應放在各移動項的中間位置上。②移動平均后的數(shù)列,比原數(shù)列項數(shù)要少。移動平均項數(shù)與趨勢值的項數(shù)關(guān)系為趨勢值項數(shù)原數(shù)列項數(shù)移動平均項數(shù)1③移動平均法所取項數(shù)的多少,應視資料的特點而定。,18,933最小平方法,最小平方法也稱為最小二乘法,它是通過一定的數(shù)學模型,對原有的時間序列配合一條適當?shù)内厔菥€來進行修勻,使實際值(Y)與趨勢線上相對應的估計值()的誤差平方和最小。用公式表示如下,,,19,9331線性趨勢,線性趨勢是指現(xiàn)象隨著時間的推移而呈現(xiàn)出穩(wěn)定增長或下降的線性變化規(guī)律,表現(xiàn)為時間序列的折線圖大致呈直線形狀,或時間序列各期的逐期增長量大致相同。例,表95,20,圖93人口數(shù)的線性趨勢,,21,9332非線性趨勢,社會經(jīng)濟現(xiàn)象發(fā)展變化的長期趨勢,除表現(xiàn)為持續(xù)上升或下降的直線外,還表現(xiàn)為多種曲線,需要用適當?shù)那€方程來配合。常用的曲線方程有指數(shù)曲線、二次拋物線,三次曲線等等。,22,1、二次拋物線,如果社會經(jīng)濟現(xiàn)象逐期增長量的增長(即二級增長)大體相同,則可考慮用二次拋物線來擬合這一發(fā)展趨勢。拋物線的一般方程為例,表96,,23,圖94能源總量的二次曲線趨勢,,24,2、指數(shù)曲線,指數(shù)曲線用于描述幾何級數(shù)遞增或遞減的現(xiàn)象。當社會經(jīng)濟現(xiàn)象各期的發(fā)展速度接近相等,或者說各期的環(huán)比增長速度大致相同時,表明現(xiàn)象的發(fā)展呈現(xiàn)指數(shù)曲線型趨勢。指數(shù)曲線方程為A,B為待定參數(shù)。若B1,表示增長率隨T的增加而增加;若B0,B0,A和B為待定參數(shù)。(3)修正的指數(shù)曲線模型0C1(4)龔珀茲曲線模型,51,962移動平均預測,9621簡單移動平均預測預測公式其中為T1時期的預測值;,,,為以前連續(xù)K個時期的實際值;K為預測依據(jù)的時期數(shù)。,52,9622加權(quán)移動平均預測,預測公式其中(I1,,K)為各期的權(quán)數(shù),例,表918某股票價格的移動平均值,53,963指數(shù)平滑預測,指數(shù)平滑預測原理任一期的指數(shù)平滑值都是本期實際觀察值與前一期指數(shù)平滑值的加權(quán)平均。公式其中,ST1和ST分別表示T1期和T期的指數(shù)平滑值;YT為第T期的實際觀察值;?稱為平滑系數(shù),且0?1。,54,9632指數(shù)平滑預測公式,一次指數(shù)平滑預測公式其中,為T1期的預測值,即T1期的平滑值ST1;YT是T期的實際值;是T期的預測值,即T期的平滑值。二次指數(shù)平滑預測公式式中表示一次指數(shù)平滑值,和表示二次指數(shù)平滑值。,55,964預測誤差,以YT表示T期的實際值,表示T期的預測值,N表示預測值個數(shù)常用衡量預測誤差的指標(1)平均絕對誤差(2)平均相對誤差,56,(3)均方誤差(4)均方根誤差(5)估計標準誤差,57,ENDOFCHAPTER9,
下載積分: 6 賞幣
上傳時間:2024-01-06
頁數(shù): 57
大?。?1.36(MB)
子文件數(shù):
-
簡介:41集中趨勢的度量42離散程度的度量43偏態(tài)與峰態(tài)的度量,第4章數(shù)據(jù)分布特征的度量,學習目標,集中趨勢各測度值的計算方法集中趨勢各測度值的特點及應用場合離散程度各測度值的計算方法離散程度各測度值的特點及應用場合偏態(tài)與峰態(tài)的測度方法用EXCEL計算描述統(tǒng)計量并進行分析,,數(shù)據(jù)分布的特征,41集中趨勢的度量,411眾數(shù)412中位數(shù)和分位數(shù)413平均數(shù)414眾數(shù)、中位數(shù)和平均數(shù)的比較,集中趨勢,一組數(shù)據(jù)向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢測度值低層次數(shù)據(jù)的測度值適用于高層次的測量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù),眾數(shù)MODE,一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù),眾數(shù)不惟一性,無眾數(shù)原始數(shù)據(jù)10591268,一個眾數(shù)原始數(shù)據(jù)659855,多于一個眾數(shù)原始數(shù)據(jù)252828364242,分類數(shù)據(jù)的眾數(shù)例題分析,解這里的變量為“飲料品牌”,這是個分類變量,不同類型的飲料就是變量值所調(diào)查的100人中,購買可口可樂的人數(shù)最多,為35人,占被調(diào)查總?cè)藬?shù)的35,因此眾數(shù)為“可口可樂”這一品牌,即MO=可口可樂,順序數(shù)據(jù)的眾數(shù)例題分析,解這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別”甲城市中對住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即MO=不滿意,1由眾數(shù)的定義可知,在單項數(shù)列的情形求眾數(shù),只需通過觀察,找出頻數(shù)最多的變量值,則該變量值即為眾數(shù)。2在組距數(shù)列的條件下,則要先確定眾數(shù)所在組,然后按下面的近似公式計算。,數(shù)值型數(shù)據(jù)的眾數(shù),,數(shù)值型數(shù)據(jù)的眾數(shù)例題分析,,解①確定眾數(shù)組。由于12001400組頻數(shù)最多,故該組即為眾數(shù)組。②根據(jù)近似公式計算眾數(shù)值。,,中位數(shù)MEDIAN,按大小排序后處于中間位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的離差絕對值之和最小,即,中位數(shù)位置和數(shù)值的確定,位置確定,數(shù)值確定,順序數(shù)據(jù)的中位數(shù)例題分析,解中位數(shù)的位置為3001/2=1505從累計頻數(shù)看,中位數(shù)在“一般”這一組別中中位數(shù)為ME一般,數(shù)值型數(shù)據(jù)的中位數(shù)9個數(shù)據(jù)的算例,【例】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù)15007507801080850960200012501630排序75078085096010801250150016302000位置123456789,中位數(shù)?1080,?,數(shù)值型數(shù)據(jù)的中位數(shù)10個數(shù)據(jù)的算例,【例】10個家庭的人均月收入數(shù)據(jù)排序66075078085096010801250150016302000位置12345678910,?,數(shù)值型數(shù)據(jù)的中位數(shù)分組數(shù)據(jù)的算例,身高(CM),人數(shù)(人),,解①確定中位數(shù)位次②確定中位數(shù)組按人數(shù)向上累積(或向下累積)知,中位數(shù)在第三組。③確定中位數(shù)中位數(shù)組只有唯一的變量值170CM,故它就是所求的中位數(shù)。,,數(shù)值型數(shù)據(jù)的中位數(shù)組距數(shù)列,在組距數(shù)列的情況下,確定中位數(shù)組后,由于這時中位數(shù)組是一區(qū)間,可用下面的近似公式計算中位數(shù),,數(shù)值型數(shù)據(jù)的中位數(shù)分組數(shù)據(jù)的算例,,①確定中位數(shù)位次。②確定中位數(shù)組。從向上累積欄中,找出首個大于等于中位數(shù)位次60的組,該組即為中位數(shù)組,因此中位數(shù)組為12001400元。③按近似公式計算中位數(shù)值。,,,四分位數(shù)QUARTILE,排序后處于25和75位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù),四分位數(shù)位置的確定及計算,,的位次,,,的位次,,第I個四分位數(shù)可按如下近似公式計算,,,順序數(shù)據(jù)的四分位數(shù)例題分析,解Q1位置300/475Q3位置3300/4225從累計頻數(shù)看,Q1在“不滿意”這一組別中;Q3在“一般”這一組別中四分位數(shù)為Q1不滿意Q3一般,數(shù)值型數(shù)據(jù)的四分位數(shù)9個數(shù)據(jù)的算例,【例】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù)15007507801080850960200012501630排序75078085096010801250150016302000位置123456789,?,?,數(shù)值型數(shù)據(jù)平均數(shù)(簡單平均數(shù)),設一組數(shù)據(jù)為X1,X2,,XN總體數(shù)據(jù)XN,樣本平均數(shù),總體平均數(shù),設各組的組中值為X1,X2,,XK相應的頻數(shù)為F1,F(xiàn)2,,F(xiàn)K,樣本加權(quán)平均,總體加權(quán)平均,數(shù)值型數(shù)據(jù)平均數(shù)(加權(quán)平均數(shù)),加權(quán)平均數(shù)例題分析,?,加權(quán)平均數(shù)權(quán)數(shù)對均值的影響,甲乙兩組各有10名學生,考試成績及其分布數(shù)據(jù)如下甲組考試成績(X)020100人數(shù)分布(F)118乙組考試成績(X)020100人數(shù)分布(F)811,平均數(shù)數(shù)學性質(zhì),1各變量值與平均數(shù)的離差之和等于零,2各變量值與平均數(shù)的離差平方和最小,,中位數(shù)和平均數(shù)數(shù)學性質(zhì)的驗證,幾何平均數(shù)GEOMETRICMEAN,N個變量值乘積的N次方根適用于對比率數(shù)據(jù)的平均主要用于計算平均增長率計算公式為,5可看作是平均數(shù)的一種變形,幾何平均數(shù)例題分析,【例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬噸,2000年與1999年相比增長率為9,2001年與2000年相比增長率為16,2002年與2001年相比增長率為20。求各年的年平均增長率,年平均增長率=1149111491,幾何平均數(shù)例題分析,【例】一位投資者購持有一種股票,在2000、2001、2002和2003年收益率分別為45、21、255、19。計算該投資者在這四年內(nèi)的平均收益率,算術(shù)平均,幾何平均,,眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系,,眾數(shù)、中位數(shù)、平均數(shù)的特點和應用,眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時應用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應用平均數(shù)易受極端值影響數(shù)學性質(zhì)優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應用,,數(shù)據(jù)類型與集中趨勢測度值,42離散程度的度量,421分類數(shù)據(jù)異眾比率422順序數(shù)據(jù)四分位差423數(shù)值型數(shù)據(jù)方差和標準差424相對離散程度離散系數(shù),離中趨勢,數(shù)據(jù)分布的另一個重要特征反映各變量值遠離其中心值的程度離散程度從另一個側(cè)面說明了集中趨勢測度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測度值,異眾比率,1對分類數(shù)據(jù)離散程度的測度2非眾數(shù)組的頻數(shù)占總頻數(shù)的比例3計算公式為,,4用于衡量眾數(shù)的代表性,,異眾比率例題分析,解在所調(diào)查的50人當中,購買其他品牌飲料的人數(shù)占70,異眾比率比較大。因此,用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好,四分位差QUARTILEDEVIATION,對順序數(shù)據(jù)離散程度的測度也稱為內(nèi)距或四分間距上四分位數(shù)與下四分位數(shù)之差QDQ3–Q1反映了中間50數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性,四分位差例題分析,解設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5。已知Q1不滿意2Q3一般3四分位差為QDQ3Q13–21,極差RANGE,一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布,RMAXXIMINXI,計算公式為,平均差MEANDEVIATION,各變量值與其平均數(shù)離差絕對值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學性質(zhì)較差,實際中應用較少,計算公式為,未分組數(shù)據(jù),組距分組數(shù)據(jù),,平均差例題分析,方差和標準差VARIANCEANDSTANDARDDEVIATION,數(shù)據(jù)離散程度的最常用測度值反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差,記為?2?;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差,記為S2S,樣本方差和標準差SIMPLEVARIANCEANDSTANDARDDEVIATION,未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組據(jù)數(shù),方差的計算公式,標準差的計算公式,,,注意樣本方差用自由度N1去除,自由度DEGREEOFFREEDOM,自由度是指附加給獨立的觀測值的約束或限制的個數(shù)從字面涵義來看,自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)當樣本數(shù)據(jù)的個數(shù)為N時,若樣本平均數(shù)確定后,則附加給N個觀測值的約束個數(shù)就是1個,因此只有N1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值按著這一邏輯,如果對N個觀測值附加的約束個數(shù)為K個,自由度則為NK,自由度DEGREEOFFREEDOM,樣本有3個數(shù)值,即X12,X24,X39,則?X5。當?X5確定后,X1,X2和X3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如X16,X27,那么X3則必然取2,而不能取其他值為什么樣本方差的自由度是N1呢因為在計算離差平方和時,必須先求出樣本均值?X,而?X則是附加給離差平方和的一個約束,因此,計算離差平方和時只有N1個獨立的觀測值,而不是N個樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差S2去估計總體方差Σ2時,它是Σ2的無偏估計量,,樣本標準差例題分析,總體方差和標準差POPULATIONVARIANCEANDSTANDARDDEVIATION,未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組數(shù)據(jù),方差的計算公式,標準差的計算公式,,數(shù)據(jù)分布數(shù)量的估計(經(jīng)驗法則),?經(jīng)驗法則表明當一組數(shù)據(jù)對稱分布時約有68的數(shù)據(jù)在平均數(shù)加減1個標準差的范圍之內(nèi)約有95的數(shù)據(jù)在平均數(shù)加減2個標準差的范圍之內(nèi)約有99的數(shù)據(jù)在平均數(shù)加減3個標準差的范圍之內(nèi),切比雪夫不等式CHEBYSHEV’SINEQUALITY,如果一組數(shù)據(jù)不是對稱分布,經(jīng)驗法則就不再適用,這時可使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有11/K2的數(shù)據(jù)落在K個標準差之內(nèi)。其中K是大于1的任意值,但不一定是整數(shù),切比雪夫不等式CHEBYSHEV’SINEQUALITY,?對于K2,3,4,該不等式的含義是至少有75的數(shù)據(jù)落在平均數(shù)加減2個標準差的范圍之內(nèi)至少有89的數(shù)據(jù)落在平均數(shù)加減3個標準差的范圍之內(nèi)至少有94的數(shù)據(jù)落在平均數(shù)加減4個標準差的范圍之內(nèi),離散系數(shù)COEFFICIENTOFVARIATION,1標準差與其相應的均值之比2對數(shù)據(jù)相對離散程度的測度3消除了數(shù)據(jù)水平高低和計量單位的影響4用于對不同組別數(shù)據(jù)離散程度的比較5計算公式為,離散系數(shù)例題分析,【例】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤的離散程度,離散系數(shù)例題分析,,結(jié)論計算結(jié)果表明,V10為右偏分布5偏態(tài)系數(shù)0為左偏分布6偏態(tài)系數(shù)大于1或小于1,被稱為高度偏態(tài)分布;偏態(tài)系數(shù)在05~1或05~1之間,被認為是中等偏態(tài)分布;偏態(tài)系數(shù)越接近0,偏斜程度就越低,峰度系數(shù)COEFFICIENTOFSKEWNESS,2峰度的判別按上面公式計算出來的峰度指標,可以用來判定分布的形態(tài)特征。其判別標準為,1峰度系數(shù)的計算公式,,,,峰態(tài)KURTOSIS,統(tǒng)計學家PEARSON于1905年首次提出數(shù)據(jù)分布扁平程度的測度峰態(tài)系數(shù)0扁平峰度適中峰態(tài)系數(shù)0為尖峰分布,偏態(tài)系數(shù)和峰態(tài)系數(shù)例題分析,,,,偏態(tài)系數(shù)和峰態(tài)系數(shù)例題分析,,,,,,,,,,,因,數(shù)值不是很大,說明分布略為右偏;,數(shù)值很小,說明比具有同方差的正態(tài)分布略為平坦。,用EXCEL計算描述統(tǒng)計量,MODE計算眾數(shù)MEDIAN計算中位數(shù)QUARTILE計算四分位數(shù)AVERAGE計算平均數(shù)HARMEAN計算簡單調(diào)和平均數(shù)GEOMEAN計算幾何平均數(shù)AVEDEV計算平均差STDEV計算樣本標準差STDEVP計算總體標準差SKEW計算偏態(tài)系數(shù)KURT計算峰態(tài)系數(shù)TRIMMEAN計算切尾均值,數(shù)據(jù)分布特征和描述統(tǒng)計量,本章小結(jié),1數(shù)據(jù)水平的概括性度量2數(shù)據(jù)離散程度的概括性度量數(shù)據(jù)分布形狀的度量用EXCEL計算描述統(tǒng)計量,ENDOFCHAPTER4,
下載積分: 6 賞幣
上傳時間:2024-01-06
頁數(shù): 71
大?。?1.47(MB)
子文件數(shù):
-
簡介:第14章描述性統(tǒng)計,概念1、總體,個體,樣本2、隨機抽樣;簡單隨機抽樣;系統(tǒng)抽樣;分層抽樣;整群抽樣3、組距,組限,組數(shù),組中值4、眾數(shù);中位數(shù);平均數(shù)全距;標準差,方差;變異系數(shù),第5章概率和概率分布,一、隨機事件1、事件的概率1)基本性質(zhì)2)加法運算PA∪BPAPBPAB3)乘法運算PABPAPB|APBPA|B4)獨立性PABPAPB)5)全概率公式;貝葉斯公式的運用,第5章概率和概率分布,二、隨機變量及其概率1、二項分布BN,P應用;近似分布2、正態(tài)分布NΜ,Σ2計算概率;3、期望EX和方差DX性質(zhì);計算,第6章參數(shù)估計(區(qū)間估計),第8章方差分析,1、方差分析的原假設H0?1??2???R2、SST,SSB,SSE的相關(guān)公式SSTSSBSSEMSBSSB/R1MSESSE/KR3、F分布,練習題,填空題1、在統(tǒng)計學中,總體是_________________,個體是_______________,樣本是_________________2、調(diào)查某大學2000名學生學習情況,則總體是____________,個體是____________。3、某銀行想知道平均每戶活期存款余額并估計其總量,根據(jù)存折賬號的順序,每50本存折抽出一本登記其余額。這樣的抽樣組織形式稱為__________。,練習題,4、六個工人的日產(chǎn)量分別為32、20、23、29、26、30,這六個工人日產(chǎn)量的中位數(shù)是_______。5、在分組數(shù)據(jù)中,組中值是______________。6、眾數(shù)是被研究總體中______________。7、若兩數(shù)列平均水平不同,在比較兩數(shù)列離散程度時,應采用___________指標。,練習題,8、變異指標中最容易受極端值影響的是_______(極差,平均差,標準差)。9、A、B為隨機事件,PA05,PB06,PB|A08,則PA∪B____________。10、某射手對目標獨立射擊四次,此射手的命中率06,則至少命中一次的概率為_________。,練習題,11、設隨機變量X的分布列為則P_______,EX_______。12、設隨機變量X的概率密度為且PXΑ0784,則Α_______。,練習題,13、設隨機變量XN1,4,已知Φ0506915,Φ1509332,則P|X|ΛΑ,則PTΛ_______。,練習題,17、隨機變量XNΜ,4,則18、X1,X2,,XN是來自NΜ,Σ2的簡單隨機樣本,則19、X1,X2,,X20是來自NΜ,Σ2的簡單隨機樣本,分別為樣本均值和方差,則,練習題,20、X1,X2,,XN是來自NΜ,Σ2的簡單隨機樣本,要檢驗HOΣ2Σ2O,則采用的統(tǒng)計量是_______。,練習題,計算題1、某廠有A,B,C,D四個車間進行生產(chǎn),日產(chǎn)量分別占30,27,25,18已知四個車間的次品率分別為01,005,02和015現(xiàn)任意抽取一件產(chǎn)品問1)抽到的是次品的概率是多少2)這件次品是A車間生產(chǎn)的概率為多少,練習題,2、設有甲乙丙三個箱子。甲箱內(nèi)有A1個白球和B1個黑球,乙箱內(nèi)有A2個白球和B2個黑球,丙箱內(nèi)有A3個白球和B3個黑球。現(xiàn)任取一箱,由箱中任取一球,問1)取到的是白球的概率;2)取到的白球?qū)儆诩紫涞母怕省?練習題,3、已知某種燈泡的使用壽命服從標準差2477的正態(tài)分布?,F(xiàn)抽取16只該種燈泡,測得其壽命平均值為1490小時。試在95的水平下建立平均使用壽命的置信區(qū)間。,練習題,4、某居民小區(qū)為研究住戶從家里到單位的距離,抽取了16人組成的樣本,得到他們到單位的距離KM3148691211751015916132假定總體服從正態(tài)分布,求居民從家里到單位平均距離的95置信區(qū)間。,練習題,5、一種元件,要求其使用壽命不得低于700小時。現(xiàn)從一批元件中隨機抽取36件,測得平均壽命680小時。已知該元件壽命服從正態(tài)分布,標準差60小時。試在顯著性水平005下確定這批元件是否合格。,練習題,6、糖廠用打包機自動打包,每包標準重量是100千克。每天開工后需檢驗打包機工作是否正常。某日開工后測得9包樣本重量KG如下9939871005101298399799510211005已知每包重量服從正態(tài)分布,試檢驗該日打包機工作是否正常。Α005,練習題,7、一家牛奶公司有4臺機器裝填牛奶,牛奶每桶裝容量為4L?,F(xiàn)有4臺機器裝的牛奶19桶,檢測得樣本相關(guān)如下表所示。試檢驗4臺機器的裝填量是否相同Α001。,練習題,8、某家電制造公司準備購進一批5號電池。現(xiàn)有A,B,C三家企業(yè)愿意供貨。為比較電池質(zhì)量,從每家企業(yè)各隨機抽取5只電池檢測其使用壽命。現(xiàn)分析樣本數(shù)據(jù)得到如下結(jié)果,問3個企業(yè)的電池質(zhì)量有無顯著差異Α005。,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數(shù): 20
大?。?0.56(MB)
子文件數(shù):
-
簡介:1,緒論,統(tǒng)計學與教育統(tǒng)計學統(tǒng)計學的研究內(nèi)容統(tǒng)計學的作用統(tǒng)計學研究問題的方法幾個基本概念,2,統(tǒng)計學與教育統(tǒng)計學,統(tǒng)計學統(tǒng)計學是研究關(guān)于如何搜集數(shù)據(jù),如何分析數(shù)據(jù),以便做出正確地認識結(jié)論的方法論科學。它的研究對象是客觀事物的數(shù)量方面(而非數(shù)據(jù)本身)。教育統(tǒng)計學教育統(tǒng)計學是運用數(shù)理統(tǒng)計的原理與方法研究教育問題的一門科學。它是專門研究如何運用統(tǒng)計學的原理和方法搜集、整理、分析教育科學研究中獲得的隨機性數(shù)據(jù)資料,據(jù)此傳遞的信息進行科學推論,從而揭示蘊含在心理與教育現(xiàn)象中的客觀規(guī)律的一門科學。,3,統(tǒng)計學的研究內(nèi)容,描述統(tǒng)計對已獲得的數(shù)據(jù)進行整理、概括,顯現(xiàn)其分布特征的統(tǒng)計方法。推斷統(tǒng)計根據(jù)樣本提供的信息,運用概率的理論進行分析論證,在一定可靠程度上對總體分布特征進行估計、推斷的統(tǒng)計方法。實驗設計為揭示實驗中自變量與因變量之間的關(guān)系,在實驗之前所制定的實驗計劃。,4,統(tǒng)計學的作用,有助于有效地認識教育與心理現(xiàn)象有助于更好地揭示教育與心理現(xiàn)象的規(guī)律有助于科學的預測教育與心理現(xiàn)象的發(fā)展趨勢,5,統(tǒng)計學研究問題的方法,大量觀察法對研究對象的全部或足夠數(shù)量的對象進行研究,以顯示研究對象一般特征和規(guī)律。圖表法借助幾何圖形或表格來表現(xiàn)已整理好的統(tǒng)計數(shù)量資料,以顯示教育現(xiàn)象的發(fā)展趨勢和特點。統(tǒng)計分組法把大量統(tǒng)計資料按一定標志劃分為性質(zhì)相同的若干部分。統(tǒng)計指標法在分組的基礎上對已整理過的統(tǒng)計資料用特征量數(shù)進行描述,綜合反映統(tǒng)計資料的一般情況。統(tǒng)計檢驗法將統(tǒng)計數(shù)據(jù)用數(shù)理統(tǒng)計方法予以處理,常用的檢驗方法有Z、T、、F檢驗。,,,6,幾個基本概念,總體與個體具有某種共同屬性的研究對象的全部稱為總體,構(gòu)成總體的每一個研究單位稱為個體。抽樣與樣本按照一定的規(guī)則,從總體中抽取一部分個體的過程叫抽樣。被抽的一部分個體所組成的集合體叫樣本。隨機化原則統(tǒng)計量與參數(shù)抽樣誤差頻率與概率,7,第一章統(tǒng)計資料的整理,數(shù)據(jù)的初步整理統(tǒng)計表統(tǒng)計圖,8,數(shù)據(jù)的初步整理,數(shù)據(jù)的種類(1)屬性變量、順序變量、等距變量、等比變量(2)計數(shù)數(shù)據(jù)、計量數(shù)據(jù)(3)連續(xù)型變量、間斷型變量數(shù)據(jù)的排序統(tǒng)計分組(1)分組的標志質(zhì)量標志、數(shù)量標志(2)分組的要求分組完整、組間相斥,9,統(tǒng)計表,統(tǒng)計表的構(gòu)成統(tǒng)計表一般有標題、表號、標目、數(shù)字、線條、表注等構(gòu)成統(tǒng)計表的種類簡單表、分組表、雙向表、復合表次數(shù)分布表,10,XXX級教育學專業(yè)教育統(tǒng)計學期末考試成績,76,77,90,85,68,75,74,51,80,78,80,65,79,53,81,61,70,71,76,76,92,87,69,77,54,73,94,64,78,64,82,79,63,78,85,77,81,68,69,86,70,67,63,83,56,71,62,60,74,62,55,63,71,93,61,81,78,76,82,92,57,75,68,64,91,72,63,86,87,73,66,60,89,58,70,67,46,62,72,73,89,74,88,60,84,67,84,60,48。試做成績次數(shù)分布表。R944648,經(jīng)計算,K(組數(shù))暫定為11。,11,次數(shù)分布表的編制過程,求全距定組數(shù)求組距定組限劃記歸類登記次數(shù),表21XX級教育學專業(yè)期終考試成績分布表,,12,統(tǒng)計圖,統(tǒng)計圖是用來表達統(tǒng)計指標與被說明的事物之間數(shù)量關(guān)系的圖形統(tǒng)計圖由標題、圖號、標目、圖形、圖注等構(gòu)成常用的統(tǒng)計圖有條形圖、線形圖、圓形圖次數(shù)分布圖次數(shù)分布直方圖、次數(shù)分布多邊圖、次數(shù)分布曲線圖,13,第二章特征量數(shù),一、集中量數(shù)描述集中趨勢的量數(shù),在統(tǒng)計學中稱為集中量數(shù)。集中量數(shù)是一組數(shù)據(jù)的代表值,它能描述一組數(shù)據(jù)全貌的一個方面的特征,即它們的典型情況。(一)算術(shù)平均數(shù)(二)中位數(shù)(三)眾數(shù)(四)百分位數(shù),14,算術(shù)平均數(shù),算術(shù)平均數(shù)是反映集中趨勢最普遍、運用最廣泛的一種集中量數(shù)。算術(shù)平均數(shù)可以分為簡單算術(shù)平均數(shù)與加權(quán)算術(shù)平均數(shù)。1、簡單算術(shù)平均數(shù)2、加權(quán)算術(shù)平均數(shù)3、算術(shù)平均數(shù)的優(yōu)缺點,15,簡單算術(shù)平均數(shù),(1)概念簡單算術(shù)平均數(shù)就是一定數(shù)目的觀測數(shù)據(jù)的總和,除以各觀測數(shù)據(jù)的總個數(shù)所得之商,用符號來表示(讀X杠)。例1設有一組觀測數(shù)據(jù)為6、8、10、5、11,其總個數(shù)為5,求其算術(shù)平均數(shù)。按上述定義,則算術(shù)平均數(shù)為(2)計算方法設表示個觀測數(shù)據(jù),N表示個觀測數(shù)據(jù)的總個數(shù),即計算公式為希臘大寫字母∑(讀SIGMA西格馬),為連加求和符號,∑上方與下方的符號,分別表明計算總和的起訖點,即連加界限,連加界限可以從上下文看已十分清楚,則連加界限可以寫成,,,,,(31),16,加權(quán)算術(shù)平均數(shù),(1)概念加權(quán)平均數(shù)就是將每一數(shù)據(jù)與其權(quán)數(shù)(或出現(xiàn)的次數(shù))相乘之積的總和用權(quán)數(shù)(或次數(shù))之和去除。加權(quán)算術(shù)平均數(shù)用符號來表示。(2)計算方法對于次數(shù)分布表的資料,計算公式為,,,,,,17,根據(jù)表31資料求加權(quán)算術(shù)平均數(shù)表31用分組數(shù)據(jù)求加權(quán)算術(shù)平均數(shù)計算表,∑FXC57525N157將∑FXC帶入公式計算,18,算術(shù)平均數(shù)的優(yōu)缺點,優(yōu)點反應靈敏、計算嚴密、簡明易懂、受抽樣變動的影響較小、適合于進一步的代數(shù)處理,是進行進一步統(tǒng)計分析的基礎缺點易受極端數(shù)值的影響、在某個組限不清的情況下無法計算其平均數(shù),19,中位數(shù),概念在按大小順序排列的一組觀測值中,位置居中的那一數(shù)值就是中位數(shù),亦稱中數(shù),代表符號為MD。計算方法(1)求N/2,確定中位數(shù)所在組。(2)確定L(中位數(shù)所在組的精確下限)。(3)確定F(中位數(shù)所在組以下各組次數(shù)之和)。(4)確定F(中位數(shù)所在組的次數(shù))。(5)確定I組距。(6)帶入公式(23)即得MD,,,20,眾數(shù),眾數(shù)是指在次數(shù)分布中出現(xiàn)次數(shù)最多的那個數(shù)的數(shù)值。計算方法1、直接觀察求眾數(shù)2、用公式求眾數(shù)(1)金氏插補法34對表31的數(shù)據(jù),運用該公式求得眾數(shù)為,,,21,(2)皮爾遜經(jīng)驗公式,35對表31的數(shù)據(jù),運用該公式求得眾數(shù)為,,,22,百分位數(shù),概念百份位數(shù)是位于依一定順序排列的一組數(shù)據(jù)中某一百分位置的數(shù)值。用表示如這個數(shù)表示一組數(shù)中比該數(shù)小的占全體量數(shù)的70。計算方法在次數(shù)分布表上,可以用內(nèi)插法計算某個百分位數(shù),公式為38,,,23,,,24,二、差異量數(shù),全距、四分位距、百分位距平均差方差與標準差相對差異量數(shù)標準分數(shù),25,差異量數(shù),甲80,80,80,80,80乙70,75,80,85,90丙2,18,25,96,259表示一組數(shù)據(jù)相互之間差異程度的量稱做差異量數(shù)。差異量越大,數(shù)據(jù)分布范圍越廣;差異量越小,數(shù)據(jù)分布越集中。,26,(一)全距、四分位距、百分位距,全距R最大值最小值四分位距對XX級教育統(tǒng)計學期終考試成績,已知,27,百分位距,百分位距是指兩個百分位數(shù)之差。對XX級教育統(tǒng)計學期終考試成績,已知用幾個有代表性的百分位距可以較好的反映一組數(shù)據(jù)的差異程度。,28,(二)平均差,各數(shù)值與原點的差數(shù)XX叫做離差。因此,平均差就是各個離差的絕對值的平均數(shù)?;蚶?為同學在圖形辨認測驗中成績?nèi)缦?,,,,,29,(三)方差與標準差,方差與標準差是最常用的描述一組量數(shù)離散程度的差異量數(shù)例10名學生數(shù)學測驗成績?nèi)缦?0,83,83,86,85,78,74,73,71,70。試計算其標準差。已知平均數(shù)為793,例某年級100名學生數(shù)學考試成績?nèi)缦?,試計算標準差。?jīng)計算,,,,,,,,,,,30,,在原始數(shù)值不太大的情況下,可以直接采用上式計算標準差標準差的合成式中,為總標準差,為各小組的標準差,為各小組的數(shù)據(jù)個數(shù),為各小組平均數(shù)與總平均數(shù)之差例某年級有四個班,各班某科考試成績?nèi)缦拢嚽罂偲骄鶖?shù)與總標準差經(jīng)計算,,,,,,31,標準差的性質(zhì)和意義,性質(zhì)(1)每一個數(shù)據(jù)都加上同一個常數(shù)后,其標準差不變;(2)每一個數(shù)據(jù)都乘以一個相同的常數(shù),所得到的標準差等于原標準乘以這個常數(shù)。意義方差和標準差是表示一組數(shù)據(jù)離散程度的數(shù)據(jù),其值越大,說明數(shù)據(jù)分布的離散程度越大,平均數(shù)作為一組數(shù)據(jù)的代表值,代表性程度越低;其值越小,說明數(shù)據(jù)分布比較集中,離散程度較小,平均數(shù)代表性程度較高。方差和標準差計算嚴密,反應靈敏,受抽樣變動的影響。統(tǒng)計實踐中,常利用方差的可加性確定屬于不同來源的變異性并進一步說明各種變異對總變異的影響。方差和標準差是進一步統(tǒng)計分析的基礎。,
下載積分: 6 賞幣
上傳時間:2024-01-07
頁數(shù): 31
大小: 0.36(MB)
子文件數(shù):
-
簡介:生物統(tǒng)計學總復習,20150629,一、什么是統(tǒng)計學STATISTICS,統(tǒng)計學是收集、分析、表述和解釋統(tǒng)計數(shù)據(jù)的科學。統(tǒng)計學是關(guān)于數(shù)據(jù)的科學。資料的收集就是取得統(tǒng)計數(shù)據(jù)。數(shù)據(jù)整理是將數(shù)據(jù)分組、歸納和匯總并將其用圖表的形式表達出來。數(shù)據(jù)分析是通過統(tǒng)計方法研究數(shù)據(jù),并結(jié)合實際背景闡述實際問題的特征的過程。數(shù)據(jù)解釋是對分析結(jié)果進行說明。統(tǒng)計學分為描述統(tǒng)計學和推斷統(tǒng)計學。,,描述統(tǒng)計與推斷統(tǒng)計的關(guān)系,幾個基本概念,總體POPULATION、個體(INDIVIDUAL)與樣本SAMPLE總體(N)一個統(tǒng)計問題所研究對象的全體有限總體一個班級學生的身高無限總體臨床試驗中來推斷某一藥品療效高、某一棉田棉鈴蟲的頭數(shù)個體組成總體的每一基本單元樣本(N)從總體中抽取的部分個體,用于對總體進行推斷(N≤30,小樣本;N30,大樣本),通過某事物的一部分(樣本),來估計事物的全部(總體)特征,幾個基本概念(續(xù)),幾個基本概念(續(xù)),變量VARIABLE與觀測值OBSERVATION變量(變數(shù))相同性質(zhì)的事物表現(xiàn)差異性的某種特征,其表現(xiàn)隨個體而異身高、體重、葉綠素含量、葉片形狀隨機變量變量取值的變化是不可預測的變量通常記為X,Y,Z,觀測值對變量進行測量或觀察所獲得的數(shù)值觀測值也稱為變量值(VALUEOFVARIABLES)、資料/數(shù)據(jù)(DATA),二、均值和方差,,第I個觀察值或變數(shù)N觀察值或變數(shù)的個數(shù)∑求和符號(SIGMA),計算公式,標準差和方差,總體方差和總體標準差,樣本方差和樣本標準差,三、概率與概率分布,概率分布幾個概念,概率函數(shù)PROBABILITYFUNCTION隨機變量取某一特定值的概率函數(shù)(離散型隨機變量)二項分布(對立事件)和泊松分布出現(xiàn)概率較小,樣本容量大概率密度函數(shù)PROBABILITYDENSITYFUNCTION隨機變量取某一特定值的密度函數(shù)(連續(xù)型隨機變量)概率分布函數(shù)PROBABILITYDISTRIBUTIONFUNCTION隨機變量取值小于或等于某特定值的概率,離散型隨機變量的概率分布,概率分布圖,概率分布函數(shù)累積函數(shù),密度函數(shù),連續(xù)型隨機變量的密度函數(shù)及概率分布函數(shù),X某一特定值時,P0,13,若N→∞,二項分布連接線表現(xiàn)為一個光滑的曲線。這一曲線稱之為正態(tài)分布曲線或正態(tài)概率曲線。其概率密度函數(shù)為,記做NΜ,Σ2,,,14,由于正態(tài)曲線受Μ和Σ的制約,曲線隨這兩個參數(shù)的變化而改變。構(gòu)造一個新變數(shù),這個變數(shù)要消去Μ和Σ的影響。假定新變數(shù)用U來表示,則,標準正態(tài)分布的概率密度函數(shù),U變換,標準正態(tài)分布,U服從均數(shù)為0、標準差為1的正態(tài)分布,16,如果從容量為N的總體抽樣(放回),若每次抽取容量為N的樣本,那么一共可以得到NN個樣本。每個樣本可以計算一個平均數(shù),如果將這些平均數(shù)集合起來便構(gòu)成一個新總體。由于每次隨機抽樣所得的平均數(shù)可能會存在差異,所以由平均數(shù)構(gòu)成的新總體也應該有其分布,這種分布稱為平均數(shù)的抽樣分布。,樣本均值的抽樣分布,1、樣本平均數(shù)的期望值由于不同的樣本可得到不同的樣本均值,因此,考察樣本均值的期望就顯得非常重要。用表示樣本均值的期望值,表示總體均值,可證明在簡單隨機抽樣中。,2樣本平均數(shù)的標準差,稱為標準誤。,,T分布,當總體標準差Σ未知時,且樣本數(shù)小于30時,以樣本標準差S代替Σ所得到的統(tǒng)計量記為T。在計算時,由于采用S來代替Σ,使得T變量不再服從標準正態(tài)分布,而是服從T分布,服從自由度為N1的T分布,2、T分布密度曲線以縱軸為對稱軸,左右對稱,且在T=0時,分布密度函數(shù)取得最大值3、與標準正態(tài)分布曲線相比,T分布曲線頂部略低,兩尾部稍高而平DF越小這種趨勢越明顯DF越大,T分布越趨近于標準正態(tài)分布當N30時,T分布與標準正態(tài)分布的區(qū)別很?。籒100時,T分布基本與標準正態(tài)分布相同;N→∞時,T分布與標準正態(tài)分布完全一致,正態(tài)分布曲線與T分布曲線的比較,T分布的特征1、T分布受自由度DFN1的制約,每一個自由度都有一條T分布密度曲線,F分布,設從一正態(tài)總體中隨機抽取樣本容量為N,M的兩個獨立樣本,其樣本的方差為,則定義兩者的比值為F,服從自由度為N1,M1的F分布,F分布特征1F分布的平均數(shù)Μ=1,F(xiàn)的取值區(qū)間為0,∞2F分布曲線的形狀僅決定于DF1和DF2在DF1=L或2時,F分布曲線呈嚴重傾斜的反向J型,當DF13時轉(zhuǎn)為左偏曲線在平均值的左邊,不同自由度下的F分布曲線,四、統(tǒng)計推斷,統(tǒng)計推斷,,由一個樣本或一糸列樣本所得的結(jié)果來推斷總體的特征,假設檢驗,參數(shù)估計,原理概率很小的事件在一次抽樣試驗中實際是幾乎不可能發(fā)生的。,?005/001,假設檢驗(HYPOTHESIS),如何進行檢驗,樣本平均數(shù),,總體均數(shù),推斷,樣本,隨機抽樣,總體,,,1、提出假設,對立,無效假設/零假設/檢驗假設,備擇假設/對應假設,?0=?,?0??,誤差效應,處理效應,,,,,H0,HA,2、確定顯著水平,?=005,,,顯著水平,極顯著水平,,能否定H0的人為規(guī)定的概率標準稱為顯著水平,記作?。,統(tǒng)計學中,一般認為概率小于005或001的事件為小概率事件,所以在小概率原理基礎上建立的假設檢驗也常取?005和?001兩個顯著水平。,P158120057101142,,,,根據(jù)研究設計的類型和統(tǒng)計推斷的目的選擇使用不同的檢驗方法。本例服從N?X,?X2分布。,例,4、作出推斷結(jié)論是否接受假設,P?,P30時,可用樣本方差S2來代替總體方差Σ2,仍用U檢驗法。,3、總體方差Σ2未知,且N30且N230時,用U檢驗法。,2、兩個總體方差Σ12和Σ22未知,且兩個樣本都是小樣本,即N130且N230時,用T檢驗法。,成組數(shù)據(jù)平均數(shù)的比較應用情景,成對數(shù)據(jù)平均數(shù)的比較,略,所謂方差的同質(zhì)性,就是指各個總體的方差是相同的。,方差的同質(zhì)性檢驗就是要從各樣本的方差來推斷其總體方差是否相同,方差的同質(zhì)性檢驗,五、方差分析,T檢驗可以判斷兩組數(shù)據(jù)平均數(shù)間的差異顯著性,對多個處理進行平均數(shù)差異顯著性檢驗時,采用T檢驗法的缺點,方差又叫均方,是標準差的平方,是表示變異的量。,確定各種原因在總變異中所占的重要程度。,,處理效應,試驗誤差,相差不大,說明試驗處理對指標影響不大。,相差較大,即處理效應比試驗誤差大得多,說明試驗處理影響是很大的,不可忽視。,XIJΜΤIΕIJ,I1,2,3,K;J1,2,3,N,Μ-總體平均數(shù),ΤI-處理效應,ΕIJ-試驗誤差,XIJ-是在第I次處理下的第J次觀測值,多重比較(MULTIPLECOMPARISONS),要明確不同處理平均數(shù)兩兩間差異的顯著性,每個處理的平均數(shù)都要與其他的處理進行比較,這種差異顯著性的檢驗就叫多重比較。,即統(tǒng)計上把多個平均數(shù)兩兩間的相互比較稱為多重比較。,概念,五、多重比較,,多重比較方法較多(MULTIPLECOMPARISONS),,,,不同離子對木聚糖酶活性的影響MG/ML,000025050075100125,000006012018024030,000040080120160200,000040060080100120,NA,K,CU2,MN2,,,,,實驗指標,因素,對多因素試驗而言,處理就是指水平與水平的組合,定義是指對試驗指標同時受到兩個試驗因素作用的試驗資料的方差分析。,二因素都是固定因素,二因素均為隨機因素,一個因素是固定因素,一個因素是隨機因素,二因素方差分析,三種模型在計算上類似,但在對待檢驗及結(jié)果解釋時有所不同。,主效應和互作,主效應(MAINEFFECT)各試驗因素的相對獨立作用(不同飼料的增重差異,不同品種玉米產(chǎn)量不同),互作、交互(INTERACTION)某一因素在另一因素的不同水平上所產(chǎn)生的效應不同。,方差分析的基本假定,正態(tài)性,可加性,方差同質(zhì)性,,二因素方差分析,相關(guān)變量,因果關(guān)系,平行關(guān)系,回歸分析REGRESSIONANALYSIS,相關(guān)分析CORRELATIONANALYSIS,,,一個變量的變化受到另一個變量或幾個變量的制約,兩個以上變量之間共同受到另外因素的影響,,,,,X,Y,,,,實際值與估計值之差,剩余或殘差。,估計值與均值之差,它與回歸系數(shù)的大小有關(guān)。,,,,,,因變量Y的平方和,總平方和,SST或SS總,回歸平方和U/SSR,離回歸平方和Q/SSE,,,,變異分解,兩個變量是否存在線性關(guān)系,采用F檢驗法進行。也以采用T檢驗法進行(需分別檢驗A、B值)。,若X與Y間不存在直線關(guān)系,則總體回歸系數(shù)Β0若X與Y間存在直線關(guān)系,則總體回歸系數(shù)Β≠0,F值較大時,說明方程的變異主要有回歸平方和(U)造成,方程成立。,T檢驗法,F檢驗法,直線回歸的適應范圍一般以自變量的取值為限。,直線回歸注意問題,在自變量范圍內(nèi)求出的估計值,一般稱為內(nèi)插INTERPOLATION超過自變量取值范圍所計算出的估計值,稱為外延EXTRAPOLATION。,若無充分理由證明超過自變量取值范圍還是直線,應該避免外延。,決定系數(shù)COEFFICIENTOFDETERMINATION,變量X引起Y變異的回歸平方和占Y總變異平方和的比率,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數(shù): 48
大?。?1.05(MB)
子文件數(shù):
-
簡介:CHAPTER9,INTRODUCTIONTOHYPOTHESISTESTING,STATISTICSFORBUSINESSENV,1,HYPOTHESISTESTING,91NULLANDALTERNATIVEHYPOTHESESANDERRORSINTESTING92ZTESTSABOUTAPOPULATIONWITHKNOWNS93TTESTSABOUTAPOPULATIONWITHUNKNOWNS,2,HYPOTHESISTESTING1,RESEARCHERSUSUALLYCOLLECTDATAFROMASAMPLEANDTHENUSETHESAMPLEDATATOHELPANSWERQUESTIONSABOUTTHEPOPULATIONHYPOTHESISTESTINGISANINFERENTIALSTATISTICALPROCESSTHATUSESLIMITEDINFORMATIONFROMTHESAMPLEDATAASTOREACHAGENERALCONCLUSIONABOUTTHEPOPULATION,3,AHYPOTHESISTESTISAFORMALIZEDPROCEDURETHATFOLLOWSASTANDARDSERIESOFOPERATIONSINTHISWAY,RESEARCHERSHAVEASTANDARDIZEDMETHODFOREVALUATINGTHERESULTSOFTHEIRRESEARCHSTUDIES,4,HYPOTHESISTESTING2,5,THEBASICEXPERIMENTALSITUATIONFORUSINGHYPOTHESISTESTINGISPRESENTEDHEREITISASSUMEDTHATTHEPARAMETER?ISKNOWNFORTHEPOPULATIONBEFORETREATMENTTHEPURPOSEOFTHEEXPERIMENTISTODETERMINEWHETHERORNOTTHETREATMENTHASANEFFECTISTHEPOPULATIONMEANAFTERTREATMENTTHESAMEASORDIFFERENTFROMTHEMEANBEFORETREATMENTASAMPLEISSELECTEDFROMTHETREATEDPOPULATIONTOHELPANSWERTHISQUESTION,PROCEDURESOFHYPOTHESISTESTING,6,1FIRST,WESTATEAHYPOTHESISABOUTAPOPULATIONUSUALLYTHEHYPOTHESISCONCERNSTHEVALUEOFAPOPULATIONPARAMETERFOREXAMPLE,WEMIGHTHYPOTHESIZETHATTHEMEANIQFORUICSTUDENTSISM1102NEXT,WEOBTAINARANDOMSAMPLEFROMTHEPOPULATIONFOREXAMPLE,WEMIGHTSELECTARANDOMSAMPLEOFN100UICSTUDENTS3FINALLY,WECOMPARETHESAMPLEDATAWITHTHEHYPOTHESISIFTHEDATAARECONSISTENTWITHTHEHYPOTHESIS,WEWILLCONCLUDETHATTHEHYPOTHESISISREASONABLEBUTIFTHEREISABIGDISCREPANCYBETWEENTHEDATAANDTHEHYPOTHESIS,WEWILLDECIDETHATTHEHYPOTHESISISWRONG,NULLANDALTERNATIVEHYPOTHESES,THENULLHYPOTHESIS,DENOTEDH0,ISASTATEMENTOFTHEBASICPROPOSITIONBEINGTESTEDITGENERALLYREPRESENTSTHESTATUSQUOASTATEMENTOF“NOEFFECT”O(jiān)R“NODIFFERENCE”,ORASTATEMENTOFEQUALITYANDISNOTREJECTEDUNLESSTHEREISCONVINCINGSAMPLEEVIDENCETHATITISFALSETHESCIENTIFICORALTERNATIVEHYPOTHESIS,DENOTEDHAORH1,ISANALTERNATIVETOTHENULLHYPOTHESISSTATEMENTTHATWILLBEACCEPTEDONLYIFTHEREISCONVINCINGSAMPLEEVIDENCETHATITISTRUETHESETWOHYPOTHESESAREMUTUALLYEXCLUSIVEANDEXHAUSTIVE,7,8,DETERMINEDBYTHELEVELOFSIGNIFICANCEORTHEALPHALEVEL,9,ALPHALEVELOF05THEPROBABILITYOFREJECTINGTHENULLHYPOTHESISWHENITISTRUEISNOMORETHAN5,Z,10,THELOCATIONSOFTHECRITICALREGIONBOUNDARIESFORTHREEDIFFERENTLEVELSOFSIGNIFICANCE,11,EXAMPLEALCOHOLAPPEARSTOBEINVOLVEDINAVARIETYOFBIRTHDEFECTS,INCLUDINGLOWBIRTHWEIGHTANDRETARDEDGROWTHARESEARCHERWOULDLIKETOINVESTIGATETHEEFFECTOFPRENATALALCOHOLONBIRTHWEIGHTARANDOMSAMPLEOFN16PREGNANTRATSISOBTAINEDTHEMOTHERRATSAREGIVENDAILYDOSESOFALCOHOLATBIRTH,ONEPUPISSELECTEDFROMEACHLITTERTOPRODUCEASAMPLEOFN16NEWBORNRATSTHEAVERAGEWEIGHTFORTHESAMPLEIS15GRAMSTHERESEARCHERWOULDLIKETOCOMPARETHESAMPLEWITHTHEGENERALPOPULATIONOFRATSITISKNOWNTHATREGULARNEWBORNRATSNOTEXPOSEDTOALCOHOLHAVEANAVERAGEWEIGHTOFM18GRAMSTHEDISTRIBUTIONOFWEIGHTSISNORMALWITHSD4,12,H0Μ18,13,1STATETHEHYPOTHESESTHENULLHYPOTHESISSTATESTHATEXPOSURETOALCOHOLHASNOEFFECTONBIRTHWEIGHTTHEALTERNATIVEHYPOTHESISSTATESTHATALCOHOLEXPOSUREDOESAFFECTBIRTHWEIGHT2SELECTTHELEVELOFSIGNIFICANCEALPHALEVELWEWILLUSEANALPHALEVELOF05THATIS,WEARETAKINGA5RISKOFCOMMITTINGATYPEIERROR,OR,THEPROBABILITYOFREJECTINGTHENULLHYPOTHESISWHENITISTRUEISNOMORETHAN53SETTHEDECISIONCRITERIABYLOCATINGTHECRITICALREGION,14,ALPHALEVELOF05THEPROBABILITYOFREJECTINGTHENULLHYPOTHESISWHENITISTRUEISNOMORETHAN5,Z,15,4COLLECTDATAANDCOMPUTESAMPLESTATISTICSTHESAMPLEMEANISTHENCONVERTEDTOAZSCORE,WHICHISOURTESTSTATISTIC,5ARRIVEATADECISIONREJECTTHENULLHYPOTHESIS,HYPOTHESISTESTING,ALTERNATIVEHYPOTHESISH1ASTATEMENTTHATISACCEPTEDIFH0ISFALSEWITHOUT“”SIGNSAY,“??2”O(jiān)R“?M0H1MCRITICALZ,COMPUTEDZCRITICALZORCOMPUTEDZCRITICALZ,ONETAILEDTESTOFSIGNIFICANCE,,,IFH0???0ISTRUE,ITISVERYUNLIKELYTHATTHECOMPUTEDZVALUEISSOLARGE,,25,26,H0???0,COMPUTEDZ196,31,STEP4CONCLUDEWECANSEETHATZ1897165SINCE?005,STEP5MAKEADECISIONANDINTERPRETTHERESULTSNEXTPAGE,,,,,EXAMPLELISA,THECREDITMANAGER,38,THEPVALUEIS0078FORAONETAILEDTESTREFTOINFORMALANS,COMPUTEDZOF242CRITICALZOF165,POF007830,WITHTHEUNDERLYINGDISTRIBUTIONMAYORMAYNOTBENORMALIISMALLSAMPLEN2353ANDT196ORZ1833,,,,53,COMPUTEDTOF3162CRITICALTOF1833POF0058ALPHAOF05REJECTHO,THEPVALUEIS00058OBTAINEDFROMT,NEEDASOFTWARETOFINDIT,STEP5MAKEADECISIONANDINTERPRETTHERESULTS,THEMEANNUMBEROFFUSESPRODUCEDISMORETHAN250PERHOUR,54,IFTHEPVALUEISLESSTHANALPHA,THENREJECTTHENULLHYPOTHESIS,AMOUNTOFTIMEUICSTUDENTSSPENDINLIBRARYFROMSURVEYMEAN4172MINUTESSTANDARDDEVIATION40179MINUTESNUMBEROFCASES294NATIONALSURVEYFINDSUNIVERSITYLIBRARYUSERSSPENDMEANOF38MINUTESISPOPULATIONMEANFORUICLIBRARYUSERSDIFFERENTFROMNATIONALMEAN,
下載積分: 6 賞幣
上傳時間:2024-01-06
頁數(shù): 76
大小: 1.69(MB)
子文件數(shù):
-
簡介:第八章相關(guān)與回歸分析,變量間的相關(guān)關(guān)系一元線性回歸模型多元線性回歸模型非線性回歸模型,第一節(jié)變量間的相關(guān)關(guān)系,一、相關(guān)關(guān)系的概念相關(guān)關(guān)系是指客觀現(xiàn)象間確實存在的數(shù)量上不是嚴格對應的依存關(guān)系。,⒈按涉及變量的多少分為,⒉按照表現(xiàn)形式不同分為,⒊按照變化方向不同分為,一元相關(guān)(單相關(guān)),多元相關(guān)(復相關(guān)),,直線相關(guān)(線性相關(guān)),曲線相關(guān)(非線性相關(guān)),,二、相關(guān)關(guān)系的類型,三相關(guān)分析的基本內(nèi)容,1、判斷現(xiàn)象之間是否存在相關(guān)關(guān)系、關(guān)系的類型及密切程度;2、為相關(guān)關(guān)系建立回歸方程或經(jīng)驗公式;3、測定估計誤差。,第二節(jié)相關(guān)圖(散點圖)和相關(guān)系數(shù),一、相關(guān)圖,相關(guān)關(guān)系的判斷方法,二、相關(guān)表1、簡單相關(guān)表,小麥畝產(chǎn)量與施肥量相關(guān)表,2、分組相關(guān)表,產(chǎn)量和單位成本相關(guān)表,三、簡單相關(guān)系數(shù),1概念用以反映兩變量間線性相關(guān)密切程度的統(tǒng)計指標??傮w相關(guān)系數(shù)記為?,樣本相關(guān)系數(shù)記為R。2計算公式未分組資料,(85),樣本相關(guān)系數(shù)的定義公式實質(zhì),88,86,相關(guān)系數(shù)R的取值范圍1≤R≤1,3相關(guān)系數(shù)的取值及其意義,R,,03,,03,08,,微弱相關(guān),,低度相關(guān),,顯著相關(guān),,高度相關(guān),,【例1】在研究我國人均消費水平的問題中,把全國人均消費額記為Y,把人均國民收入記為X。我們收集到1981~1993年的樣本數(shù)據(jù)XI,YI,I1,2,,13,數(shù)據(jù)見下表,計算相關(guān)系數(shù)。,P62,P33,P19,解根據(jù)樣本相關(guān)系數(shù)的計算公式有人均國民收入與人均消費金額之間的相關(guān)系數(shù)為09987。,例2,P32,P44,P46,解,計算結(jié)果說明VC含量與儲存時間存在高度的負相關(guān)關(guān)系。上例用推導后的公式可以得出同樣的結(jié)論,相關(guān)系數(shù)計算表,計算結(jié)果與前面一致。,某公司下屬6個同類企業(yè)的有關(guān)資料如下,練習,要求A計算相關(guān)系數(shù),解1兩者為高度正相關(guān),4相關(guān)系數(shù)的顯著性檢驗檢驗兩個變量之間是否存在線性相關(guān)關(guān)系,等價于對回歸系數(shù)B的檢驗。步驟提出假設H0???;H1??0計算檢驗統(tǒng)計量確定顯著性水平?,并作出決策若?T?T?/2,拒絕H0,相關(guān)關(guān)系顯著;若?T?T?/21322201,拒絕H0,人均消費金額與人均國民收入之間的相關(guān)關(guān)系顯著,不能否認總體兩變量存在線性相關(guān)。,第二節(jié)一元線性回歸模型,一回歸分析的概念1概念運用數(shù)學方法測定相關(guān)變量間的一般關(guān)系的分析過程。,回歸分析方法就是通過對占有相關(guān)資料的分析,找出其變化規(guī)律性,建立適宜的數(shù)學模型或經(jīng)驗公式,使現(xiàn)象間數(shù)量上的不確定、不嚴格的相互依存關(guān)系變?yōu)榇_定性的、嚴格依存的函數(shù)關(guān)系,即將這種數(shù)量關(guān)系一般化、平均化。,2回歸分析與相關(guān)分析的聯(lián)系與區(qū)別,二一元線性回歸模型,1總體一元線性回歸模型的一般形式,,,X對Y的線性影響而形成的系統(tǒng)部分,反映兩變量的平均變動關(guān)系,即本質(zhì)特征。,隨機誤差各種偶然因素,觀察誤差和其他被忽視因素的影響。,,未知參數(shù),,3總體一元線性回歸方程,樣本(或估計的)一元線性回歸方程,截距,斜率(回歸系數(shù)),,,,B表明自變量X每變動一個單位時,變量Y的平均變動值。,B與R的關(guān)系,R>0R<0R0B>0B<0B0,824,4一元線性回歸模型的確定(用未分組資料)Y倚X的回歸方程,根據(jù)實際數(shù)據(jù),用最小平方法,即使分別對A、B求偏導并令其為零,求得兩個標準方程。,,,令,,則,,,解聯(lián)立方程,得到,解聯(lián)立方程,得到,,814,815,5回歸直線的特點(1)回歸直線的走向,是由回歸系數(shù)B決定的。(2)回歸直線滿足,,,即,,是一條最適線。,(4)回歸直線是一條平均數(shù)線。,(3)回歸直線一定通過點(),【例4】根據(jù)例1中的數(shù)據(jù),配合人均消費金額對人均國民收入的回歸方程,解根據(jù)A和B的求解公式得,P13,例5接例2求回歸方程,解將以上數(shù)據(jù)代入公式,所以水果中VC含量與儲存時間關(guān)系的回歸方程為,方程表明,水果中維生素C的含量的理論起點值為1970,當儲存時間每延長1小時,維生素C的含量平均降低151。,例6某公司下屬6個同類企業(yè)的有關(guān)資料如下,要求A計算相關(guān)系數(shù);B用最小平方法建立直線回歸方程并估計當工業(yè)生產(chǎn)用固定資產(chǎn)為800萬元時,工業(yè)總產(chǎn)值將為多少,解1兩者為高度正相關(guān),,2,經(jīng)濟含義表明工業(yè)生產(chǎn)用固定資產(chǎn)每增加一百萬元,工業(yè)總產(chǎn)值平均上升22317百萬元,當,百萬元,YC0073322317X,練習1,(1)配合直線方程①計算B,A,回歸方程為YC=A+BX=7737-182X,答案,(2)產(chǎn)量每增加1000件時,單位成本平均變動,因為B1820,且產(chǎn)量X的計量單位是千件,根據(jù)回歸系數(shù)B的意義有產(chǎn)量每增加一個單位即1000件時,單位成本平均減少182元。,(3)產(chǎn)量為6000件時的單位成本當產(chǎn)量為6000件時,即X=6,代入回歸方程YC=7737-1826=6645(元)當產(chǎn)量為6000件時,單位成本為6645元。,三、判定系數(shù)(R2)和估計標準誤(SXY)(一)判定系數(shù)1離差平方和的分解,,,,,X,Y,,,,,,總偏差回歸偏差剩余偏差,總偏差反映因變量的N個觀察值與其均值的總離差?;貧w偏差被回歸解釋的偏差反映由于X與Y之間的線性關(guān)系引起的Y的取值變化剩余偏差未被解釋的偏差反映除X以外的其他因素對Y取值的影響。,?,2判定系數(shù)1概念回歸平方和占總離差平方和的比例,用R2表示取值范圍是對回歸模型擬合優(yōu)度的評價。等于相關(guān)系數(shù)的平方,即R2=R2注意判定系數(shù)無方向性,相關(guān)系數(shù)則有方向,其方向與樣本回歸系數(shù)B相同。,2常用公式,計算得R20994說明我們擬合回歸模型產(chǎn)生的偏差中,994的偏差是由儲存時間和VC的依存關(guān)系來解釋的,其余06是隨機誤差。,例7根據(jù)例2計算判定系數(shù)。,(二)估計標準誤(SY),1概念SY是二元正態(tài)分布中因變量實際值(YJ)對估計值()離散程度的量度。反映實際觀察值在回歸直線周圍的分散狀況;從另一個角度說明了回歸直線的擬合程度。SY越小,擬合越好;SY越大,擬合越差。,2公式,826,在95的概率保證程度下,可以估計儲存時間為8小時時,水果中VC含量的區(qū)間為,在(72672,79728)之間,在一定的把握程度下進行區(qū)間估計。,預測及應用1點估計,(1)Y的平均值的點估計利用估計的回歸方程,對于自變量X的一個給定值X0,求出因變量Y的平均值的一個估計值EY0,就是平均值的點估計。在例1中,假如我們要估計人均國民收入為2000元時,所有年份人均消費金額的平均值,就是平均值的點估計。根據(jù)估計的回歸方程得,(2)Y的個別值的點估計,利用估計的回歸方程,對于自變量X的一個給定值X0,求出因變量Y的一個個別值的估計值EY0,就是個別值的點估計。,如果只是想知道1990年人均國民收入為12507元時的人均消費金額是多少,則屬于個別值的點估計。根據(jù)估計的回歸方程得,(1)大樣本條件下(N?30,2區(qū)間估計,(2)小樣本條件下(N?301)Y的平均值的置信區(qū)間,,【例】根據(jù)例1,求出人均國民收入為12507元時,人均消費金額95的置信區(qū)間。解根據(jù)前面的計算結(jié)果=71257,SY1495,T???132=220,N13,置信區(qū)間為,71257?10265,人均消費金額95的置信區(qū)間為702305元722835元之間。,包括回歸系數(shù)B的檢驗方程整體的F檢驗,四一元線性回歸模型的顯著性檢驗,第四節(jié)非線性回歸模型,,曲線模型的確定方法,通常用變量代換法將曲線轉(zhuǎn)換為直線。按線性模型求解參數(shù),而后再變換為曲線模型。,非線性回歸分析必須著重解決以下兩個問題一是如何確定非線性函數(shù)的具體形式;二是如何估計非線性函數(shù)中的參數(shù),雙曲線,基本形式線性化方法令,X1/X,則有YABX圖像,【例】一種商品的需求量與其價格有一定的關(guān)系?,F(xiàn)對一定時期內(nèi)的商品價格X與需求量Y進行觀察,取得的樣本數(shù)據(jù)如下表。試判斷商品價格與需求量之間回歸函數(shù)的類型,并求需求量對價格的回歸方程。,用雙曲線模型按線性回歸的方法求解A和B,得,【例】為研究生產(chǎn)率與廢品率之間的關(guān)系,記錄數(shù)據(jù)如下表。試擬合適當?shù)哪P汀?用線性模型Y?0??1X?,有Y267100018X用指數(shù)模型Y??X,有Y405?10002X比較直線的殘差平方和=53371指數(shù)模型的殘差平方和=611。直線模型略好于指數(shù)模型。,一多元線性回歸模型及其確定,二元線性回歸模型,1總體多元線性回歸模型的一般形式,,,Y的數(shù)學期望E(Y),隨機誤差,表明自變量共同變動引起的Y的平均變動。也稱總體的二元線性回歸方程。,第五節(jié)多元線性回歸模型,,常數(shù)項,,和Y構(gòu)成的平面與Y軸的截距,,偏回歸系數(shù),表示在固定時每變化一個單位引起的Y的平均變動;,,偏回歸系數(shù),表示在固定時每變化一個單位引起的Y的平均變動;,,隨機誤差,其理論假定與一元線性回歸模型中的一樣。,在多元回歸模型中,還要求各自變量之間不存在顯著相關(guān),或高度相關(guān)。,2樣本多元線性回歸模型的一般形式,二元線性回歸模型為,其數(shù)學期望,也稱樣本(或估計的)二元線性回歸方程。,3二元線性回歸方程的確定,根據(jù)實際資料,用最小平方法,即使,分別對A、B1、B2求編導并令其為零,求得三個標準方程,解此聯(lián)立方程便可得到A、B1、B2。,,例某種商品的需求量、人均收入水平以及商品的價格資料如下,解方程組得,表示如果商品價格不變,年人均收入額每增加100元,商品需求量將增加1公斤,如果人均收入水平不變,商品價格每提高一元,需求量將減少1095公斤。,
下載積分: 6 賞幣
上傳時間:2024-01-05
頁數(shù): 63
大小: 1.5(MB)
子文件數(shù):