閱讀材料:Development and first validation of
the shared decision-making questionnaire
論文作者:D. Simon, G. Schorr, M. Wirtz, A. Vodermaier, C. Caspari, B.
Neuner, C. Spies, T. Krones, H. Keller, A. Edwards, A. Loh, M. Harter (2006)
前言 introduction (I):
A. 為何需要從事此研究
目前臨床醫療環境中缺乏評量共同決策過程的評估工具,且德國目前也沒有發展出相關的評量工具,因此本研究將發展一套評量共同決策過程的工具。
B. 研究目的
本研究主要的目的為發展一套具有理論基礎的Share decision-making questionnaire (SDM-Q),以及驗證其心理計量特性(包含:Item fit, Person fit, Differential item functioning, construct validity)。
方法 method (M):
A. 取樣:
本研究在驗證心理計量特性時,在臨床醫療單位的各個科別中廣招受試者,如:精神科、婦產科、泌尿科、神經科、家醫科等。
(這意味著樣本來源廣泛,且樣本的醫療診斷多元。)
B. 程序:
工具發展程序
1.理論發展
a.瞭解相關概念的定義
b.確認SDM的核心元素與定義
c.定義SDM過程
2.題庫發展
a.經由Delphi method編寫題目
(作者沒有描述此團隊人數與組成,且也沒有描述題目是否依照特定系統來編寫。作者只說 題目包含SDM的實際行為,但未必具有表面效度。)
b.由題庫中確認24題。 (作者沒有描述實際題庫到底有幾題)
c.再刪除難以回答及用詞負面的題目。
3.確認測驗題數
a.初始測驗為15題。
a.瞭解相關概念的定義
b.確認SDM的核心元素與定義
c.定義SDM過程
2.題庫發展
a.經由Delphi method編寫題目
(作者沒有描述此團隊人數與組成,且也沒有描述題目是否依照特定系統來編寫。作者只說 題目包含SDM的實際行為,但未必具有表面效度。)
b.由題庫中確認24題。 (作者沒有描述實際題庫到底有幾題)
c.再刪除難以回答及用詞負面的題目。
3.確認測驗題數
a.初始測驗為15題。
工具驗證程序
1.請受試者填寫15題的測驗。
2.以Rash analysis進行數據分析
a.Item fit:以此數據作為刪減題目的依據。
b.Person fit:檢驗受試者答題情況是否與預設的反應模型一致。
c.Differential item functioning:檢驗不同群體的受試者在題目作答上是否會有差異。
3.以相關分析驗證construct validity。
2.以Rash analysis進行數據分析
a.Item fit:以此數據作為刪減題目的依據。
b.Person fit:檢驗受試者答題情況是否與預設的反應模型一致。
c.Differential item functioning:檢驗不同群體的受試者在題目作答上是否會有差異。
3.以相關分析驗證construct validity。
C. 資料分析:
1.以WINSTEPS軟體來執行Rasch analysis以取得Item fit, Person fit, Differential item functioning 及construct validity等數據。
結果 results (R):
A. 樣本之特性為何?
參與本研究的受試者共有741人,其平均年齡約為52歲,女性占6成,且6成以上受試者具高等教育程度。而在進行細部資料分析時又可依照疾病不同而分成五類:憂鬱症(216人)、婦科疾病(107人)、泌尿疾病(66人)、感覺缺失(145人)、家醫科相關診斷(207)等。
B. 各研究目的所得之數據
1.Item fit
a.1-3題:類別閾值指出前3題反應格式不適當,因此予以刪除。
b.第4題:infit值為2.25,此數值不符合模型,因此予以刪除。
c.5-15題:顯示具由可接受到良好的itemfit值(0.78-1.14),因此予以保留。
2.Person fit
a 全部受試者中,僅有29.8%的受試者符合預期的反應模型。
(一個良好的infit數值應在0.8-1.2之間。且如果出現overfit的結果也不是作者所樂見)
b.在次團體分析中,顯示不同醫療診斷間具有最大的差異。
c.59%的泌尿疾病個案之答題反應屬underfit,為答題反應低於預期的反應模型。
3.Differential item functioning (以題庫中的第5-15題進行分析)
a.診斷差異:第1,2,4,5,7,9,10題在不同診斷間的題項困難間距超過1.49 logits,且泌尿疾病的樣 本與平均題項困難有最大的偏差值。此結果顯示本測驗不可用於不同診斷者的比較。
b.性別差異:各組間最大題項困難間距值為0.33 logits。此結果顯示本測驗可用於不同性別者 的比較。
c.年齡差異:各組間最大題項困難間距值為0.47 logits。此結果顯示本測驗可用於不同年齡層 的比較。
d.教育程度:各組間最大題項困難間距值為0.46 logits。此結果顯示本測驗可用於不同教育程 度者的比較。
4.Scale analysis(待修訂)
5.Construct validity:將SDM-Q與PICS兩個次量表進行相關分析
a.SDM-Q與PICS次量表的"doctor facilitation"呈現中度相關(γ=0.32;α=0.87)。
b.SDM-Q與PICS次量表"patient information"呈現低相關(γ=0.29;α=0.83)。
1.Item fit
a.1-3題:類別閾值指出前3題反應格式不適當,因此予以刪除。
b.第4題:infit值為2.25,此數值不符合模型,因此予以刪除。
c.5-15題:顯示具由可接受到良好的itemfit值(0.78-1.14),因此予以保留。
2.Person fit
a 全部受試者中,僅有29.8%的受試者符合預期的反應模型。
(一個良好的infit數值應在0.8-1.2之間。且如果出現overfit的結果也不是作者所樂見)
b.在次團體分析中,顯示不同醫療診斷間具有最大的差異。
c.59%的泌尿疾病個案之答題反應屬underfit,為答題反應低於預期的反應模型。
3.Differential item functioning (以題庫中的第5-15題進行分析)
a.診斷差異:第1,2,4,5,7,9,10題在不同診斷間的題項困難間距超過1.49 logits,且泌尿疾病的樣 本與平均題項困難有最大的偏差值。此結果顯示本測驗不可用於不同診斷者的比較。
b.性別差異:各組間最大題項困難間距值為0.33 logits。此結果顯示本測驗可用於不同性別者 的比較。
c.年齡差異:各組間最大題項困難間距值為0.47 logits。此結果顯示本測驗可用於不同年齡層 的比較。
d.教育程度:各組間最大題項困難間距值為0.46 logits。此結果顯示本測驗可用於不同教育程 度者的比較。
4.Scale analysis(待修訂)
5.Construct validity:將SDM-Q與PICS兩個次量表進行相關分析
a.SDM-Q與PICS次量表的"doctor facilitation"呈現中度相關(γ=0.32;α=0.87)。
b.SDM-Q與PICS次量表"patient information"呈現低相關(γ=0.29;α=0.83)。
C.本研究所發展出的Shared Decision-making Questionnaire (SDM-Q)
此測驗共有11題,為4分尺度量表,用來描述個案在醫療決策過程當中對題目描述的認同程 度,其選項有非常同意、同意、不同意及非常不同意。
此測驗共有11題,為4分尺度量表,用來描述個案在醫療決策過程當中對題目描述的認同程 度,其選項有非常同意、同意、不同意及非常不同意。
討論 discussion (D):
A. 彙整主要研究發現
本研究描述發展Shared Decision Making Questionnaire的理論基礎,並進行初步的心理計量 特性驗證,且作者表示此量表尚需要繼續修正,如:本研究所發展出的11題SDM-Q,並未包 含shared decision making的所有步驟;本測驗具天花板效應;不同健康狀態可能會有不同的 決策類型,因此需要針對疾病類別再進行更詳細的次團體分析。
B. 研究結果之重要性<學術/臨床意義為何>(文中提及類似/不同之研究結果)
本研究成果可為後進學者修訂SDM-Q測驗的基礎。
C.
研究限制及原因
(本文中並未特別指出相關的研究限制)
自問自答:
a.
What is the definition of the shared decision-making (SDM)?
→1982年第一次出現關於SDM的定義 [SDM as a process which is based on mutual respect and partnership],而在1990年代之後SDM開始受到重視,因此有多位學者分別對它進行相關的描述,然而目前並未出現全球通用的定義。
b.
How to apply the result of SDM-Q?
→著眼於Likert scale的內涵,我們可以知道該量表是想描述受試者自覺在共同決策過程中所感受到的經驗,因此該問卷結果可以提供明確的數據來說明在醫病互動的過程中所表現出共同決策的程度。且瞭解共同決策可以幫助我們了解共同決策因子對於個案的滿意度、遵從度以及對健康狀態決策困擾的影響。然而,該量表仍舊在持續修訂中,因此我們仍可繼續關注此量表是否可以充分表達共同決策的所有面向?
c. When to use
the Rasch analysis ,and how to use it?
→在建構李克特式(Likert scale)量表的步驟中有一個步驟為項目分析,而項目分析的方法有很多種,但是此研究選擇的方法則是Rasch analysis。Rasch analysis可用來分析試題難度、鑑別度、信度、效度、適合度和資料偵誤(探查缺失值、更正錯誤和反向題)等項目的能力[3]。而常用來取得Rasch analysis數據的軟體有WINSTEPS、RUMM2020、QUEST and ConQuest、Facets、CADATS[4]。
d. What is
Likert-like scale?
→李克特態度量表(Likert attitude scale)是 1932 年由 Rensis Likert 發展而成。Likert scales屬評分加總式量表(summated rating scales)最常使用的一種。屬於同一Dimension(構面、類別)的項目(Item)是用加總方式來計分,個別項目(題目)的單獨計分較無意義與參考價值。Likert scale 提供的數值類型屬於 interval
scale。Likert scale 可以歸屬於 rating scale 的一種。[1]
此量表設計對於每一敘述或項目具有相同的態度價值(Attitude Value)、重要性(Importance)或權重(Weight)的假設,而不就態度的本質進行測量。此外,李克特式量表上的每一個問題回答以有序性(遞增或遞減)的方式表達每個項目間相互的相對強度(Relative Intensity)。舉例而言,如對某件事情的認同程度採用5 階(5-Level)計分方式,即以非常不同意(Strongly
Disagree)、不同意(Disagree)、普通(Neither Agree or Disagree)、同意(Agree)、非常同意(Strongly Agree)的方式供受訪者選擇,其以等距方式計算分數,非常不同意得1 分,不同意得2 分,普通得3 分,同意得4 分,非常同意得5 分。[2]
建構李克特式量表之流程分述如下:
步驟一 組織或建構反映問題中主要議題態度的陳述(Statement)。陳述應以文字表達對議題 反應正負向之態度,以確定所有陳述皆與主議題有邏輯上的相關。[2]同意程度分為 五個等級:1.非常同意,2.同意,3.未定,4.不同意,5.極不同意;亦可用九等級、 七等級、三等級或兩分法。[1]
步驟二 邀請一組樣本(專家),請各受訪者對上述態度各項目表達立場(Trial-Test)。[1] [2]
步驟三 針對回收的答案,採用加權的方式分析其量化價值。量化價值依正向與負向陳述有 所不同。對正向陳述而言,答案具有非常同意態度者則賦予最高分數,以5 階量表 中,如非常同意者給予5 分。如為負向陳述,非常不同意者給予5 分。[2]
步驟四 依受訪者對於每項所勾選的答案,以第三步驟的方式給予量化價值,並計算每一受 訪者的態度分數。[2]
步驟五 進行項目分析(Item analysis):對量表之題庫做篩選,定義無區別的項目,如每位受 訪者以相同的答案回答每一個問題,則無區別的項目無助於區分受訪者的態度。被 判定為較差區別力(Power of discrimination)之項目則刪除。[1]
[2]
步驟六 進行信度分析(Reliability analysis):刪除或修改會對整個 Likert
Scales 信度下降的 項目(item)。[1]
步驟七 以所選取的陳述或項目建構問卷或是訪談表。[2]
e. How to use
the analysis of item-person-fit?
→想檢驗樣本資料是否符合Rasch model時,會使Rasch analysis,其中的適配度檢定(test of goodness-of-fit)即是用來檢驗資料與model的符合程度[5]。而使用適配度檢定(test of
goodness-of-fit)時應注意:1.期待χ2不顯著;2.person-fit,值過高代表受試者可能胡亂作答;3.item-fit,值過高代表題目測量的可能不是單向度;4.同時應進行(Differential item functioning, DIF)分析[6]。其中Outfit均方是指受試者能力測量對太易或太難試題作答反應的非預期敏感度。當Outfit指標出問題時,即表示作答反應中,能力與難度相互不匹配所在的觀察值與模式不相符[6]。而Infit均方是指對極端值外,受試者能力測量對不太易或不太難試題作答反應的非預期敏感度。當Infit指標出問題時,表示作答反應中,能力與難度匹配所在的觀察值與模式不相符[6]。
f.作者運用Rasch analysis目的
→檢驗資料是否符合單項度以及刪除不適合的題目
研究結果:a. 11 items remaining in the scale after Rasch analysis
b. SDM-Q
had an acceptable reliability for person measures (0.77) and very good
reliability for item difficulties (0.95)
c. SDM-Q
had a different use of items in different conditions
d. SDM-Q
showed high ceiling effects
閱讀心得:本篇論文雖然架構明確,但是架構之間的關聯性我有點不了解,且有些概念是我還不熟悉的範疇,所以讀起來感覺有點艱澀!!因此我閱讀本篇論文的策略為先了解研究流程與核心概念,其他還不懂的部分就先行略過,最後再開始處理自問自答的部分。
研究流程:
Delphi methods→(24 items →15 items)→開始收案→成功收案741人→資料分析(Rasch analysis)→(分析變相:年齡、性別、教育程度、疾病類別)→設定篩選標準→11 items。
核心概念:
Shared decision-making
參考文獻
1. 評量。http://tm.kuas.edu.tw/VG/Publish/07%20Measurement.pdf
2. Derek Study Blog。http://derek0208tw.blogspot.tw/2009/06/likert-scale.html
3.姚漢禱。利用 Rasch 測量分析測驗編製的試題。http://ir.ntsu.edu.tw/bitstream/987654321/1442/2/Using+Rasch+measurement+to+analyze+the+item+of+construction+testing.pdf
4.劉振華、陳素雯、凌家豪、陳子陽。在數學科運用Rasch Model促進學生學習。http://www.edb.gov.hk/attachment/tc/edu-system/primary-secondary/applicable-to-primary-secondary/sbss/school-based-curriculum-primary/professional-sharing/journey-ss/2010/m03.pdf
5. Rasch Analysis。http://www.rasch-analysis.com/rasch-analysis.htm
6.余民寧。常模與量尺的建立。http://www3.nccu.edu.tw/~mnyu/Test%20Construction%20and%20Scale%20Development/Instructional%20Materials/week%2014.pdf
沒有留言:
張貼留言