2016年6月24日 星期五

思考文獻檢索相關概念

這篇文章為構思共同決策評量工具之文獻回顧的前置作業。因為只要開始思考,我就會忍不住想要掌握各概念之間的系統性關連。唯有清楚掌握各概念之間的結構關係,我才會停止瘋狂的資料檢索動作。雖然大學的時候已經學過文獻檢索策略,但是各概念之間的結構關係我尚未明確釐清。因此,透過此篇文章來記錄文獻檢索流程的架構。


文獻檢索的可能情境有三類,一為搜尋特定的一篇論文,二為概略地瞭解檢索主題,最後為完整地回顧與主題相關的所有文獻。如果我們先將回顧主題暫定為:常用的醫療場所的共同決策評量工具及其心理計量特性回顧。則我們會遭遇到兩種檢索情境,一為概略地瞭解在醫療場所常用的共同決策評量恭具有哪些,二為完整地回顧各評量工具的心理計量特性文獻。






一、檢索流程

1.選擇需求詞彙
確認想要搜尋的主題與方向,並選擇需要的詞彙。
2.選擇檢索平台
選擇使用【臺灣的期刊文獻資料庫】、【西文期刊文獻資料庫】或【其它檢索平台】?
Ø 【臺灣的期刊文獻資料庫】: airiti Library 華藝線上圖書館」
Ø 【西文期刊文獻資料庫】: 「索引摘要型」(Index/Abstract)、「出版商型」(Publisher)、「集成商型」(Aggregator)
n  「索引摘要型」:PubMedMEDLINECochrane LibraryCINAHLPsycINFOOTSeeker
n  「出版商型」: Science Direct」、「Springer Link」、「Wiley Online Library」。
Ø 其它檢索平台: Google scholar
3.設定檢索策略
選用適當的關鍵字或檢索技巧來縮小或擴大查詢範圍。主要針對一檢索問題之通盤考量或全面性規劃節省資源蒐尋的時間,且確保蒐集到的都是真正所需的資源,如思考如何避免找到不相關文章的方法或是處理找到過多或過少相關文章的可能對策。
4.檢索結果
依據檢索結果進行後續處理:滿意則取得相關資訊,不滿意則修訂檢索策略或利用資料庫提供的限制條件再次檢索。

二、文獻檢索之基本概念
1.自然語言 VS 控制語言

自然語言
控制語言
描述
自然語言是以人類口語話的用詞作為檢索語,可能產生語意不明確、語法不確定的問題。
使用控制字彙來表達某類概念的文獻內容主題,通常有特定的索引工具來協助分類,如: 分類表、標題表(Medical Subject HeadingMeSH)、索引典。
優點
ž 不需使用控制詞彙
ž 避免索引人員產生的人為錯誤
ž 索引成本較低
ž 不必應付索引典老化所帶來的問題
ž 字義的表達較為自由
ž 可解決同義字、類同義字與同形異義字的問題
ž 易從事有附屬關係的檢索
ž 用語明確一致
ž 可利用參互見,得知相關詞彙
ž 檢索者負擔輕
缺點
ž 容易有遺漏
ž 檢索者負擔大
ž 文獻內涵易被遺漏
ž 語意混淆,缺乏統一標準
ž 不易檢索有層次附屬關係的概念
ž 品質較難控制
ž 容易因為誤解而產生錯誤或不一致
ž 使用者必須經過訓練
ž 檢索詞受限於索引典,較無彈性

2.回收率 VS 精確率
Recall(回收率/查全率) & Precision(精確率/查準率)

相關
不相關
檢索到
a
b
未檢索到
c
d
總數
a+c
b+d












三、文獻檢索模式
常用檢索模式有5: 簡易檢索法(brief search)、分區組合檢索法(block building)、引用文獻滾雪球法(citation pearl growing)、主題層面連續檢索法(successive facet strategies)、主題層面配對檢索法(pairwise facets strategies)
1.簡易檢索法(brief search)
為最常用的檢索策略,通常用簡單的幾個關鍵字, 加上布林邏輯的組合。優點為檢索快速,缺底則是回收率低。適用情境為: 已知書目的檢索、只想閱讀“幾篇”相關文章或檢索概念相當具體時。
2.分區組合檢索法(block building)
將檢索詞分解為幾個不同的主題進行檢索,再運用布林邏輯組合主題間的關係。
3.引用文獻滾雪球法(citation pearl growing)
事先掌握幾篇相關的文章,利用這些相關文章的關鍵字或敘述語繼續檢索以找尋更多相關的文章。由精確率反向追求回收率,但通常必須進行多次檢索,才能找到足夠的相關文章。

4.主題層面連續檢索法(successive facet strategies)
與分區組合檢索類似,但分區組合檢索通常會使用所有的主題層面,而主題層面連續檢索則設法動用最少的主題層面。其檢索步驟為先將檢索問題分成幾個主題層面,再確認各主題層面的優先順序。並將第一主題層概念輸入檢索系統,若產生的資料筆數過少,則輸入其他次要概念與之結合,直到檢索者認為檢索筆數可以接受為止。

5.主題層面配對檢索法(pairwise facets strategies)
將主題層面兩兩配對並取其交集。適用於當所有主題層面都同樣重要時、所有主題層面之專指性或模糊性相差不大或當將所有主題層面交集後,檢索結果為零筆資料時。
四、資訊檢索之技巧
為完成特定目的所採取的行動:布林邏輯(Boolean Logic)、切截(Truncation)運用、相近運算元、限制欄位條件、限制檢索範圍、完整法。
1.布林邏輯(Boolean Logic)
利用布林邏輯( AND / OR / NOT ) 組合2個以上的詞彙,主要用來縮小或擴大查詢範圍。
2.運用切截(Truncation)
切截是指在英文字根加上替代符號,以查詢字根相同的字,避免遺漏相關資料,通常以符號「*」、「#」「$」或「?」表示。

3.相近運算元
可限定兩個檢索詞彙出現的順序及位置。檢索複合詞時,運用相近運算元可降低不相關資料的筆數。
運算元
使用與範例
相近
(NEAR/
NEARn)
NEARNEAR0NEAR1 NEAR15,檢索字最多間隔 15 個字。
NEAR2 -NEAR99,檢索字最多間隔99個字。
相鄰
(ADJ)
作用和 AND 類似,相鄰的兩個詞排列順序不拘。
ADJn
作用和 NEARn 類似,尋找指定字詞之間包含 n 個字且順序不拘的記錄。
相同
(SAME)
作用和 AND 類似,相鄰的兩個詞排列順序不拘。

4.限制欄位條件
以限制欄位條件避免檢索資料過多,如:年代、語言、資料類型、線上全文等。

5.限制檢索範圍
將檢索詞彙限定在某些特定欄位進行檢索,可以增加檢索速度,並可提高精確率。

6.完整法
分別使用縮寫和全稱進行檢索,以確保查得完整的資訊。

五、如何修正檢索策略
常見的檢索問題為:檢索筆數過多(指誤引過多)、檢索筆數過少(包括零筆資料)、想增加資料回收率(即希望檢索到較多的相關資料)、想增加資料精確率(即希望檢索到正確的所需資料)
1.檢索筆數過多
 需要重新思考以下議題:
 -是否過份簡化問題?
 -是否需要重新釐清檢索概念?
 -是否使用了正確的布林邏輯運算元?
 -是否使用過份含混或一般性之名詞?
 -是否應考慮使用控制字彙?
 -是否相近運算元限制過鬆?
 -是否切截應用過鬆?
  -是否注意到資料庫的「隱含性概念」?

2.檢索筆數過少
需要重新思考以下議題:
 -是否使用符合檢索主題的資料庫進行檢索?
 -是否將問題過於複雜化?
 -是否真的沒有文獻探討該檢索主題?
 -是否已使用足夠的檢索詞彙進行檢索?
 -是否將相近運算元限制過緊?
 -是否使用正確的布林邏輯(應使用OR而非AND)
 -是否拼字或語法有誤?
 -是否考慮使用自然語言進行檢索?
 -是否考慮使用切截?

3.想增加資料回收率
需要重新思考以下議題:
 -增加同義詞和類同義詞的數目
 -使用較廣義的檢索詞彙
 -以自然語言檢索代替控制詞彙
 -不使用布林邏輯的”AND”、”NOT
 -增加切截的範圍
 -使用較鬆的相近運算元
 -刪除一些非主題的欄位限制,例如:年代、資料型態等

4.想增加資料精確率
需要重新思考以下議題:
 -刪除部分類同義詞或是詞義含混的檢索詞彙
 -使用專指性較高的檢索詞彙
 -有適當的控制詞彙時,以控制詞彙代替自然語言進行檢索
 -使用布林邏輯的”NOT”刪除一些不相關的文章
 -限制切截的範圍