我在一列中有一組藥物名稱。我試圖從這些數據中提取每種藥物的名稱,強度和單位。術語MG和ML是設置中強度的限定符。例如,讓我們考慮以下給定的藥物名稱數據集。從文本列中提取特定數據R
Medicine name
----------------------
FALCAN 150 MG tab
AUGMENTIN 500MG tab
PRE-13 0.5 ML PFS inj
NS.9%w/v 250 ML, Glass Bottle
我想從這個數據集提取下列信息欄,
Name | Strength |Unit
---------| ---------|------
FALCAN | 150 |MG
AUGMENTIN| 500 |MG
PRE-13 | 0.5 |ML
NS.9%w/v | 250 |ML
我已經試過grepl
等命令,但沒有找到一個好的解決辦法。我有大約12000個數據可以識別。數據沒有遵循固定的模式,並且在少數地方MG和強度在諸如300MG之間沒有空間。 ,
感謝您的回答。我現在正在實施大數據集,並且無法理解,爲什麼我應該在參數中使用{3}?這是否意味着我需要匹配0-9,名稱中有3次? – vivek
是的,這是關鍵,因爲我正在尋找劑量,一些藥物也可能有數字。您可以使用其他號碼或範圍。 – Wietze314
是的,現在我明白了。 – vivek