如何從XML文件中提取與其他字符串共享相同標記的特定字符串？

在下面的XML片段...如何從XML文件中提取與其他字符串共享相同標記的特定字符串？

<?xml version="1.0" encoding="UTF-8"?> 
<?xml-stylesheet type="text/xml" href="/static/atom.xsl"?> 
<feed xmlns="http://www.w3.org/2005/Atom" xmlns:s="http://dev.splunk.com/ns/rest" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/"> 
    <title>serverclients</title> 
    <id>https://splfwdprw2:8089/servicesNS/nobody/search/deployment/server/clients</id> 
    <updated>2017-04-04T16:14:04-04:00</updated> 
    <generator build="f3e41e4b37b2" version="6.3.1"/> 
    <author> 
    <name>Splunk</name> 
    </author> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/_acl" rel="_acl"/> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/countClients_by_machineType" rel="countClients_by_machineType"/> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/countRecentDownloads" rel="countRecentDownloads"/> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/getMatchingAppsForClient_dryRun" rel="getMatchingAppsForClient_dryRun"/> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/preview" rel="preview"/> 
    <opensearch:totalResults>1</opensearch:totalResults> 
    <opensearch:itemsPerPage>18446744073709551615</opensearch:itemsPerPage> 
    <opensearch:startIndex>0</opensearch:startIndex> 
    <s:messages/> 
    <entry> 
    <title>00031e8f6c883544b8079037c5eba9ec</title> 
    <id>https://splfwdprw2:8089/servicesNS/nobody/search/deployment/server/clients/00031e8f6c883544b8079037c5eba9ec</id> 
    <updated>2017-04-04T16:14:04-04:00</updated> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/00031e8f6c883544b8079037c5eba9ec" rel="alternate"/> 
    <author> 
     <name>system</name> 
    </author> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/00031e8f6c883544b8079037c5eba9ec" rel="list"/> 
    <link href="/servicesNS/nobody/search/deployment/server/clients/00031e8f6c883544b8079037c5eba9ec" rel="remove"/> 
    <content type="text/xml"> 
     <s:dict> 
     <s:key name="applications"> 
      <s:dict> 
      <s:key name="all_deploymentclient"> 
       <s:dict> 
       <s:key name="action">Phonehome</s:key> 
       <s:key name="archive">/opt/splunk/var/run/tmp/all_deploymentclient/all_deploymentclient-1491320471.bundle</s:key> 
       <s:key name="checksum">0</s:key> 
       <s:key name="excludeFromUpdate"></s:key> 
       <s:key name="failedReason"></s:key> 
       <s:key name="issueReload">0</s:key> 
       <s:key name="restartSplunkWeb">0</s:key> 
       <s:key name="restartSplunkd">1</s:key> 
       <s:key name="result">Ok</s:key> 
       <s:key name="serverclasses"> 
        <s:list> 
        <s:item>all_deploymentclient</s:item> 
        </s:list> 
       </s:key> 
       <s:key name="size">10240</s:key> 
       <s:key name="stateOnClient">enabled</s:key> 
       <s:key name="timestamp">Tue Apr 4 11:42:54 2017</s:key> 
       </s:dict> 
      </s:key> 
      <s:key name="all_fwd_outputs_18indexers"> 
       <s:dict> 
       <s:key name="action">Phonehome</s:key> 
       <s:key name="archive">/opt/splunk/var/run/tmp/all_fwd/all_fwd_outputs_18indexers-1491320471.bundle</s:key> 
       <s:key name="checksum">0</s:key> 
       <s:key name="excludeFromUpdate"></s:key> 
       <s:key name="failedReason"></s:key> 
       <s:key name="issueReload">0</s:key> 
       <s:key name="restartSplunkWeb">0</s:key> 
       <s:key name="restartSplunkd">1</s:key> 
       <s:key name="result">Ok</s:key> 
       <s:key name="serverclasses"> 
        <s:list> 
        <s:item>all_fwd</s:item> 
        </s:list> 
       </s:key> 
       <s:key name="size">10240</s:key> 
       <s:key name="stateOnClient">enabled</s:key> 
       <s:key name="timestamp">Tue Apr 4 11:42:54 2017</s:key> 
       </s:dict> 
      </s:key>

...我試圖提取任何「S：鍵名=」出現在下面的第一級字符串「S：鍵名=」應用程序「標籤，在這個例子中，我想要提取的字符串是」all_deploymentclient「和」all_fwd_outputs_18indexers「，如果額外的字符串出現在同一級別，我想要捕獲這些字符串。我正在使用xml_grep，但我不確定如何定義參數以獲得所需的結果（因爲有多個「s：key name =」標記的實例，其中一些實例可用作標題和有價值的其他人分配給他們）。

所以，當這一切都說過和做過，提取輸出這個例子應該是：

all_deploymentclient 
all_fwd_outputs_18indexers

我怎樣才能做到這一點？是否需要另一個實用工具（如xpath）？

來源

2017-04-04 B. Juice

「XML片段」是否完整？前綴's'是否在任何地方？（像'xmlns：s =「一些命名空間uri」'。） –

考慮到@MichaelKay和@knb提供的信息，我能夠確定一個解決方案。最後我用xmlstarlet得到我所需要的信息如下：

xmlstarlet sel -T -t -m "//*[local-name()='key'][@name='applications']/*/*/@name" -v . -n <XML filename>

這產生了以下的輸出：

all_deploymentclient 
all_fwd_outputs_18indexers

感謝大家對他們的貢獻！

來源

2017-04-07 18:10:05

也許嘗試這第一個（快速和骯髒的方法來替代s:空間前綴）：

cat /var/tmp/content.xml | sed 's/s://g' > cat /var/tmp/content2.xml

然後嘗試

xmllint --xpath "//key[@name='all_deploymentclient' or @name='all_fwd_outputs_18indexers']/@name" /var/tmp/content2.xml \ 
| sed "s| name|\nname|g; s/name=\"//; s/\"\$//"

來源

2017-04-04 21:35:07 knb

感謝您的輸入！當我閱讀你的回覆時，我意識到我沒有足夠清楚地描述我的問題，所以我已經相應地編輯了我的問題的描述。 –

當你做任何的搜索任何類型的數據源中的，僅僅知道實際數據是什麼（如果您知道，您不需要搜索它）是不夠的：您需要知道它可能與示例所示的不同。

所以我們必須看看你對問題的描述：「s：key name =」出現在「s：key name =」應用程序「標籤」之後的縮進中的字符串，試着理解你的意思通過它。

通過縮進，你字面意思是分頁佈局，還是這是你談論XML數據模型的樹結構的方式？
當你說「之後」時，我們是否將這個（根據你的例子）解釋爲「第一後裔」元素，即我們在樹中行走時遇到的第一個匹配的後代？

我們可以假設這些「第一後代」總是從原始節點（即孫輩？）向下兩級。如果是這樣，XPath的解決方案就是

//s:key[@name="applications"]/*/*/@name

但是，如果「第一後裔」可能是在不同的深度，然後就變得相當困難，而解決方案可能還取決於您所使用的XPath的版本。所以我們需要更多的信息。

我不知道xml_grep能夠做什麼。

來源

2017-04-04 23:32:29

你已經非常廣泛地分解了我的問題。我只是修改了XML代碼片段以包含代碼的開始部分（爲了讓每個人都能看到完整的圖片）。回答@MichaelKay提出的問題：「縮進」是我描述代碼中每個標籤級別的笨拙方式。所以，如果''是「父」，那麼''將是「子」（下一級）。孩子的水平是我有興趣收集的;我不會再下去了。 –

如何從XML文件中提取與其他字符串共享相同標記的特定字符串？

回答

相關問題