我是一個開始嘗試解析處理草圖中的HTML文件的程序員。 (順便說一下,如果你不知道Processing,它會編譯成Java並使用相同的正則表達式函數)。我已經使用SimpleML將HTML文件正確地捕獲爲單個字符串。我試圖捕捉數據來自表,就像這樣:在處理草圖中使用正則表達式的幫助?
<th>Name</th>
<th>John F. Kennedy</th>
<th>Lyndon Johnson</th>
<th>Richard Nixon</th>
等
我想候選人的姓名解析出到一個數組(去掉了「名」)。
所以我第一次嘗試
candidates = match(rawString,"<th>.*</th>");
其返回的整個列表。
然後我試圖
candidates = match(rawString,"<th>.{1,50}</th>");
僅返回
<th>Name</th>
的處理文檔說:
如果有組在正規表達式(由多組括號的指定),那麼每個數組的內容將返回到數組中。正則表達式匹配的元素[0]返回整個匹配的字符串,並且匹配組從第一個元素開始(第一個組爲[1],第二個爲[2],依此類推)。
所以現在我一直想組和量詞的各種組合,如:
candidates = match(rawString,"(<th>.{1,50}</th>)*");
但必須有一些概念作品我沒有得到,因爲沒有什麼工作。似乎這應該很容易,對吧?
支具抗正則表達式和HTML的人羣 – 2010-12-05 15:27:18