在每個5,000個HTML文件中,我只能得到一行文本,即999行。如何告訴HTML :: Parser我只需要獲取999行?如何解析HTML文件的一部分並忽略其餘部分?
</p><h1>dataset 1:</h1>
<table border="0" bgcolor="#EFEFEF" leftmargin="15" topmargin="5"><tr>
<td><strong>name:</strong> </td> <td width=500> myname one </td></tr><tr>
<td><strong>type:</strong> </td> <td width=500> type_one (04313488) </td></tr><tr>
<td><strong>aresss:</strong> </td><td>Friedrichstr. 70, 73430 Madrid</td></tr><tr>
<td><strong>adresse_two:</strong> </td> <td> no_value </td></tr><tr>
<td><strong>telefone:</strong> </td> <td> 0000736111/680040 </td></tr><tr>
<td><strong>Fax:</strong> </td> <td> 0000736111/680040 </td></tr><tr>
<td><strong>E-Mail:</strong> </td> <td> Keine Angabe </td></tr><tr>
<td><strong>Internet:</strong> </td><td><a href="http://www.mysite.es" target="_blank">www.mysite.es</a><br></td></tr><tr> <td><strong>the office:</strong> </td>
<td><a href="http://www.mysite_two" target="_blank">mysite_two </a><br></td></tr><tr>
<td><strong>:</strong> </td><td> no_value </td></tr><tr>
<td><strong>officer:</strong> </td> <td> no_value </td> </td></tr><tr>
<td><strong>employees:</strong> </td> <td> 259 </td></tr><tr>
<td><strong>offices:</strong> </td> <td> 8 </td></tr><tr>
<td><strong>worker:</strong> </td> <td> no_value </td></tr><tr>
<td><strong>country:</strong> </td> <td> contryname </td></tr><tr>
<td><strong>the_council:</strong> </td> <td>
那麼,問題是,是否有可能使用此屬性在5000個文件中執行搜索:999行是感興趣的。換句話說,我能告訴HTML解析器它必須精確地查看(並提取)999行嗎?
你好,親愛的RedGritty磚 - 我有HTML經驗很少:: TokeParser
use HTML::TreeBuilder::XPath;
my $tree = HTML::TreeBuilder::XPath->new;
#use real file name here
open(my $fh, "<", "file.html") or die $!;
$tree->parse_file($fh);
my ($name) = $tree->findnodes(qq{/html/body/table/tr[1]/td[2]});
print $name->as_text;
BTW; RedGrittyBrick:查看示例網站之一:http://www.kultusportal-bw.de/servlet/PB/menu/1188427/index.html?COMPLETEHREF=http://www.kultus-bw.de/did_abfrage/detail.php?id=04313488 在灰色陰影塊中,您可以看到想要的信息:17條想要的線。請注意 - 我有5000個不同的HTML文件 - 所有文件的結構都是一樣的!
這意味着我會很高興有一個可以用HTML :: TokeParser :: Simple和DBI運行的模板。
愛得到提示
可能重複[xpather針對HTML文件運行:定義準備解析器的路徑 - 作業運行Perl的HTML :: TokePaser](http://stackoverflow.com/questions/3949091/xpather-running-against-html -files-definitions-the-paths-to-prepare-a-parser-job-ru) – 2010-10-16 14:10:07
該HTML的哪一行是你想要提取的那一行,或者是全部在一行上? – 2010-10-16 19:20:31