专利名称:网页内容提取方法和装置专利类型:发明专利
发明人:付雷,孟遥,夏迎炬,于浩申请号:CN201010157766.2申请日:20100426公开号:CN102236658A公开日:20111109
摘要:本发明公开了一种网页内容提取方法和装置。该网页内容提取装置包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容。
申请人:富士通株式会社
地址:日本神奈川县
国籍:JP
代理机构:北京集佳知识产权代理有限公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容