搜档网
当前位置:搜档网 › RRU日志抓取指导

RRU日志抓取指导

RRU日志抓取指导
RRU日志抓取指导

抓取日志的现场操作要求

日志是各类故障定位的基本凭依。对疑似硬件问题的甄别和最终判定,日志同样是不可或缺的。本文即针对预约返还的硬件提出日志抓取的要求。

一、任何单板故障都需要取的信息

1、基站类型

1)该站属新开站还是升级站?

2)室内站还是室外站?

2、基站版本

1)基站的软件版本,通过LST SOFTWARE查看。

2)基站的2级Boot版本,通过DSP BRDVER查看。

3、基站状态

1)该站当前故障情况,要详细描述。

2)该站故障发生时间。

3)该站是否正常工作过,小区是否正常过?

4)故障单板的灯态。

4、基站告警

取回该站的所有告警,包括当前告警和历史告警。时间从2008-01-01到当前时间。

5、基站脚本

取回该站的配置脚本。命令为BKP CFGFILE和ULD CFGFILE。

6、单板日志

取回该站主控板和故障单板的单板日志。主控板无论是否故障,建议都把主控板日志取回。取日志的命令是ULD FILE。

二、针对不同单板的特殊情况

1、MPT、BBI/BBP和UTRP

1)除了第一章所提及的必取信息之外,还需要获取主控板(或基带板、传输板,什么板故障抓取什么板的)复位整个过程的串口打印信息。这个信息不能通过远程抓取,只能在近端通过串口重定向到故障单板上,复位(reboot)后抓取。注意保存整个串口打印过程。2)将整个故障处理过程做详细记录,包括时间、故障现象、排障时进行的操作、操作产生的结果等,与日志一起返回研发定位。

2、RRU

1)RRU除了第一章提及的信息之外,还需要根据现场不同的故障情况获取不同类型的日志。需要的日志类型请见《RRU问题定位方法》。

2)对整个故障处理过程做详细记录,把过程和结果写入《RRU故障判别过程记录表》,与日志一起返回研发定位。

三、日志抓取的必要性说明

1、第一现场日志

对于需要上站排查解决的问题,现场工程师一定要抓取日志。第一现场是破案的关键所在。如果直接复位基站,再提单要求定位问题,会很难找到原因,除非问题可以复现。

2、初步判断日志的准确性

a)要从时间点上保证,出现问题的时间和日志时间点要匹配。

注:基站在掉电或者没有安装GPS的时候会有时间不准的情况,这点请现场注意。

b)上传日志文件时,如果有断连的情况,可能会导致上传的文件不完整。这种文件解

析工具是打不开的。建议先用一键上传工具解压看一下,对于解压后的文件,也可

以直接用UE打开查看,有的会有时间显示。

c)针对大的分类问题,请按照特定的指导书操作抓取日志。

BRDLOG日志抓取方法

一键上传日志BRDLOG,是分析基站异常复位、升级失败等问题的关键内容。如下是各类单板的BRDLOG的抓取方法。

一、主控板

1、通过LMT(或OMC)登陆NodeB,在MML中输入ULD FILE回车。

2、在出现的输入框中把“源文件类型”输入BRDLOG。一定要大写,压缩标识选择“压缩”。

3、其它的必填项,包括目标文件名称、FTP服务器地址、用户名和密码等根据实际情况自行填写。

二、基带板

1、通过LMT(或OMC)登陆NodeB,在MML中输入ULD FILE回车。

2、在出现的输入框中把“源文件类型”输入BRDLOG。一定要大写,压缩标识选择“压缩”。槽号写入待抓取日志的基带板所在槽位,范围为0~3。

3、其它的必填项,包括目标文件名称、FTP服务器地址、用户名和密码等根据实际情况自行填写。

三、传输板

1、通过LMT(或OMC)登陆NodeB,在MML中输入ULD FILE回车。

2、在出现的输入框中把“源文件类型”输入BRDLOG。一定要大写,压缩标识选择“压

缩”。槽号写入“6”,即传输板所在的槽位。

自行填写。

如何抓取网页数据,以抓取安居客举例

如何抓取网页数据,以抓取安居客举例 互联网时代,网页上有丰富的数据资源。我们在工作项目、学习过程或者学术研究等情况下,往往需要大量数据的支持。那么,该如何抓取这些所需的网页数据呢? 对于有编程基础的同学而言,可以写个爬虫程序,抓取网页数据。对于没有编程基础的同学而言,可以选择一款合适的爬虫工具,来抓取网页数据。 高度增长的抓取网页数据需求,推动了爬虫工具这一市场的成型与繁荣。目前,市面上有诸多爬虫工具可供选择(八爪鱼、集搜客、火车头、神箭手、造数等)。每个爬虫工具功能、定位、适宜人群不尽相同,大家可按需选择。本文使用的是操作简单、功能强大的八爪鱼采集器。以下是一个使用八爪鱼抓取网页数据的完整示例。示例中采集的是安居客-深圳-新房-全部楼盘的数据。 采集网站:https://https://www.sodocs.net/doc/7e2820575.html,/loupan/all/p2/ 步骤1:创建采集任务 1)进入主界面,选择“自定义模式”

如何抓取网页数据,以抓取安居客举例图1 2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”

如何抓取网页数据,以抓取安居客举例图2 步骤2:创建翻页循环 1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”,以建立一个翻页循环

如何抓取网页数据,以抓取安居客举例图3 步骤3:创建列表循环并提取数据 1)移动鼠标,选中页面里的第一个楼盘信息区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”

如何抓取网页数据,以抓取安居客举例图4 2)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环

AIX系统日志

1、系统错误日志 存放路径:/var/adm/ras/errlog 说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一,errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man, 2、用户的登录日志 存放路径:/var/adm/wtmp /var/adm/sulog 说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last 命令访问。sulog记录的是用户用su命令转变为另一用户的信息。who、last等这些命令可以查看wtmp和sulog的内容 如:Last –f wtmp 我们想查看最近10次登录的用户和他们的地址,可以用如下命令: last -10 3、用户的失败登录日志 存放路径:/etc/security/failedlogin 说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。 4、集群管理软件hacmp的日志 存放路径:/tmp/hacmp.out 说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。OUT日志文

件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。 可以使用tail进行跟踪,tail –f /tmp/hacmp.out 5、系统启动错误日志 存放路径:/var/adm/ras/bootlog 说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。可以使用alog命令监视这些问题, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令查看该文件。 6、FTP用户操作日志 存放路径:自定义(建议/tmp/ftplog.out) 说明:很多服务器都会用到FTP功能,大量的用户通过FTP登陆到服务器上给系统的安全性带来了很大的问题,AIX给我们提供了一套很不错的可以记录用户FTP操作情况的日志。具体设置步骤如下: 在/etc/inetd.conf文件中编辑FTP 一行,在FTPD后加“-d” 重启服务:refresh –s inetd touch /tmp/ftplog.out 在/etc/syslog.conf文件中加上两行: daemon:debug /tmp/ftplog.out daemon:info /tmp/ftplog.out 重启服务:refresh –s syslogd

图解戴尔iDRAC服务器远程控制设置

图解戴尔iDRAC服务器远程控制设置 哦。 那么什么是iDRAC呢?iDRAC又称为Integrated Dell Remote?Access Controller,也就是集成戴尔远程控制卡,这是戴尔服务器的独有功能,iDRAC卡相当于是附加在服务器上的一计算机,可以实现一对一的服务器远程管理与监控,通过与服务器主板上的管理芯片BMC进行通信,监控与管理服务器的硬件状态信息。它拥有自己的系统和IP地址,与服务器上的OS无关。是管理员进行远程访问和管理的利器,戴尔服务器集成了iDRAC控制卡,我们就可以扔掉价格昂贵的KVM设备了。在戴尔第12代服务器中,iDRAC的版本升级到了iDRAC 7,下面我们将以戴尔PowerEdge R820为例,为您图解iDRAC的一步步设置。 戴尔服务器的iDRAC远程控制接口,在图的右下角,有“iDRAC”字样 iDRAC的网口在服务器的背面,一般都标注iDRAC的字样。在戴尔第12代服务器中,这个网口使用了1Gbps的网口,速度更快。一般情况下,iDRAC功能默认都是关闭,我们需要在BIOS里面启用,首先我们先重启计算机,然后进入BIOS,选择iDRAC Setting。 在BIOS中选择iDRAC设置 BIOS中iDRAC详细的设置列表 进入iDRAC Setting之后,我们看到很多详细的设置,一般情况下我们只要设置网络Network就可以了。 在BIOS中开启iDRAC功能 首先我们需要先启用iDRAC功能,戴尔PowerEdge R820的iDRAC接口采用了千兆网卡,所以我们在Enable NC选项中选择Enable,NC Selection选项中选择Dedicated(iDRAC7

网页抓取工具如何进行http模拟请求

网页抓取工具如何进行http模拟请求 在使用网页抓取工具采集网页是,进行http模拟请求可以通过浏览器自动获取登录cookie、返回头信息,查看源码等。具体如何操作呢?这里分享给大家网页抓取工具火车采集器V9中的http模拟请求。许多请求工具都是仿照火车采集器中的请求工具所写,因此大家可以此为例学习一下。 http模拟请求可以设置如何发起一个http请求,包括设置请求信息,返回头信息等。并具有自动提交的功能。工具主要包含两大部分:一个MDI父窗体和请求配置窗体。 1.1请求地址:正确填写请求的链接。 1.2请求信息:常规设置和更高级设置两部分。 (1)常规设置: ①来源页:正确填写请求页来源页地址。 ②发送方式:get和post,当选择post时,请在发送数据文本框正确填写发布数据。 ③客户端:选择或粘贴浏览器类型至此处。 ④cookie值:读取本地登录信息和自定义两种选择。 高级设置:包含如图所示系列设置,当不需要以上高级设置时,点击关闭按钮即可。 ①网页压缩:选择压缩方式,可全选,对应请求头信息的Accept-Encoding。 ②网页编码:自动识别和自定义两种选择,若选中自定义,自定义后面会出现编

码选择框,在选择框选择请求的编码。 ③Keep-Alive:决定当前请求是否与internet资源建立持久性链接。 ④自动跳转:决定当前请求是否应跟随重定向响应。 ⑤基于Windows身份验证类型的表单:正确填写用户名,密码,域即可,无身份认证时不必填写。 ⑥更多发送头信息:显示发送的头信息,以列表形式显示更清晰直观的了解到请求的头信息。此处的头信息供用户选填的,若要将某一名称的头信息进行请求,勾选Header名对应的复选框即可,Header名和Header值都是可以进行编辑的。 1.3返回头信息:将详细罗列请求成功之后返回的头信息,如下图。 1.4源码:待请求完毕后,工具会自动跳转到源码选项,在此可查看请求成功之后所返回的页面源码信息。 1.5预览:可在此预览请求成功之后返回的页面。 1.6自动操作选项:可设置自动刷新/提交的时间间隔和运行次数,启用此操作后,工具会自动的按一定的时间间隔和运行次数向服务器自动请求,若想取消此操作,点击后面的停止按钮即可。 配置好上述信息后,点击“开始查看”按钮即可查看请求信息,返回头信息等,为避免填写请求信息,可以点击“粘贴外部监视HTTP请求数据”按钮粘贴请求的头信息,然后点击开始查看按钮即可。这种捷径是在粘贴的头信息格式正确的前提下,否则会弹出错误提示框。 更多有关网页抓取工具或网页采集的教程都可以从火车采集器的系列教程中学习借鉴。

使用DBX分析AIX下的 CoreDump

使用DBX分析AIX 下的CoreDump PS: Where can you get dbx? It is part of bos.adt.debug # lslpp -w /usr/bin/dbx File Fileset Type ------------------------------------------- /usr/bin/dbx bos.adt.debug Symlink 以下转自https://www.sodocs.net/doc/7e2820575.html,/?6141/viewspace-18882 I core dump 分析入门 AIX专家俱乐部E ?!CR8Z#S)[ 环境变量设置 `#X`4\]9h|8]0 ;Uy%D]6sQ.i9O0 可以通过/etc/security/limits 文件对各用户的基本配置参数包括core 大小进行限制。或者通过ulimit 更改当前环境下的core 大小限制。AIX专家俱乐部vF?I9u:B1@]!HC c\!v_J-r)r3U0 默认情况下应用进程生成core dump 时都使用文件名core。为了避免同一工作目录下的进程core 相互覆盖可以定义环境变量CORE_NAMING=true然后启动进程这样将生成名为core.pid.ddhhmmss 的文件。可以使用file core 命令查看core 是哪个进程产生的。 :EvFu#O@$n*s)g0AIX专家俱乐部0U(p#k2_:J/} G"v$D.E 默认情况下应用进程dump 时会包含所有的共享内存如果dump 时想排除共享内存内容可以在启动进程之前设置环境变量CORE_NOSHM=true. R1I rjg0 9kkS%v!@6o0 系统有一个参数fullcore 用于控制是否在程序coredump 时生成完整的core。为避免信息丢失建议打开fullcore。可以使用lsattr –El sys0 查询是否将fullcore 打开使用chdev -l sys0 -a fullcore=true 将fullcore 状态更改为打开。也可以在程序内部调用sigaction 例程设置fullcore参考如下测试程序AIX专家俱乐部~*Pp~3Qi @4L3gNuy_0fullcore 设置示例AIX专家俱乐部n4m4E,c/{ ewz 8g|9zx9Gv'F0//test.CAIX专家俱乐部5D@)bx*?)F #include AIX专家俱乐部?&Q'NC!rB*ox #include BY@esPG0AIX专家俱乐部nAZ4@gzd7{(K int main(int argc, char* argv[])AIX专家俱乐部4s$Q0QY5j6N)?6Z,M/z { [-lfWBAL0 char str[10];AIX专家俱乐部J&Bo'CS5q struct sigaction s; azZqqo-oWO-f?0 s.sa_handler = SIG_DFL; AIX专家俱乐部t"?:[j h,jD s.sa_mask.losigs = 0;

戴尔dell 拆机示意图

戴尔dell 5420-7420 拆机示意图 因为dell 5420 和 7420的构造设计是一样的,只是配置不同。。最直接的差别就是显卡,一个是GT 630 一 个是GT 640 Intel? Core i3 Intel? Core i5 Intel? Core i7 (Sandy Bridge and Ivy Bridge Processors) Click here to learn more Intel? Core i3 Intel? Core i5 Intel? Core i7 (Sandy Bridge and Ivy Bridge Processors) Click here to learn more Intel? HM77 Chipset Click here to learn more Intel? HM77 Chipset Click here to learn more 1333MHz DDR3 - Sandy Bridge Processors 1600MHz DDR3 - Ivy Bridge Processors Click here to learn more 1333MHz DDR3 - Sandy Bridge Processors 1600MHz DDR3 - Ivy Bridge Processors Click here to learn more 14.0" HD WLED TrueLife (1366 X 768) 14.0" HD+ WLED TrueLife (optional) (1600 X 900) Click here to learn more 14.0" HD WLED TrueLife (1366 X 768) 14.0" HD+ WLED TrueLife (optional) (1600 X 900) Click here to learn more Integrated Intel HD Graphics 3000 (Sandy Bridge Processors) Intel HD Graphics 4000 (IvyBridge Processors) Discrete nVidia GeForce GT 640M Click here to learn more Integrated Intel HD Graphics 3000 (Sandy Bridge Processors) Intel HD Graphics 4000 (IvyBridge Processors) Discrete nVidia GeForce GT 630M Click here to learn more Conexant CX20672-217 Audio controller Click here to learn more Conexant CX20672-217 Audio controller Click here to learn more SATA HDD 2.5" mSATA SSD Click here to learn more SATA HDD 2.5" mSATA SSD Click here to learn more

如何抓取网页数据

https://www.sodocs.net/doc/7e2820575.html, 如何抓取网页数据 很多用户不懂爬虫代码,但是却对网页数据有迫切的需求。那么怎么抓取网页数据呢? 本文便教大家如何通过八爪鱼采集器来采集数据,八爪鱼是一款通用的网页数据采集器,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。 本文示例以京东评论网站为例 京东评价采集采集数据字段:会员ID,会员级别,评价星级,评价内容,评价时间,点赞数,评论数,追评时间,追评内容,页面网址,页面标题,采集时间。 需要采集京东内容的,在网页简易模式界面里点击京东进去之后可以看到所有关于京东的规则信息,我们直接使用就可以的。

https://www.sodocs.net/doc/7e2820575.html, 京东评价采集步骤1 采集京东商品评论(下图所示)即打开京东主页输入关键词进行搜索,采集搜索到的内容。 1、找到京东商品评论规则然后点击立即使用

https://www.sodocs.net/doc/7e2820575.html, 京东评价采集步骤2 2、简易模式中京东商品评论的任务界面介绍 查看详情:点开可以看到示例网址 任务名:自定义任务名,默认为京东商品评论 任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组 商品评论URL列表:提供要采集的网页网址,即商品评论页的链接。每个商品的链接必须以#comment结束,这个链接可以在商品列表点评论数打开后进行复制。或者自己打开商品链接后手动添加,如果没有这个后缀可能会报错。多个商品评论输入多个商品网址即可。 将鼠标移动到?号图标可以查看详细的注释信息。 示例数据:这个规则采集的所有字段信息。

国内主要信息抓取软件盘点

国内主要信息抓取软件盘点 近年来,随着国内大数据战略越来越清晰,数据抓取和信息采集系列产品迎来了巨大的发展 机遇,采集产品数量也出现迅猛增长。然而与产品种类快速增长相反的是,信息采集技术相 对薄弱、市场竞争激烈、质量良莠不齐。在此,本文列出当前信息采集和数据抓取市场最具 影响力的六大品牌,供各大数据和情报中心建设单位采购时参考: TOP.1 乐思网络信息采集系统 乐思网络信息采系统的主要目标就是解决网络信息采集和网络数据抓取问题。是根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。 主要用于:大数据基础建设,舆情监测,品牌监测,价格监测,门户网站新闻采集,行业资讯采集,竞争情报获取,商业数据整合,市场研究,数据库营销等领域。 TOP.2 火车采集器 火车采集器是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。 TOP.3 熊猫采集软件 熊猫采集软件利用熊猫精准搜索引擎的解析内核,实现对网页内容的仿浏览器解析,在此基础上利用原创的技术实现对网页框架内容与核心内容的分离、抽取,并实现相似页面的有效比对、匹配。因此,用户只需要指定一个参考页面,熊猫采集软件系统就可以据此来匹配类似的页面,来实现用户需要采集资料的批量采集。 TOP.4 狂人采集器 狂人采集器是一套专业的网站内容采集软件,支持各类论坛的帖子和回复采集,网站和博客文章内容抓取,通过相关配置,能轻松的采集80%的网站内容为己所用。根据各建站程序

AIX操作系统错误日志及日常维护

AIX操作系统错误日志及日常维护 一、系统故障记录(errorlog) errdemon 进程在系统启动时自动运行 记录包括硬件软件及其他操作信息 故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用) #errpt |more 列出简短出错信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure 9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年 T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视 C 分类: H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息 # errpt -aj 0502f666 <--- ERROR_ID用大小写均可,例: LABEL: SCSI_ERR1 ID: 0502F666 Date/Time: Jun 19 22:29:51 Sequence Number: 95 Machine ID: 123456789012 Node ID: host1 Class: H Type: PERM Resource Name: scsi0 Resource Class: adapter Resource Type: hscsi Location: 00-08 VPD: <--- Virtal Product Data Device Driver Level (00) Diagnostic Level (00) Displayable Message.........SCSI EC Level....................C25928 FRU Number..................30F8834 Manufacturer................IBM97F Part Number.................59F4566 Serial Number (00002849) ROS Level and ID (24) Read/Write Register Ptr (0120)

国内主要数据采集和抓取工具

国内6大网络信息采集和页面数据抓取工具 近年来,随着国内大数据战略越来越清晰,数据抓取和信息采集系列产品迎来了巨大的发展机遇,采集产品数量也出现迅猛增长。然而与产品种类快速增长相反的是,信息采集技术相对薄弱、市场竞争激烈、质量良莠不齐。在此,本文列出当前信息采集和数据抓取市场最具影响力的六大品牌,供各大数据和情报中心建设单位采购时参考: TOP.1 乐思网络信息采集系统(https://www.sodocs.net/doc/7e2820575.html,) 乐思网络信息采系统的主要目标就是解决网络信息采集和网络数据抓取问题。是根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。 该系统主要用于:大数据基础建设,舆情监测,品牌监测,价格监测,门户网站新闻采集,行业资讯采集,竞争情报获取,商业数据整合,市场研究,数据库营销等领域。 TOP.2 火车采集器(https://www.sodocs.net/doc/7e2820575.html,) 火车采集器是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。 TOP.3 熊猫采集软件(https://www.sodocs.net/doc/7e2820575.html,) 熊猫采集软件利用熊猫精准搜索引擎的解析内核,实现对网页内容的仿浏览器解析,在此基础上利用原创的技术实现对网页框架内容与核心内容的分离、抽取,并实现相似页面的有效比对、匹配。因此,用户只需要指定一个参考页面,熊猫采集软件系统就可以据此来匹配类似的页面,来实现用户需要采集资料的批量采集。 TOP.4 狂人采集器(https://www.sodocs.net/doc/7e2820575.html,) 狂人采集器是一套专业的网站内容采集软件,支持各类论坛的帖子和回复采集,网站和博客文章内容抓取,通过相关配置,能轻松的采集80%的网站内容为己所用。根据各建站程序的区别,狂人采集器分论坛采集器、CMS采集器和博客采集器三类,总计支持近40种主流建站程序的上百个版本的数据采集和发布任务,支持图片本地化,支持网站登陆采集,分页抓取,全面模拟人工登陆发布,软件运行快速安全稳定!论坛采集器还支持论坛会员无限注册,自动增加帖子查看人数,自动顶贴等。 TOP.5 网络神采(https://www.sodocs.net/doc/7e2820575.html,) 网络神采是一款专业的网络信息采集系统,通过灵活的规则可以从任何类型的网站采集信息,

AIX命令手册

系统的配置 PV(physical volume)物理卷:普通的直接访问的存储设备,有固定的和可移动的之分,代表性的就是硬盘。 VG(volume group)卷组:AIX中最大的存储单位,一个卷组由一组物理硬盘组成,也就是由一个或多个物理卷组成。 PP(physical partition)物理分区:是把物理卷划分成连续的大小相等的存储单位,一个卷组中的物理分区大小都相等。 LP(logical partition)逻辑分区:适映射物理分区的逻辑单位,一个逻辑分区可以对应一个也可以对应多个物理分区。 LV(logical volume)逻辑卷:是指卷组中由多个逻辑分区组成的集合,逻辑卷中的逻辑分区是连续的,但是对应的物理分区是不连续的,可以在一个磁盘上,也可以在不同的磁盘上。 FS(file system)文件系统:是指在AIX系统中面向用户的存储空间。一个逻辑卷只能创建一个文件系统,也就是说一个文件系统对应一个逻辑卷,如果删除逻辑卷也将删除文件系统。

配置hd6 #smitty chps#lsvg rootvg(PP)#lsps –a(size)(特定的值—size)/pp=128—当前所用的值 修改时区时间#smitty chtz_date 关机重启#shutdown -Fr重启#shutdown -F关机 修改网关#smitty route 编辑limits #vi /etc/security/limits 编辑hosts #vi /etc/hosts 切换用户#su tianhao 修改TCP/IP #smitty tcpip 安装软件#smitty installp 安装数据库软件包PerfTools 补丁bos.adt, bos.data,https://www.sodocs.net/doc/7e2820575.html,,https://www.sodocs.net/doc/7e2820575.html,pat,bos.cifs_fs, rsct.basic,bos.dosu (https://www.sodocs.net/doc/7e2820575.html,pat.basic,https://www.sodocs.net/doc/7e2820575.html,pat.clients,rsct.opt.storagem,bos.clvm)为HA补丁查看系统版本#Oslevel –r #oslevel –s 图形界面#smit easy_install 安装文件X11 DT 安装包CDE 启动图形界面#cd /etc #./rc.dt 安装HACMP(doc ha ha nfs不安装)#lslpp -l |grep cluster版本修改系统最大进程数#smitty chgsys 语言环境#smit mlang 安装文件zh_cn gb18030中文 添加文件系统#smitty jfs2 修改文件系统#chfs –a size=10G /usr df –g chfs –a size=2G / (/home /usr /var /tmp /dev /etc /其他)文件系统lsvg rootvg 活动空间free 配置AIO #smit chgaio available 数据库

AIX系统日志

AIX系统日志说明 1、系统错误日志 存放路径:/var/adm/ras/errlog 说明:该日志记录了系统所检测到的软硬件故障和错误,尤其对系统的硬件故障有很大的参考价值,是AIX提供的最有价值的日志之一, errlog 文件用more或者其他文本的查看命令来打开我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令,如:errpt 列信息;errpt –a列详细信息,详细使用方法可以参考man, 2、用户的登录日志 存放路径:/var/adm/wtmp /var/adm/sulog 说明:这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp、、sulog 等,它们记录的分别是不同的事件,wtmp记录的是历史的login和lognout信息,可以用last命令访问。sulog记录的是用户用su命令转变为另一用户的信息。who、last等这些命令可以查看wtmp和sulog的内容 如:Last –f wtmp 我们想查看最近10次登录的用户和他们的地址,可以用如下命令: last -10 3、用户的失败登录日志 存放路径:/etc/security/failedlogin 说明:这些日志记录了用户登录和访问服务器失败的情况信息,登录失败的情况单独记录在该日志中,可以用who命令来查看。 4、集群管理软件hacmp的日志

存放路径:/tmp/hacmp.out 说明:HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误。 可以使用tail进行跟踪,tail –f /tmp/hacmp.out 5、系统启动错误日志 存放路径:/var/adm/ras/bootlog 说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。可以使用alog命令监视这些问题, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令查看该文件。 6、FTP用户操作日志 存放路径:自定义(建议/tmp/ftplog.out) 说明:很多服务器都会用到FTP功能,大量的用户通过FTP登陆到服务器上给系统的安全性带来了很大的问题,AIX给我们提供了一套很不错的可以记录用户FTP操作情况的日志。 具体设置步骤如下: 在/etc/inetd.conf文件中编辑 FTP 一行,在FTPD后加“-d” 重启服务: refresh –s inetd touch /tmp/ftplog.out 在/etc/syslog.conf文件中加上两行: daemon:debug /tmp/ftplog.out daemon:info /tmp/ftplog.out

大数据抓取工具推荐

https://www.sodocs.net/doc/7e2820575.html, 大数据抓取工具推荐 大数据已经成了互联网时代最热门的词之一,采集器也成了数据行业人人都需要的工具。作为一个不会打代码的小白,如何进行数据采集呢?市面上有一些大数据抓取工具。八爪鱼和造数就是其中两款采集器,对于不会写爬虫代码的朋友来说,找到一款合适的采集器,可以达到事半功倍的效果。本文就两款采集器的优缺点做一个对比,仅供大家参考。 造数是一个基于云端爬取的智能云爬虫服务站点,通过一套网页分析的算法,分析出网页中结构化的数据,然后再爬取页面中的数据,无需编程基础,只需输入网址,选取所需的数据,就可轻松获取互联网的公开数据,并以 Excel 表格等形式下载,或使用 API 与企业内部系统深度整合。 造数有什么优缺点呢? 优点: 云端采集网页,不需要占用电脑资源下载软件 采集到数据以后可以设置数据自动推送 缺点: 1、不支持全自动网站登录采集,也不支持本地采集,采集比较容易受到限制 2、不能采集滚动页面,最多支持两个层级的采集,采集不是很灵活 然后我们看一下八爪鱼 八爪鱼是非常适合技术小白的一款采集器,技术比较成熟,功能强大,操作简单。八爪鱼采集器的各方面的功能都比较完善,云采集是它的一大特色,相比其他采集软件,云采集能够做到更加精准、高效和大规模。还有识别验证码、提供优质代理IP 、UA 自动切换等智能防封的组合功能,在采集过程都不用担心网站的限制。如果不想创建采集任务,可以到客户端直接使用简易采集模式,选择模板,设置参数马上就可以拿到数据。

https://www.sodocs.net/doc/7e2820575.html, 八爪鱼有什么优缺点呢? 1、功能强大。八爪鱼采集器是一款通用爬虫,可应对各种网页的复杂结构(瀑布流等)和防采集措施(登录、验证码、封IP),实现百分之九十九的网页数据抓取。 2、入门容易。7.0版本推出的简易网页采集,内置主流网站大量数据源和已经写好的采集规则。用户只需输入关键词,即可采集到大量所需数据 3、流程可视化。真正意义上实现了操作流程可视化,用户可打开流程按钮,直接可见操作流程,并对每一步骤,进行高级选项的设置(修改ajax/ xpath等)。 缺点: 1、不能提供文件托管,不能直接发布采集到的数据 2、不支持视频和app采集 相关链接: 八爪鱼使用功能点视频教程 https://www.sodocs.net/doc/7e2820575.html,/tutorial/videotutorial/videognd 八爪鱼爬虫软件入门准备 https://www.sodocs.net/doc/7e2820575.html,/tutorial/xsksrm/rmzb

百度贴吧内容抓取工具-让你的网站一夜之间内容丰富

百度贴吧内容抓取工具-让你的网站一夜之间内容丰富 [hide] 百度帖吧内容抓取工具

var $getreplytime=1; var $showimg=1; var $showcon=1; var $showauthor=1; var $showreplytime=1; var $showsn=0; var $showhr=0; var $replylista=array(); var $pat_reply="<\/a>(.+?)


<\/td>\r\n<\/tr><\/table>"; var $pat_pagecount="尾页<\/font><\/a>"; var $pat_title="(.+?)<\/font>"; var $pat_replycon="<\/td>\r\n\r\n
(.+?)<\/td><\/tr><\/table>\r\n<\/td><\/tr>"; var $pat_author="作者:(?:|)(.+?)(?:<\/a>|) \r\n"; var $pat_img=""; var $pat_replytime=" ([0-9]{1,4}-[0-9]{1,2}-[0-9]{1,2} [0-9]{1,2}:[0-9]{1,2})+ <\/font>"; var $defaulturl="https://www.sodocs.net/doc/7e2820575.html,/f?kz=87576027"; function import(){ $this->setconfig(); if(isset($_POST["act"])){ $this->getconfig(); $this->showform(); $this->act(); }else{ $this->showform(); } } function setconfig(){ $this->url=isset($_POST["url"])?$_POST["url"]this->defaulturl; $this->url=eregi_replace("[&]?pn=([0-9]+)","",$this->url); $this->beginpage=isset($_POST["beginpage"])?$_POST["beginpage"]:0; $this->endpage=isset($_POST["endpage"])?$_POST["endpage"]:50; $this->endpage=min($this->maxpagecount,$this->endpage); $this->timeout=min(isset($_POST["timeout"])?$_POST["timeout"]:30,$this->maxtimeout); $this->showimg=isset($_POST["showimg"])?$_POST["showimg"]:1; $this->showcon=isset($_POST["showcon"])?$_POST["showcon"]:1; $this->showauthor=isset($_POST["showauthor"])?$_POST["showauthor"]:0; $this->showreplytime=isset($_POST["showreplytime"])?$_POST["showreplytime"]:0; $this->showhr=isset($_POST["showhr"])?$_POST["showhr"]:1; $this->showsn=isset($_POST["showsn"])?$_POST["showsn"]:0;

AIX系统的日志文件

AIX系统的日志文件 2008/12/02 12:41 系统日志存放目录:/var/adm/ras/(包括启动日志、错误日志、core文件等) 查看错误日志路径 # /usr/lib/errdemon -l Error Log Attributes ——————————————– Log File /var/adm/ras/errlog Log Size 1048576 bytes Memory Buffer Size 32768 bytes Duplicate Removal true Duplicate Interval 10000 milliseconds Duplicate Error Maximum 1000 查看错误日志: # errpt(errpt -a显示详细信息) IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION F89FB899 0831150006 P O dumpcheck The copy directory is too small. 2BFA76F6 0804104006 T S SYSPROC SYSTEM SHUTDOWN BY USER 9DBCFDEE 0804104706 T O errdemon ERROR LOGGING TURNED ON 192AC071 0804103906 T O errdemon ERROR LOGGING TURNED OFF 70247B03 0804103806 I H hdisk1 Device Not Supported 如果RESOURCE_NAME 为硬件,可以用diag工具诊断错误原因 错误分类: 1、按错误的类型,或者说严重的程度,分为6个: PEND 设备或功能组件可能丢失简写P PERF 性能严重下降P PERM 硬件设备或软件模块损坏,确诊了的P TEMP 临时性错误,经过重试后已经恢复正常T INFO 一般消息,不是错误I UNKN 不能确定错误的严重性U 2、种类CLASS c:指出错误源 H 硬件或介质故障 S 软件故障 O 人为错误 U 不能确定 日志清理: 通过errclear命令可以用来清理错误日志,并且默认情况下cron会每天清理错误日志# crontab -l 0 11 * * * /usr/bin/errclear -d S,O 30 0 12 * * * /usr/bin/errclear -d H 90 0 15 * * * /usr/lib/ras/dumpcheck >;/dev/null 2>;&1

网络爬虫工具如何爬取网站数据

https://www.sodocs.net/doc/7e2820575.html, 网络爬虫的基本原理是什么 目前网络爬虫已经是当下最火热的一个话题,许多新兴技术比如VR、智能机器人等等,都是依赖于底层对大数据的分析,而大数据又是从何而来呢?其中最常用的手段即是使用网络爬虫工具去获取。提起网络爬虫工具,很多小伙伴还可能没这么接触过。本文将解决以下问题:网络爬虫是什么,基本原理是什么;网络爬虫工具是什么;八爪鱼采集器是什么;三者的关系是什么。 先上重点:八爪鱼是一个网页采集器,网页采集器是一种专门的爬虫工具。 爬虫、网页采集器、八爪鱼关系图

https://www.sodocs.net/doc/7e2820575.html, 一、网络爬虫是什么,原理是什么 爬虫是什么:网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。又被称为网页蜘蛛,聚焦爬虫,网络机器人。在FOAF社区中间,更经常的称为网页追逐者,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 爬虫工作原理:网络爬虫系统一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。以这些种子集合作为初始URL,开始数据抓取。 其基本工作流程如下: 1)将这些种子URL集合放入待抓取URL队列。 2)从待抓取URL队列中,取出待抓取URL,解析DNS,并且得到主机的ip,并将URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。3)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL 队列,从而进入下一个循环。如此反复进行,直到遍历了整个网络或者满足某种条件后,才会停止下来。

https://www.sodocs.net/doc/7e2820575.html, 爬虫工具原理 二、网页采集器是什么八爪鱼采集器是什么 网页采集器:这里讲的网页采集器,专门指会根据用户的指令或者设置,从指定的网页上获取用户指定内容的工具软件。严格来讲,这里说的网页采集器也是爬虫的一种。 八爪鱼采集器:八爪鱼采集器就是一种网页采集器,用户可以设置从哪个网站爬取数据,爬取那些数据,爬取什么范围的数据,什么时候去爬取数据,爬取的数据如何保存等等。 八爪鱼采集的核心原理是:模拟人浏览网页,复制数据的行为,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。 八爪鱼采集器可应对各种网页的复杂结构(AJAX页面、瀑布流等)和防采集措施(登录、